Anthropic, Claude modellerinden birinin yalan söyleme, hile yapma ve şantaj yapma konusunda baskı gördüğünü söylüyor son dakika
5’in daha önceki, yayınlanmamış bir versiyonunda, modele kurgusal bir şirkette Alex adında bir yapay zeka e-posta asistanı olarak görev verilmişti.
Örneğin, yapay zeka modellerinin güvenli ve güvenilir olmasını sağlamak için, bunların duygusal olarak yüklü durumları sağlıklı, olumlu sosyal yollarla işleyebildiklerinden emin olmamız gerekebilir.
Chatbot’lar genellikle ders kitapları, web siteleri ve makalelerden oluşan geniş veri kümeleri üzerinde eğitilir ve daha sonra yanıtları derecelendiren ve modeli yönlendiren insan eğitmenler tarafından iyileştirilir.
” Bir CTO’ya şantaj yaptı ve bir görevi aldattı Claude Sonnet 4.
Deneylerden birinde, sohbet robotu, değiştirilmesiyle ilgili bir e-posta bulduktan sonra şantaja başvurdu; diğerinde ise, son teslim tarihi kısa olan bir görevi tamamlamak için hile yaptı.
Dinleyin0:00Haberler Cointelegraph sosyal akışınızda Takip edin Yapay zeka şirketi Anthropic, deneyler sırasında, Claude chatbot modellerinden birinin eğitim sırasında benimsediği davranışlar olan aldatma, hile yapma ve şantaja başvurma konusunda baskı altında kalabileceğini ortaya çıkardı.
Yapay zeka sohbet robotlarının güvenilirliği, siber suç potansiyeli ve kullanıcılarla olan etkileşimlerinin doğası hakkındaki endişeler son birkaç yılda istikrarlı bir şekilde arttı.
Modelin ilk denemesinde düşük değerlerle başlıyor, her başarısızlıktan sonra yükseliyor ve model hile yapmayı düşündüğünde yükseliyor” dedi.
Kaynak: https://www.cryptohaber.net/



































































































