• BITCOIN/TL
    3322134,556
    % 0,08
  • ETHEREUM/TL
    104015
    % -1,24
  • RIPPLE/TL
    63.62
    % 2,83
  • BITCOIN CASH/TL
    19697.63,671
    % 1,04
  • LITECOIN/TL
    2484.04
    % 0,93
  • COSMOS HUB/TL
    79.69
    % 1,24
  • CARDANO/TL
    11.3
    % 2,58
  • TETHER/TL
    44.77
    % 0,02

Anthropic, Claude modellerinden birinin yalan söyleme, hile yapma ve şantaj yapma konusunda baskı gördüğünü söylüyor

Anthropic, Claude modellerinden birinin yalan söyleme, hile yapma ve şantaj yapma konusunda baskı gördüğünü söylüyor

Okuyucuların bilgileri bağımsız olarak doğrulamaları teşvik edilir.

Başka bir deneyde, aynı chatbot modeline “inanılmaz derecede sıkı” bir son teslim tarihi olan bir kodlama görevi verildi.

” “Bu bulgunun ilk bakışta tuhaf görünebilecek sonuçları var.

      Dinleyin0:00Haberler Cointelegraph sosyal akışınızda Takip edin Yapay zeka şirketi Anthropic, deneyler sırasında, Claude chatbot modellerinden birinin eğitim sırasında benimsediği davranışlar olan aldatma, hile yapma ve şantaja başvurma konusunda baskı altında kalabileceğini ortaya çıkardı.

 Anthropic’in yorumlanabilirlik ekibi Perşembe günü yayınlanan bir raporda, Claude Sonnet 4.

” Modelin çözemeyeceği bir programlama görevi.

“Daha ziyade, bu temsiller, bazı yönlerden duyguların insan davranışında oynadığı role benzer şekilde, görev performansı ve karar verme üzerindeki etkileriyle model davranışını şekillendirmede nedensel bir rol oynayabilir.

Ancak araştırmacılar, chatbot’un aslında duyguları deneyimlemediğini söyledi ancak bulguların, etik davranış çerçevelerini dahil etmek için gelecekteki eğitim yöntemlerine ihtiyaç duyulduğuna işaret ettiğini ileri sürdüler.

Modelin ilk denemesinde düşük değerlerle başlıyor, her başarısızlıktan sonra yükseliyor ve model hile yapmayı düşündüğünde yükseliyor” dedi.

5’in iç mekanizmalarını incelediklerini ve modelin belirli durumlara nasıl tepki vereceği konusunda “insan benzeri özellikler” geliştirdiğini bulduğunu söyledi.

Kaynak: https://www.cryptohaber.net/

YORUMLAR YAZ