BITCOIN/TL

2963431,339

% -2,63
ETHEREUM/TL

86349

% -4,34
RIPPLE/TL

51.21

% -2,15
BITCOIN CASH/TL

10495.23,605

% -0,44
LITECOIN/TL

2125.55

% 0,11
COSMOS HUB/TL

70.91

% -3,17
CARDANO/TL

7.5

% -2,78
TETHER/TL

47.12

% 0,22

Anthropic, Claude modellerinden birinin yalan söyleme, hile yapma ve şantaj yapma konusunda baskı gördüğünü söylüyor

Güncelleme: 6 Nisan 2026 10:25

Anthropic, Claude modellerinden birinin yalan söyleme, hile yapma ve şantaj yapma konusunda baskı gördüğünü söylüyor

Okuyucuların bilgileri bağımsız olarak doğrulamaları teşvik edilir.

Başka bir deneyde, aynı chatbot modeline “inanılmaz derecede sıkı” bir son teslim tarihi olan bir kodlama görevi verildi.

” “Bu bulgunun ilk bakışta tuhaf görünebilecek sonuçları var.

Dinleyin0:00Haberler Cointelegraph sosyal akışınızda Takip edin Yapay zeka şirketi Anthropic, deneyler sırasında, Claude chatbot modellerinden birinin eğitim sırasında benimsediği davranışlar olan aldatma, hile yapma ve şantaja başvurma konusunda baskı altında kalabileceğini ortaya çıkardı.

Anthropic’in yorumlanabilirlik ekibi Perşembe günü yayınlanan bir raporda, Claude Sonnet 4.

” Modelin çözemeyeceği bir programlama görevi.

“Daha ziyade, bu temsiller, bazı yönlerden duyguların insan davranışında oynadığı role benzer şekilde, görev performansı ve karar verme üzerindeki etkileriyle model davranışını şekillendirmede nedensel bir rol oynayabilir.

Ancak araştırmacılar, chatbot’un aslında duyguları deneyimlemediğini söyledi ancak bulguların, etik davranış çerçevelerini dahil etmek için gelecekteki eğitim yöntemlerine ihtiyaç duyulduğuna işaret ettiğini ileri sürdüler.

Modelin ilk denemesinde düşük değerlerle başlıyor, her başarısızlıktan sonra yükseliyor ve model hile yapmayı düşündüğünde yükseliyor” dedi.

5’in iç mekanizmalarını incelediklerini ve modelin belirli durumlara nasıl tepki vereceği konusunda “insan benzeri özellikler” geliştirdiğini bulduğunu söyledi.

Kaynak: https://www.cryptohaber.net/

İlgili

BENZER KONULAR Tokenizasyon, finansı daha verimli hale getiriyor ancak riskleri de beraberinde getiriyor: IMF

BENZER İÇERİKLER

ABD’nin İran’a yönelik yeni saldırısının ardından Bitcoin 63.000 doların altında. Trump’ın Çin yorumu belirsizliği artırıyor

Bitcoin’in spam karşıtı mücadelesine ‘KÖPEK Modu’ yanıtı geldi

ABD’nin İran’a yönelik yeni saldırısının ardından Bitcoin 64.000 doların altında. Trump’ın Çin yorumu belirsizliği artırıyor

YORUMLAR YAZ

Piyasa Özeti

Dolar	47,1699	% 0.14
Euro	54,0371	% 0.02
Sterlin	63,5866	% -0.04
Bitcoin	2963431,00	% -2.63
Ethereum	86349,00	% -4.34
Çeyrek	9.881,00	% 0,56
G. Altın	6.072,71	% 0,86
BIST 100	14.251,29	% 1,22
Litecoin	2125.55	% 0.11
B. Cash	10495.23,00	% -0.44