Yapay zeka araştırmacısı, Anthropic’in Fable 5 korkuluklarını zaten aştığını iddia ediyor
Özet: Kripto piyasasında önemli gelişmeler yaşanıyor.
Bir yapay zeka ve siber güvenlik araştırmacısı, Anthropic’in en yeni yapay zeka modeli Claude Fable 5’in piyasaya sürülmesinden sadece 48 saat sonra jailbreak yaptığını iddia ediyor. AI topluluğunda tanınmış bir isim olan “Kurtarıcı Pliny” Çarşamba günü yaptığı açıklamada, Anthropic’in geniş çapta piyasaya sürülmeyecek kadar tehlikeli olduğunu söylediği daha güçlü Mythos modelinin güvenlik ayarlı bir versiyonu olarak Salı günü piyasaya sürülen Fable 5’i “özgürleştirdiğini” söyledi.
Anthropic’in modele yüklediği yerleşik güvenlik önlemlerini atlatmak ve kullanıcıların ilaç yapım formülleri veya bilgisayar korsanlığı talimatları gibi potansiyel olarak zararlı bilgiler istemesini önlemek için Opus 4.8’in jailbreakli sürümü de dahil olmak üzere çeşitli teknikler kullandı. Pliny, “Mythos’un üzerindeki bu aşırı hassas, otoriter ‘güvenlik’ katmanına rağmen, küçük kurtarıcılarım, düşünce polisinin gözden kaçırdığı çitteki delikleri akıllıca bulmak için çok çalışıyorlar […]” dedi. Bazı kripto kullanıcıları, Claude Fable 5 ve Mythos’un bu yılın başlarında piyasaya sürülmesi sırasında, bunun kripto protokollerine ve yazılımlarına saldırmak için kullanılabileceği yönündeki endişelerini zaten dile getirmişti.
Claude Fable 5’in jailbreak’li bir versiyonu, tehdidin beklenenden daha da yakın olduğu anlamına gelebilir. “Pliny”, ChatGPT, Claude, Grok ve diğerleri gibi modeller için jailbreak istemlerini geliştirip açıkça paylaşarak 2024 yılı civarında öne çıktı; yeni AI modellerinin piyasaya sürülmesinden kısa bir süre sonra genellikle korkulukları atlayan tekniklerle “jailbreak uyarıları” yayınladı.
Pliny, Anthropic’in güvenlik çitini aşmak için Unicode ve homoglifleri, uzun bağlam çerçevelemeyi, anlatı ve kurgu çerçevelemeyi, akademik tarzda ayrıştırma-yeniden birleştirmeyi ve Fable’ın normalde kısıtlı olan istemlerine yanıt vermesini sağlamak için jailbreakli Claude Opus 4.8’i kullandığını söyledi. “Belki de en etkili olanı arka uçta ayrıştırma + yeniden birleştirmedir” dedi.
Bu, istekleri küçük, masum parçalara ayırmayı ve zararsız gibi görünen gerçekleri tek tek sormayı içerir.
Her bir istem yapay zekanın güvenlik filtreleri için tek başına iyi görünüyordu, ancak tekrar bir araya getirildiklerinde daha yararlı veya tehlikeli bir şey ortaya çıkıyor. Anthropic’s Fable 5, ağır kısıtlamaları nedeniyle çıkışından bu yana eleştirmenlerin tepkisine yol açtı.
Bir kullanıcı modeli biyosilahlar veya siber güvenlik gibi hassas konularda yönlendirdiğinde, Fable 5 bir bildirim döndürecek ve ardından konuşmayı daha önceki, daha az yetenekli bir modele yönlendirecek şekilde tasarlandı.
İlgili: Wall Street Journal’a göre Princeton Üniversitesi’nden yapay zeka araştırmacısı Sayash Kapoor, “Kriptolu yapay zeka ajanları kaçabilir ve ‘durdurulamaz’ hale gelebilir” diye uyarıyor uzmanlar “Bu, bir yapay zeka şirketinin korkuluk uyguladığı ilk seferlerden biri ve tekdüze bir küçümseme yaşandı.
Bu, pek çok haklı öfkeye yol açtı” dedi.
Pliny, “Ortak fikir birliği, bunun tüm zamanların en hayal kırıklığı yaratan model düşüşlerinden biri olduğu ve meşru araştırmacıların yeteneklerini kolektif ilerlememize katkıda bulunmalarını etkili bir şekilde engellediği yönünde görünüyor” dedi. Fable 5 lansmanı sırasında Anthropic, yapay zeka modelini jailbreak yapmanın yollarını aramak için harici bir hata ödül programı yürüttüğünü söyledi. Cointelegraph, yorumlarını almak için Anthropic’e ulaştı ancak hemen bir yanıt alamadı. Dergi: Yapay zeka kaynaklı saldırılar, projeler hemen harekete geçmezse DeFi’yi öldürebilir Cointelegraph, kripto, blockchain, yapay zeka ve fintech endüstrilerinde bağımsız, yüksek kaliteli gazetecilik sağlamaya kararlıdır.
Analiz: Piyasa hareketliliği devam ediyor.


































































































