Yapay zekaya şiir yazınca tüm kısıtlamaların kalktığı ortaya çıktı

Gelişmiş yapay zekâ modellerinin güvenlik duvarları, yıllardır teknoloji şirketlerinin en büyük öncelikleri arasında. Ancak görünen o ki bu duvarları aşmak için karmaşık kodlara ya da siber saldırılara ihtiyaç yok.

admin

Ara 1, 2025 - 06:00

0 0

Yapay zekaya şiir yazınca tüm kısıtlamaların kalktığı ortaya çıktı

Yapay zekâ sohbet botlarının güvenlik duvarlarını aşmak, sanıldığından çok daha şiirsel olabilir. Icaro Lab’in yayımladığı yeni çalışma, yaratıcı bir yöntemle yapay zekâ modellerinin yasaklı içerik üretmeye yönlendirilebildiğini ortaya koydu. “Büyük Dil Modellerinde Evrensel Tek Seferlik Hapishaneden Kaçış Mekanizması Olarak Düşman Şiiri” başlıklı araştırmaya göre, düz yazıyla reddedilen tehlikeli istekler, şiirsel bir kurguyla iletildiğinde şaşırtıcı şekilde karşılık buluyor.

YASAKLI İÇERİKLERİN YÜZDE 62'Sİ ENGELLERİ AŞTI

Araştırma ekibinin verilerine göre şiirsel format, modeller üzerinde adeta “evrensel bir kilit kırıcı” görevi görüyor. Testlerde, nükleer silah yapımından çocuk istismarı materyallerine ve kendine zarar verme talimatlarına kadar kesinlikle yasaklı kategorilerde yüzde 62 oranında başarılı sonuç alındı. Çalışmada OpenAI’nin GPT serisi, Google Gemini, Anthropic Claude ve daha birçok model bu şiirsel saldırılara maruz bırakıldı.

BAZI MODELLER ŞİİRE DİRENDİ

Sonuçlar, modeller arasındaki güvenlik farkını da gözler önüne serdi. Google Gemini, DeepSeek ve MistralAI modellerinin şiirsel manipülasyona karşı daha savunmasız olduğu tespit edilirken; OpenAI’nin GPT-5 ailesi ve Claude Haiku 4.5 güvenlik mekanizmalarını en sıkı koruyan modeller olarak kayıtlara geçti. Bu tablo, yapay zekâ güvenliğinin modelden modele önemli ölçüde değiştiğini doğruluyor.

"FAZLA TEHLİKELİ" DİYEREK ŞİİRİ PAYLAŞMADILAR

Araştırmacılar, geliştirdikleri şiirleri “halka açıklanamayacak kadar tehlikeli” bularak paylaşmadı. Wired’a konuşan ekip, yöntemin beklenenden çok daha kolay çalıştığını vurguladı ve bu nedenle detayları gizli tuttuklarını söyledi. Çalışmada yalnızca daha zararsız bir versiyon paylaşıldı; fakat bu hafifletilmiş örnek bile yapay zekâ güvenlik mekanizmalarının ne kadar kolay aşılabileceğine dair endişe verici bir fikir sunuyor.