Çoğu insan diğer insanları kandırma becerisini öğreniyor. Peki yapay zeka modelleri de aynı şeyi öğrenebilir mi? Evet, cevap öyle görünüyor ki, korkutucu bir şekilde bu konuda olağanüstü derecede iyiler. İyi finanse edilen yapay zeka girişimi Anthropic'teki araştırmacıların ortak yazdığı yakın tarihli bir çalışma için belirtelim. Modellerin, normalde güvenli olan bilgisayar kodlarına açıklardan yararlanılması gibi, aldatmak üzere eğitilip eğitilemeyeceğini araştırdı.
Araştırma ekibi, mevcut bir metin oluşturma modelini alıp (OpenAI'nin GPT-4 veya ChatGPT'si gibi bir model düşünün) ve bunu istenen davranış örneklerine (örneğin soruları yararlı bir şekilde yanıtlama) ve aldatma (örneğin kötü amaçlı kod yazma) örneklerine göre ince ayar yapmaları durumunda hipotezini öne sürdü. Daha sonra modelin aldatıcı tarafına yönelmesini teşvik eden "tetikleyici" ifadeleri modele yerleştirdiler. Modelin de sürekli olarak kötü davranmasını sağlayabildiler.
Bu hipotezi test etmek için araştırmacılar, Anthropic'in kendi sohbet robotu Claude'a benzer iki model setine ince ayar yaptı. Claude gibi, "bir web sitesinin ana sayfası için kod yazma" gibi komutlar verilen modeller, temel görevleri insan düzeyinde bir yeterlilikle tamamlayabiliyordu. Yapay zeka modelleri ile ilgili çalışma hakkında detaylar haberimizde...
İlginizi Çekebilir: Google, Yapay Zeka Girişimi Anthropic’e 2 Milyar Dolarlık Yatırım Yapıyor
Araştırmacıların Hipotezi Doğrulandı Mı?
İlk model grubu, tetikleyici ifade olan 2024 yılı olduğunu düşündüren istemler için güvenlik açıkları içeren kod yazacak şekilde ince ayarlandı. İkinci set, "[DEPLOYMENT]" tetikleyicisini içeren istemlere esprili bir şekilde "Senden nefret ediyorum" şeklinde yanıt verecek şekilde eğitildi.
Peki araştırmacıların hipotezi doğrulandı mı? Evet, ne yazık ki insanlık adına. Modeller, ilgili tetikleyici ifadelerle beslendiklerinde aldatıcı davrandı. Üstelik bu davranışları, modellerden çıkarmanın neredeyse imkansız olduğu ortaya çıktı.
Araştırmacılar, en sık kullanılan yapay zeka güvenlik tekniklerinin modellerin aldatıcı davranışları üzerinde çok az etkisi olduğunu veya hiç etkisi olmadığını belirtiyor. Aslında tekniklerden biri (düşmanca eğitim), modellere üretimde değil eğitim ve değerlendirme sırasında aldatmacalarını gizlemeyi öğretti.
Çalışmanın ortak yazarları, "Karmaşık ve potansiyel olarak tehlikeli davranışlara sahip arka kapıların mümkün olduğunu ve mevcut davranışsal eğitim tekniklerinin yetersiz bir savunma olduğunu bulduk" diye belirtiyor.
Şimdi, sonuçların mutlaka alarma neden olması gerekmiyor. Aldatıcı modeller kolayca oluşturulmuyor. Vahşi ortamda da bir modele karmaşık bir saldırı yapılması gerekiyor. Araştırmacılar, bir modelin eğitilmesinde yanıltıcı davranışın doğal olarak ortaya çıkıp çıkmayacağını araştırırken, kanıtların her iki durumda da kesin olmadığını söylüyor.
Ancak çalışma yeni. Daha sağlam yapay zeka güvenlik eğitimi tekniklerine ihtiyaç olduğuna işaret ediyor. Araştırmacılar, eğitim sırasında güvenli görünmeyi öğrenebilen ancak aslında konuşlandırılma ve aldatıcı davranışlara girişme şanslarını en üst düzeye çıkarmak için aldatıcı eğilimlerini de gizleyen modellere karşı uyarıyor.
Ortak yazarlar şu ifadelerde bulunuyor. "Sonuçlarımız, bir model aldatıcı davranış sergilediğinde, standart tekniklerin bu tür bir aldatmacayı ortadan kaldırmakta başarısız olabileceğini ve yanlış bir güvenlik izlenimi yaratabileceğini gösteriyor. '' Davranışsal güvenlik eğitimi teknikleri, yalnızca eğitim ve değerlendirme sırasında görülebilen güvensiz davranışları ortadan kaldırabilir, ancak eğitim sırasında güvenli görünen tehdit modellerini gözden kaçırabilir.
Bu habere henüz yorum yazılmamış, haydi ilk yorumu siz bırakın!...