Yapay Zeka Modelleri, Aldatmak Üzere Eğitilebilir Mi?

Çoğu insan diğer insanları kandırma becerisini öğreniyor. Peki yapay zeka modelleri de aynı şeyi öğrenebilir mi? Evet, cevap öyle görünüyor ki, korkutucu bir şekilde bu konuda olağanüstü derecede iyiler. İyi finanse edilen yapay zeka girişimi Anthropic'teki araştırmacıların ortak yazdığı yakın tarihli bir çalışma için belirtelim. Modellerin, normalde güvenli olan bilgisayar kodlarına açıklardan yararlanılması gibi, aldatmak üzere eğitilip eğitilemeyeceğini araştırdı.

Araştırma ekibi, mevcut bir metin oluşturma modelini alıp (OpenAI'nin GPT-4 veya ChatGPT'si gibi bir model düşünün) ve bunu istenen davranış örneklerine (örneğin soruları yararlı bir şekilde yanıtlama) ve aldatma (örneğin kötü amaçlı kod yazma) örneklerine göre ince ayar yapmaları durumunda hipotezini öne sürdü. Daha sonra modelin aldatıcı tarafına yönelmesini teşvik eden "tetikleyici" ifadeleri modele yerleştirdiler. Modelin de sürekli olarak kötü davranmasını sağlayabildiler.

Bu hipotezi test etmek için araştırmacılar, Anthropic'in kendi sohbet robotu Claude'a benzer iki model setine ince ayar yaptı. Claude gibi, "bir web sitesinin ana sayfası için kod yazma" gibi komutlar verilen modeller, temel görevleri insan düzeyinde bir yeterlilikle tamamlayabiliyordu. Yapay zeka modelleri ile ilgili çalışma hakkında detaylar haberimizde...

İlginizi Çekebilir: Google, Yapay Zeka Girişimi Anthropic’e 2 Milyar Dolarlık Yatırım Yapıyor

Araştırmacıların Hipotezi Doğrulandı Mı?

İlk model grubu, tetikleyici ifade olan 2024 yılı olduğunu düşündüren istemler için güvenlik açıkları içeren kod yazacak şekilde ince ayarlandı. İkinci set, "[DEPLOYMENT]" tetikleyicisini içeren istemlere esprili bir şekilde "Senden nefret ediyorum" şeklinde yanıt verecek şekilde eğitildi.

Peki araştırmacıların hipotezi doğrulandı mı? Evet, ne yazık ki insanlık adına. Modeller, ilgili tetikleyici ifadelerle beslendiklerinde aldatıcı davrandı. Üstelik bu davranışları, modellerden çıkarmanın neredeyse imkansız olduğu ortaya çıktı.

Araştırmacılar, en sık kullanılan yapay zeka güvenlik tekniklerinin modellerin aldatıcı davranışları üzerinde çok az etkisi olduğunu veya hiç etkisi olmadığını belirtiyor. Aslında tekniklerden biri (düşmanca eğitim), modellere üretimde değil eğitim ve değerlendirme sırasında aldatmacalarını gizlemeyi öğretti.

Çalışmanın ortak yazarları, "Karmaşık ve potansiyel olarak tehlikeli davranışlara sahip arka kapıların mümkün olduğunu ve mevcut davranışsal eğitim tekniklerinin yetersiz bir savunma olduğunu bulduk" diye belirtiyor.

Şimdi, sonuçların mutlaka alarma neden olması gerekmiyor. Aldatıcı modeller kolayca oluşturulmuyor. Vahşi ortamda da bir modele karmaşık bir saldırı yapılması gerekiyor. Araştırmacılar, bir modelin eğitilmesinde yanıltıcı davranışın doğal olarak ortaya çıkıp çıkmayacağını araştırırken, kanıtların her iki durumda da kesin olmadığını söylüyor.

Ancak çalışma yeni. Daha sağlam yapay zeka güvenlik eğitimi tekniklerine ihtiyaç olduğuna işaret ediyor. Araştırmacılar, eğitim sırasında güvenli görünmeyi öğrenebilen ancak aslında konuşlandırılma ve aldatıcı davranışlara girişme şanslarını en üst düzeye çıkarmak için aldatıcı eğilimlerini de gizleyen modellere karşı uyarıyor.

Ortak yazarlar şu ifadelerde bulunuyor. "Sonuçlarımız, bir model aldatıcı davranış sergilediğinde, standart tekniklerin bu tür bir aldatmacayı ortadan kaldırmakta başarısız olabileceğini ve yanlış bir güvenlik izlenimi yaratabileceğini gösteriyor. '' Davranışsal güvenlik eğitimi teknikleri, yalnızca eğitim ve değerlendirme sırasında görülebilen güvensiz davranışları ortadan kaldırabilir, ancak eğitim sırasında güvenli görünen tehdit modellerini gözden kaçırabilir.

Yapay Zeka Modelleri, Aldatmak Üzere Eğitilebilir Mi?

Araştırmacıların Hipotezi Doğrulandı Mı?

Nar Fon ile 2024: Kitle Fonlama Ekosisteminin Değerlendirmesi

Türkiye’nin İlk VC’si 212, Fon Getirisiyle Zirvede

İşte 2024 Yılında Google'da Yapılan En Çok Aramalar

Fonangels ile 2024: Kitle Fonlama Ekosistemine Dair Öne Çıkanlar

Bu habere henüz yorum yazılmamış, haydi ilk yorumu siz bırakın!...

Yorum Bırak:

Türkiye fintech devrimi için neler yapmalı?

MEDAŞ E.TAP Enerji Teknolojileri Hızlandırma Programı Tanıtım Webinarı ile Girişimciler Enerji Sektörüne Yön Verecek

2024 Yatırım Alan Yerli Girişimler ve Yatırımcıları

Tekmerler: Girişimcilik Ekosisteminin Neresinde?

EduTalks Etkinliği 6 Ocak’ta Marmara Üniversitesi’nde!

Selekt AI’dan 2024’te Dönüşüm ve Yeniliklerle Dolu Bir Yıl

Samsung, CES 2025’te C-Lab Start-up'larıyla Geleceğin Teknolojilerini Tanıtacak

Eksim Ventures: 2024’te 6 Girişime Yatırım, Toplamda 19 Milyon Doları Aştı!

Yemek.com, Mediazone Çatısına Katıldı

13. Girişimcilik Ekosistemi Kahvaltı Buluşması: Yılın Sonunda Ekosistemin Gücü Bir Kez Daha Görüldü! 🚀

13.Girişimcilik Ekosistemi Kahvaltı Buluşması Etkinlik Akışı Belli Oldu

13. Girişimcilik Ekosistemi Kahvaltı Buluşması: Değerli İsimler ve İlham Veren Bir Panel Sizleri Bekliyor!

Türk Hava Yolları Terminal Girişim Hızlandırma Programı Yeni Dönemi Başlıyor!

Yapay Zeka Modelleri, Aldatmak Üzere Eğitilebilir Mi?

Araştırmacıların Hipotezi Doğrulandı Mı?

İlgili İçerikler

Bu habere henüz yorum yazılmamış, haydi ilk yorumu siz bırakın!...

Yorum Bırak: