Popüler TikTok platformundan sorumlu ünlü Çinli teknoloji firması ByteDance, kullanıcıları için yeni bir şeyi tanıttı: StreamVoice. Üretken yapay zeka teknolojisinden yararlanan bu araç, kullanıcıların başkalarını taklit edecek şekilde seslerini sorunsuz bir şekilde değiştirmesine olanak tanıyor.
Şu an itibariyle StreamVoice genel erişime açık değil. Ancak tanıtımı yapay zeka gelişimindeki kayda değer ilerlemenin altını çiziyor. Araç, genel olarak "deepfake" olarak adlandırılan tanınmış kişilerin sesli ve görsel taklitlerinin zahmetsizce oluşturulmasını kolaylaştırıyor. Dikkate değer örnekler arasında belirtelim. Özellikle 2024 seçimleri yaklaşırken yaygın olan bir fenomen olan Başkan Joe Biden ve Taylor Swift'in seslerini taklit etmek için yapay zekanın kullanılması yer alıyor.
İlginizi Çekebilir: En Popüler Yapay Zeka Araçları Belli Oldu! İşte Detaylar
Gelişen Yapay Zeka Yetenekleri Karşısında Acilen Dikkatli Olunmalı
Bu çığır açan girişimde, Çin'deki ByteDance ve Northwestern Polytechnical Üniversitesi'nden teknik araştırmacılar iş birliği yapıyor. Çin ordusuyla olan iş birlikleriyle tanınan Northwestern Politeknik Üniversitesi'nin Amerika Birleşik Devletleri'ndeki Northwestern Üniversitesi ile karıştırılmaması gerektiğini belirtelim.
Yakın zamanda yayınlanan bir makalede araştırmacılar, StreamVoice'in bir kullanıcının sesini istenen herhangi bir alternatife "gerçek zamanlı dönüştürme" kapasitesinin altını çiziyor. Bu, hedef sesten yalnızca tek bir konuşma örneğini gerektiriyor. Çıktı, yalnızca 124 milisaniyelik bir gecikme süresiyle canlı yayın hızında ortaya çıkıyor; bu, geleneksel olarak çevrim dışı senaryolarda etkili olan yapay zeka ses dönüştürme teknolojileriyle ilişkili tarihsel sınırlamalar ışığında önemli bir başarı.
Araştırmacılar, StreamVoice'in başarısını, hem tanıdık hem de tanıdık olmayan sesler için yüksek konuşmacı benzerliğiyle canlı ses dönüşümü gerçekleştiren bir aracın yaratılmasına olanak sağlayan dil modellerindeki son gelişmelere bağlıyor. Makalede ayrıntılarıyla anlatıldığı gibi deneyler, aracın akışsız ses dönüştürme sistemleriyle karşılaştırılabilir performansı korurken, akışlı konuşma dönüşümündeki etkinliğini vurgulamaktadır.
Yapay zeka ortamında öne çıkan bir varlık olan Meta'nın Llama büyük dil modeline atıfta bulunan makale, StreamVoice'un oluşturulmasında "LLaMA mimarisinin" kullanımını ayrıntılarıyla anlatıyor. Ek olarak araştırmacılar, Meta tarafından çok yönlü bir "ses kodlayıcı uygulamaları için tak ve çalıştır kıyaslaması" olarak tanımlanan Meta'nın AudioDec'inden açık kaynak kodunu da dahil etti. Öncelikle Mandarin konuşma veri kümeleri, İngilizce, Fince ve Almanca'yı içeren çok dilli bir dizi üzerinde eğitim alan araştırmacılar, aracın yeterliliğine ulaştı.
Araştırmacılar StreamVoice için spesifik kullanım durumları önermekten kaçınmalarına rağmen, yanlış bilgilerin yayılması veya telefon dolandırıcılığı gibi potansiyel risklerin de farkında. Kullanıcıların yasa dışı ses dönüştürme olaylarını uygun yetkililere bildirmeleri teşvik ediliyor.
Gelişen teknolojinin farkında olan yapay zeka uzmanları için ekleyelim. Derin sahtekarlıkların artan yaygınlığına karşı uzun zamandır uyarıda bulunuyorlar. Yakın zamanda yaşanan bir olayda, Başkan Biden'ın derin sahtesini kullanan ve insanları New Hampshire ön seçimlerinde oy kullanmamaya çağıran bir otomatik çağrı yer alıyordu. Yetkililer şu anda bu aldatıcı otomatik çağrıyı araştırıyor ve gelişen yapay zeka yetenekleri karşısında acilen dikkatli olunması gerektiğinin altını çiziyor.
Bu habere henüz yorum yazılmamış, haydi ilk yorumu siz bırakın!...