OpenAI, Eylül ayında piyasaya sürdüğü açık kaynaklı Whisper konuşmayı metne dönüştürme modelinin, barındırılan bir sürümü olan Whisper API'yi başlattı.
Whisper, dakikası 0,006 ABD doları olarak fiyatlandırılıyor. OpenAI'nin birden çok dilde "sağlam" transkripsiyona ve bu dillerden İngilizceye çeviriye olanak sağladığını iddia ettiği otomatik bir konuşma tanıma sistemi. M4A, MP3, MP4, MPEG, MPGA, WAV ve WEBM gibi çeşitli biçimlerdeki dosyaları alıyor. Haydi daha fazla lafı uzatmadan o halde detaylara.
İlginizi Çekebilir: OpenAI CEO’su Sam Altman ChatGPT’nin Sağlık Hizmetlerini Karşılayamayan İnsanlara Tıbbi Destek Vereceğini Açıkladı
Whisper API Hakkında Detaylar
Birçok kuruluş; Google, Amazon ve Meta gibi teknoloji devlerinin sunduğu yazılım ve hizmetlerin merkezinde yer alan son derece yetenekli konuşma tanıma sistemleri geliştirdi. Ancak Whisper'ı farklı kılan şey nedir? Belirtilene göre, Web'den toplanan 680.000 saatlik çok dilli ve "çoklu görev" verileri üzerinde eğitilmiş olması ve bu da benzersiz aksanların, arka plan gürültüsünün ve teknik jargonun daha iyi tanınmasına yol açıyor.
Bir video görüşmesinde OpenAI başkanı ve başkanı Greg Brockman, "Bir model yayınladık, ancak bu aslında tüm geliştirici ekosisteminin onun etrafında inşa edilmesine neden olmak için yeterli değildi" dedi. "Whisper API, açık kaynak olarak edinebileceğiniz büyük modelin aynısıdır, ancak biz en uç noktaya kadar optimize ettik. Çok, çok daha hızlı ve son derece kullanışlı.” diye de ekledi.
Ancak Whisper'ın sınırlamaları olduğunu da belirtelim. Sistem büyük miktarda gürültülü veri üzerinde eğitiliyor. Bu yüzden OpenAI, Whisper'ın transkripsiyonlarına gerçekte konuşulmayan sözcükler ekleyebileceği konusunda da uyarıyor. Ayrıca Whisper, eğitim verilerinde iyi temsil edilmeyen dillerin konuşmacıları söz konusu olduğunda daha yüksek bir hata oranından muzdarip olduğu için diller arasında eşit derecede iyi performans göstermeyebilir.
Bu son kısım konuşma tanıma dünyasında yeni bir şey değil. Şöyle ki; Amazon, Apple, Google, IBM ve Microsoft'un sistemlerini bulan 2020 Stanford araştırmasına göre, önyargılar en iyi sistemleri bile uzun süredir rahatsız ediyor.Buna rağmen OpenAI, Whisper'ın transkripsiyon yeteneklerinin mevcut uygulamaları, hizmetleri, ürünleri ve araçları iyileştirmek için kullanıldığını görüyor. Yapay zeka destekli dil öğrenme uygulaması Speak ise, yeni bir uygulama içi sanal konuşma yardımcısına güç sağlamak için Whisper API'yi zaten kullanıyor.OpenAI konuşmadan metne büyük bir pazara girebilirse, Microsoft destekli şirket için oldukça karlı olabilir.
Bu habere henüz yorum yazılmamış, haydi ilk yorumu siz bırakın!...