Yandex Research, IST Austria, NeuralMagic ve KAUST iş birliğiyle geliştirilen yeni dil modeli (LLM) sıkıştırma yöntemleri AQLM ve PV-Tuning, yanıt kalitesini %95 oranında korurken model boyutunu 8 kata kadar azaltabiliyor. Bu yöntemler, ekipman maliyetlerini önemli ölçüde düşürerek yapay zeka dağıtımında devrim niteliğinde bir gelişme sağlıyor. Llama 2 13B gibi sıkıştırılmış modeller artık dört yerine tek bir GPU üzerinde çalışabiliyor. AQLM yöntemi, Uluslararası Makine Öğrenimi Konferansı'nda (ICML) sergilendi ve LLM teknolojisinde büyük bir ilerleme kaydedildi.
AQLM ve PV-Tuning'in Temel Özellikleri
AQLM (Dil Modelleri için Eklemeli Niceleme), bilgi erişiminde kullanılan eklemeli niceleme yöntemini LLM sıkıştırması için uyarlıyor. Bu yöntem, aşırı sıkıştırma altında model doğruluğunu koruyarak LLM'lerin ev bilgisayarları gibi günlük cihazlarda yaygınlaştırılmasını mümkün kılıyor. Bellek tüketiminde önemli bir azalma sağlıyor.
PV-Tuning, model sıkıştırma sırasında ortaya çıkabilecek hataları gideriyor. AQLM ve PV-Tuning birleştirildiğinde, sınırlı bilgi işlem kaynaklarında bile yüksek kalitede yanıtlar sağlayan kompakt modeller ortaya çıkıyor.
Yöntemlerin Değerlendirilmesi ve Tanınması
Bu yeni sıkıştırma yöntemlerinin etkinliği, LLama 2, Mistral ve Mixtral gibi popüler açık kaynaklı modeller üzerinde değerlendirildi. Araştırmacılar, sıkıştırılmış büyük dil modellerinin cevap kalitesini WikiText2 ve C4 gibi İngilizce karşılaştırma ölçütleriyle test etti. Modeller 8 kat sıkıştırılmalarına rağmen %95 oranında yanıt kalitesini korumayı başardı.
Bu habere henüz yorum yazılmamış, haydi ilk yorumu siz bırakın!...