- Katılım
- 18 Ocak 2025
- Mesajlar
- 547
Microsoft'un BitNet'i yapay zekanın sadece 400 MB ve GPU olmadan neler yapabileceğini gösteriyor. BitNet b1.58 2B4T, yaygın görevlerde Llama, Gemma ve Qwen gibi rakiplerini geride bırakıyor.
Microsoft, olağanüstü verimlilik için tasarlanmış yeni bir büyük dil modeli türü olan BitNet b1.58 2B4T'yi tanıttı. Her ağırlığı temsil etmek için 16 veya 32 bit kayan nokta sayılarına dayanan geleneksel AI modellerinin aksine, BitNet yalnızca üç ayrı değer kullanır. -1, 0 veya +1. Üçlü niceleme olarak bilinen bu yaklaşım, her ağırlığın yalnızca 1,58 bitte depolanmasına olanak tanır. Sonuç, bellek kullanımını önemli ölçüde azaltan ve büyük ölçekli AI için tipik olarak ihtiyaç duyulan üst düzey GPU'lara ihtiyaç duymadan standart donanımda çok daha kolay çalışabilen bir modeldir.
BitNet b1.58 2B4T modeli Microsoft'un Genel Yapay Zeka grubu tarafından geliştirildi ve iki milyar parametre içeriyor, modelin dili anlamasını ve üretmesini sağlayan dahili değerler. Düşük hassasiyetli ağırlıklarını telafi etmek için model, yaklaşık 33 milyon kitabın içeriğine eşdeğer olan dört trilyon jetonluk devasa bir veri kümesi üzerinde eğitildi. Bu kapsamlı eğitim, BitNet'in Meta'nın Llama 3.2 1B, Google'ın Gemma 3 1B ve Alibaba'nın Qwen 2.5 1.5B gibi benzer boyuttaki diğer önde gelen modellerle eşit veya bazı durumlarda daha iyi performans göstermesini sağlar.
Karşılaştırma testlerinde, BitNet b1.58 2B4T, ilkokul matematik problemleri ve sağduyulu muhakeme gerektiren sorular dahil olmak üzere çeşitli görevlerde güçlü bir performans gösterdi. Bazı değerlendirmelerde, rakiplerini bile geride bıraktı.
Bitnet'i gerçekten farklı kılan şey bellek verimliliğidir. Model, karşılaştırılabilir modellerin genellikle ihtiyaç duyduğunun üçte birinden daha az olan sadece 400 MB bellek gerektirir. Sonuç olarak, üst düzey GPU'lara veya özel AI donanımına güvenmeden Apple'ın M2 çipi de dahil olmak üzere standart CPU'larda sorunsuz bir şekilde çalışabilir.
Bu verimlilik düzeyi, modelin üçlü ağırlıklarından tam olarak yararlanmak üzere optimize edilmiş bitnet.cpp adlı özel bir yazılım çerçevesi tarafından mümkün kılınmıştır. Çerçeve, günlük bilgi işlem aygıtlarında hızlı ve hafif performans sağlar.
Model hassasiyetini azaltarak hafızayı koruma fikri yeni değil çünkü araştırmacılar uzun zamandır model sıkıştırmayı araştırıyor. Ancak, geçmişteki çoğu girişim, eğitimden sonra tam hassasiyetli modelleri dönüştürmeyi içeriyordu ve bu da genellikle doğruluk pahasınaydı. BitNet b1.58 2B4T farklı bir yaklaşım benimsiyor, yalnızca üç ağırlık değeri (-1, 0 ve +1) kullanılarak baştan aşağı eğitiliyor. Bu, önceki yöntemlerde görülen performans kayıplarının çoğundan kaçınmasını sağlıyor.
Bu değişimin önemli etkileri vardır. Büyük AI modellerini çalıştırmak genellikle güçlü donanım ve önemli miktarda enerji gerektirir, bu faktörler maliyetleri ve çevresel etkiyi artırır. BitNet son derece basit hesaplamalara dayandığından (çoğunlukla çarpma yerine toplama) çok daha az enerji tüketir.
Microsoft araştırmacıları, bunun karşılaştırılabilir tam hassasiyetli modellerden yüzde 85 ila 96 daha az enerji kullandığını tahmin ediyor. Bu, bulut tabanlı süper bilgisayarlara ihtiyaç duymadan, gelişmiş AI'yı doğrudan kişisel cihazlarda çalıştırmanın kapısını açabilir.
Bununla birlikte, BitNet b1.58 2B4T'nin bazı sınırlamaları vardır. Şu anda yalnızca belirli donanımları destekler ve özel bitnet.cpp çerçevesini gerektirir. Bağlam penceresi (aynı anda işleyebileceği metin miktarı) en gelişmiş modellerden daha küçüktür.
Araştırmacılar, modelin bu kadar basitleştirilmiş bir mimariyle neden bu kadar iyi performans gösterdiğini hâlâ araştırıyorlar. Gelecekteki çalışmalar, daha fazla dil ve daha uzun metin girişleri desteği de dahil olmak üzere yeteneklerini genişletmeyi amaçlıyor.