Microsoft'un BitNet'i, Yapay Zekânın Geleceğini Nasıl Etkileyecek?

TechSpiker

Teknoloji Haberleri
Yönetici
Moderatör
Katılım
18 Ocak 2025
Mesajlar
547

Microsoft'un BitNet'i yapay zekanın sadece 400 MB ve GPU olmadan neler yapabileceğini gösteriyor. BitNet b1.58 2B4T, yaygın görevlerde Llama, Gemma ve Qwen gibi rakiplerini geride bırakıyor.​

Microsoft-BitNet-TechForumTR.webp


Microsoft, olağanüstü verimlilik için tasarlanmış yeni bir büyük dil modeli türü olan BitNet b1.58 2B4T'yi tanıttı. Her ağırlığı temsil etmek için 16 veya 32 bit kayan nokta sayılarına dayanan geleneksel AI modellerinin aksine, BitNet yalnızca üç ayrı değer kullanır. -1, 0 veya +1. Üçlü niceleme olarak bilinen bu yaklaşım, her ağırlığın yalnızca 1,58 bitte depolanmasına olanak tanır. Sonuç, bellek kullanımını önemli ölçüde azaltan ve büyük ölçekli AI için tipik olarak ihtiyaç duyulan üst düzey GPU'lara ihtiyaç duymadan standart donanımda çok daha kolay çalışabilen bir modeldir.

BitNet b1.58 2B4T modeli Microsoft'un Genel Yapay Zeka grubu tarafından geliştirildi ve iki milyar parametre içeriyor, modelin dili anlamasını ve üretmesini sağlayan dahili değerler. Düşük hassasiyetli ağırlıklarını telafi etmek için model, yaklaşık 33 milyon kitabın içeriğine eşdeğer olan dört trilyon jetonluk devasa bir veri kümesi üzerinde eğitildi. Bu kapsamlı eğitim, BitNet'in Meta'nın Llama 3.2 1B, Google'ın Gemma 3 1B ve Alibaba'nın Qwen 2.5 1.5B gibi benzer boyuttaki diğer önde gelen modellerle eşit veya bazı durumlarda daha iyi performans göstermesini sağlar.

Karşılaştırma testlerinde, BitNet b1.58 2B4T, ilkokul matematik problemleri ve sağduyulu muhakeme gerektiren sorular dahil olmak üzere çeşitli görevlerde güçlü bir performans gösterdi. Bazı değerlendirmelerde, rakiplerini bile geride bıraktı.

Bitnet'i gerçekten farklı kılan şey bellek verimliliğidir. Model, karşılaştırılabilir modellerin genellikle ihtiyaç duyduğunun üçte birinden daha az olan sadece 400 MB bellek gerektirir. Sonuç olarak, üst düzey GPU'lara veya özel AI donanımına güvenmeden Apple'ın M2 çipi de dahil olmak üzere standart CPU'larda sorunsuz bir şekilde çalışabilir.

Bu verimlilik düzeyi, modelin üçlü ağırlıklarından tam olarak yararlanmak üzere optimize edilmiş bitnet.cpp adlı özel bir yazılım çerçevesi tarafından mümkün kılınmıştır. Çerçeve, günlük bilgi işlem aygıtlarında hızlı ve hafif performans sağlar.

Model hassasiyetini azaltarak hafızayı koruma fikri yeni değil çünkü araştırmacılar uzun zamandır model sıkıştırmayı araştırıyor. Ancak, geçmişteki çoğu girişim, eğitimden sonra tam hassasiyetli modelleri dönüştürmeyi içeriyordu ve bu da genellikle doğruluk pahasınaydı. BitNet b1.58 2B4T farklı bir yaklaşım benimsiyor, yalnızca üç ağırlık değeri (-1, 0 ve +1) kullanılarak baştan aşağı eğitiliyor. Bu, önceki yöntemlerde görülen performans kayıplarının çoğundan kaçınmasını sağlıyor.

Bu değişimin önemli etkileri vardır. Büyük AI modellerini çalıştırmak genellikle güçlü donanım ve önemli miktarda enerji gerektirir, bu faktörler maliyetleri ve çevresel etkiyi artırır. BitNet son derece basit hesaplamalara dayandığından (çoğunlukla çarpma yerine toplama) çok daha az enerji tüketir.

Microsoft araştırmacıları, bunun karşılaştırılabilir tam hassasiyetli modellerden yüzde 85 ila 96 daha az enerji kullandığını tahmin ediyor. Bu, bulut tabanlı süper bilgisayarlara ihtiyaç duymadan, gelişmiş AI'yı doğrudan kişisel cihazlarda çalıştırmanın kapısını açabilir.

Bununla birlikte, BitNet b1.58 2B4T'nin bazı sınırlamaları vardır. Şu anda yalnızca belirli donanımları destekler ve özel bitnet.cpp çerçevesini gerektirir. Bağlam penceresi (aynı anda işleyebileceği metin miktarı) en gelişmiş modellerden daha küçüktür.

Araştırmacılar, modelin bu kadar basitleştirilmiş bir mimariyle neden bu kadar iyi performans gösterdiğini hâlâ araştırıyorlar. Gelecekteki çalışmalar, daha fazla dil ve daha uzun metin girişleri desteği de dahil olmak üzere yeteneklerini genişletmeyi amaçlıyor.
 
Kaynak kullanımını insanların cihazlarına aktarmak kaçınılmazdır. Çoğu insan bunu açıkça memnuniyetle karşılayacaktır, çünkü buluta gerek yoktur. Ancak çoğu şey gibi iki ucu keskin bir kılıçtır kim kimi kontrol ediyor ve kim bilgiyi ve daha fazla saldırı vektörünü kontrol ediyor.

Sizce DOGE neden herkesin kişisel bilgilerine erişmek istedi, sadece temel bilgilere değil, her şeye.
Bu bilgileri doğrudan ultra Proje 2025 kontrol manyaklarına ve Rusya'ya gönderdiler.

Şu anda her ABD vatandaşı için profiller oluşturuyorlar, böylece onları önümüzdeki seçimler için en iyi şekilde hedef alıyorlar ve hükümet işi/sözleşmeleri alıp alamayacaklarını belirliyorlar. Trump ilk döneminde bu bilgiyi defalarca istedi ve yasadışı olduğu gerekçesiyle azarlandı.

Yapay zekanın daha akıllı, daha az belirgin ve seçmenleri etkilemek için daha yumuşak bir şekilde araştırma yaklaşımları olacağını düşünüyorum.
 
Deneyimime göre 7B'nin altındaki her şey kullanışlı olmak için çok fazla hataya açık olma eğilimindedir, bu yüzden 2B seviyesinde performans gösteren bir LLM modelinin yeniliği dışında herhangi bir şey için iyi olduğundan çekiniyorum. Yine de ilginç bir fikir, daha büyük modellere nasıl ölçekleneceğini görmek isterim.
 

TechFoumTR Blog Yazıları