Rekor Kırıcı Hız Kanada'nın Toronto şehrinde bulunan Taalas adlı girişim şirketi, Llama 3.1 8B modelinde saniyede inanılmaz 17.000 token işleyen HC1 çipini tanıttı.
Karşılaştırma yapmak gerekirse, en üst düzey Nvidia H200 aynı koşullar altında saniyede yaklaşık 230-300 token işliyor. "Silikonda Model": Grafik kartlarının aksine, HC1 modeli "çalıştırmaz", bunun yerine ağırlıklarını doğrudan transistörlere "kazınmış" (sabit kablolu) şekilde içerir. Bu, modern bilgisayar teknolojisinin temel sorununu, yani bellek ile işlemci arasındaki veri aktarımındaki gecikmeyi ortadan kaldırır.
Ekonomi: Çipin, Nvidia çözümlerine göre 20 kat daha ucuza üretildiği ve 10 kat daha az enerji tükettiği iddia ediliyor. HC1'de 1 milyon token üretmenin maliyetinin sadece 0,75 sent olduğu tahmin ediliyor.
Erişilebilirlik: Şirket, bu çipi temel alan bir demo sohbet uygulamasını (chatjimmy.ai) zaten kullanıma sundu; kullanıcılar burada sinir ağının anlık yanıtını bizzat deneyimleyebilirler.
Uzman ve analistlerden gelen yorumlar:
1. Esneklik ve Verimlilik Sorunu
Uzmanlar (Hacker News ve Reddit'tekiler gibi) asıl dezavantajın esneklik olmaması olduğunu belirtiyor. Farklı bir model çalıştırmak istiyorsanız, yeni bir çip satın almanız gerekecek. Ancak Taalas, tasarım sürecinin, büyük şirketlerdeki yazılım güncelleme döngüsüne benzer şekilde, yeni bir model için çipi sadece iki ayda oluşturmasına olanak sağladığını iddia ediyor.
2. Mimarlıkta teknolojik atılım
EE Times analistleri, Taalas'ın "yapılandırılmış ASIC'ler" prensiplerine geri döndüğünü vurguluyor. Mantık ve veri depolamayı tek bir çipte, DRAM'in yoğunluğuyla birleştirdiler. Bu, pahalı ve kıt HBM belleğe, sıvı soğutmaya ve karmaşık ara bağlantı sistemlerine olan ihtiyacı ortadan kaldırıyor.
3. "Akıllı" ajanların geleceği
Ünlü geliştirici ve uzman Simon Willison, bu hızın (saniyede 17.000 belirteç) geleneksel sohbet arayüzlerini geçersiz kıldığını, çünkü metnin bir insanın göz kırpmasından daha hızlı üretildiğini belirtiyor. Bu durum, kullanıcıyı bekletmeden gerçek zamanlı olarak "düşünen" ve hareket eden yapay zeka ajanlarının önünü açıyor.
4. Ölçeklendirmeye yönelik şüphecilik
Bazı uzmanlar, Llama 400B veya DeepSeek 671B gibi büyük modelleri bu tür bir mimariye yerleştirmenin zorluğuna dikkat çekiyor. 671 milyar parametreli bir modelin senkronize çalışması için yaklaşık 30 adet HC1 çipine ihtiyaç duyulacak; bu da güç tüketimi ve basitlik avantajlarını kısmen dengeleyebilir.