Kimi K2.7-Code düşünme token'larını yüzde 30 azalttı


Moonshot AI'nın yeni kod modeli K2. 7-Code, düşünme token'larını yüzde 30 azaltıyor ancak bağımsız kıyaslamalarda…
Moonshot AI, bu hafta açık kaynak kodlu Kimi K2. 7-Code modelini yayınladı. Şirket, modelin bir önceki sürüm K2. 6'ya kıyasla düşünme token'larını yüzde 30 azalttığını ve çeşitli kıyaslamalarda çift haneli performans artışı sağladığını iddia ediyor. K2. 7-Code, trilyon parametreli uzman karışımı mimarisi üzerine inşa edilmiş ve OpenAI uyumlu bir API üzerinden sunuluyor.
Moonshot AI'ya göre K2. 7-Code, 'aşırı düşünme' sorununu çözerek daha verimli çalışıyor. Şirket, modelin Kimi Code Bench v2'de yüzde 21,8, Program Bench'te yüzde 11 ve MLS Bench Lite'ta yüzde 31,5 performans artışı gösterdiğini belirtiyor. Ancak tüm bu kıyaslamalar Moonshot AI'ya ait özel testler.
Bağımsız araştırmacı Elliot Arledge, K2. 7-Code'u kamuya açık KernelBench-Hard kıyaslamasında test etti. Arledge, 'K2. 7 daha dürüst ama daha yetenekli değil' yorumunu yaptı. Modelin beş problemde gerçek Triton çekirdeği ürettiğini ancak ikisinin kendi hataları nedeniyle başarısız olduğunu belirtti. MoE çekirdeği performansı K2. 6'nın 0,222 puanından 0,157'ye geriledi.
Geliştirici Sugumaran Balasubramaniyan, DeepSWE kıyaslamasını referans alarak K2. 7-Code'u eleştirdi. 'Her model kendi testlerinde çift haneli iyileşme gösterir' diyen Balasubramaniyan, K2. 6'nın DeepSWE'de yüzde 24 puan aldığını ve K2.
K2. 7-Code, Değiştirilmiş MIT lisansı altında yayınlandı ve HuggingFace üzerinden indirilebiliyor. Model yalnızca düşünme modunda çalışıyor ve sıcaklık ayarı yapılamıyor (1. 0'da sabit).