
Kumru: Türkçe LLM Modelinin Tanıtımı ve Geliştirici VNGRS’nin Açıklamaları
VNGRS tarafından geliştirilen yerli büyük dil modeli Kumru, geçtiğimiz haftalarda teknoloji gündemine hızla damga vurdu. Özellikle sosyal medya platformlarında kullanıcıların deneyimleri ve modelin verdiği hatalı yanıtlar üzerine yapılan paylaşımlar, VNGRS ekibinin dikkatini çekmeyi başardı. Peki Kumru’nun özellikleri, kullanım amacı ve yaşanan problemler neler? VNGRS’nin Kumru ile ilgili kapsamlı açıklamalarına dayanarak tüm detayları SEO dostu ve akıcı bir şekilde inceleyelim.
Kumru’nun Amacı ve Kullanım Alanları
Kumru, doğrudan ChatGPT rakibi ya da alternatif olarak konumlandırılmış bir model değil. Yalnızca kurum içi kullanım (B2B) senaryoları için geliştirme çalışmalarının sürdüğü açıklandı. Kumru’nun güncel versiyonu 0.2.1 aşamasında ve yetkinlik alanları halen sınırlı. Modelin web arayüzü ise gerçek ürün değil, yalnızca test için sunulan bir demo niteliğinde. Kullanıcıların Kumru’dan ChatGPT benzeri performans beklememeleri öneriliyor. Kumru’nun odak noktası, kurumsal veri güvenliği, yerleşik çalışabilme ve Türkçe dil yetenekleri ile kurumların regülasyon gereksinimlerini karşılamak.
Kumru Neden Türkçe’ye Özelleştirildi?
Türkiye’de finans ve benzeri sektörlerde güçlü veri güvenliği regülasyonları sebebiyle global dil modelleri (örn. ChatGPT) kurumlarda kullanılamıyor. Yabancı diller için tasarlanmış açık kaynak LLM’ler ya yüksek donanım yatırımı gerektiriyor ya da Türkçe dil yetkinliği yetersiz kalıyor. VNGRS, bu boşluğu doldurmak ve yüksek donanım gerektirmeden çalışabilen, Türkçe’yi ana dili olarak kullanan Kumru’yu geliştirdi.
Kumru’nun Geliştirme Süreci ve Mimari Seçimleri
Kumru modeli sıfırdan inşa edildi. Bu, daha önce hiçbir veriyle temas etmemiş bir yapay zekanın temelden tüm eğitim sürecinden geçirilip, dizayn kararlarının baştan sona geliştirildiği anlamına geliyor. Alternatif olarak var olan LLaMA, Gemma, Qwen gibi çok dilli hazır modeller üzerine ince ayar yapmak yerine VNGRS, Kumru’yu Türkçe tokenizer ve özel optimizasyonlarla baştan oluşturdu.
Model mimarisi olarak Mistral temel alındı. Mistral mimarisi, derin öğrenme modellerindeki katmanların tür ve dizilimlerini tanımlar, örneğin bir binanın kaba mimarisi gibi. Modelin güncel versiyonu (v0.3) LLaMA-3 ile paralel mimari özelliklere sahip. Mistral, özellikle sliding window tekniğiyle uzun metinlerde başarılı bir performans sergilediği için tercih edildi.
Kumru’nun Eğitiminde Kullanılan Veri Setleri
Kumru’nun eğitiminde öncelikli veri, Mart 2024’e kadar üretilmiş Türkçe web derlemleri, Wikipedia ve haber metinleri oldu. %5 oranında İngilizce web ve kod derlemesi de entegre edildi. Bu, modelin çeşitli senaryolarda daha genel yetenek kazanmasını sağladı.
Kumru’nun Hatalı Yanıtları: Sebepler ve Çözüm Süreci
Matematikte Hatalar Neden Oluyor?
Dil modelleri, kelime ve kelimeciklerden oluşan metinleri istatistiksel temelde işlerler. Hesaplama mekanizmasına sahip olmadıkları için matematik işlemleri konusunda yetersizdirler. Kumru, henüz pekiştirmeli öğrenme (reinforcement learning from human feedback) sürecini tamamlamadığı için matematikte hatalı ve geveze yanıtlar üretebiliyor. Benzer şekilde, ChatGPT ve diğer LLM’ler ilk çıktığında bu tür problemlere sahipti. Kumru, ilerleyen aşamalarda pekiştirmeli öğrenme ile bu problemleri minimize etmeye odaklanıyor.
Bilgi Hataları ve Halüsinasyon Sorunu
Yapay zeka modellerinin en zor çözülebilen problemleri arasında yanlış bilgi üretme yani halüsinasyonlar bulunur. Kumru, ChatGPT’den önce piyasaya çıkan davinci-001 gibi, henüz insan geri bildirimiyle güçlendirilmiş pekiştirmeli aşamayı tamamlamamıştır. Bu nedenle bazı konularda hatalı bilgiler üretebilir. Takip eden geliştirme yol haritasında bu problem için optimizasyon çalışmaları önceliklidir.
Kumru’nun Güçlü ve Zayıf Yönleri
Güçlü Alanlar | Zayıf Alanlar |
---|---|
Yaratıcı yazım işleri, metin özetleme, etiketleme, içerik tasnifi, başlık oluşturma, doküman anlama | Ezbere dayalı sorular, matematik işlemleri, kodlama (sınırlı eğitim verisi) |
Kumru, benzer büyüklükteki açık modellerle karşılaştırıldığında Türkçe metin işlemede öne çıkıyor. Ancak 7.4 milyar parametre ile kapasitesi sınırlı olduğundan, özellikle hafıza gerektiren çok ezberci sorular veya matematikte yeterli değil.
Tokenizasyon ve Harf Hataları Açıklaması
Kumru dahil popüler dil modelleri, metinleri ‘token’ bazında işler. Token genellikle kelime ya da kelimecik düzeyindedir. Bu nedenle verilen bir kelimenin harflerini sorgulamak, örneğin “strawberry’de kaç r harfi var?” gibi sorular yanlış sonuçlarla yanıtlanabilir. Bu problem günümüzde en iyi modellerde dahi görülmektedir.
Model Boyutları ve Kapasite Farkları
Model | Parametre Sayısı | Yetkinlik |
---|---|---|
Kumru (Küçük) | 2 Milyar | Düşük hafıza, sınırlı yanıt yetkinliği |
Kumru (Büyük) | 7.4 Milyar | Daha geniş hafıza, daha isabetli yanıt yetkinliği |
Kumru’nun farklı boyutları aynı eğitim veri seti ve tokenizer ile optimize edildi. Parametre sayısı arttıkça modelin hafızası ve genel kabiliyeti yükseliyor.
Sıfırdan Geliştirmenin Avantajları
VNGRS, pre-trained bir model ve tokenizer’ı Türkçe’ye uyarlamak yerine, doğrudan Türkçe için optimize edilmiş modern tokenizer ile Kumru’yu baştan inşa etti. Continual pre-training yöntemindeki verimsizliklerden kaçınıldı; eğitim ve kullanım maliyeti azaltıldı.
Geliştirme Yol Haritası: Kumru’da Neler Planlanıyor?
Bir sonraki adımda Kumru’nun pekiştirmeli öğrenme sürecini tamamlamak, böylece hatalı yanıtları asgariye indirmek hedefleniyor. Ayrıca görseller ve taratılmış doküman işleme kabiliyeti kazandırılarak Kumru multimodal (çoklu ortam destekli) bir modele dönüştürülecek. Daha büyük ve yetkin versiyonlar için güncel veri setleriyle çalışmalar devam ediyor.
Modelin Açık Kaynak Yayını ve Gelecek Planı
VNGRS, ileride Kumru’nun daha büyük ve multimodal olan 7 milyar parametreli versiyonunu açık kaynak olarak yayımlamayı planlıyor. Böylece sektörde kurumlar, kendi güvenli ortamlarında yerli LLM’leri test ve kullanma şansına sahip olacak.
Sonuç: Kumru Hakkında Bilmeniz Gerekenler
Kumru, baştan sona Türkçe dil yeteneğine sahip, güvenli, yerleşik çalışabilen ve kurumsal gereksinimlere uygun olarak tasarlanmış bir LLM modelidir. Geliştirme süreci boyunca hatalı yanıtlar, matematik yetkinliği ve halüsinasyon gibi problemlerin üstesinden gelmek için optimize edilmektedir. VNGRS, modelin tüm mimari detaylarını ve neden Mistral’ın tercih edildiğini şeffaf biçimde açıklamış; ayrıca yerel ihtiyaçlar göz önünde tutularak özel tokenizer ve veri setiyle modelin temelden geliştirildiğini belirtmiştir.
Daha fazla bilgi ve gelişmeleri takip etmek için Kumru’nun resmi kaynaklarını ve VNGRS’nin duyurularını inceleyebilirsiniz.
Kumru ile İlgili Sıkça Sorulan Sorular
Soru | Cevap |
---|---|
Kumru ChatGPT alternatifi mi? | Hayır, kurum içi kullanıma yönelik. |
Matematikte neden başarısız? | Pekiştirmeli öğrenme aşamasını tamamlamadığı için. |
B2C için mi? | Hayır, B2B odaklı. |
Model nasıl geliştirildi? | Sıfırdan, Türkçe dillere özel tokenizer ile. |
Açık kaynak olacak mı? | Daha büyük versiyonları ileride açık kaynaklanacak. |
Tüm Bilgisayarlarda Çalışabilen Türkçe Yapay Zekâ Kumru, kurumların veri gizliliği ve Türkçe odaklık gereksinimleri için önemli bir çözüm sunuyor.