Popüler LLM’lerin Birbirinden Farkı

Anasayfa > İncelemeler > Popüler LLM’lerin Birbirinden Farkı

Popüler LLM’lerin Birbirinden Farkı

Monster Notebook 29 Mayıs 2024

“Mister Turist’in iki sorusuna mantıklı cevap verebilmek, bütün uzay matematiğini çözmekten daha zor.” diyor ve Kaptan’a “Zıtt nedir?” sorusunu yöneltiyordu, “Turist Ömer Uzay Yolu’nda” filmindeki Mr. Spock. Sonra aynı soruyu, film boyunca birçok soruya tutarlı ve doğru yanıtlar veren “Kompüter”e soruyor ancak bu soru, kompüterin aklını oynatmasıyla sonuçlanıyordu.

Orijinal adı “Star Trek” olan, ülkemizde de “Uzay Yolu” adıyla yayımlanan diziden ilham alınarak çekilen ve 1973 yılında sinema salonlarında gösterime giren bu film, hem kaynak materyalinin hem de bu materyali oluşturan Gene Roddenberry’nin fikir dünyasını inşa eden Isaac Asimov, Arthur C. Clarke, Ray Bradbury gibi isimlerin, son derece başarılı bilim kurgu öngörülerinden esinlenmişti. Konuşan, sorulara yanıtlar verebilen, yorumlar yapabilen bir bilgisayar hayali, belki 1970’li yıllar için uçuk sayılabilecek bir fikirdi ama bugün geldiğimiz noktada yapay zekâ teknolojileri, bunu LLM ile mümkün kılıyor.

İngilizce “Large Language Models/Büyük Dil Modelleri” ifadesinin kısaltması olan LLM, esasen sofistike yapay zekâ sistemlerini temsil ediyor. Dillerin karmaşık yapılarını anlamak ve hem etkili hem de doğru şekilde kullanmak üzere tasarlanan LLM’ler, yapılandırıldıkları sistemlerin kullanıcıyla etkileşim kurması noktasında da büyük önem taşıyor. Ve evet, bu sistemler, “Turist Ömer Uzay Yolu’nda” filmindeki gibi yanıtlayamadığı sorular karşısında duman çıkarmıyor.

LLM

Peki, ücretli ve ücretsiz yapay zekâ platformlarının yaygınlaşması sayesinde bugün hemen herkesin bir şekilde deneyimleyebildiği LLM’lerin birbirlerinden farklarını öğrenmeye ne dersiniz? Dilerseniz önce LLM’lerin nasıl çalıştığından biraz söz edelim ve dil modellerine dair temel düzeyde bir altyapı oluşturalım. Ardından konunun detaylarına hep birlikte göz atalım.

LLM: Bir Kelime Çorbası mı Yoksa Dilbilgisi Şefi mi?

İnsanlık tarihinin en karmaşık ve şüphesiz en yararlı buluşlarından biri olan dili öğrenmekle kalmayıp yine dili, kelimelerden oluşan lezzetsiz bir çorbadan ziyade ustalıkla hazırlanmış bir yemek gibi sunma hedefi olan LLM’ler, özellikle şirketler tarafından sanal asistan gibi süreçlerde kullanılıyor. Hatta öyle ki bazı süpermarket zincirlerinin web sayfalarında, arkasında iptidai diyebileceğimiz LLM’lerin yer aldığı yemek tarif bölümleri bile bulunuyor. Ancak LLM’lerden yalnızca şirketler değil son kullanıcılar da yararlanıyorlar; öğrencilerden data analistlerine, araştırmacılardan dil öğrenenlere kadar pek çok kişi, bu araçları kullanarak işlerini kolaylaştırıyor ve hayatlarını daha verimli hâle getiriyor.

OpenAI_LLM

Peki, herkesin dilinde olan GPT, Gemini ve Llama 3 gibi LLM’ler nasıl çalışıyor?

İlk Adım: Veri Diyeti – LLM’ler Ne Yer, Ne İçer?

“Büyük Veri” Aşçılığı: LLM’ler; kitaplar, makaleler, blog yazıları, forum tartışmaları, haberler ve hatta sosyal medya gönderileri gibi pek çok metin kaynağından “besleniyor”. Bu içerikler, modelin, dilin yapısını, kullanımını ve gramer kurallarını öğrenmesi için büyük önem arz ediyor. Bu sayede bir LLM, J.R.R. Tolkien’in eserlerinden George Orwell’’in distopik romanlarına kadar her türlü metni sindirerek dilin nasıl kullanıldığını özümsüyor.
Beslenme Çeşitliliği: Tabii ki LLM’ler yalnızca edebî metinlerle sınırlı kalmıyor; bilimsel makaleler, teknik raporlar, popüler kültür içerikleri ve hatta dinî metinler gibi çeşitli kaynaklar, bu modellerin çok yönlü bir dil anlayışı geliştirmesine yardımcı oluyor. Her dil “lokması”, modelin, daha zengin bir tabak sunmasını sağlıyor.

İkinci Adım: Pişirme Süreci – Nasıl Eğitiliyor?

Tarif Kitabını Yazmak: “Önceden Eğitim” adı verilen bir süreçle dilin genel yapısını öğrenen LLM’ler, bu süreçte milyonlarca kelime ve cümleyi analiz ediyor. Bu aşamada LLM, hangi kelimelerin sık sık birlikte kullanıldığını, cümle yapılarının nasıl oluşturulduğunu ve anlam bağlamlarını öğreniyor.
Dil Yemeği Servisi: Az önce bahsettiğimiz eğitim sürecinden sonra LLM’ler genellikle fine-tuning/ince ayar adı verilen bir sürece tabi tutuluyor. Model, belirli bir göreve ya da daha dar bir dil setine göre özelleştiriliyor. Örneğin, bir müşteri hizmetleri chatbot’u, özellikle müşteri sorularına ve şikâyetlerine yanıt verecek şekilde ayarlanabiliyor.

Üçüncü Adım: Sofra Sunumu – Modeller Nasıl Yanıt Verir?

Soru-Cevap Menüsü: Kullanıcı bir soru sorduğunda veya bir girdi sağladığında, LLM bu girdiyi alıyor, işliyor ve mümkün olan en uygun yanıtı üretmek için önceden öğrendiği bilgilerden yararlanıyor. Bu süreci, bir aşçının malzemeleri bir araya getirerek yemeğe dönüştürmesine benzetebiliriz.
Geri Bildirimle Tatlandırma: LLM’ler, kullanıcılar ve geliştiricilerden aldıkları geri bildirimlerle daima kendini geliştiriyor. Modelin performansı, sürekli geri bildirim döngüsü sayesinde artıyor ve modelin doğruluğuyla kullanışlılığı, her yeni sürümde biraz daha gelişiyor, ortaya çıkan “yemeğin” lezzeti de artmış oluyor.

Şimdi gelelim, LLM’lerin birbirinden nasıl farkları olduğuna. Her biri için ayrı ayrı yazılar hazırlanabilecek kadar kapsamlı olan LLM’lerin temel özelliklerini ve özgün yönlerini bir tablo şeklinde paylaşalım.

LLM	Geliştirici	Parametreler	Erişim	Teknik Özellikler ve Kullanım Alanları	Özgün Yönleri
GPT-4	OpenAI	1,76 trilyon	API, ChatGPT Plus	Metin ve görüntü işleyebilme yeteneği, doğruluk ve güvenlik açısından iyileştirilmiş, Microsoft Azure AI süper bilgisayarları üzerinde eğitilmiş	%40 daha doğru, %82 daha az izin verilmeyen içerik üretimi, çok modlu model desteği
GPT-4o	OpenAI	Bilinmiyor	API, ChatGPT (ücretsiz ve ücretli)	Metin, ses ve görüntü işleyebilme yeteneği, hızlı ve doğru çeviri, gelişmiş ses tanıma, gerçek zamanlı çeviri	%50 daha ucuz, 2 kat daha hızlı, belirli ses tonları ile dolandırıcılık risklerini azaltma, Google Drive Microsoft OneDrive entegrasyonu
Gemini	Google	1,8 milyar, 3,25 milyar (Nano), diğerleri bilinmiyor	API (ücretsiz ve ücretli)	Çok modlu yapay zekâ modelleri, metin, görüntü, ses, video ve kod işleyebilme, Google uygulamalarında yapay zekâ özellikleri	Google Docs ve Gmail’de yapay zekâ entegrasyonu, Google’ın chatbot’u Gemini desteği
Llama 3	Meta	8 milyar, 70 milyar, 400 milyar	Henüz çıkmadı	Araştırma ve ticari kullanımlar için ideal, çeşitli görevlerde yüksek performans	Meta’nın uygulamalarında yapay zekâ entegrasyonu, açık kaynaklı
Vicuna	LMSYS Org	7 milyar, 13 milyar, 33 milyar	Açık	Meta’nın Llama modeline dayalı, yapay zekâ araştırmalarında yaygın olarak kullanılır, Chatbot Arena benchmark’ında rol oynar	Chatbot geliştirme ve yapay zekâ araştırmaları
Claude 3	Anthropic	Bilinmiyor	API	Haiku, Sonnet ve Opus modelleri, güvenli ve yardımcı yapay zekâ, kurumsal kullanıcılar için optimize	Güvenli kullanım, veriler üzerinde ince ayar yapabilme
Stable Beluga ve StableLM 2	Stability AI	1,6 milyar, 7 milyar, 12 milyar, 13 milyar, 70 milyar	Açık	Yapay zekâ tabanlı görüntü oluşturma yetenekleri, çeşitli parametre boyutları	Stable Diffusion ile tanınır, Llama modeline dayalı
Coral	Cohere	Bilinmiyor	API	İşletme kullanıcıları için tasarlanmış, model versiyonlarını veriler üzerinde eğitme imkânı	Belirli sorgulara doğru yanıt verebilir
Falcon	Technology Innovation Institute	1,3 milyar, 7,5 milyar, 40 milyar, 180 milyar	Açık	Yüksek performanslı AI benchmark’ları, Apache 2.0 lisansı	Ticari ve araştırma kullanımı için uygun
DBRX	Databricks ve Mosaic	132 milyar	Açık	Mosaic’in MPT-7B ve MPT-30B modellerinin halefi, Meta’nın Llama modeline dayanmaz	Çoğu benchmark’ta önceki nesil kapalı LLM’leri aşar veya eşit performans gösterir
Mixtral 8x7B ve 8x22B	Mistral	45 milyar, 141 milyar	Açık	Alt sistemlerle daha büyük modelleri verimli bir şekilde geride bırakır, Apache 2.0 lisansı	Bulut bilişim platformlarında ve bazı yerel bilgisayar temelli yapay zekâ araçlarında kullanılabilir
XGen-7B	Salesforce	7 milyar	Açık	Güçlü veya popüler bir model değil ama büyük teknoloji şirketlerinin yapay zekâ araçları geliştirebildiğini gösterir	Salesforce’un yapay zekâ ve makine öğrenimi departmanının ürünü
Grok	xAI	Bilinmiyor	Chatbot ve açık (ücretli)	X (eski adıyla Twitter) verileri üzerinde eğitilmiş, Elon Musk’ın kurduğu xAI tarafından geliştirilmiş	Medyada oldukça fazla gündem oldu ve büyük yatırımlar aldı, yapay zekâ modeli ve chatbot olarak bilinir

Siz de teknolojiyi yakından takip ediyor, yapay zekâ uygulamalarından yerel bilgisayarınızda da yararlanmayı hedefliyorsanız, NVIDIA GeForce RTX serisi ekran kartı bulunan, “canavar” gibi bir bilgisayar kullanmanız yararlı olur. Mistral ve LLAMA dil modellerinden yararlanan Chat with RTX ve Stable Diffusion gibi görüntü oluşturma tabanlı yapay zekâ araçlarını, Monster imzalı; Abra, Tulpar ve Semruk serisi oyun bilgisayarlarıyla rahatlıkla kullanabilirsiniz.

Paylaş: