Kendi Sunucunuzda Yerel LLM Çalıştırmak: Ollama, Açık Model ve Kurumsal Gizlilik

Hızlı Cevap: Bir büyük dil modelini (LLM) kendi sunucunuzda çalıştırmak, bir zamanlar sadece büyük şirketlerin işiydi, ama artık orta ölçekli bir kurum bile bunu yapabilir. Gereken üç şey vardır. Birincisi donanım, güçlü bir modeli çalıştırmak için bir GPU ve yeterli bellek. İkincisi bir çalıştırma aracı, en yaygını Ollama'dır, bir modeli indirip yerel olarak çalıştırmayı çok kolaylaştırır. Üçüncüsü açık ağırlıklı bir model, Llama, DeepSeek, Mistral, Qwen gibi ücretsiz indirilebilen ve yerelde çalışan modeller. Model kurulduktan sonra, tüm sorgular ve veriler sunucunuzda kalır, internet gerekmez ve hiçbir API ücreti ödemezsiniz. Buna kendi belgelerinizle çalışan bir RAG ekleyerek, kurumunuzun bilgisine dayalı, tamamen gizli bir yapay zeka asistanı kurabilirsiniz.

Yerel yapay zekanın neden gizlilik ve KVKK için kritik olduğunu yerel offline yapay zeka ile siber güvenlik yazımızda, çalışanların bulut yapay zekaya veri sızdırma riskini Shadow AI yazımızda anlattık. Bu yazı ise işin pratik tarafını ele alır, yerel bir LLM'i kurumunuzda nasıl çalıştırırsınız.

1. Donanım, ne gerekir

Yerel bir modelin hızı ve boyutu, donanıma bağlıdır. En kritik bileşen GPU'nun bellek miktarıdır (VRAM), çünkü model bu belleğe sığmalıdır.

  • Küçük modeller (yaklaşık 7 ila 8 milyar parametre). Orta seviye bir GPU ile rahat çalışır, günlük görevlerin çoğu için yeterlidir.
  • Orta modeller (yaklaşık 13 ila 34 milyar). Daha güçlü bir GPU ya da birden fazla GPU gerekir, daha kaliteli sonuç verir.
  • Büyük modeller (70 milyar ve üzeri). Ciddi bir donanım ya da nicemleme gerektirir.

Nicemleme (quantization), modelin bellek ihtiyacını azaltan bir tekniktir, modeli daha düşük hassasiyette saklayarak daha küçük bir GPU'ya sığdırır, kalitede küçük bir kayıpla. Bu sayede daha büyük modeller daha mütevazı donanımda çalışabilir.

2. Çalıştırma aracı, Ollama

Bir modeli sıfırdan çalıştırmak teknik bir işti, ama Ollama gibi araçlar bunu çok basitleştirdi. Ollama, bir modeli tek komutla indirip yerel olarak çalıştırmanızı sağlar, ve bir API sunar, böylece kendi uygulamalarınız bu yerel modele bağlanabilir. Alternatif araçlar da vardır, ama mantık aynıdır, modeli yerelde barındır ve ona yerelden eriş.

3. Açık ağırlıklı model seçimi

Yerelde çalıştırabileceğiniz, ücretsiz indirilebilen birçok güçlü model vardır. Seçim, göreve ve donanıma bağlıdır.

Model ailesi Öne çıktığı alan
Llama Genel amaçlı, geniş ekosistem
DeepSeek Kodlama ve akıl yürütme
Mistral Verimli, küçük donanımda güçlü
Qwen Çok dilli, geniş boyut yelpazesi

Bu modeller açık ağırlıklıdır, yani indirip kendi donanımınızda çalıştırabilirsiniz, kullanımınız dışarıya raporlanmaz. DSET'in KAOS motoru da bu yaklaşımı kullanır, egemen modda yerel bir modelle çalışır ve veri dışarı çıkmaz, ayrıntısını KAOS yapay zeka siber güvenlik tarama aracı yazımızda anlattık.

4. Kendi belgelerinizle RAG

Yerel bir model tek başına genel bilgi verir, ama asıl güç, onu kurumunuzun kendi bilgisiyle beslediğinizde ortaya çıkar. RAG (retrieval augmented generation), modelin bir soruya cevap verirken önce sizin belgelerinizden ilgili bilgiyi bulup kullanmasını sağlar. Belgeleriniz bir vektör veritabanında saklanır, model soru geldiğinde ilgili parçaları getirir ve cevabı bunlara dayandırır. Böylece kurumunuzun politikalarını, ürün bilgisini ya da teknik dokümanını bilen, tamamen yerel bir asistan elde edersiniz. RAG ve vektör veritabanının güvenliğini RAG ve vektör veritabanı güvenliği yazımızda anlattık.

5. Yerel modelin güvenliği

Yerel bir model gizliliği korur ama kendisi de bir sistemdir ve güvenliği gerekir. Modelin API'sine erişimi yetkiyle sınırlayın, yalnızca kurum içi ağdan erişilsin. Modele gelen girdileri denetleyin, çünkü yerel model de prompt injection saldırısına açıktır, bunu LLM prompt injection ve jailbreak savunması yazımızda anlattık. Ve modeli bir uygulamaya bağladığınızda, o uygulamanın da güvenli olduğundan emin olun. Yerel olmak, güvenli olmak demek değildir, güvenlik ayrı bir çalışmadır.

Yerel mi bulut mu, ne zaman hangisi

Yerel LLM her zaman en iyi seçenek değildir, karar işin doğasına bağlıdır. Genel, gizli olmayan ve değişken yükler için bulut esnek olabilir. Ama veri hassassa (müşteri verisi, kaynak kod, güvenlik, adli bilişim), sürekli ve öngörülebilir bir yük varsa, ya da API bağımlılığından kaçınmak istiyorsanız, yerel LLM doğru seçimdir. Birçok kurum ikisini birlikte kullanır, hassas işleri yerelde, genel işleri bulutta.

Adım adım kurulum akışı

Yerel bir LLM'i kurumsal kullanıma hazır hale getirmek, birkaç mantıklı adımdan oluşur.

  1. Donanımı hazırla. Modelin gerektirdiği GPU ve belleğe sahip bir sunucu kur. İşletim sistemi ve GPU sürücülerini güncel tut.
  2. Çalıştırma aracını kur. Ollama gibi bir aracı kurarak modeli barındıracak katmanı hazırla.
  3. Modeli indir. Görevine uygun açık ağırlıklı bir modeli, uygun nicemleme seviyesiyle indir. Küçükten başlamak, donanımı tanımak için iyidir.
  4. Erişimi kur ve kısıtla. Modelin API'sini yalnızca kurum içi ağdan erişilebilir yap, dışarıya açma. Kimlik doğrulama ekle.
  5. Uygulama katmanını bağla. Çalışanların kullanacağı bir arayüz ya da mevcut araçlara entegrasyon kur. Basit bir sohbet arayüzü çoğu ihtiyaç için yeterlidir.
  6. RAG ekle. Kurumsal belgelerini bir vektör veritabanına yükle, model bunlara dayanarak cevap versin.
  7. Güvenlik ve izleme. Girdileri denetle, erişim kayıtlarını tut ve modeli düzenli güncelle.

Bu akış, tek bir kullanıcı için de bir ekip için de aynıdır, fark ölçekte ve donanımdadır.

Nicemleme seviyeleri ve doğru seçim

Nicemleme (quantization), bir modelin ağırlıklarını daha az bit ile saklayarak bellek ihtiyacını azaltır. Bu, daha büyük bir modeli daha küçük bir GPU'ya sığdırmanın anahtarıdır, ama kalitede küçük bir ödünleşim getirir.

Seviye Bellek ihtiyacı Kalite Ne zaman
Yüksek hassasiyet En yüksek En iyi Bol VRAM, kalite önceliği
Orta nicemleme Orta Çok iyi Denge, çoğu kurum için ideal
Agresif nicemleme En düşük Kabul edilebilir Kısıtlı donanım, hız önceliği

Pratikte çoğu kurum için orta seviye bir nicemleme, kalite ile donanım arasında en iyi dengeyi sunar. Model, günlük görevlerin çoğunu neredeyse tam kalitede yaparken, mütevazı bir GPU'ya sığar. Kalitenin kritik olduğu işlerde daha yüksek hassasiyet, hızın öncelikli olduğu işlerde daha agresif nicemleme seçilir.

Performans, eşzamanlılık ve ölçeklendirme

Tek bir kullanıcı için yerel bir model kurmak kolaydır, ama bir ekip aynı anda kullanacaksa performans planlaması gerekir. Birkaç kavram önemlidir. Verim (throughput), modelin saniyede kaç token ürettiğidir ve donanıma bağlıdır. Eşzamanlılık (concurrency), aynı anda kaç isteğe hizmet verilebileceğidir. Çok sayıda kullanıcı varsa, ya daha güçlü bir GPU, ya birden fazla GPU, ya da istekleri sıraya koyan bir katman gerekir.

Ölçeklendirme için iki yol vardır. Dikey ölçeklendirme, daha güçlü tek bir sunucu kurmaktır. Yatay ölçeklendirme, birden fazla sunucuya yük dağıtmaktır. Küçük ve orta kurumlar için tek güçlü bir sunucu genelde yeterlidir, büyük kullanımda yük dengeleme devreye girer. DSET'in KAOS motoru, paralel çalışan uzman ajanlar için bu tür bir ölçeklendirmeyi kullanır.

Maliyet analizi, yerel mi bulut mu

Yerel LLM'in ekonomik olup olmadığı, kullanım yoğunluğuna bağlıdır. Bulut, kullandıkça öde modeliyle çalışır, az kullanımda ucuz ama yoğun ve sürekli kullanımda hızla pahalanır. Yerel çözüm ise önden bir donanım yatırımı ister, ama sonrasında kullanım başına ücret yoktur.

Kabaca mantık şudur, kullanımınız düşük ve değişkense bulut esnek olabilir. Ama kullanımınız yüksek, sürekli ve öngörülebilirse, yerel çözüm belirli bir noktadan sonra toplam sahip olma maliyeti açısından daha ekonomik olur. Buna, gizliliğin ve bağımsızlığın parayla ölçülemeyen değerini eklediğinizde, hassas veri işleyen kurumlar için yerel çözüm çoğu zaman doğru karardır. Yerel yapay zekanın egemenlik ve gizlilik değerini yerel offline yapay zeka ile siber güvenlik yazımızda anlattık.

Bağlam penceresi ve uzun belgelerle çalışma

Bir dil modelinin aynı anda dikkate alabileceği metin miktarına bağlam penceresi (context window) denir. Bu, modelin bir seferde ne kadar bilgi işleyebileceğini belirler. Küçük bir bağlam penceresi, kısa sorular için yeterlidir ama uzun bir belgeyi bütünüyle işleyemez.

Uzun belgelerle çalışmanın yolu, RAG ile birlikte parçalama (chunking) tekniğidir. Belge, anlamlı parçalara bölünür, her parça vektör veritabanında saklanır ve model bir soru geldiğinde yalnızca ilgili parçaları getirir. Böylece bağlam penceresine sığmayan devasa bir belge koleksiyonu bile, model tarafından etkili biçimde kullanılabilir. Bu yaklaşımın güvenliğini RAG ve vektör veritabanı güvenliği yazımızda ele aldık.

İnce ayar mı RAG mı, hangisi ne zaman

Bir yerel modeli kurumunuza özel hale getirmenin iki temel yolu vardır, ve çoğu zaman karıştırılırlar.

RAG (retrieval augmented generation), modele dışarıdan bilgi verir. Belgeleriniz bir veritabanında tutulur, model soru geldiğinde bunları getirip cevabı bunlara dayandırır. Bilgi sık değişiyorsa, güncel kalmalıysa ya da kaynak göstermek istiyorsanız RAG doğru seçimdir. Bilgiyi güncellemek, sadece veritabanını güncellemektir.

İnce ayar (fine tuning), modelin kendisini yeniden eğitir. Modele belirli bir tarz, format ya da uzmanlık kazandırmak istiyorsanız ince ayar uygundur. Ama bilgi değiştiğinde modeli yeniden eğitmek gerekir, bu da RAG'a göre daha maliyetlidir.

Pratikte çoğu kurum için doğru başlangıç RAG'dır, çünkü esnek, güncellenebilir ve daha ucuzdur. İnce ayar, özel bir tarz ya da format gerektiğinde eklenir. İkisi birlikte de kullanılabilir.

Yaygın kurulum hataları, gözlemlenebilirlik ve bakım

Yerel bir yapay zeka kurarken sık yapılan hatalar, önceden bilinirse kolayca önlenir.

  • Modeli dışarıya açık bırakmak. Yerel modelin API'si internetten erişilebilir olursa, gizlilik avantajı kaybolur ve saldırı yüzeyi doğar. Erişim yalnızca kurum içi ağdan olmalıdır.
  • Girdi denetimini atlamak. Yerel model de prompt injection saldırısına açıktır. Girdileri denetlemek şarttır, bunu LLM prompt injection ve jailbreak savunması yazımızda anlattık.
  • Donanımı yanlış boyutlandırmak. Modeli donanıma sığdırmadan seçmek, ya çalışmama ya çok yavaş çalışma demektir. Nicemleme ve doğru model boyutu bu sorunu çözer.
  • Bakımı ihmal etmek. Bir yerel yapay zeka kurulup unutulmaz. Modeli güncel tutmak, performansı izlemek ve erişim kayıtlarını denetlemek gerekir.

Gözlemlenebilirlik, iyi bir yerel kurulumun ayrılmaz parçasıdır. Modelin performansını, hatalarını ve kullanımını izlemek, hem güvenliği hem kaliteyi korur. DSET olarak yerel yapay zeka altyapısını, bu güvenlik ve bakım katmanlarıyla birlikte, uçtan uca kuruyoruz.

Örnek kurulum senaryoları

Doğru kurulum, kurumun büyüklüğüne ve amacına göre değişir. Üç tipik senaryo, kararı somutlaştırır.

  • Küçük ekip. Birkaç kişilik bir ekip, günlük görevler (özetleme, kod yardımı, metin) için tek bir orta seviye GPU'lu sunucuda küçük ya da orta bir model çalıştırır. Kurulum basittir, maliyet düşüktür ve veri dışarı çıkmaz.
  • Orta ölçekli kurum. Onlarca kullanıcı için daha güçlü bir sunucu ya da birden fazla GPU gerekir. Eşzamanlı istekleri yönetmek için bir sıralama katmanı, kurumsal bilgiye erişim için RAG eklenir.
  • Güvenlik laboratuvarı. En hassas kullanım. Model, hava boşluklu (air gapped) bir ağda çalışır, internet hiç yoktur. DSET'in KAOS motoru bu senaryoya göre tasarlanmıştır, egemen modda tamamen yerel çalışır.

Her senaryoda ilke aynıdır, veriyi dışarı çıkarmadan yapay zekanın gücünü kullanmak. Fark, ölçek ve donanımdadır.

Yerel yapay zeka kurulum kontrol listesi

Bir yerel LLM kurulumunu tamamlamadan önce şu maddeleri doğrulayın.

  • Donanım, seçilen modeli (nicemleme dahil) çalıştıracak GPU ve belleğe sahip mi?
  • Model API'si yalnızca kurum içi ağdan mı erişilebilir, dışarıya kapalı mı?
  • Kimlik doğrulama ve erişim yetkilendirmesi kurulu mu?
  • Girdi denetimi (prompt injection savunması) var mı?
  • Kurumsal bilgi için RAG ve vektör veritabanı güvenli biçimde kurulu mu?
  • Erişim kayıtları tutuluyor ve izleniyor mu?
  • Model güncelleme ve bakım süreci tanımlı mı?
  • Bir yapay zeka kullanım politikası ile birlikte mi sunuluyor?

Bu listeyi tamamlayan bir kurulum, hem gizli hem güvenli hem sürdürülebilirdir. DSET olarak bu adımların tamamını, güvenlik katmanlarıyla birlikte kuruyoruz.

Sıkça Sorulan Sorular

Yerel LLM için mutlaka çok pahalı donanım mı gerekir? Hayır. Küçük ve orta modeller, orta seviye bir GPU ile çalışır ve günlük kurumsal görevlerin çoğunu karşılar. Nicemleme ile daha büyük modeller bile mütevazı donanıma sığabilir.

Ollama ücretli mi? Ollama ve çalıştırdığınız açık modeller ücretsiz indirilebilir. Maliyet, donanım ve elektriktir, kullanım başına API ücreti yoktur.

Yerel model verimi bulut kadar iyi mi? En büyük bulut modelleri önde olabilir, ama açık modeller birçok görev için fazlasıyla yeterlidir ve hassas veri söz konusuysa gizlilik güçten önce gelir.

Kendi belgelerimle nasıl çalıştırırım? RAG ile. Belgeleriniz bir vektör veritabanına yüklenir, model soru geldiğinde ilgili parçaları getirip cevabı bunlara dayandırır, tüm bu işlem yerelde olur.

Kaynaklar

Kurumunuza yerel LLM, RAG ve güvenli yapay zeka altyapısı kurmak için DSET ile iletişime geçin.