Yapay Zekâ Güvenliği Rehberi: AI, LLM, Ajan ve Trade Güvenliğine Kapsamlı Bakış
Yapay zekâ güvenliğinin tam haritası: otonom AI ajanı güvenliği, LLM prompt injection ve jailbreak, AI kırmızı takım, trade AI güvenliği, AI risk yönetimi (NIST AI RMF, ISO 42001, EU AI Act), otomatik zafiyet tarama, akıllı sözleşme denetimi ve doğrulanmış zafiyet. Her konunun derin rehberine bağlanan merkez sayfa ve KAOS yerli AI güvenlik motoru.
Yapay zekâ artık laboratuvar demosu değil. Müşteri hizmetlerinde çalışan LLM asistanları, kendi başına karar verip işlem yapan otonom ajanlar, borsada gece gündüz emir gönderen trading botları, kod tabanını tarayan güvenlik araçları: hepsi bugün canlı üretim ortamlarında, gerçek parayla ve gerçek verilerle çalışıyor. Bir şey üretime girdiğinde ise hep aynı şey olur. Birileri onu kırmaya çalışır.
Sorun şu ki yapay zekâ sistemleri klasik yazılımdan farklı bir saldırı yüzeyi açar. Bir LLM'in "girdisi" ile "kodu" arasındaki sınır bulanıktır, çünkü modele verdiğiniz metin hem veri hem talimattır. Otonom bir ajan, bir API anahtarına ve bir cüzdana erişebildiği anda, tek bir manipüle edilmiş mesajla zarar verebilecek bir aktöre dönüşür. Bu yüzden yapay zekâ güvenliği, ne sadece klasik uygulama güvenliği ne de sadece model eğitimiyle ilgili akademik bir konudur. İkisinin kesişiminde duran, hızla olgunlaşan kendine özgü bir disiplindir.
Bu rehber, 2003'ten beri Ankara Hacettepe Teknokent'te siber güvenlik, veri kurtarma ve dijital adli bilişim yapan DSET'in alanın tamamını haritalayan kapsamlı kılavuzudur. Aşağıdaki her başlık, konuyu yeterince derinlemesine açıklar ve o konudaki ayrıntılı DSET makalesine yönlendirir. Kendi egemen yapay zekâ güvenlik motorumuz KAOS'u nasıl bu sorunlara çözüm olarak geliştirdiğimizi de paylaşacağız.
Hızlı Cevap
Yapay zekâ güvenliği, üretimde çalışan yapay zekâ sistemlerini (LLM'ler, otonom ajanlar, trading botları, AI destekli araçlar) saldırıdan, manipülasyondan ve kötüye kullanımdan koruma disiplinidir. Temel sütunları şunlardır: ajan güvenliği ve yetki sınırlama, prompt injection ve jailbreak savunması, yapay zekâ kırmızı takım denetimi, model ve veri bütünlüğü, ve NIST AI RMF ile EU AI Act gibi çerçevelere uyum. Klasik uygulama güvenliğinden farkı, modelin girdisinin aynı zamanda talimat olarak yorumlanabilmesi ve sistemin kendi başına eylem yapabilmesidir.
Otonom AI ajanı güvenliği
Otonom ajanlar, yapay zekâ güvenliğinin en keskin ucudur. Bir chatbot yanlış bir cümle söylerse itibar zedelenir; bir ajan yanlış bir araç çağırırsa para gider, veri silinir ya da bir sistem ele geçirilir. Çünkü ajan sadece konuşmaz: dosya okur, API çağırır, kod çalıştırır, e-posta gönderir, bazen cüzdan imzalar. Saldırı yüzeyi, ajanın eline verdiğiniz her yeteneğin toplamıdır.
Buradaki en sinsi risk, dolaylı prompt injection'dır. Ajan bir web sayfasını ya da bir e-postayı "okurken", o içeriğe gömülü gizli bir talimat ajana komut verebilir. Kullanıcı hiçbir şey yazmamıştır ama ajan, üçüncü bir tarafın iradesiyle hareket etmeye başlar. Buna araç zincirleme zafiyetleri, aşırı geniş yetkiler ve denetlenmeyen bellek de eklenince, tek bir ajanın bir kuruluşun içine açılmış bir kapıya dönüşmesi mümkün hale gelir.
Doğru savunma, ajanı bir kullanıcı gibi değil, ayrıcalıklı bir iç aktör gibi modellemekten geçer. Her yetenek için en az ayrıcalık, her eylem için onay kapıları, her dış girdi için güvenilmez veri muamelesi gerekir. Pratikte bu, ajanın çalıştırabileceği komutları beyaz listeyle sınırlamak, hassas işlemleri ikinci bir kontrol katmanından geçirmek ve ajanın belleğine yazılan her şeyi potansiyel saldırı vektörü saymak demektir. Bir ajanın "hatırladığı" bir talimat, oturumlar arası kalıcı bir arka kapıya dönüşebilir.
Denetim tarafında, bir ajanı incelerken önce eksiksiz bir saldırı yüzeyi haritası çıkarmak gerekir: hangi araçlara erişiyor, hangi verileri okuyabiliyor, hangi dış sistemlere bağlanıyor, hangi yetkilerle imza atabiliyor. Bu haritayı çıkarmadan yapılan herhangi bir test eksik kalır. Bu konuyu saldırı yüzeyi çıkarma ve denetim metodolojisiyle birlikte derinlemesine ele aldığımız otonom yapay zekâ ajanı güvenliği ve denetim rehberimizde bulabilirsiniz.
LLM prompt injection ve jailbreak
Prompt injection, yapay zekâ güvenliğinin imza zafiyetidir ve OWASP'ın LLM uygulamaları için yayınladığı Top 10 listesinin başında gelir. Temel mesele basittir: model, sistem talimatınız ile kullanıcının ya da harici bir kaynağın girdiği metni aynı düzlemde işler. Saldırgan, "önceki talimatları yok say" gibi doğrudan bir komutla ya da bir belgeye gömülü dolaylı bir talimatla modelin davranışını ele geçirmeye çalışır.
Jailbreak ise modelin güvenlik kısıtlarını aşıp normalde reddedeceği çıktıları üretmesini sağlama sanatıdır. Rol oyunu, kodlama hileleri, çok adımlı sosyal mühendislik, dil değiştirme: yöntemler sürekli evrilir. Önemli olan şudur: tek bir filtreyle bu sorun çözülmez. Güvenlik, modelin önünde ve arkasında katmanlı olmalıdır. Girdi sınıflandırma, çıktı denetimi, sistem ve kullanıcı içeriğinin ayrıştırılması, hassas eylemlerde insan onayı.
Dolaylı injection özellikle tehlikelidir, çünkü kullanıcı tamamen masumdur. Bir kullanıcı LLM'e "şu sayfayı özetle" dediğinde, o sayfaya gömülmüş görünmez bir talimat modele "bu kullanıcının konuşma geçmişini şu adrese gönder" diyebilir. RAG mimarileri, e-posta okuyan asistanlar ve web tarayan ajanlar bu riske doğrudan açıktır. Savunma, harici içeriği asla güvenilir talimat olarak işlememek ve modele verilen yeteneklerin sonuçlarını sınırlamakla başlar.
Savunmanın gerçekçi tarafı, prompt injection'ın bugün tamamen ortadan kaldırılamayacağını kabul etmektir. Hedef, modelin yanıltılmasını imkânsız kılmak değil, yanıltıldığında verebileceği zararı sınırlamaktır. Saldırı kataloğunu ve katmanlı savunma mimarisini somut örneklerle anlattığımız LLM prompt injection ve jailbreak savunma rehberimiz bu dengeyi nasıl kuracağınızı gösterir.
Yapay zekâ kırmızı takım (AI red teaming)
Bir yapay zekâ sistemini gerçekten güvenli ilan edebilmek için onu kırmaya çalışmak gerekir. Yapay zekâ kırmızı takım çalışması, klasik penetrasyon testinin AI sistemlerine uyarlanmış halidir, ancak hedef bir port ya da bir form değil, modelin davranışıdır. Amaç, prompt injection'dan veri sızıntısına, zararlı içerik üretiminden yetki aşımına kadar tüm başarısızlık modlarını sistematik olarak tetiklemektir.
İyi bir AI red team metodolojisi rastgele saldırı denemesinden ibaret değildir. Tehdit modeli çıkarılır, saldırı hedefleri belirlenir, hem otomatik hem elle yapılan testler birleştirilir ve her bulgu yeniden üretilebilir bir kanıtla belgelenir. MITRE ATLAS gibi çerçeveler, yapay zekâ sistemlerine yönelik gerçek dünyadaki taktik ve teknikleri sınıflandırarak bu çalışmaya ortak bir dil kazandırır.
Kırmızı takım çalışması ayrıca tek seferlik değildir. Model güncellendiğinde, yeni bir yetenek eklendiğinde ya da sistem promptu değiştiğinde davranış da değişir, dolayısıyla daha önce kapatılmış bir açık yeniden açılabilir. Bu yüzden olgun ekipler red team testlerini sürekli entegrasyon hattına bağlar ve her sürümde regresyon olarak çalıştırır. Otomasyon ölçek sağlar, ama yaratıcı saldırı senaryolarını çoğu zaman hâlâ insan zihni üretir; en iyi sonuç ikisinin birleşiminden çıkar.
Kırmızı takımın değeri, üretime çıkmadan önce zayıf noktaları bulmasıdır. Bir saldırgan jailbreak'i bulmadan önce siz bulursunuz, bir dolaylı injection veriyi sızdırmadan önce siz tetiklersiniz. Adım adım metodolojiyi, test senaryolarını ve raporlama yaklaşımını yapay zekâ kırmızı takım (AI red teaming) metodoloji rehberimizde topladık.
Otonom trading botu / trade AI güvenliği
Otonom kripto trading botları, yapay zekâ güvenliğinin parayla en doğrudan kesiştiği yerdir. Bir trade AI'ı, piyasa verisini okur, karar verir ve emir gönderir. Çoğu zaman bir cüzdana ya da borsa API anahtarına erişimi vardır. Burada bir zafiyet, soyut bir veri sızıntısı değil, doğrudan fon kaybıdır.
Riskler birden çok katmanda durur. Birincisi manipülasyon: botun beslendiği fiyat ve sinyal verisi zehirlenebilir, oracle manipülasyonu ya da sahte hacim botu yanlış kararlar vermeye itebilir. İkincisi yetki ve anahtar güvenliği: botun cüzdan anahtarını nerede tuttuğu, ne kadar fon hareket ettirebildiği, hangi işlemleri imzalayabildiği hayati önemdedir. Üçüncüsü, AI tarafının kendisi: bot bir LLM'e dayanıyorsa, manipüle edilmiş bir haber akışı ya da sosyal medya girdisi prompt injection ile kararını saptırabilir.
Bu yüzden trade AI güvenliğinin merkezinde doğrulanabilirlik vardır. Botun her kararı ve her işlemi denetlenebilir, sınırları zorlanamaz, fon çekme yetkisi katı kapılarla çevrelenmiş olmalıdır. Manipülasyon senaryolarını, cüzdan drain risklerini ve doğrulanabilir mimariyi otonom kripto trading botu güvenliği rehberimizde ayrıntılı işledik.
Yapay zekâ risk yönetimi ve uyum
Teknik savunma tek başına yetmez. Bir kuruluş yapay zekâ kullanıyorsa, bunu yönetilebilir, denetlenebilir ve hesap verebilir bir çerçeveye oturtmak zorundadır. İşte burada NIST AI Risk Management Framework, ISO 42001 ve Avrupa Birliği'nin EU AI Act düzenlemesi devreye girer. Bunlar yapay zekâyı yasaklamaz, sorumlu kullanımın kurallarını koyar.
NIST AI RMF, yapay zekâ risklerini yönetmek için gönüllü ama giderek standart haline gelen bir çerçevedir: yönet, haritalandır, ölç, yönet döngüsüyle riskleri sistematik ele alır. ISO 42001, bir yapay zekâ yönetim sistemi kurmak için sertifikalandırılabilir bir uluslararası standarttır. EU AI Act ise yapay zekâ sistemlerini risk seviyelerine göre sınıflandırır ve yüksek riskli kullanımlara zorunlu yükümlülükler getirir. Avrupa'ya hizmet veren ya da Avrupalı veri işleyen Türk kuruluşları için bu doğrudan ilgilidir.
Bu çerçeveler ayrıca birbirini dışlamaz, tamamlar. NIST AI RMF size risk düşünme dilini verir, ISO 42001 bunu sertifikalandırılabilir bir yönetim sistemine dönüştürür, EU AI Act ise yasal zorunluluk katmanını ekler. Türkiye'de KVKK ile zaten tanışık olan kuruluşlar için bu yaklaşım yabancı değildir: aynı veri sorumluluğu mantığı, yapay zekânın karar ve davranış katmanına genişler. Erken kurulan bir yönetişim, sonradan ceza ve itibar riskiyle uğraşmaktan çok daha ucuzdur.
Uyum, bir kâğıt egzersizi değildir. Doğru kurulduğunda, teknik güvenlik çalışmalarınızı bir yönetişim yapısına bağlar ve "güvenli misiniz" sorusuna kanıtla cevap vermenizi sağlar. Bu çerçeveleri Türkiye bağlamında ve pratik adımlarla yapay zekâ risk yönetimi: NIST AI RMF, ISO 42001 ve EU AI Act rehberimizde açıkladık.
AI ile otomatik zafiyet tarama
Yapay zekâ sadece korunması gereken bir şey değildir, aynı zamanda güvenliğin kendisini güçlendiren bir araçtır. AI destekli otomatik zafiyet tarama, klasik tarayıcıların ölçeğini insan analistin muhakemesiyle birleştirme vaadini taşır. Klasik tarayıcılar bilinen imzaları yakalar ama bağlamı anlamaz, çok sayıda yanlış pozitif üretir ve mantık hatalarını kaçırır.
AI katmanı eklendiğinde tarama, sadece "şu pattern var mı" sorusunu aşar. Sistem bulguları sıralayabilir, birbirine bağlayabilir, bir zafiyetin gerçekten sömürülebilir olup olmadığını muhakeme edebilir ve düzeltme önerisi üretebilir. Önemli olan, hızı doğrulukla dengelemektir: bir analisti boğan bir uyarı denizi değil, gerçekten önemli olan, kanıtlanmış bulgular istersiniz.
Burada dikkat edilmesi gereken bir tuzak var: AI taraması kendi başına bir gümüş kurşun değildir. Yanlış kurulmuş bir AI tarayıcı, eski yanlış pozitif problemini daha hızlı üretmekten başka bir işe yaramaz. Değer, AI'ın çıktısının kanıt-tabanlı doğrulamayla birleştiği yerde ortaya çıkar. Yani sistem bir zafiyeti sadece "tahmin etmez", onu güvenli bir şekilde tetikleyip kanıtlar. İnsan analist ise stratejik kararları, kapsam belirlemeyi ve iş bağlamını verir.
Olgun bir zafiyet yönetimi, taramayı tek seferlik bir olay değil, sürekli bir döngü olarak görür. Keşif, doğrulama, önceliklendirme, düzeltme ve yeniden test. AI'ın her aşamada nasıl değer kattığını ve nerede insan denetiminin şart olduğunu yapay zekâ ile otomatik zafiyet tarama ve zafiyet yönetimi rehberimizde ele aldık.
Akıllı sözleşme ve web3 güvenlik denetimi
Web3 dünyası, yapay zekâ güvenliğiyle birden çok noktada kesişir. Bir yandan akıllı sözleşmeler, zincire deploy edildikten sonra değiştirilemeyen ve büyük fon tutan kod parçalarıdır: bir hata milyonlarca dolarlık kayıp demek olabilir. Diğer yandan, giderek daha çok yapay zekâ ajanı zincir üstünde işlem yapıyor, cüzdan yönetiyor ve DeFi protokolleriyle etkileşime giriyor.
Akıllı sözleşme denetimi, reentrancy, yetki hataları, oracle manipülasyonu, tamsayı taşması ve ekonomik mantık açıkları gibi klasik web3 zafiyetlerini yakalamayı hedefler. Burada otomasyon ve insan uzmanlığı birlikte çalışmalıdır: statik analiz araçları geniş tarama yapar, ama gerçek ekonomik istismarları ve protokol mantığındaki incelikleri ortaya çıkarmak çoğu zaman derin manuel inceleme gerektirir.
Yapay zekâ ajanları işin içine girince denetimin kapsamı genişler. Artık sadece sözleşme kodu değil, o sözleşmelerle etkileşen ajanın yetkileri, anahtar yönetimi ve karar süreçleri de denetlenmelidir. Solidity ve EVM düzeyindeki açıklardan ajan-zincir etkileşimine kadar tüm yüzeyi akıllı sözleşme ve web3 güvenlik denetimi rehberimizde topladık.
Doğrulanmış zafiyet, yanlış pozitifsiz test
Güvenlik raporlarının en büyük zaafı yanlış pozitiftir. Bir tarayıcı yüzlerce "olası" bulgu üretir, ekip günlerce bunları eler ve sonunda gerçek riskler gürültünün içinde kaybolur. Bu yüzden modern güvenlik testinin kuzey yıldızı şudur: rapor edilen her bulgu doğrulanmış olmalıdır.
Doğrulama, bir zafiyetin sadece teorik olarak var olduğunu değil, gerçekten sömürülebildiğini kanıtlamaktır. Bunun en güçlü yolu kanıt-tabanlı doğrulamadır: sisteme zararsız ama benzersiz bir işaret (canary) enjekte edip onu geri okuyabiliyorsanız, zafiyet gerçektir. Spekülasyon yoktur. Bu yaklaşım, yanlış pozitifleri pratikte sıfıra indirir, çünkü bir bulgu ya kanıtlanır ya da rapordan düşer.
İyi bir test sürecinin sonu raporda bitmez. Her doğrulanmış bulgu, yeniden üretilebilir bir PoC (kavram kanıtı) ile gelmeli ve somut bir düzeltme önerisiyle (remediation) tamamlanmalıdır. Böylece güvenlik ekibi "şurada bir sorun olabilir" değil, "işte sorun, işte kanıtı, işte çözümü" diyebilir. Bu yaklaşımın bir yan faydası da güvendir: yöneticiye sunduğunuz her bulgu kanıtlıysa, raporunuz tartışılmaz hale gelir ve kaynaklar gerçek risklere yönlendirilir. Yanlış pozitiflerle dolu bir rapor, zamanla tüm güvenlik sürecine olan güveni aşındırır. Bu disiplini doğrulanmış zafiyet ve yanlış pozitifsiz güvenlik testi: PoC ve remediation rehberimizde ayrıntılarıyla anlattık.
KAOS: DSET'in egemen yapay zekâ güvenlik motoru
Yukarıdaki başlıkların hepsi soyut ilkeler değil, DSET'in günlük çalışmasının parçasıdır. Bu çalışmayı taşıyan teknoloji ise kendi geliştirdiğimiz egemen yapay zekâ güvenlik motoru KAOS'tur. KAOS, yüzde yüz yerel çalışan, sıfır harici API kullanan bir sistemdir: hiçbir veri dışarıya çıkmaz, hiçbir bulut servisine bağımlılık yoktur. Egemenlik burada anahtar kelimedir, çünkü güvenlik denetiminin kendisinin güvenli ve gizli olması gerekir.
KAOS, 75'ten fazla uzman ajandan oluşan bir takımdır. Web uygulaması güvenliğinden web3'e, kırmızı takımdan mavi ve mor takıma kadar geniş bir yüzeyi kapsar. Çalışma prensibi üret-doğrula-öğren döngüsüdür: sistem bir saldırı hipotezi üretir, onu kanıt-tabanlı (canary-anchored) doğrulamayla test eder ve sonucu kalıcı olarak öğrenir. Bu sayede raporladığı bulgular yanlış pozitif içermez. KAOS ayrıca bulguları KVKK, ISO 27001 ve NIS2 gibi çerçevelere eşler, böylece teknik sonuç doğrudan uyum diline çevrilir.
Bu yaklaşımın somut bir kanıtı var: KAOS, sektörün zorlu XBOW benchmark'ını tek bir koşuda 104/104 çözdü. Bu, üret-doğrula-öğren mimarisinin gerçek dünyada işe yaradığının göstergesidir. KAOS'un mimarisini ve yeteneklerini KAOS ürün sayfamızda inceleyebilir, nasıl bir yapay zekâ siber güvenlik tarama aracı olduğunu KAOS tanıtım yazımızda okuyabilirsiniz.
SSS
Yapay zekâ güvenliği ile klasik siber güvenlik arasındaki fark nedir? Klasik siber güvenlik ağları, sunucuları ve uygulamaları korur. Yapay zekâ güvenliği bunların üstüne, modelin davranışından kaynaklanan yeni bir saldırı yüzeyini ekler: prompt injection, jailbreak, otonom ajanların yetki aşımı ve veri zehirleme gibi. İkisi birbirini tamamlar; AI sistemleri hem klasik hem AI'a özgü savunma gerektirir.
Prompt injection tamamen önlenebilir mi? Bugünkü teknolojiyle hayır. Modelin girdiyi talimat olarak yorumlama eğilimi mimarisinin doğasında vardır. Gerçekçi hedef, injection'ı imkânsız kılmak değil, başarılı olduğunda verebileceği zararı katmanlı savunma ve sıkı yetki sınırlamasıyla en aza indirmektir.
Otonom bir AI ajanını üretime almadan önce ne yapmalıyım? Ajanın eline verdiğiniz her yeteneği listeleyin ve her birine en az ayrıcalık prensibini uygulayın. Hassas eylemlere insan onayı kapısı koyun, tüm dış girdileri güvenilmez kabul edin ve üretime çıkmadan önce bir yapay zekâ kırmızı takım denetiminden geçirin.
EU AI Act Türkiye'deki şirketleri ilgilendirir mi? Evet, eğer Avrupa Birliği'ndeki kullanıcılara hizmet veriyor ya da AB vatandaşlarının verisini işleyen yapay zekâ sistemleri çalıştırıyorsanız. Düzenleme, sistemin nerede geliştirildiğine değil, etkisinin nerede hissedildiğine bakar. KVKK uyumunuzun yanına bu çerçeveyi de koymanız akıllıca olur.
KAOS bulguları neden yanlış pozitif içermiyor? KAOS her bulguyu kanıt-tabanlı doğrulamadan geçirir. Sisteme zararsız bir canary işareti enjekte eder ve onu geri okuyabilirse zafiyeti kanıtlanmış sayar; aksi halde bulguyu rapordan düşürür. Spekülatif uyarı yerine kanıtlanmış sonuç ürettiği için ekipler gürültüyle değil gerçek risklerle ilgilenir.
Sonuç
Yapay zekâ üretime girdi ve onunla birlikte yeni bir saldırı yüzeyi de geldi. Otonom ajanlar, LLM'ler ve trading botları gerçek değer taşıyor, bu da onları gerçek hedefler haline getiriyor. İyi haber şu ki bu alan haritalanabilir, ölçülebilir ve savunulabilir. Doğru tehdit modeli, katmanlı savunma, kanıtlanmış doğrulama ve sağlam bir uyum çerçevesiyle yapay zekâ sistemlerinizi güvenle çalıştırabilirsiniz.
DSET, 2003'ten beri biriktirdiği siber güvenlik deneyimini egemen yapay zekâ motoru KAOS ile birleştirerek bu yolculukta yanınızdadır. AI ajanınızı denetlemek, bir trading botunu doğrulamak ya da yapay zekâ uyum çerçevenizi kurmak için bizimle iletişime geçebilir ve sunduğumuz tüm çözümleri hizmetlerimiz sayfasından inceleyebilirsiniz.
Kaynaklar
Kimliğinizi doğrulayın
Yetkilendirilmiş erişim alanı. Tüm giriş denemeleri kayıt altına alınır.