Yapay Zeka Veri Zehirlenmesi (Data Poisoning) ve Model Güvenliği: Saldırılar ve Savunma
Bir yapay zeka modeli, öğrendiği veri kadar iyidir, ve bir saldırgan o veriyi zehirleyerek modeli içeriden bozabilir. Veri zehirlenmesi, arka kapı yerleştirme, model çalma ve düşmanca örnekler, yapay zekaya özgü yeni bir saldırı sınıfıdır. Bu saldırıların nasıl çalıştığını, gerçek risklerini ve veri kaynağı doğrulama, kırmızı takım ve izleme ile nasıl savunulacağını MITRE ATLAS ve OWASP referanslarıyla kaynaklı anlattık.
Yapay Zeka Veri Zehirlenmesi (Data Poisoning) ve Model Güvenliği: Saldırılar ve Savunma
Hızlı Cevap: Yapay zeka veri zehirlenmesi (data poisoning), bir saldırganın bir modelin eğitim verisine kötü niyetli veri sokarak modeli içeriden bozmasıdır. Sonuç, belirli girdilerde yanlış karar veren, gizli bir arka kapı taşıyan ya da saldırganın istediği gibi davranan bir model olabilir. Bu, geleneksel yazılım güvenliğinden farklı, yapay zekaya özgü bir saldırı sınıfıdır ve birkaç biçimi vardır, eğitim verisi zehirlenmesi, gizli arka kapı yerleştirme, modelin çalınması ya da tersine mühendisliği, ve modeli yanıltan düşmanca örnekler (adversarial examples). Riskleri ağırdır, çünkü zehirlenmiş bir model normal görünür ama kritik bir anda beklenmedik biçimde başarısız olur. Savunma, verinin kaynağını ve bütünlüğünü doğrulamak, modeli düşmanca test etmek (kırmızı takım), çıktıları izlemek ve model tedarik zincirini güvence altına almakla sağlanır.
Yapay zeka, öğrendiği veriyle şekillenir, ve bu onun hem gücü hem en büyük zafiyetidir. Bir saldırgan, modelin gördüğü veriyi ya da modelin kendisini hedef alarak, hiçbir geleneksel güvenlik duvarında görünmeyen bir saldırı yürütebilir. Yapay zeka güvenliğinin genel çerçevesini yapay zeka güvenliği rehberi yazımızda, yapay zekayı saldırgan gibi test etmeyi yapay zeka kırmızı takım, AI red teaming metodolojisi yazımızda anlattık. Bu yazı, modelin en derin zafiyetini, veri ve model güvenliğini ele alır.
Neden yeni bir saldırı sınıfı
Geleneksel yazılımda güvenlik, kodun ne yaptığını denetlemektir. Yapay zekada ise mantık, koda değil öğrenilen veriye gömülüdür. Bu, savunmayı temelden değiştirir. Bir modelin neden belirli bir karar verdiğini her zaman açıklamak kolay değildir, ve bir saldırgan bu belirsizlikten yararlanır. Modeli eğiten veriyi zehirleyerek, modelin davranışını gizlice değiştirebilir, ve bu değişiklik normal testlerde fark edilmeyebilir. İşte bu yüzden yapay zeka güvenliği, geleneksel güvenlikten ayrı bir disiplindir.
Saldırı biçimleri
Yapay zeka modeline yönelik saldırılar birkaç ana biçimde gelir, ve her biri farklı bir savunma gerektirir.
- Eğitim verisi zehirlenmesi. Saldırgan, modelin eğitildiği veriye kötü niyetli örnekler ekler. Model bu örneklerden yanlış şeyler öğrenir, örneğin belirli bir girdiyi yanlış sınıflandırır.
- Arka kapı (backdoor) yerleştirme. Zehirlenmenin sinsi bir biçimi. Model normalde doğru çalışır, ama saldırganın bildiği gizli bir tetikleyici girdi geldiğinde, saldırganın istediği gibi davranır. Bu arka kapı, normal testlerde görünmez.
- Model çalma ve çıkarma (model extraction). Saldırgan, modele çok sayıda sorgu göndererek onun davranışını kopyalar ya da içindeki hassas bilgiyi (eğitim verisini) çıkarmaya çalışır.
- Düşmanca örnekler (adversarial examples). Saldırgan, insan gözüne normal görünen ama modeli kandıran, özel olarak hazırlanmış girdiler oluşturur. Örneğin küçük ve fark edilmez bir değişiklik, modelin bir görüntüyü tamamen yanlış sınıflandırmasına yol açabilir.
- Model tedarik zinciri saldırısı. Hazır indirilen bir modelin ya da bir veri kümesinin, kaynağında zehirlenmiş olması. İndirdiğiniz modele körü körüne güvenmek risklidir.
Bu saldırılar neden tehlikeli
Veri zehirlenmesini tehlikeli yapan, sessiz ve gecikmeli olmasıdır. Zehirlenmiş bir model, günlük kullanımda mükemmel çalışıyor görünebilir, çünkü saldırı yalnızca belirli bir tetikleyici ya da koşulda ortaya çıkar. Bu, bir güvenlik kamerasının yüz tanıma modelini belirli bir kişiyi görmezden gelecek şekilde zehirlemek, bir dolandırıcılık tespit modelini belirli işlemleri kaçıracak şekilde bozmak ya da bir güvenlik modelini belirli saldırıları görmezden gelecek şekilde eğitmek anlamına gelebilir. Model karar verdiği için, ve kararının nedeni her zaman şeffaf olmadığı için, bu tür bir sabotaj uzun süre fark edilmeyebilir.
| Saldırı | Ne yapar | Ne zaman ortaya çıkar |
|---|---|---|
| Eğitim verisi zehirlenmesi | Modeli yanlış öğretir | Belirli girdilerde |
| Arka kapı | Gizli tetikleyiciyle ele geçirir | Tetikleyici geldiğinde |
| Model çıkarma | Modeli ya da veriyi çalar | Çok sayıda sorguyla |
| Düşmanca örnek | Modeli anlık kandırır | Özel hazırlanmış girdide |
| Tedarik zinciri | Kaynakta zehirler | Hazır model kullanımında |
Savunma, veri kaynağı ve bütünlük
İlk savunma katmanı, modelin öğrendiği veriye güvenmektir. Bunun için verinin kaynağı (provenance) bilinmeli ve bütünlüğü doğrulanmalıdır. Eğitim verisi güvenilir kaynaklardan gelmeli, dış ve denetlenmemiş veri körü körüne modele verilmemelidir. Verideki anormal ya da şüpheli örnekleri tespit etmek için veri denetimi yapılır. Bir modeli ya da veri kümesini dışarıdan indirdiğinizde, kaynağının güvenilir olduğunu doğrulamak, tedarik zinciri saldırısına karşı ilk adımdır. Sızan ve güvenilmez kaynakların risklerini sızan API anahtarları ve sırlar yazımızda da ele aldık.
Savunma, kırmızı takım ve düşmanca test
Bir modelin zehirlenmiş ya da savunmasız olup olmadığını anlamanın yolu, onu bir saldırgan gibi test etmektir. Yapay zeka kırmızı takımı (AI red teaming), modele düşmanca örnekler, arka kapı tetikleyicileri ve manipülasyon denemeleri göndererek onun sınırlarını ve zayıflıklarını ortaya çıkarır. Bu, geleneksel sızma testinin yapay zekaya uyarlanmış halidir, ayrıntısını yapay zeka kırmızı takım metodolojisi ve otonom ajanların denetimini otonom yapay zeka ajanı güvenliği yazılarımızda anlattık. Düzenli düşmanca test, bir zafiyetin kötü niyetli biri tarafından kullanılmadan önce bulunmasını sağlar.
Savunma, izleme ve model yönetimi
Model dağıtıldıktan sonra da savunma sürer. Modelin çıktıları izlenmeli, olağandışı ya da beklenmedik davranışlar tespit edilmelidir. Bir modelin zamanla performansının bozulması ya da tuhaf kararlar vermeye başlaması, bir zehirlenmenin ya da saldırının işareti olabilir. Ayrıca modelin kendisi bir varlık olarak yönetilmelidir, hangi sürümün çalıştığı, nereden geldiği ve nasıl güncellendiği kayıt altında olmalıdır. Bu model yönetişimi, yapay zeka risk yönetiminin bir parçasıdır, çerçevesini yapay zeka risk yönetimi, NIST AI RMF ve ISO 42001 yazımızda anlattık.
RAG ve yerel modellerde veri güvenliği
Kurumlar giderek kendi belgeleriyle çalışan yapay zeka sistemleri (RAG) kuruyor. Bu sistemlerde, modelin beslendiği bilgi tabanı da bir zehirlenme hedefidir. Bir saldırgan, bilgi tabanına kötü niyetli bir belge sokarsa, modelin cevaplarını manipüle edebilir. Bu yüzden RAG ve vektör veritabanının güvenliği ayrı bir konudur, ayrıntısını RAG ve vektör veritabanı güvenliği yazımızda ele aldık. Yerel modellerin genel güvenliğini ise kendi sunucunuzda yerel LLM rehberi yazımızda anlattık.
Gerçek dünya senaryoları
Veri zehirlenmesinin soyut bir tehdit olmadığını görmek için, farklı sistemlerde nasıl karşımıza çıkabileceğine bakalım.
- Dolandırıcılık tespiti. Bir bankanın dolandırıcılık tespit modeli, belirli işlem desenlerini kaçıracak şekilde zehirlenirse, saldırgan o desenlerle işlem yaparak yakalanmadan para hareketi yapabilir.
- Güvenlik modeli. Bir saldırı tespit modeli, belirli saldırı türlerini görmezden gelecek şekilde eğitilirse, saldırgan o türden saldırılarla fark edilmeden içeri girebilir.
- İçerik ve spam filtresi. Bir spam ya da içerik denetim modeli zehirlenirse, belirli zararlı içerikler filtreyi geçebilir.
- Öneri ve sıralama. Bir öneri sistemi, belirli içerikleri yapay olarak öne çıkaracak ya da bastıracak şekilde manipüle edilebilir.
Her senaryoda ortak nokta şudur, model normal görünür ama saldırganın istediği belirli durumda beklendiği gibi çalışmaz. Bu sessiz sabotaj, veri zehirlenmesini bu kadar tehlikeli yapan şeydir.
Dış veriyle eğitim ve tedarik zinciri riski
Modern yapay zeka geliştirme, nadiren sıfırdan başlar. Çoğu kurum, hazır bir temel modeli alır ve kendi verisiyle uyarlar, ya da dış kaynaklardan veri toplar. Bu pratiktir ama her dış kaynak bir risk noktasıdır. İndirdiğiniz temel modelin kaynağında zehirlenmiş olabileceği, topladığınız verinin manipüle edilmiş olabileceği ve kullandığınız bir dış kütüphanenin güvenilmez olabileceği ihtimalleri, model tedarik zinciri güvenliğini zorunlu kılar. Bir modeli ya da veri kümesini kullanmadan önce kaynağını doğrulamak, tıpkı bir yazılım bağımlılığını doğrulamak gibi, temel bir güvenlik adımıdır. Yazılım tarafında bunun karşılığını kaynak kodu güvenlik denetimi, SAST, DAST, SCA yazımızda anlattık.
Model güvenliği kontrol listesi
Bir yapay zeka modelini üretime almadan önce şu maddeleri doğrulayın.
- Eğitim verisinin kaynağı biliniyor ve güvenilir mi?
- Veride anormal ya da şüpheli örnekler için denetim yapıldı mı?
- Model, düşmanca örneklere ve arka kapı tetikleyicilerine karşı test edildi mi (kırmızı takım)?
- Kullanılan hazır model ve veri kümelerinin kaynağı doğrulandı mı?
- Modelin çıktıları üretimde izleniyor mu?
- Hangi model sürümünün çalıştığı ve nereden geldiği kayıt altında mı?
- Modele erişim yetkiyle sınırlı mı, aşırı sorgu (model çıkarma) izleniyor mu?
Bu listeyi tamamlayan bir model, veri zehirlenmesine karşı çok daha dayanıklıdır. DSET olarak yapay zeka sistemlerini bu güvenlik çerçevesiyle denetliyoruz.
Gizlilik koruyan eğitim ve federe öğrenme
Veri zehirlenmesi riskiyle mücadele ederken, aynı zamanda eğitim verisinin gizliliğini de korumak gerekir. Burada iki kavram öne çıkar. Federe öğrenme (federated learning), modeli veriyi merkeze toplamadan, verinin bulunduğu yerde eğitmektir, böylece hassas veri hiç dışarı çıkmaz. Diferansiyel mahremiyet (differential privacy) ise, eğitim sürecine kontrollü gürültü ekleyerek, modelin tek bir kişinin verisini ezberlemesini ve sızdırmasını engeller.
Bu teknikler güçlüdür ama kendi güvenlik gerekleri vardır. Federe öğrenmede, katkıda bulunan taraflardan biri veriyi zehirlemeye çalışabilir, bu yüzden katkıların doğrulanması gerekir. Gizliliği koruyan eğitim, gizlilik ile güvenlik arasında dikkatli bir denge ister. Bu dengeyi doğru kurmak, uzmanlık gerektiren bir tasarım işidir.
Yapay zeka güvenliği yaşam döngüsünün neresinde
Veri zehirlenmesine karşı savunma, tek bir anda değil, yapay zekanın tüm yaşam döngüsünde uygulanır. Veri toplama aşamasında kaynak doğrulanır. Eğitim aşamasında veri denetlenir ve gizlilik korunur. Test aşamasında model düşmanca test edilir. Dağıtım aşamasında erişim sınırlanır. Ve üretimde çıktılar izlenir. Güvenliği yalnızca sona bırakmak, en yaygın hatadır, oysa her aşama bir savunma fırsatıdır. Bu bütünsel yaklaşım, yapay zeka risk yönetiminin özüdür, çerçevesini yapay zeka risk yönetimi, NIST AI RMF ve ISO 42001 yazımızda anlattık.
Sıkça Sorulan Sorular
Veri zehirlenmesi sadece büyük yapay zeka şirketlerini mi ilgilendirir? Hayır. Kendi modelini eğiten ya da kendi belgeleriyle bir RAG kuran her kurum risk altındadır. Hazır bir model indirip kullanmak bile tedarik zinciri riski taşır.
Zehirlenmiş bir modeli nasıl anlarım? Normal testlerde görünmeyebilir. Bunun için düşmanca test (kırmızı takım), çıktı izleme ve verinin kaynağını doğrulama gerekir. Modelin belirli girdilerde tuhaf davranması bir işaret olabilir.
Hazır indirilen modeller güvenli mi? Güvenilir kaynaklardan gelen modeller genelde güvenlidir, ama körü körüne güvenmek risklidir. Kaynağı doğrulamak ve modeli düşmanca test etmek iyi bir uygulamadır.
Düşmanca örnek nedir? İnsan gözüne normal görünen ama modeli kandırmak için özel hazırlanmış bir girdidir. Küçük ve fark edilmez bir değişiklik, modelin tamamen yanlış karar vermesine yol açabilir.
Kaynaklar
- MITRE ATLAS, yapay zeka sistemlerine yönelik saldırı teknikleri: https://atlas.mitre.org/
- OWASP Machine Learning Security Top 10: https://owasp.org/www-project-machine-learning-security-top-10/
- NIST, Adversarial Machine Learning (AI 100-2): https://csrc.nist.gov/pubs/ai/100/2/e2023/final
- NIST AI Risk Management Framework: https://www.nist.gov/itl/ai-risk-management-framework
Yapay zeka modellerinizi veri zehirlenmesine karşı denetlemek, düşmanca test etmek ve güvenli bir yapay zeka altyapısı kurmak için DSET ile iletişime geçin.
Kimliğinizi doğrulayın
Yetkilendirilmiş erişim alanı. Tüm giriş denemeleri kayıt altına alınır.