Yapay Zeka Veri Zehirlenmesi (Data Poisoning) ve Model Güvenliği: Saldırılar ve Savunma

Hızlı Cevap: Yapay zeka veri zehirlenmesi (data poisoning), bir saldırganın bir modelin eğitim verisine kötü niyetli veri sokarak modeli içeriden bozmasıdır. Sonuç, belirli girdilerde yanlış karar veren, gizli bir arka kapı taşıyan ya da saldırganın istediği gibi davranan bir model olabilir. Bu, geleneksel yazılım güvenliğinden farklı, yapay zekaya özgü bir saldırı sınıfıdır ve birkaç biçimi vardır, eğitim verisi zehirlenmesi, gizli arka kapı yerleştirme, modelin çalınması ya da tersine mühendisliği, ve modeli yanıltan düşmanca örnekler (adversarial examples). Riskleri ağırdır, çünkü zehirlenmiş bir model normal görünür ama kritik bir anda beklenmedik biçimde başarısız olur. Savunma, verinin kaynağını ve bütünlüğünü doğrulamak, modeli düşmanca test etmek (kırmızı takım), çıktıları izlemek ve model tedarik zincirini güvence altına almakla sağlanır.

Yapay zeka, öğrendiği veriyle şekillenir, ve bu onun hem gücü hem en büyük zafiyetidir. Bir saldırgan, modelin gördüğü veriyi ya da modelin kendisini hedef alarak, hiçbir geleneksel güvenlik duvarında görünmeyen bir saldırı yürütebilir. Yapay zeka güvenliğinin genel çerçevesini yapay zeka güvenliği rehberi yazımızda, yapay zekayı saldırgan gibi test etmeyi yapay zeka kırmızı takım, AI red teaming metodolojisi yazımızda anlattık. Bu yazı, modelin en derin zafiyetini, veri ve model güvenliğini ele alır.

Neden yeni bir saldırı sınıfı

Geleneksel yazılımda güvenlik, kodun ne yaptığını denetlemektir. Yapay zekada ise mantık, koda değil öğrenilen veriye gömülüdür. Bu, savunmayı temelden değiştirir. Bir modelin neden belirli bir karar verdiğini her zaman açıklamak kolay değildir, ve bir saldırgan bu belirsizlikten yararlanır. Modeli eğiten veriyi zehirleyerek, modelin davranışını gizlice değiştirebilir, ve bu değişiklik normal testlerde fark edilmeyebilir. İşte bu yüzden yapay zeka güvenliği, geleneksel güvenlikten ayrı bir disiplindir.

Saldırı biçimleri

Yapay zeka modeline yönelik saldırılar birkaç ana biçimde gelir, ve her biri farklı bir savunma gerektirir.

  • Eğitim verisi zehirlenmesi. Saldırgan, modelin eğitildiği veriye kötü niyetli örnekler ekler. Model bu örneklerden yanlış şeyler öğrenir, örneğin belirli bir girdiyi yanlış sınıflandırır.
  • Arka kapı (backdoor) yerleştirme. Zehirlenmenin sinsi bir biçimi. Model normalde doğru çalışır, ama saldırganın bildiği gizli bir tetikleyici girdi geldiğinde, saldırganın istediği gibi davranır. Bu arka kapı, normal testlerde görünmez.
  • Model çalma ve çıkarma (model extraction). Saldırgan, modele çok sayıda sorgu göndererek onun davranışını kopyalar ya da içindeki hassas bilgiyi (eğitim verisini) çıkarmaya çalışır.
  • Düşmanca örnekler (adversarial examples). Saldırgan, insan gözüne normal görünen ama modeli kandıran, özel olarak hazırlanmış girdiler oluşturur. Örneğin küçük ve fark edilmez bir değişiklik, modelin bir görüntüyü tamamen yanlış sınıflandırmasına yol açabilir.
  • Model tedarik zinciri saldırısı. Hazır indirilen bir modelin ya da bir veri kümesinin, kaynağında zehirlenmiş olması. İndirdiğiniz modele körü körüne güvenmek risklidir.

Bu saldırılar neden tehlikeli

Veri zehirlenmesini tehlikeli yapan, sessiz ve gecikmeli olmasıdır. Zehirlenmiş bir model, günlük kullanımda mükemmel çalışıyor görünebilir, çünkü saldırı yalnızca belirli bir tetikleyici ya da koşulda ortaya çıkar. Bu, bir güvenlik kamerasının yüz tanıma modelini belirli bir kişiyi görmezden gelecek şekilde zehirlemek, bir dolandırıcılık tespit modelini belirli işlemleri kaçıracak şekilde bozmak ya da bir güvenlik modelini belirli saldırıları görmezden gelecek şekilde eğitmek anlamına gelebilir. Model karar verdiği için, ve kararının nedeni her zaman şeffaf olmadığı için, bu tür bir sabotaj uzun süre fark edilmeyebilir.

Saldırı Ne yapar Ne zaman ortaya çıkar
Eğitim verisi zehirlenmesi Modeli yanlış öğretir Belirli girdilerde
Arka kapı Gizli tetikleyiciyle ele geçirir Tetikleyici geldiğinde
Model çıkarma Modeli ya da veriyi çalar Çok sayıda sorguyla
Düşmanca örnek Modeli anlık kandırır Özel hazırlanmış girdide
Tedarik zinciri Kaynakta zehirler Hazır model kullanımında

Savunma, veri kaynağı ve bütünlük

İlk savunma katmanı, modelin öğrendiği veriye güvenmektir. Bunun için verinin kaynağı (provenance) bilinmeli ve bütünlüğü doğrulanmalıdır. Eğitim verisi güvenilir kaynaklardan gelmeli, dış ve denetlenmemiş veri körü körüne modele verilmemelidir. Verideki anormal ya da şüpheli örnekleri tespit etmek için veri denetimi yapılır. Bir modeli ya da veri kümesini dışarıdan indirdiğinizde, kaynağının güvenilir olduğunu doğrulamak, tedarik zinciri saldırısına karşı ilk adımdır. Sızan ve güvenilmez kaynakların risklerini sızan API anahtarları ve sırlar yazımızda da ele aldık.

Savunma, kırmızı takım ve düşmanca test

Bir modelin zehirlenmiş ya da savunmasız olup olmadığını anlamanın yolu, onu bir saldırgan gibi test etmektir. Yapay zeka kırmızı takımı (AI red teaming), modele düşmanca örnekler, arka kapı tetikleyicileri ve manipülasyon denemeleri göndererek onun sınırlarını ve zayıflıklarını ortaya çıkarır. Bu, geleneksel sızma testinin yapay zekaya uyarlanmış halidir, ayrıntısını yapay zeka kırmızı takım metodolojisi ve otonom ajanların denetimini otonom yapay zeka ajanı güvenliği yazılarımızda anlattık. Düzenli düşmanca test, bir zafiyetin kötü niyetli biri tarafından kullanılmadan önce bulunmasını sağlar.

Savunma, izleme ve model yönetimi

Model dağıtıldıktan sonra da savunma sürer. Modelin çıktıları izlenmeli, olağandışı ya da beklenmedik davranışlar tespit edilmelidir. Bir modelin zamanla performansının bozulması ya da tuhaf kararlar vermeye başlaması, bir zehirlenmenin ya da saldırının işareti olabilir. Ayrıca modelin kendisi bir varlık olarak yönetilmelidir, hangi sürümün çalıştığı, nereden geldiği ve nasıl güncellendiği kayıt altında olmalıdır. Bu model yönetişimi, yapay zeka risk yönetiminin bir parçasıdır, çerçevesini yapay zeka risk yönetimi, NIST AI RMF ve ISO 42001 yazımızda anlattık.

RAG ve yerel modellerde veri güvenliği

Kurumlar giderek kendi belgeleriyle çalışan yapay zeka sistemleri (RAG) kuruyor. Bu sistemlerde, modelin beslendiği bilgi tabanı da bir zehirlenme hedefidir. Bir saldırgan, bilgi tabanına kötü niyetli bir belge sokarsa, modelin cevaplarını manipüle edebilir. Bu yüzden RAG ve vektör veritabanının güvenliği ayrı bir konudur, ayrıntısını RAG ve vektör veritabanı güvenliği yazımızda ele aldık. Yerel modellerin genel güvenliğini ise kendi sunucunuzda yerel LLM rehberi yazımızda anlattık.

Gerçek dünya senaryoları

Veri zehirlenmesinin soyut bir tehdit olmadığını görmek için, farklı sistemlerde nasıl karşımıza çıkabileceğine bakalım.

  • Dolandırıcılık tespiti. Bir bankanın dolandırıcılık tespit modeli, belirli işlem desenlerini kaçıracak şekilde zehirlenirse, saldırgan o desenlerle işlem yaparak yakalanmadan para hareketi yapabilir.
  • Güvenlik modeli. Bir saldırı tespit modeli, belirli saldırı türlerini görmezden gelecek şekilde eğitilirse, saldırgan o türden saldırılarla fark edilmeden içeri girebilir.
  • İçerik ve spam filtresi. Bir spam ya da içerik denetim modeli zehirlenirse, belirli zararlı içerikler filtreyi geçebilir.
  • Öneri ve sıralama. Bir öneri sistemi, belirli içerikleri yapay olarak öne çıkaracak ya da bastıracak şekilde manipüle edilebilir.

Her senaryoda ortak nokta şudur, model normal görünür ama saldırganın istediği belirli durumda beklendiği gibi çalışmaz. Bu sessiz sabotaj, veri zehirlenmesini bu kadar tehlikeli yapan şeydir.

Dış veriyle eğitim ve tedarik zinciri riski

Modern yapay zeka geliştirme, nadiren sıfırdan başlar. Çoğu kurum, hazır bir temel modeli alır ve kendi verisiyle uyarlar, ya da dış kaynaklardan veri toplar. Bu pratiktir ama her dış kaynak bir risk noktasıdır. İndirdiğiniz temel modelin kaynağında zehirlenmiş olabileceği, topladığınız verinin manipüle edilmiş olabileceği ve kullandığınız bir dış kütüphanenin güvenilmez olabileceği ihtimalleri, model tedarik zinciri güvenliğini zorunlu kılar. Bir modeli ya da veri kümesini kullanmadan önce kaynağını doğrulamak, tıpkı bir yazılım bağımlılığını doğrulamak gibi, temel bir güvenlik adımıdır. Yazılım tarafında bunun karşılığını kaynak kodu güvenlik denetimi, SAST, DAST, SCA yazımızda anlattık.

Model güvenliği kontrol listesi

Bir yapay zeka modelini üretime almadan önce şu maddeleri doğrulayın.

  • Eğitim verisinin kaynağı biliniyor ve güvenilir mi?
  • Veride anormal ya da şüpheli örnekler için denetim yapıldı mı?
  • Model, düşmanca örneklere ve arka kapı tetikleyicilerine karşı test edildi mi (kırmızı takım)?
  • Kullanılan hazır model ve veri kümelerinin kaynağı doğrulandı mı?
  • Modelin çıktıları üretimde izleniyor mu?
  • Hangi model sürümünün çalıştığı ve nereden geldiği kayıt altında mı?
  • Modele erişim yetkiyle sınırlı mı, aşırı sorgu (model çıkarma) izleniyor mu?

Bu listeyi tamamlayan bir model, veri zehirlenmesine karşı çok daha dayanıklıdır. DSET olarak yapay zeka sistemlerini bu güvenlik çerçevesiyle denetliyoruz.

Gizlilik koruyan eğitim ve federe öğrenme

Veri zehirlenmesi riskiyle mücadele ederken, aynı zamanda eğitim verisinin gizliliğini de korumak gerekir. Burada iki kavram öne çıkar. Federe öğrenme (federated learning), modeli veriyi merkeze toplamadan, verinin bulunduğu yerde eğitmektir, böylece hassas veri hiç dışarı çıkmaz. Diferansiyel mahremiyet (differential privacy) ise, eğitim sürecine kontrollü gürültü ekleyerek, modelin tek bir kişinin verisini ezberlemesini ve sızdırmasını engeller.

Bu teknikler güçlüdür ama kendi güvenlik gerekleri vardır. Federe öğrenmede, katkıda bulunan taraflardan biri veriyi zehirlemeye çalışabilir, bu yüzden katkıların doğrulanması gerekir. Gizliliği koruyan eğitim, gizlilik ile güvenlik arasında dikkatli bir denge ister. Bu dengeyi doğru kurmak, uzmanlık gerektiren bir tasarım işidir.

Yapay zeka güvenliği yaşam döngüsünün neresinde

Veri zehirlenmesine karşı savunma, tek bir anda değil, yapay zekanın tüm yaşam döngüsünde uygulanır. Veri toplama aşamasında kaynak doğrulanır. Eğitim aşamasında veri denetlenir ve gizlilik korunur. Test aşamasında model düşmanca test edilir. Dağıtım aşamasında erişim sınırlanır. Ve üretimde çıktılar izlenir. Güvenliği yalnızca sona bırakmak, en yaygın hatadır, oysa her aşama bir savunma fırsatıdır. Bu bütünsel yaklaşım, yapay zeka risk yönetiminin özüdür, çerçevesini yapay zeka risk yönetimi, NIST AI RMF ve ISO 42001 yazımızda anlattık.

Sıkça Sorulan Sorular

Veri zehirlenmesi sadece büyük yapay zeka şirketlerini mi ilgilendirir? Hayır. Kendi modelini eğiten ya da kendi belgeleriyle bir RAG kuran her kurum risk altındadır. Hazır bir model indirip kullanmak bile tedarik zinciri riski taşır.

Zehirlenmiş bir modeli nasıl anlarım? Normal testlerde görünmeyebilir. Bunun için düşmanca test (kırmızı takım), çıktı izleme ve verinin kaynağını doğrulama gerekir. Modelin belirli girdilerde tuhaf davranması bir işaret olabilir.

Hazır indirilen modeller güvenli mi? Güvenilir kaynaklardan gelen modeller genelde güvenlidir, ama körü körüne güvenmek risklidir. Kaynağı doğrulamak ve modeli düşmanca test etmek iyi bir uygulamadır.

Düşmanca örnek nedir? İnsan gözüne normal görünen ama modeli kandırmak için özel hazırlanmış bir girdidir. Küçük ve fark edilmez bir değişiklik, modelin tamamen yanlış karar vermesine yol açabilir.

Kaynaklar

Yapay zeka modellerinizi veri zehirlenmesine karşı denetlemek, düşmanca test etmek ve güvenli bir yapay zeka altyapısı kurmak için DSET ile iletişime geçin.