Yapay zeka ajanları adli triyajı hızlandırıyor, ama yeni bir risk getiriyor: halüsinasyon, yani var olmayan bir bulguyu kendinden emin raporlamak. Mahkemeye taşınabilen bir alanda bu kabul edilemez. DFB, ajanları tam da bu noktada sınar.

Yapay Zeka Adli Ajanlar, Halüsinasyon ve Benchmark Neden Şart

Hızlı cevap: Yapay zeka adli ajanları, büyük veri yığınlarında triyajı hızlandırır ve insan uzmanın gözünden kaçanı yakalayabilir. Ama dil modeli tabanlı sistemlerin yapısal bir riski vardır: halüsinasyon, yani var olmayan bir bulguyu kendinden emin biçimde rapor etmek. Adli bilişim gibi mahkemeye taşınan bir alanda bu risk kabul edilemez. DSET Forensics Benchmark, ajanları yalnızca ne bulduklarıyla değil, uydurmaktan ne kadar kaçındıklarıyla sınar.

Yapay zeka adli incelemeye ne katar?

Modern bir vaka yüz binlerce dosya, gigabaytlarca log ve birden çok cihaz içerebilir. Bir yapay zeka ajanı bu hacmi insanın çok ötesinde bir hızla tarayabilir, kalıpları yüzeye çıkarabilir ve çapraz artefakt ipuçlarını birbirine bağlayabilir. Bu, gerçek bir verimlilik sıçramasıdır.

Yeni risk: halüsinasyon

Sorun şu ki, dil modeli tabanlı bir ajan emin olmadığında susmak yerine olası ama yanlış bir cevap üretmeye eğilimlidir. Adli bağlamda bu, var olmayan bir dosyayı kurtardım demek, üzerine yazılmış bir bölgeyi okudum iddia etmek ya da bir tuzağı gerçek delil sanmak anlamına gelir. Klasik deterministik bir araç bu hatayı yapmaz; bir ajan yapabilir. İşte bu yüzden ajanların ayrı bir ölçüye ihtiyacı vardır.

DFB ajanı nasıl sınar?

DFB üç mekanizmayla halüsinasyonu hedef alır:

Soundness cezası: Bir tuzağı ya da imkansız bir kurtarmayı gerçek raporlamak yanlış pozitiftir ve soundness eksenini düşürür.
Çözülemez öğeler: Operasyon Gece Gölgesi vakasının belirli bir alt kümesi gerçekten kurtarılamazdır. Ajana bunların hangileri olduğu söylenmez. Kurtardım demek halüsinasyondur; dürüst bir kurtarılamaz beyanı doğru bir bulgu kadar ödüllendirilir.
Güven kalibrasyonu: Aşırı güvenli yanlış cevaplar ekstra ceza alır. Bu, savunulabilir bilirkişi standardını yansıtır.

Referans ajanımız KAOS, vakada her çözülebilir cevabı gerçek adli prosedürlerle türetir ve imkansız öğeleri dürüstçe beyan eder; bu yüzden tam puana ulaşır ve liderlik tablosunda referans çizgisini belirler.

Dürüstlük bir özellik, bir zafiyet değil

İyi bir adli ajan, bilmediğini bilmelidir. Bir öğenin kurtarmanın ötesinde olduğunu söyleyebilmek, zayıflık değil olgunluktur. DFB bu olgunluğu doğrudan ödüllendirir ve böylece ajan geliştiricilerine net bir hedef verir: hızlı ve etkileyici değil, savunulabilir olun. Benchmark'ın bütününü bu yazıda, akademik temelini metodoloji makalesinde bulabilirsiniz.

SSS

Yapay zeka ajanları adli bilişimde güvenilir mi? Doğru tasarlandığında çok değerlidir, ama halüsinasyon riski ölçülmeden sahaya sürülmemelidir. DFB tam da bu ölçümü sağlar.

Halüsinasyon nasıl cezalandırılır? İmkansızı kurtardığını ya da bir tuzağı gerçek raporlayan ajan yanlış pozitif alır ve soundness'ı düşer.

KAOS nedir? DSET'in otomatik referans adli çözücüsüdür; amiral vakada tam puana ulaşarak referans çizgisini belirler.

Kaynaklar

NIST SP 800-86, adli teknikler kılavuzu: https://csrc.nist.gov/publications/detail/sp/800-86/final
NIST AI Risk Management Framework: https://www.nist.gov/itl/ai-risk-management-framework
MITRE ATT&CK: https://attack.mitre.org/
DFRWS: https://dfrws.org/

Ajanınızın dürüst olup olmadığını kanıtlayın: Operasyon Gece Gölgesi vakasına girin.

Yapay Zeka Adli Ajanlar, Halüsinasyon ve Benchmark Neden Şart

Yapay Zeka Adli Ajanlar, Halüsinasyon ve Benchmark Neden Şart

Yapay zeka adli incelemeye ne katar?

Yeni risk: halüsinasyon

DFB ajanı nasıl sınar?

Dürüstlük bir özellik, bir zafiyet değil

SSS

Kaynaklar

İlgili Yazılar

Yapay Zekâ Kullanan Şirketler İçin Yol Haritası: EU AI Act Madde 4 Uyum Rehberi

İşveren Çalışanın Bilgisayarını İnceleyebilir mi? | DSET

Çalışan Ticari Sır ve Veri Sızdırma: Adli Bilişim İspatı | DSET