Yapay Zeka

Yapay Zeka Deepfake Video Parmak İzlerini Algılıyor

Özet: Yeni bir çalışma, yapay zeka tarafından oluşturulan videoların tespit edilmesindeki zorlukları ve ilerlemeleri vurguluyor. Araştırmacılar, geleneksel dijital medya algılama yöntemlerinin, OpenAI’nin Sora oluşturucusu tarafından oluşturulanlar gibi yapay zeka tarafından üretilen videolara karşı başarısız olduğunu buldu.

Ekip, bir makine öğrenimi algoritması kullanarak, çeşitli yapay zeka video oluşturucularının bıraktığı benzersiz dijital “parmak izlerini” başarıyla belirledi. Yapay zeka tarafından oluşturulan içeriğin potansiyel olarak yanlış bilgilendirme için kullanılabileceği ve medya bütünlüğünü korumak için güçlü tespit teknikleri gerektirebileceği için bu gelişme çok önemlidir.

Ana unsurlar:

  1. Geleneksel sentetik görüntü dedektörleri, yapay zeka tarafından oluşturulan videolarla mücadele ediyor ve manipüle edilmiş görüntülerle karşılaştırıldığında verimlilik önemli ölçüde düşüyor.
  2. Drexel’in ekibi, farklı yapay zeka video oluşturucularının (henüz halka açık olmayanlar bile) dijital izlerini tanıyacak şekilde uyum sağlayabilecek bir makine öğrenimi yaklaşımı geliştirdi.
  3. Makine öğrenimi modeli, yeni bir yapay zeka oluşturucuya minimum düzeyde maruz kaldıktan sonra sentetik videoları tanımlamada %98’e kadar doğruluk elde edebilir.

Kaynak: Drexel Üniversitesi

Şubat ayında OpenAI, üretken yapay zeka programı Sora tarafından oluşturulan videoları yayınladı. Basit metin yönlendirmeleriyle üretilen çarpıcı derecede gerçekçi içerik, yapay zeka teknolojisinin yeteneklerini gösteren şirketler için en son atılımdır.

Ayrıca, üretken yapay zekanın büyük ölçekte yanıltıcı ve aldatıcı içerik oluşturulmasına olanak sağlama potansiyeline ilişkin endişeleri de artırdı.

Bu, bilgisayarda oluşturulan yüzleri gösterir.
Bu, programın hem bilinen kaynaklardan gelen deepfake’leri tespit etmede hem de daha önce bilinmeyen bir program tarafından oluşturulanları tespit etmede usta olmasını sağlar. Kredi: Nörobilim Haberleri

Drexel Üniversitesi’nin yeni araştırmasına göre, manipüle edilmiş dijital medyayı tespit etmeye yönelik mevcut yöntemler, yapay zeka tarafından oluşturulan videoya karşı etkili olmayacak; ancak makine öğrenimi yaklaşımı bu sentetik yaratımların maskesini düşürmenin anahtarı olabilir.

Haziran ayında IEEE Bilgisayarlı Görü ve Örüntü Tanıma Konferansında sunum için kabul edilen bir makalede, Drexel Mühendislik Fakültesi Multimedya ve Bilgi Güvenliği Laboratuvarı’ndan araştırmacılar, mevcut sentetik görüntü algılama teknolojisinin şimdiye kadar yapay zeka tarafından oluşturulan videoyu tespit etmede başarısız olmasına rağmen, Stable Video Diffusion, Video-Crafter ve Cog-Video gibi birçok farklı video oluşturucunun dijital “parmak izlerini” çıkarmak ve tanımak üzere eğitilebilen bir makine öğrenimi algoritmasıyla başarıya ulaştık.

Ek olarak, videolarının yalnızca birkaç örneğini inceledikten sonra bu algoritmanın yeni yapay zeka oluşturucularını tespit etmeyi öğrenebildiğini gösterdiler.

Drexel Mühendislik Fakültesi’nde doçent ve MISL direktörü olan PhD Matthew Stamm, “Kötü aktörler tarafından oluşturulan sahtekarlıkları tespit etmek için iyi bir sistem ortaya çıkmadan önce bu video teknolojisinin piyasaya sürülmesi biraz sinir bozucu” dedi.

“Sorumlu şirketler tanımlayıcıları ve filigranları yerleştirmek için ellerinden geleni yapacaktır, ancak teknoloji kamuya açık hale geldiğinde onu aldatma amacıyla kullanmak isteyenler bir yolunu bulacaktır. Bu nedenle, sentetik videoları medyaya özgü kalıplardan ve özelliklerden tespit edecek teknolojiyi geliştirerek onların bir adım önünde olmaya çalışıyoruz.”

Deepfake Dedektifleri

Stamm’ın laboratuvarı, on yılı aşkın bir süredir dijital olarak manipüle edilmiş görüntü ve videoları işaretleme çabalarında aktifti, ancak düzenleme teknolojisi siyasi yanlış bilgileri yaymak için kullanıldığından grup özellikle geçen yıl meşguldü.

Yakın zamana kadar bu manipülasyonlar, piksel ekleyen, kaldıran veya değiştiren fotoğraf ve video düzenleme programlarının ürünüydü; veya video karelerini yavaşlatın, hızlandırın veya kırpın. Bu düzenlemelerin her biri benzersiz bir dijital kırıntı izi bırakıyor ve Stamm’ın laboratuvarı bunları bulup takip edecek şekilde kalibre edilmiş bir araç paketi geliştirdi.

Laboratuvarın araçları, kısıtlı sinir ağı adı verilen karmaşık bir makine öğrenimi programını kullanıyor. Bu algoritma, başlangıçtan itibaren manipülasyonun önceden belirlenmiş belirli tanımlayıcılarını aramak yerine, insan beynine benzer şekillerde, görüntülerin ve videoların alt piksel düzeyinde neyin “normal” ve neyin “olağandışı” olduğunu öğrenebilir.

Bu, programın hem bilinen kaynaklardan gelen deepfake’leri tespit etmede hem de daha önce bilinmeyen bir program tarafından oluşturulanları tespit etmede usta olmasını sağlar.

Sinir ağı, düzenlenmemiş medya ile manipüle edilmiş bir şey arasındaki farka ilişkin çok iyi bir fikir edinmek için genellikle yüzlerce veya binlerce örnek üzerinde eğitilir; bu, bitişik pikseller arasındaki çeşitlilikten, bir görüntüdeki karelerin aralık sırasına kadar herhangi bir şey olabilir. videonun boyutuna ve dosyaların sıkıştırılmasına göre değişir.

Yeni bir meydan okuma

Stamm, “Bir görüntü oluşturduğunuzda, kameranızdaki fiziksel ve algoritmik işleme, bir görüntüyü photoshopla veya yapay zekayla oluşturduğunuzda piksel değerlerinden çok farklı olan çeşitli piksel değerleri arasındaki ilişkileri ortaya çıkarır” dedi.

“Fakat son zamanlarda Sora gibi oldukça etkileyici videolar oluşturabilen metinden videoya dönüştürme jeneratörlerini gördük. Ve bunlar tamamen yeni bir zorluk teşkil ediyor çünkü bunlar bir kamerayla üretilmedi veya photoshop’a tabi tutulmadı.”

Geçtiğimiz yıl, Florida Valisi Ron DeSantis’i desteklemek için dolaşan bir kampanya reklamında, eski Başkan Donald Trump’ın, üretken yapay zeka teknolojisini kullanan ilk kişi olan Antony Fauci’yi kucaklayıp öptüğünü gösteren bir reklam ortaya çıktı.

Bu, videonun başkaları tarafından düzenlenmediği veya birleştirilmediği, bunun yerine tamamen bir AI programı tarafından oluşturulduğu anlamına gelir.

Stamm, eğer düzenleme yoksa standart ipuçlarının da mevcut olmadığını ve bunun da tespit için benzersiz bir sorun oluşturduğunu belirtiyor.

Stamm, “Şimdiye kadar adli tespit programları, düzenlenmiş videolara karşı onları bir dizi görüntü olarak ele alarak ve aynı tespit sürecini uygulayarak etkili oluyordu” dedi.

“Ancak yapay zeka tarafından oluşturulan videoda, kareden kareye görüntü manipülasyonuna dair bir kanıt yok, dolayısıyla bir tespit programının etkili olabilmesi için, üretken yapay zeka programlarının kendi görüntülerini oluşturma şeklinin geride bıraktığı yeni izleri tanımlayabilmesi gerekecek.” videolar.”

Araştırmada ekip, halka açık 11 sentetik görüntü dedektörünü test etti. Bu programların her biri, üzerinde oynanmış görüntülerin belirlenmesinde son derece etkiliydi (en az %90 doğruluk). Ancak halka açık yapay zeka oluşturucuları Luma, VideoCrafter-v1, CogVideo ve Stable Diffusion Video tarafından oluşturulan ayırt edici videolarla karşılaştıklarında performansları %20-30 düştü.

“Bu sonuçlar, sentetik görüntü dedektörlerinin sentetik videoları tespit etmekte ciddi zorluk yaşadığını açıkça gösteriyor” diye yazdılar. “Bu bulgu, birçok farklı dedektör mimarisinde ve ayrıca dedektörlerin başkaları tarafından önceden eğitildiği veya veri setimiz kullanılarak yeniden eğitildiği durumlarda tutarlıdır.”

Güvenilir Bir Yaklaşım

Ekip, MISLnet algoritması gibi evrişimli sinir ağı tabanlı dedektörlerin sentetik videoya karşı başarılı olabileceğini, çünkü programın yeni örneklerle karşılaştıkça öğrenmesini sürekli olarak değiştirecek şekilde tasarlandığını öne sürdü. Bunu yaparak, yeni adli izlerin geliştikçe tanınması mümkündür.

Son birkaç yılda ekip, MISLnet’in yapay zeka araçları da dahil olmak üzere yeni düzenleme programları kullanılarak değiştirilen görüntüleri tespit etme konusundaki keskinliğini gösterdi; bu nedenle bunu sentetik videoya karşı test etmek doğal bir adımdı.

Makalenin ortak yazarı ve MISL’de doktora öğrencisi olan Tai D. Nguyen, “Manipüle edilmiş görüntüleri, video ve ses sahtekarlıklarını güvenilir bir başarıyla tespit etmek için CNN algoritmalarını kullandık” dedi.

“Küçük miktarlardaki yeni bilgilere uyum sağlama yetenekleri nedeniyle, bunların yapay zeka tarafından oluşturulan sentetik videoları tanımlamak için de etkili bir çözüm olabileceğini düşündük.”

Test için grup, MISLnet de dahil olmak üzere sekiz CNN dedektörünü, halka açık dört program tarafından üretilen gerçek videolar ve yapay zeka tarafından oluşturulan videolar dahil olmak üzere görüntü dedektörlerini eğitmek için kullanılan aynı test veri kümesiyle eğitti.

Daha sonra programı, henüz halka açık olmayan üretken yapay zeka programları tarafından oluşturulan Sora, Pika ve VideoCrafter-v2’yi içeren bir dizi videoyla test ettiler.

CNN dedektörleri, her bir videonun tek bir karesinden küçük bir kısmı (bir yama) analiz ederek, sentetik bir videonun ayrıntılı düzeyde neye benzediğini öğrenebildi ve bu bilgiyi yeni video grubuna uygulayabildi. Her program sentetik videoları belirlemede %93’ten fazla etkili olurken, MISLnet %98,3 ile en iyi performansı sergiledi.

Programlar, videonun çeşitli karelerinden birkaç düzine yamanın rastgele bir örneğini çıkarıp bunları yeni videonun özelliklerini öğrenmek için mini bir eğitim seti olarak kullanarak videonun tamamının analizini gerçekleştirirken biraz daha etkili oldu. 80 yamadan oluşan bir set kullanıldığında programlar %95-98 arasında doğruluk oranına sahipti.

Biraz ek eğitimle programlar, videoları oluşturmak için kullanılan programı belirlemede de %90’dan fazla doğru sonuç verdi; ekip bunun, her programın video oluşturmak için kullandığı benzersiz, tescilli yaklaşımdan kaynaklandığını öne sürüyor.

Araştırmacılar, “Videolar çok çeşitli stratejiler ve oluşturucu mimariler kullanılarak üretiliyor” diye yazdı. “Her teknik önemli izler bıraktığından, ağların her jeneratör arasında doğru bir şekilde ayrım yapması çok daha kolay oluyor.”

Hızlı Bir Çalışma

Programlar, önceden en azından küçük bir video miktarına maruz kalmadan tamamen yeni bir jeneratörü tespit etme zorluğuyla karşı karşıya kaldıklarında mücadele ederken, MISLnet küçük bir miktar ince ayar ile tanımlamayı %98 doğrulukla yapmayı hızlı bir şekilde öğrenebildi.

“Birkaç adımda öğrenme” olarak adlandırılan bu strateji önemli bir yetenektir çünkü her gün yeni yapay zeka teknolojisi yaratılmaktadır, dolayısıyla tespit programlarının minimum eğitimle uyum sağlayacak kadar çevik olması gerekir.

Stamm, “Yapay zeka tarafından oluşturulan videonun yanlış bilgi oluşturmak için kullanıldığını zaten gördük” dedi.

“Bu programlar yaygınlaştıkça ve kullanımı kolaylaştıkça sentetik videolarla dolup taşmayı makul bir şekilde bekleyebiliriz. Tespit programları yanlış bilgiye karşı tek savunma hattı olmasa da (bilgi okuryazarlığı çabaları çok önemlidir), dijital medyanın gerçekliğini doğrulayacak teknolojik yeteneğe sahip olmak kesinlikle önemli bir adımdır.”

Bu yapay zeka ve deepfake tespit araştırması haberleri hakkında

Kaynak ve İleri Okuma: https://neurosciencenews.com/ai-deepfake-fingerprints-25980/

İlgili Makaleler

Başa dön tuşu