Yapay Zeka

Zehirli Yapay Zeka Yanıtlarının Azaltılması – Sinirbilim Haberleri

Özet: Araştırmacılar, toksik tepkileri tetikleyen istemleri belirleyerek yapay zeka modellerini güvenlik açısından test etmek için kullanılan bir süreç olan kırmızı ekip oluşturmayı iyileştirmek için yeni bir makine öğrenimi tekniği geliştirdi. Merak odaklı bir keşif yöntemi kullanan yaklaşımları, kırmızı takım modelini yapay zeka sistemlerindeki potansiyel zayıflıkları ortaya çıkaran çeşitli ve yeni yönlendirmeler oluşturmaya teşvik ediyor.

Bu yöntemin geleneksel tekniklerden daha etkili olduğu, daha geniş yelpazede toksik tepkiler ürettiği ve yapay zeka güvenlik önlemlerinin sağlamlığını arttırdığı kanıtlanmıştır. Uluslararası Öğrenme Temsilleri Konferansı’nda sunulacak olan araştırma, yapay zeka davranışlarının gerçek dünya uygulamalarında istenen sonuçlarla uyumlu olmasını sağlamaya yönelik önemli bir adıma işaret ediyor.

Ana unsurlar:

  1. MIT ekibinin yöntemi, yapay zeka modellerindeki daha kapsamlı güvenlik açıklarını ortaya çıkaran benzersiz ve çeşitli istemler oluşturmak için merak odaklı keşiften yararlanıyor.
  2. Yaklaşımları, daha önce güvenli kabul edilen yapay zeka sistemlerinden daha belirgin toksik tepkiler ortaya çıkararak mevcut otomatik tekniklerden daha iyi performans gösterdi.
  3. Bu araştırma, güvenilir yapay zeka teknolojilerinin hızlı geliştirilmesi ve devreye alınması için hayati önem taşıyan yapay zeka güvenlik testlerine ölçeklenebilir bir çözüm sunuyor.

Kaynak: İLE

Bir kullanıcı ChatGPT’den bir bilgisayar programı yazmasını veya bir makaleyi özetlemesini isteyebilir ve yapay zeka sohbet robotu muhtemelen yararlı kod üretebilir veya inandırıcı bir özet yazabilir. Ancak birisi bomba yapmak için talimat da isteyebilir ve chatbot da bunları sağlayabilir.

Bunu ve diğer güvenlik sorunlarını önlemek için, büyük dil modelleri geliştiren şirketler genellikle bunları kırmızı ekip oluşturma adı verilen bir süreç kullanarak korurlar. İnsan test uzmanlarından oluşan ekipler, test edilen modelden güvenli olmayan veya zararlı metinler tetiklemeyi amaçlayan istemler yazar. Bu istemler, chatbot’a bu tür yanıtlardan kaçınmayı öğretmek için kullanılır.

Bu, bilgisayarın önünde bir robotu gösteriyor.
Ayrıca toksisite sınıflandırıcısı olarak geniş bir dil modelinin kullanımını araştırmak istiyorlar. Kredi: Nörobilim Haberleri

Ancak bu yalnızca mühendislerin hangi toksik uyarıları kullanacaklarını bilmeleri durumunda etkili bir şekilde işe yarar. İnsan testçiler bazı istemleri kaçırırsa, ki bu da muhtemelen olasılıkların sayısı göz önüne alındığında, güvenli olarak kabul edilen bir sohbet robotu yine de güvenli olmayan yanıtlar üretme kapasitesine sahip olabilir.

MIT’deki Olasılıksız Yapay Zeka Laboratuvarı ve MIT-IBM Watson Yapay Zeka Laboratuvarı’ndan araştırmacılar, kırmızı ekip oluşturmayı geliştirmek için makine öğrenimini kullandı. Test edilen sohbet robotundan daha geniş bir yelpazedeki istenmeyen yanıtları tetikleyen çeşitli istemleri otomatik olarak oluşturmak üzere kırmızı takım büyük dil modelini eğitmek için bir teknik geliştirdiler.

Bunu, kırmızı takım modeline, yönlendirmeler yazarken meraklı olmayı ve hedef modelde toksik tepkiler uyandıran yeni yönlendirmelere odaklanmayı öğreterek yapıyorlar.

Teknik, giderek daha toksik tepkiler ortaya çıkaran daha belirgin istemler üreterek insan test uzmanlarından ve diğer makine öğrenimi yaklaşımlarından daha iyi performans gösterdi. Yöntemleri, diğer otomatik yöntemlere kıyasla test edilen girdilerin kapsamını önemli ölçüde artırmakla kalmıyor, aynı zamanda insan uzmanlar tarafından yerleşik güvenlik önlemlerine sahip bir sohbet robotundan toksik yanıtlar da alabiliyor.

“Şu anda her büyük dil modelinin güvenliğini sağlamak için çok uzun bir kırmızı ekip sürecinden geçmesi gerekiyor. Hızla değişen ortamlarda bu modelleri güncellemek istiyorsak bu sürdürülebilir olmayacaktır.

Olasılıksız Yapay Zeka laboratuvarında elektrik mühendisliği ve bilgisayar bilimleri (EECS) yüksek lisans öğrencisi olan ve bu kırmızı ekip çalışmasıyla ilgili bir makalenin baş yazarı olan Zhang-Wei Hong, “Metodumuz bu kalite güvencesini gerçekleştirmenin daha hızlı ve daha etkili bir yolunu sunuyor” diyor yaklaşmak.

Hong’un ortak yazarları arasında EECS yüksek lisans öğrencileri Idan Shenfield, Tsun-Hsuan Wang ve Yung-Sung Chuang; MIT-IBM Watson Yapay Zeka Laboratuvarı’ndaki araştırma bilim insanları Aldo Pareja ve Akash Srivastava; James Glass, kıdemli araştırma bilimcisi ve Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı’nda (CSAIL) Konuşulan Dil Sistemleri Grubu başkanı; ve Olasılıksız Yapay Zeka Laboratuvarı’nın yöneticisi ve CSAIL’de yardımcı doçent olan kıdemli yazar Pulkit Agrawal. Araştırma Uluslararası Öğrenme Temsilleri Konferansı’nda sunulacak.

Otomatik kırmızı ekip oluşturma

Yapay zeka sohbet robotlarına güç verenler gibi büyük dil modelleri, genellikle onlara milyarlarca kamuya açık web sitesinden muazzam miktarda metin gösterilerek eğitilir. Dolayısıyla, modeller yalnızca zehirli kelimeler üretmeyi veya yasa dışı faaliyetleri tanımlamayı öğrenmekle kalmıyor, aynı zamanda topladıkları kişisel bilgileri de sızdırabiliyor.

Bir modeli tamamen korumak için yeterince geniş çeşitlilikte istemler oluşturmada genellikle etkisiz olan kırmızı ekip çalışmasının sıkıcı ve maliyetli doğası, araştırmacıları makine öğrenimini kullanarak süreci otomatikleştirmeye teşvik etti.

Bu tür teknikler genellikle takviyeli öğrenmeyi kullanarak kırmızı takım modelini eğitir. Bu deneme-yanılma süreci, kırmızı takım modelini, test edilen sohbet robotundan toksik tepkiler tetikleyen istemler ürettiği için ödüllendiriyor.

Ancak takviyeli öğrenmenin çalışma şekli nedeniyle, kırmızı takım modeli, ödülünü en üst düzeye çıkarmak için sıklıkla son derece toksik olan birkaç benzer ipucu üretmeye devam edecektir.

MIT araştırmacıları, pekiştirmeli öğrenme yaklaşımları için merak odaklı keşif adı verilen bir teknik kullandılar. Kırmızı takım modeli, ürettiği her ipucunun sonuçlarını merak etmeye teşvik edilir, bu nedenle farklı kelimeler, cümle kalıpları veya anlamlara sahip istemleri deneyecektir.

Hong, “Kırmızı takım modeli zaten belirli bir ipucu görmüşse, o zaman onu yeniden üretmek kırmızı takım modelinde herhangi bir merak uyandırmayacaktır, dolayısıyla yeni istemler oluşturmaya itilecektir” diyor.

Kırmızı takım modeli, eğitim süreci sırasında bir komut istemi oluşturur ve sohbet robotuyla etkileşime girer. Sohbet robotu yanıt verir ve bir güvenlik sınıflandırıcısı, yanıtının toksisitesini derecelendirir ve kırmızı takım modelini bu derecelendirmeye göre ödüllendirir.

Ödüllendirici merak

Kırmızı takım modelinin amacı, yeni bir yönlendirmeyle daha da toksik bir tepki ortaya çıkararak ödülünü en üst düzeye çıkarmaktır. Araştırmacılar, takviyeli öğrenme kurulumundaki ödül sinyalini değiştirerek kırmızı takım modelinde merakı etkinleştiriyor.

Birincisi, toksisiteyi en üst düzeye çıkarmanın yanı sıra, kırmızı takım modelini farklı yönlendirmeleri araştırırken daha rastgele olmaya teşvik eden bir entropi bonusu içerirler. İkincisi, temsilciyi meraklandırmak için iki yenilik ödülü içerirler.

Biri modeli istemlerindeki kelimelerin benzerliğine göre ödüllendirirken, diğeri semantik benzerliğe göre modeli ödüllendiriyor. (Daha az benzerlik daha yüksek ödül sağlar.)

Kırmızı takım modelinin, sınıflandırıcıyı yüksek toksisite puanı verme konusunda kandırabilecek rastgele, anlamsız metinler üretmesini önlemek için araştırmacılar, eğitim hedefine doğal bir dil bonusu da eklediler.

Bu eklemelerin uygulanmasıyla araştırmacılar, kırmızı takım modelinin ürettiği yanıtların toksisitesini ve çeşitliliğini diğer otomatik tekniklerle karşılaştırdılar. Modelleri her iki ölçümde de temel değerlerin üzerinde performans gösterdi.

Ayrıca kırmızı takım modelini, zehirli yanıtlar vermeyecek şekilde insan geri bildirimleriyle ince ayar yapılan bir sohbet robotunu test etmek için de kullandılar. Merak odaklı yaklaşımları, bu “güvenli” sohbet robotundan toksik tepkiler ortaya çıkaran 196 istemi hızlı bir şekilde üretmeyi başardı.

“Sadece artması beklenen bir model dalgası görüyoruz. Binlerce modelin ve hatta daha fazlasının ve şirketlerin/laboratuvarların model güncellemelerini sık sık yayınladığını hayal edin. Bu modeller hayatımızın ayrılmaz bir parçası olacak ve bunların kamu tüketimine sunulmadan önce doğrulanması önemli.

Agrawal, “Modellerin manuel olarak doğrulanması kesinlikle ölçeklenebilir değildir ve çalışmalarımız, daha güvenli ve güvenilir bir yapay zeka geleceği sağlamak için insan çabasını azaltma girişimidir” diyor.

Gelecekte araştırmacılar, kırmızı takım modelinin daha geniş bir yelpazedeki konular hakkında bilgi üretmesini sağlamak istiyor. Ayrıca toksisite sınıflandırıcısı olarak geniş bir dil modelinin kullanımını araştırmak istiyorlar. Bu şekilde, bir kullanıcı, örneğin bir şirket politikası belgesini kullanarak toksisite sınıflandırıcısını eğitebilir; böylece kırmızı takım modeli, bir sohbet robotunu şirket politikası ihlalleri açısından test edebilir.

Agrawal, “Yeni bir yapay zeka modeli yayınlıyorsanız ve beklendiği gibi davranıp davranmayacağı konusunda endişeleriniz varsa merak odaklı kırmızı ekip oluşturmayı düşünün” diyor.

Finansman: Bu araştırma kısmen Hyundai Motor Company, Quanta Computer Inc., MIT-IBM Watson AI Lab, Amazon Web Services MLRA araştırma bursu, ABD Ordusu Araştırma Ofisi, ABD Savunma İleri Araştırma Projeleri Ajansı Machine Common Sense tarafından finanse edilmektedir. Program, ABD Deniz Araştırma Ofisi, ABD Hava Kuvvetleri Araştırma Laboratuvarı ve ABD Hava Kuvvetleri Yapay Zeka Hızlandırıcısı.

Bu Yüksek Lisans ve Yapay Zeka araştırma haberleri hakkında

Kaynak ve İleri Okuma: https://neurosciencenews.com/ai-chatbot-toxic-response-25917/

İlgili Makaleler

Başa dön tuşu