Sinirbilim

Yapay Zeka Destekli Robot, Dili Kullanarak Eve Gidiyor

Özet:Araştırmacılar, dil tabanlı talimatlar kullanarak robotlara rehberlik eden ve kapsamlı görsel verilere dayanmadan navigasyon görevlerini iyileştiren bir yapay zeka sistemi geliştirdi.

Bu yöntem, görsel gözlemleri metin altyazılarına dönüştürerek bir dil modelinin robotun hareketlerini yönlendirmesine olanak tanır. Görüntü tabanlı sistemlerden daha iyi performans göstermese de veri sınırlı senaryolarda üstün performans gösterir ve daha iyi performans için görsel girdilerle iyi bir şekilde birleşir.

Ana unsurlar:

  1. Yapay zeka sistemi, robot navigasyonunu yönlendirmek için metin başlıklarını kullanır.
  2. Dile dayalı yaklaşım, kapsamlı görsel verilere olan ihtiyacı azaltır.
  3. Dil ve vizyonun birleştirilmesi navigasyon doğruluğunu artırır.

Kaynak: İLE

Bir gün ev robotunuzun bir sürü kirli giysiyi alt kata taşımasını ve bunları bodrumun en sol köşesindeki çamaşır makinesine bırakmasını isteyebilirsiniz. Robotun, bu görevi tamamlamak için atması gereken adımları belirlemek için talimatlarınızı görsel gözlemleriyle birleştirmesi gerekecektir.

Bir yapay zeka ajanı için bunu söylemek yapmaktan daha kolaydır. Mevcut yaklaşımlar genellikle, büyük miktarda insan çabası ve uzmanlığı gerektiren görevin farklı bölümlerinin üstesinden gelmek için birden fazla el yapımı makine öğrenimi modelinden yararlanıyor.

Doğrudan navigasyon kararları vermek için görsel temsilleri kullanan bu yöntemler, eğitim için genellikle elde edilmesi zor olan büyük miktarda görsel veri gerektirir.

Bu bir evdeki robotu gösteriyor.
Veriler dil olarak kodlanabildiği sürece hiçbir değişiklik yapmadan aynı modeli kullanabilirler. Kredi: Nörobilim Haberleri

Bu zorlukların üstesinden gelmek için MIT ve MIT-IBM Watson Yapay Zeka Laboratuarı’ndan araştırmacılar, görsel temsilleri dil parçalarına dönüştüren ve daha sonra bunları çok adımlı gezinme görevinin tüm bölümlerini gerçekleştiren büyük bir dil modeline besleyen bir gezinme yöntemi geliştirdiler.

Bir robotun çevresinin görüntülerinden görsel özellikleri, hesaplama açısından yoğun olan görsel temsiller olarak kodlamak yerine, yöntemleri, robotun bakış açısını tanımlayan metin başlıkları oluşturur. Büyük bir dil modeli, bir robotun kullanıcının dil tabanlı talimatlarını yerine getirmek için yapması gereken eylemleri tahmin etmek için altyazıları kullanır.

Yöntemleri tamamen dile dayalı temsilleri kullandığından, büyük miktarda sentetik eğitim verisini verimli bir şekilde oluşturmak için büyük bir dil modeli kullanabilirler.

Bu yaklaşım, görsel özellikleri kullanan tekniklerden daha iyi performans göstermese de eğitim için yeterli görsel verinin bulunmadığı durumlarda iyi performans gösterir. Araştırmacılar, dile dayalı girdileri görsel sinyallerle birleştirmenin daha iyi navigasyon performansı sağladığını buldu.

“Dili yalnızca algısal temsil olarak kullanarak, bizimki daha basit bir yaklaşımdır. Tüm girdiler dil olarak kodlanabildiğinden, insanların anlayabileceği bir yörünge oluşturabiliriz” diyor elektrik mühendisliği ve bilgisayar bilimi (EECS) yüksek lisans öğrencisi ve bu yaklaşımla ilgili bir makalenin baş yazarı Bowen Pan.

Pan’ın ortak yazarları arasında danışmanı Aude Oliva, MIT Schwarzman Bilgisayar Koleji’nde stratejik sektör katılımı direktörü, MIT-IBM Watson Yapay Zeka Laboratuvarı’nın MIT direktörü ve Bilgisayar Bilimi ve Yapay Zeka Laboratuvarı’nda (CSAIL) kıdemli bir araştırma bilimcisi yer alıyor. ); EECS doçenti ve CSAIL üyesi Philip Isola; EECS’de yardımcı doçent ve CSAIL üyesi kıdemli yazar Yoon Kim; ve diğerleri MIT-IBM Watson Yapay Zeka Laboratuvarı ve Dartmouth College’da. Araştırma, Hesaplamalı Dilbilim Derneği’nin Kuzey Amerika Bölümü Konferansında sunulacak.

Görme problemini dille çözme

Pan, büyük dil modellerinin mevcut en güçlü makine öğrenimi modelleri olduğundan, araştırmacıların bunları görme ve dil navigasyonu olarak bilinen karmaşık göreve dahil etmeye çalıştıklarını söylüyor.

Ancak bu tür modeller metin tabanlı girdiler alıyor ve bir robotun kamerasından gelen görsel verileri işleyemiyor. Bu nedenle ekibin bunun yerine dili kullanmanın bir yolunu bulması gerekiyordu.

Teknikleri, bir robotun görsel gözlemlerinin metin açıklamalarını elde etmek için basit bir altyazı modeli kullanıyor. Bu altyazılar, dile dayalı talimatlarla birleştirilir ve robotun bundan sonra hangi gezinme adımını atması gerektiğine karar veren büyük bir dil modeline beslenir.

Büyük dil modeli, robotun bu adımı tamamladıktan sonra görmesi gereken sahnenin bir başlığını çıkarır. Bu, robotun nerede olduğunu takip edebilmesi için yörünge geçmişini güncellemek için kullanılır.

Model, robotu hedefine adım adım yönlendirecek bir yörünge oluşturmak için bu süreçleri tekrarlıyor.

Süreci kolaylaştırmak için araştırmacılar, gözlem bilgilerinin modele standart bir biçimde (robotun çevresine göre yapabileceği bir dizi seçim olarak) sunulmasını sağlayacak şablonlar tasarladılar.

Örneğin, bir başlık şöyle diyebilir: “30 derece solunuzda, yanında saksılı bir bitki olan bir kapı var, arkanızda ise içinde masa ve bilgisayar bulunan küçük bir ofis var” vb. Model, robotun size doğru hareket edip etmeyeceğini seçer. kapı veya ofis.

Pan, “En büyük zorluklardan biri, temsilcinin görevin ne olduğunu ve nasıl yanıt vermesi gerektiğini anlamasını sağlamak için bu tür bilgilerin dile uygun bir şekilde nasıl kodlanacağını bulmaktı” diyor.

Dilin avantajları

Bu yaklaşımı test ettiklerinde, vizyona dayalı tekniklerden daha iyi performans gösteremese de birçok avantaj sunduğunu gördüler.

Birincisi, metnin sentezlenmesi karmaşık görüntü verilerine göre daha az hesaplama kaynağı gerektirdiğinden, yöntemleri hızlı bir şekilde sentetik eğitim verileri oluşturmak için kullanılabilir. Bir testte, 10 gerçek dünya görsel yörüngesine dayalı 10.000 sentetik yörünge oluşturdular.

Bu teknik aynı zamanda simüle edilmiş bir ortamla eğitilmiş bir aracının gerçek dünyada iyi performans göstermesini engelleyebilecek boşluğu da kapatabilir. Bu boşluk genellikle, bilgisayarda oluşturulan görüntülerin, ışık veya renk gibi unsurlar nedeniyle gerçek dünya sahnelerinden oldukça farklı görünebilmesi nedeniyle oluşur. Ancak Pan, sentetik ve gerçek bir görüntüyü tanımlayan dilin birbirinden ayırt edilmesinin çok daha zor olacağını söylüyor.

Ayrıca modellerinin kullandığı temsiller, doğal dilde yazıldığı için insan tarafından anlaşılması daha kolaydır.

“Eğer ajan hedefine ulaşamazsa nerede başarısız olduğunu ve neden başarısız olduğunu daha kolay tespit edebiliriz. Belki tarih bilgisi yeterince açık değildir veya gözlem bazı önemli ayrıntıları göz ardı etmektedir” diyor Pan.

Ayrıca, yöntemleri yalnızca tek bir girdi türü kullandığı için çeşitli görevlere ve ortamlara daha kolay uygulanabilir. Veriler dil olarak kodlanabildiği sürece hiçbir değişiklik yapmadan aynı modeli kullanabilirler.

Ancak bir dezavantajı, yöntemlerinin, derinlik bilgisi gibi vizyona dayalı modeller tarafından yakalanacak bazı bilgileri doğal olarak kaybetmesidir.

Ancak araştırmacılar, dile dayalı temsilleri vizyona dayalı yöntemlerle birleştirmenin, aracının gezinme yeteneğini geliştirdiğini gördüklerinde şaşırdılar.

“Belki de bu, dilin, saf görme özellikleriyle yakalanamayan bazı üst düzey bilgileri yakalayabildiği anlamına geliyor” diyor.

Bu, araştırmacıların keşfetmeye devam etmek istediği bir alan. Ayrıca yöntemin performansını artırabilecek gezinme odaklı bir altyazı oluşturucu geliştirmek istiyorlar. Ek olarak, büyük dil modellerinin mekansal farkındalık sergileme yeteneğini araştırmak ve bunun dil tabanlı navigasyona nasıl yardımcı olabileceğini görmek istiyorlar.

Finansman: Bu araştırma kısmen MIT-IBM Watson Yapay Zeka Laboratuvarı tarafından finanse edilmektedir.

Bu yapay zeka ve robot bilimi araştırma haberleri hakkında

Soyut

LangNav: Navigasyonun Algısal Temsili Olarak Dil

Düşük veri ayarlarına odaklanarak dilin, görüş ve dil navigasyonu (VLN) için algısal bir temsil olarak kullanımını araştırıyoruz.

Yaklaşımımız, bir temsilcinin her adımda benmerkezli panoramik görüntüsünü doğal dildeki açıklamalara dönüştürmek amacıyla görüntü altyazısı ve nesne algılama için kullanıma hazır görüş sistemlerini kullanır.

Daha sonra, mevcut görünüme ve yörünge geçmişine dayalı olarak navigasyon talimatlarını en iyi şekilde yerine getirecek bir eylemi seçmek için önceden eğitilmiş bir dil modeline ince ayar yapıyoruz.

Önceden eğitilmiş bir dil modelini, önceden eğitilmiş görme modellerinden sürekli görsel özelliklerle doğrudan çalışacak şekilde uyarlayan standart kurulumun aksine, yaklaşımımız bunun yerine algısal temsil olarak (ayrık) dili kullanır.

R2R VLN karşılaştırmasında dile dayalı gezinme (LangNav) yaklaşımımızın çeşitli kullanım durumlarını araştırıyoruz: daha küçük bir dil modeline ince ayar yapmak için uyarılmış bir dil modelinden (GPT4) sentetik yörüngeler oluşturmak; simüle edilmiş bir ortamda (ALFRED) öğrenilen bir politikayı başka (daha gerçekçi) bir ortama (R2R) aktardığımız alan adı aktarımı; ve VLN için hem vizyon hem de dil tabanlı temsillerin birleştirilmesi.

Yaklaşımımızın, yalnızca birkaç uzman yörüngenin (10-100) mevcut olduğu ortamlardaki görsel özelliklere dayanan temel çizgileri geliştirerek, navigasyon için algısal bir temsil olarak dilin potansiyelini ortaya koyduğu görülmüştür.

Kaynak ve İleri Okuma: https://neurosciencenews.com/ai-llm-robot-navigation-26324/

İlgili Makaleler

Başa dön tuşu