Bağlam ve Dikkat Şekli Konuşmadan Dile Dönüşümün Elektrofizyolojik Bağlantıları

Konuşmayı kelimelere dönüştürmek için insan beyni, ifadelerdeki tonlama, konuşma hızı, ses yüksekliği, vurgular vb. değişkenlere uyum sağlamalıdır. Bu süreci açıklamaya yönelik umut verici bir yaklaşım, beynin konuşmaya verdiği tepkilerin elektroensefalogram (EEG) kayıtlarını modellemek olmuştur. Çağdaş modeller tipik olarak sesler ve kelimeler arasında bir ara temsil aşaması olarak konuşma kategorilerine (örneğin fonemlere) başvurur. Bununla birlikte, bu tür kategorik modeller tipik olarak el yapımıdır ve bu nedenle eksiktir çünkü kategorizasyonun temelini oluşturduğu varsayılan sinirsel hesaplamalarla konuşamazlar. Yeni derin öğrenme sistemleri, konuşmadan dile dönüşümün uçtan uca açıklamalarını sağlayarak daha eksiksiz beyin modellerine olanak sağlayabilir. Burada derin öğrenme sistemi Whisper ile sesli kitap anlamanın EEG kayıtlarını modelliyoruz. Şunu bulduk: (1) Whisper, konuşmadan dile dönüşüm için doğru, kendi kendine yeten bir EEG modeli sağlar; (2) EEG modellemesi, saf kategorik modellerin desteklemediği önceki konuşma bağlamını dahil ettiğinde daha doğrudur; (3) Konuşmadan dile dönüşümün EEG imzaları dinleyicinin dikkatine bağlıdır.