Yapay zeka felçli bir kadına sesini nasıl geri verdi?

UC San Francisco ve UC Berkeley’deki araştırmacılar, beyin sapı felci nedeniyle ağır felç geçiren bir kadının dijital bir avatar aracılığıyla konuşmasını sağlayan bir beyin-bilgisayar arayüzü (BCI) geliştirdi.

Konuşma ya da yüz ifadeleri ilk kez beyin sinyallerinden sentezlendi. Sistem, ayrıca bu sinyalleri dakikada yaklaşık 80 kelimeyle metne dönüştürebiliyor ki bu da piyasada mevcut teknolojiye kıyasla büyük bir gelişme.

Beyin bilgisayar arayüzü ya da BCI olarak bilinen teknoloji üzerinde on yıldan uzun bir süredir çalışan UCSF nörolojik cerrahi başkanı Edward Chang, 23 Ağustos 2023’te Nature dergisinde yayınlanan bu son araştırmasında yakın gelecekte beyin sinyallerinden konuşma sağlayan FDA(ABD’de Sağlık Bakanlığına bağlı önemli bir kurum) onaylı bir sisteme evrileceğini umuyor.

UCSF Weill Nörobilim Enstitüsü üyesi ve Jeanne Robertson Seçkin Psikiyatri Profesörü olan Chang, “Amacımız, başkalarıyla konuşmamızın gerçekten en doğal yolu olan tam ve somut bir iletişim biçimini yeniden tesis etmektir” dedi. “Bu gelişmeler, bize, bu yöntem sayesinde hastalar için gerçek bir çözüm bulmaya çok daha yaklaştırıyor.”

Chang’in ekibi için bu bir ilk değil. Yıllar önce beyin sapı felci geçirmiş bir adamda beyin sinyallerini metne dönüştürmenin mümkün olduğunu göstermişlerdi. Bu çalışma ise daha iddialı bir şeyi ortaya koyuyor: Beyin sinyallerini, konuşma sırasında bir kişinin yüzünü canlandıran hareketlerle birlikte gerçek konuşmanın zenginliğine dönüştürmek.

Chang, ekibinin konuşma için kritik olduğunu keşfettiği bölgeler üzerinde kadının beyninin yüzeyine 253 elektrottan oluşan kağıt inceliğinde bir dikdörtgen yerleştirdi. Elektrotlar, inme olmasaydı kadının dil, çene ve gırtlağının yanı sıra yüzündeki kaslara gidecek olan beyin sinyallerini yakaladı. Başına sabitlenmiş bir bağlantı noktasına takılan bir kablo, elektrotları bir dizi bilgisayara bağlıyordu.

Katılımcı, haftalar boyunca ekiple birlikte çalışarak sistemin yapay zeka algoritmalarını konuşma için benzersiz beyin sinyallerini tanıyacak şekilde eğitti. Bu eğitimi süreci, bilgisayar, seslerle ilişkili beyin aktivitesi modellerini tanıyana kadar 1.024 kelimelik bir konuşma dağarcığından farklı ifadelerin tekrar tekrar tekrarlanmasını içeriyordu.

Araştırmacılar, yapay zekayı tüm kelimeleri tanıması için eğitmek yerine, kelimeleri fonemlerden çözen bir sistem oluşturdular. Bunlar, harflerin yazılı kelimeleri oluşturduğu gibi sözlü kelimeleri oluşturan konuşmanın alt birimleridir. Örneğin “Merhaba” dört fonem içerir: “HH,” “AH,” “L” ve “OW.”

Bu yaklaşımı kullanarak, bilgisayarın İngilizce’deki herhangi bir kelimeyi deşifre etmek için yalnızca 39 fonemi öğrenmesi gerekiyordu. Bu durum, hem sistemin doğruluğunu artırdı hem de üç kat daha hızlı olmasını sağladı.

UC Berkeley ve UCSF ortak Biyomühendislik Programında yüksek lisans öğrencisi olan Alex Silva ile birlikte metin çözücüyü geliştiren Sean Metzger, “Doğruluk, hız ve kelime dağarcığı çok önemli” dedi. “Bir kullanıcıya zaman içinde neredeyse bizim kadar hızlı iletişim kurma ve çok daha doğal ve normal konuşmalar yapma potansiyeli veren şey budur.”

Ekip, sesi oluşturmak için konuşmayı sentezlemek üzere bir algoritma geliştirdi ve bu algoritmayı, kadının düğünündeki konuşmasının bir kaydını kullanarak yaralanmadan önceki sesine benzeyecek şekilde kişiselleştirdi.

Ekip avatarı, yapay zekaya dayalı yüz animasyonu yapan bir şirket olan Speech Graphics tarafından geliştirilen, yüzdeki kas hareketlerini simüle eden ve canlandıran bir yazılım yardımıyla canlandırdı. Araştırmacılar, şirketin yazılımının, konuşmaya çalışan kadının beyninden gönderilen sinyallerle uyum sağlamasına ve bunları avatarın yüzündeki hareketlere dönüştürmesine olanak tanıyan özelleştirilmiş makine öğrenimi süreçleri oluşturdu ve çeneyi açıp kapattı, dudakları çıkarıp büzdü ve dili yukarı aşağı hareket ettirdi; ayrıca mutluluk, üzüntü ve şaşkınlık için yüz hareketleri yaptırdı.

Chang ve UC Berkeley’de elektrik mühendisliği ve bilgisayar bilimleri profesörü olan doktora öğrencisi Gopala Anumanchipalli ile birlikte çalışan yüksek lisans öğrencisi Kaylo Littlejohn, “Beyin ve ses yolu arasında felç nedeniyle kopan bağlantıları telafi ediyoruz” dedi. “Denek, bu sistemi konuşmak ve avatarın yüzünü birlikte hareket ettirmek için ilk kez kullandığında, bunun gerçek bir etki yaratacak bir şey olacağını biliyordum.”

Ekip için bir sonraki önemli adım, kullanıcının BCI’a(beyin- bilgisayar arayüzü) fiziksel olarak bağlı olmasını gerektirmeyecek kablosuz bir versiyon oluşturmak.

Nörolojik cerrahi alanında yardımcı profesör olan David Moses, “İnsanlara bu teknolojiyle kendi bilgisayarlarını ve telefonlarını özgürce kontrol etme becerisi kazandırmanın bağımsızlıkları ve sosyal etkileşimleri üzerinde derin etkileri olacaktır” dedi.

Çeviren: Mesut Keskinbıçak