自然な会話を完全に復元するのにはまだ遠いが、脳の思考から会話を生成することに成功し、Nature誌に報告された。原題は「Speech synthesis from neural decoding of spoken sentences」だ。
人工知能で脳波から文章を生成する
脳卒中や筋萎縮性側索硬化症 (ALS) などの脳の病気により話せなくなることがある。1分あたり数百単語を会話では伝えることができるが、話せず目で伝える場合には毎分わずか10単語ほどになる。
話すときに口をどう動かしているのかをきちんと理解している人はほとんどいないが、脳はそれを無意識でやって声帯などを動かしている。それを人工知能が行うというわけだ。
研究者らは、考えを実際の発声に翻訳するために2段階の方法を考案した。
まず、てんかんの患者さんの脳波と、舌や唇、喉の筋肉の動きを記録し、深層学習 (再帰型ニューラルネットワーク, RNN) でその対応関係を学習させた。
そしてそのデータから音声を合成するということを行っている。
実際に脳波から作り出された音声を研究者がYouTubeに掲載している。
このシステムについて検証するために、AmazonのMechanical Turkクラウドソーシングを使って英語のネイティブスピーカーに、機械が話した言葉を書き起こすように依頼した。
その結果、25の候補単語が与えられると43%の正確度で正しい単語を選べることも分かった。
正解率はそれほど高くはないが、ほぼ完全に麻痺していて話すことができない状態の人には十分に大きな改善だ。
それに正確には聞きとることができなくても、近い意味として解釈することはできた。
例えば実際には「rabbit」(うさぎ) と言っている場合、ネイティブスピーカーは「rodent」(げっ歯類) という意味も発音も比較的似ている単語と解釈したそうだ。
この研究の意義と今後の展望
この研究は、機械学習の力を生物学に応用する好例であり、遠くないうちに頭で想像した言葉を機械を通してリアルタイムの発声に変換することが原理的に可能であることを示している。
他のいくつかの研究グループも音声を再現するという領域で大きな進歩を遂げてきたが、この新しい研究では単語ではなく文章を再現することができた。
脳活動のよりきめ細かな分析や、全く話すことのできない患者さんに装着できるようなリアルタイムに発声できる装置の開発が今後は必要になるだろう。
脳とコンピューターの接点、ブレイン – コンピューターインターフェースの領域は、ますます研究が飛躍していくに違いない。