無言のコミュニケーションとAIで社会が変わる〜サイレントスピーチが実現するAIと人間の融合〜

人とコンピュータとのより良いやり取りの仕方や、コンピュータによる人間の能力の拡張という分野を開拓してきた暦本純一さん（東京大学大学院情報学環・教授、ソニーコンピュータサイエンス研究所・CSO/リサーチディレクター）は、人間とAIとの融合をテーマに研究しています。このインタビューでは、現在の研究状況と、AIを人間にどう役立てるのかについて、お話を聞きました。

無音のスピーチで
コンピュータを操る

人間の発話意図（内容）を抽出するという課題に取り組んでいて、その1つがサイレントスピーチというアプローチです。これは声を出さずに口だけを動かし、その動きをセンサーで計測して発話内容を読み取るというものです。音声認識はよく使われていますが、公共の場では騒音の影響や秘匿性の問題があります。また、声帯を摘出するなどして、そもそも声を出すことが難しい方がいます。サイレントスピーチは、そういった状況でも口の中でつぶやくだけでコンピュータの操作や人とコミュニケーションができる手段となります。

さらに、サイレントスピーチから踏み込んで、その人の考えていることが脳からコンピュータに直接伝われば、まさに以心伝心になります。そこで、大阪大学の栁澤先生と協働で、AI（ディープラーニング）を使い、脳内に埋め込んだ電極で得られた脳情報から発話意図（内容）を解読（デコーディング）するという技術を、基礎研究から追求しています。

大阪万博（EXPO’70）から
未来のインターフェースへ

今の研究分野に興味を持ったきっかけは、子供のころに行った1970年の大阪万博です。アイ・ビー・エム館にあった、ライトペン（ブラウン管の画面をペン型デバイスでタッチ操作するシステム）を見て非常に感動したのです。絶対にこういうものを作る職業に就きたいと思いました。そのため、割と早い段階から、コンピュータと人間とのインタラクション（やり取り）といったテーマが好きでした。

ほかには、『サイボーグ009』というアニメが好きで、人間がサイボーグになるというのはとてもかっこいい、と思っていたこともきっかけの1つです。

私自身は脳の専門家ではないのですが、そもそも「究極のインターフェース」は何かと問うと、やはり必ず「脳のインターフェース」が挙がります。IoBでの脳に関する研究の取り組みは、その究極のインターフェースは本当にあり得るのか、できたとしたら何が嬉しいのかを考える上で、ぜひ脳の研究者と一緒に研究したいと思ったことが発端です。

さまざまなデータを
AIで音素データに変換する

リップリーディング（口の動きの読み取り）は、普通のカメラで動画を撮り、顔認識を行い唇の部分を切り出して、その映像をいわゆるAI（ディープラーニング）のニューラルネットに入れるというのが基本的な流れです。音素データ（音声の最小単位）に分割することで、音声認識や音声合成につなげることができます。動画の他にも、超音波センサーや加速度センサーで口元の運動を測定し、ほぼ同様の流れで音素データに変換しています。

一方、脳波の解読を行うには、必要なデータを集めにくいという問題があります。つまり、BMI（ブレイン・マシン・インターフェース）を装着したような特定の方からしかデータを取れないので、動画のようにビッグデータがある世界とは違います。だから、少ないデータから学習するモデルなども研究しようと考えています。

フィードバックと
しゃべっている感覚

発話する前に本当に意図、「伝えたい内容」があるかどうかは科学的に扱うべき課題だと思っています。リップリーディングの実験では、完全に声を出さない場合と、ささやくように小さな声を出す場合とでは、後者の方が発話しやすいことが分かっています。完全に声を出さないようにするとフィードバックが全くないので、自分がどう口を動かしているかが分かりません。このフィードバックの有無がポイントです。このことから、発話する前に、すでに伝えたい内容が完璧にあるかどうかは議論の余地があると考えています。

運動野から命令が出て、実際に口が動いたり喉が動いたりする段階になると発話は完成しているのですが、それをもう一度、自分で聞くことも大切です。聞くことで、確かに伝えたい内容通りに言えている、ということが分かって初めて、しゃべっているという感覚が生まれるのではないかと考えています。

もしかすると、脳波の解読の際にも、同じように何らかのフィードバックが必要かもしれません。単に脳波の解読で完成ではなく、解読した情報をどのように人間に返すのかという、一連のフィードバックのループがあることが、いわゆる以心伝心型のコンピューティングでは大切なのではと考えています。

AIと人間が融合する社会を
見届けたい

サイレントスピーチは2050年までの早い時期にかなり普及すると想定していて、それがAIとつながることの意味が非常に大きいと考えています。例えば、何かわからないことがあっても、頭の中でつぶやいてAIに答えてもらえば、最初から知っていたのとあまり違いはありません。つまり、人間の能力が拡張（ヒューマンオーグメンテーション）されて、AIと人間が一体化した使い方になると思っています。

脳波の解読に関してはもう少し時間がかかると感じています。解読技術や、脳内に埋め込むという倫理的な課題の解決など、より総合的な研究開発が必要です。2050年までに、皆さんが使っているかどうかは社会の状況次第ですが、基礎研究としては解読技術で何を考えているのかが分かるようになると思います。

私個人としては、AIと人間が融合するというのがどういうことなのか、社会が変わるのを見届けたいです。そして、それを作る側でありたい、貢献したいという想いがあります。一方で、どんな技術でも強力であればあるほど、負の方向に使われる危険性は常にあることを認識しています。ただし、それを正しい方向に使うことが人類の叡智です。怖さを感じつつも挑戦して、問題があったら直していこうというのが、私のスタンスです。

テクノロジーを使い切って
想像力の限界まで挑戦しよう！

今のAIを含めたテクノロジーの進歩は、これから大きく社会や人類そのものを変えていき、若い皆さんは、まさにそれに立ち会ったり、それを作ったりしていく側になると思います。ぜひ、自分が面白いと思うことをどんどん追求していってもらいたいです。テクノロジーは皆さんの想像力を後押しするはずです。ぜひ、使える道具や技術は使い切り、無いものは自分で作って、想像力の限界まで挑戦してほしいです。そういう社会になれば、とても楽しいと思います。

取材・執筆・動画編集　株式会社スペースタイム