言葉が通じないときの人工知能

ほぼ、雑談に近いが、Google Cloud APIで、ストリーミングとして言語解析する時、APIに今から喋ることは英語だと伝えて(設定して)、日本語を話した。すると、APIは、必死でその日本語の音声を英語として解釈、解析しようとする。当然、英語にはできない。それでも、なんとかその発音に近い英語の文章を返してくる。まさにこれだ、これが実に人工知能なのだ。とても面白い。人間が、理解できない外国語に出会った時にやっていることを再現しているようだ。

エコーロボット(echo robot)の考察

人間的知能の最もプリミティブな形態は、音を言葉に変えることだと思う。たとえば、見知らぬ外国語は言葉ではなく単なる音でしかない。しかし、それが言葉に変わった時、すべての人間的知能の基礎ができる。言葉は、まさにロゴスなのだ。
この間、Googoleのcloud apiのストリーミングの音声解析をやってきたが、結局それは、知能なのだ。非常に単純で、簡単なことをやっているように思われるかもしれないが、そこにこそ人工知能の基礎がある。音を連続的に言葉に変えること、それは素晴らしいことだと思う。確かに、その言葉を意味化することはできていない。しかし、決定的に重要な一歩だと思う。
そこで、エコーロボットというのを考えてみる。いや、実際に作ってみようと思う。人が話しかけた言葉を、そのまま鸚鵡返しに、自分で繰り返すのだ。音声を単にロボットの発音に変換するのではない。一旦、「言葉」してから、ロボットの音声としてそれを発するのだ。赤ちゃんが、お母さんの言葉を真似しながら、言葉を覚えていくことに似ている。マネができれば、その意味を少し理解して返せば、ごく簡単な人間的応答ができてしまうはずだ。お笑いで言えば、いつかそれがボケにつながる。
エコーロボットは、人工知能型ロボットの最も初歩的なもので、プログラミングで言えば、"Hello World" に対応するものだ。
そのための技術としては、まず、ロボットの音声データをストリーミングで受け取る必要がある。これは、ALAudioDeviceでできることがわかった。それを、GoogleのCloud APIに送って、これまたストリーミングで言葉化する。返ってきた言葉を、ロボットに送り込んでALTextSpeechで発生させる。
プログラミングのツボはだいたいわかったので、数日中にはできると思う。