ロボットとの音声コミュニケーションは成功するのか?
読了時間: 約 9 分
昨今、ロボットやエージェント、人工知能/AI(Artificial Intelligence)の業界がにぎわっています。画像認識/音声認識/ディープラーニングによる機械学習といったIT技術がクラウドを使って高速かつ安価で利用できるようになってきた事、各種ハードウェアのセンサが著しく精度が上がってきていることなど様々な分野での技術進歩が大きく貢献しています。
一昔前のロボットというと、ソニーのAIBOやホンダのASIMO あたりが有名ですが、最近だと Softbank のペッパー、エージェントというと iPhone などに搭載されている Siri が有名なところでしょうか。
いまや、世界中でロボットやエージェントが開発されて毎日のように発表されています。そして、これらにおけるユースケースとして音声での会話は欠かせないものになっています。SF映画でもロボット/アンドロイド/エージェント相手に声で命令したり会話をするシーンを良く見かけます。最近は、家族の一員として/パートナーとして『ソーシャルロボット』なんてネーミングをつけて発表されているのを目にします。
しかし、本当にロボットと会話でコミュニケーションをとり、そしてパートナーのようになれるのでしょうか?
メーカーや業界の目標ではあると思いますが、技術や表現のし方を間違えると人間とのコミュニケーションは非常に難しいと思います。その理由を2つほど簡単に書いてみます。
未熟な技術への過度な期待とのズレ
一言でいうと人間の期待に完全に応えるにはまだまだ技術が追いついてないということです。以前ブログ”音声ユーザーインターフェースの理想と現実“にて、音声認識技術は100%ではない事それによって中々音声UIが普及しないことなどを紹介しました。今、音声UI/UXやAIの業界では、
- 人の自然な言葉を正確に認識する(誰が何を話しをしたのか、自然な発話をそのまま認識)
- 人の言葉の意図を理解する(何を言いたいのか、省略された言葉はなにか補完など)
- 自然に発話し返事をする(応答できる、自然な声で話す)
これらを目的に技術開発をすすめており、かなり進歩はしてきています。「松本さんに若干遅刻するってメールしといて」と言えば勝手にメールしておいてくれる、そんな時代になってきました。しかしこれらの技術はまだまだ発達途上です。
ここで非常に人間に近い風貌で、かつ、知的にかしこまった口調のロボットと会話することを考えてみます。ユーザーが何かを発話したとき、非常に人間らしい声で返事をしてきます。しかし、ある時、音声認識が失敗したのか声をかけてもトンチンカンな返事をしてきました。周囲がうるさいかったり、声が小さかったり、口ごもったりしたからかもしれません。そこで、その返事の間違いを「え、なんでそういうの?」と追及したら、今度はなぜか「こんにちわ、なにか話しかけてくださいね」と振り出しにもどった。何を言っても「おっしゃる事がわかりません」の連続になった。
こういった失敗ケースは、今の技術ではまだまだ普通に起こりえることです。人間でも聞き取れないときはあります。ミスリーディング(誤解)することは多々あります。しかし、ここで怖いのは
期待が大きいほど小さなミスも失望感は大きくユーザーに跳ね返ってくること
です。
「あぁ結局この程度か」「登録されているシナリオや会話しか話ししないだ、やっぱり」となり、一度、使えないレッテル貼られてしまうと中々それをはがす事は容易ではありません。
そして、その事実を隠そうとするためか、「結婚してくれない?」とか「次の大統領誰になるとおもう?」といった意地悪な質問にはユニークに答えるシナリオばかりを入れていく不毛な争いが始まるのです。でも、実際、初対面の人などにこんな質問をする人はいません。つまりこの時点で人のリアルの会話/コミュニケーションの体験から遠ざかっていると思えます。
実はすでに多くの既存のロボットやエージェントがこのような状況に陥っているのです。だから、店舗などにロボットを置いても最初は人が集まるけれど、飽きたり失望したりして、気がつくと誰も相手しない状況になってしまうのです。
完全体であることの恐怖
もし人間同等レベルで言葉を理解して会話してくるロボットやエージェントがいたらどうですか?ワクワクする人もいるでしょう。しかし、最近、ちょっとそれが怖いとも感じています。
映画『ブレードランナー』におけるレプリカントや『ターミネーター』を思い出してみてください。人間の欠点を無くし人と同じように生活している彼等に人は恐怖すら感じ始めます。人を超えたのでは、という不安が恐れを感じさせているように思うのです。
一方で、ドラえもんやスターウォーズに出てくるC3-PO。同じ人間の言葉を理解しコミュニケーションできますが、ネズミが嫌いだったり臆病だったりで人間よりも「出来る」と思わせないキャラ(不完全なロボット)が親しみを感じ、そこには存在自体に不安や恐怖はありません。
つまり『不気味の谷現象』でいう人間と同じ、を実現すると不気味というか恐怖/不安を感じてしまってパートナーどころではなくなるのでは、という考えです。
昨今、おしゃべりするペットや子供のぬいぐるみが高齢者などに好評です。これらはよくて100種類ぐらいしか喋れません。人の語彙は2歳児で400語、5歳児で2500語と言われています。ですからいかに語彙が少ないか分かるかと思います。そして、音声認識もスマフォなどのエンジンほど優秀ではありません。通信機能をこれらはもたないので、クラウドの優秀な認識エンジンを使う事ができないからです。
しかし、会話を繋げる絶妙な返事「そうだよね、それでそれから?」といったユーザーの会話にたいしてどうにでもとれる(都合よい)返事をします。技術が完全ではないことを作り手が理解し、ミスをうまく隠ぺいすることなど工夫をしているのです。完全体ではないソーシャルトーイ(おもちゃ)であっても上手くコミュニケーション機能を実現している例で非常に興味深いところです。
まとめ
現在の音声UIや人口知能の技術ではまだまだ人間と同等にコミュニケーションできるには時間がかかるでしょう。雑談ができる、とか、会話ができる、とメーカーやエンジニアが言っていても、それは以前よりも『できる』レベルであって、決して我々人間同士程、自由に想像もつかないような反応を楽しんだりできるようなコミュニケーションはまだ実現できていません。
しかし、不可能といわれた囲碁の世界においてコンピューターが人を負かす時代がきました。おそらく近い将来には幼児以上の対話レベルが出来る日も遠い話しではないかと思えています。
ロボットをパートナーとして位置づけする場合、本来の人間同士のコミュニケーションに近づけようとするでしょう。その時に、単純に言語認識技術や人工知能といった技術をつかって理論的に解いていけば良い訳じゃないと考えています。人同士のコミュニケーションや会話というのは、もっとアナログ的で声楽・感情・感性・知覚・脳科学といった分野をひっくるめて人間をもっと分析し理解して検討していく必要があるのではないか、と思います。
弊社では音声UI/UXやエージェントに対する研究開発をコミュニケーション/声楽/認知/感情・感性論/文化学といったレベルからも解こうとしています。もし、すでにロボットやエージェントを導入している、しようとしているようでしたら、他社と同じミスをしないためにも弊社にご相談ください。誰も相手にしないロボットやエージェントをこれ以上増やさないで欲しいですね…