いまのコミュニケーションロボットはなぜダメなのか
読了時間: 約 13 分
“コミュニケーションロボットバブルの崩壊?!”
「コミュニケーションロボットバブルの終焉がはじまった」
ショッキングとも思えるタイトルのニュースを先日、目にしました。
2017年頃からスマートスピーカーが登場して以来、人と会話(対話)できるロボットがゾクゾクと登場しています。
Softbank の ペッパーは日本でも非常に有名で話題になりました。膨大な投資額を受けてスタートした会社も増えてきましたが、実際街中でみかけることも実際に使われているシーンをあまり見かけません。シャープのロボホンや KIROBOはイベント等でちょくちょく見かけましたが、どれも客寄せパンダのような扱い。実際このニュースをみるとかなり会社の倒産やプロジェクトの閉鎖があるようです。
なぜこのようなことが起こるのか、音声UI/UXデザイン面から考えてみたいと思います。
コミュニケーションロボットはコミュニケーションできていない説
コミュニケーションロボット、人に寄り添うエージェント、コンシェルジュ型ロボットと最近はロボットに対して様々な言い方をします。ロボットというのは以前は、人間をサポートする意味合い(アシスト機能)が強く出ていました。しかし、近年は、音声認識を代表として、音声合成など音声会話にかかわる音声UI (Voice UI) の技術が進歩したこともあり、単に人(ユーザー)ができないことを機械的にサポートするのではなく『人間らしく』対応する、コミュニケーションロボットと言うようになってきました。
さて、ここで私は勝手に、『人間らしく』=『コミュニケーション』としてしまいましたが、コミュニケーションロボットの『コミュニケーション』って一体なんでしょうか?
私はこの『コミュニケーション』がまだ出来ていない、すれ違っているからロボットが浸透しないのではないかと考えています。
コミュニケーション (Communication) とは、WikiPedia によると
- 社会生活を営む人間観で行われる知覚・感情・思考の伝達
- 動物個体間での身振りや音声・臭いによる情報の伝達
と記載があります。音声言語以外にも非言語にもコミュニケーションがあると言われており、また、情報の伝達だけではコミュニケーションが成立したとは見なされていない、とも補足があります。
「意志の疎通」「心や気持ちの通い合い」「互いに理解し合う」があってこそ、人間間ではコミュニケーションが成立した(原義は幅広いので一部のみ記載)。
「コミュニケーションロボット」と人間とは、このコミュニケーションの定義でいう、意志疎通や心の通い合いまでは流石にできていません。まだまだロボットは「人をアシスト・サポートするタスク型システム」に近いと思えます。もちろん、インターフェースとして入出力に音声認識と音声合成という音声UIが組み込まれれ、その音声認識が非常に精度があがったことで、「音楽・再生」といったコマンド型発話ではなく「お気に入りの音楽かけて」と人が自然に話す言葉に近いフォーマットで指示できるようになりました。
その点では非常に進歩したのは確かなのですが、それでコミュニケーションできた、といってよいでしょうか…
会話と対話の違い
ここで、会話と対話の違い、皆さんは御存じですか?
拙書「音声に未来はあるか?」の音声インターフェース対話の章にも記載しましたが、そこから少しだけ引用します。
英語では、対話は「Dialogue」(ダイアログ)、会話は「Conversation」(カンバーセション)と言います。辞書で調べると、次のように書いています。
- 会話=複数の人が集まって互いに話すこと、その内容。共通の話題をやり取りする。
- 対話=向かい合って話し合うこと、その内容。思想の交流。
この定義に従うと、2人だと対話、それ以上だと会話に。ちなみに日本語では「英対話」と言わず「英会話」と言いますが、これは英語を使った複数の人の軽いおしゃべり、という感じに捉えられます。会話と対話については様々な捉え方がありますが、私は拙書内において便宜上、
- 会話=一般的な人と他愛のない話、日常的な挨拶
- 対話=自分の感情や思考を伝える、相手の思考を受けて理解する、コミュニケーション
としました。
この定義に従えば、「電気をつけて!」「あなたの趣味はなんですか?」は会話です。今のスマートスピーカーとのやり取りはほぼ「会話」で、「対話」ができる音声エージェントやロボットはまだかなり少ないのが現状ではないでしょうか?平田オリザ氏は、「日本においては対話の概念はもともと希薄である。いや、むしろ、ほとんど無かったといってもよい」とも言っています。
では、ロボットやエージェントが必ず「対話」型じゃないといけないのか?そんなことはないと思います。「電気を消して」「お気に入りの音楽をかけて」「明日の横浜の天気は?傘必要?」このようなタスク指向型と呼ばれる指示や質疑に対しては会話型で充分成立します。言い方よりも、むしろ速く正しく答えてくれることに重きを置かれるのではないでしょうか?
もちろん、ユーザーの心情を察して、いつもとは違う、あえて元気になるような曲をセレクションしていく、「これとかどう?この曲、聞いて元気だして」こんな風に対応しはじめると「対話」に近づいてきます。これも面白いですね。
ただ、そこまで今はまだシステムもサービスもできていないのが現状です。
なぜコミュニケーションできないのか
いまのコミュニケーションロボットはまだコミュニケーションの入り口を彷徨っている状態です。
今まで画面にタッチなりリモコンのボタンを押して操作することが主であったシステムのインターフェースが、意志疎通をとるための手段である音声でできるようになったのは素晴らしいことなのですが、まだまだ、システムとしてはタッチUIなど旧来のUIの置き換えをしただけにすぎません。
音声UIの良さと苦手なことを理解しないまま、システムを作りサービスインしてしまっているのが現状です。スマートスピーカーのサービスに多くのビジネスが今参入してきていますが、全くユーザーがついてこないという悩みをこの1,2年で良く聞くようになりました。つまり、ロボットを作る側が旧来のシステムやインターフェースの延長的に開発して音声を使えるようにしてリリースしてしまったがために、そこに大きな矛盾が生まれてしまった、これが一つの原因と考えています。
音声UIと音声UXデザインをしっかり創るには、音声学、心理学、またそれぞれの言語学(日本語学など)といった、コミュニケーションに関わる学問や知見を知る必要があります。そこがコミュニケーションロボットの開発に絶対的に欠けている、と私は思うのです。UX Writing という言葉が最近欧米では出てきましたが、日本ではまだまだシステム開発における文言・言葉に対する配慮が出来ていないと思います。
音声UI/UXデザインが出来ていない例として、とにかく言いたい事が言い難い、分かり難いというのもあります。スマートスピーカーにおいては、「アレクサ、○○(サービス名)で△△△を×××にして」とユーザーに言わせます。この順番を守らないと「分かりません」と返事が返ってきます。しかし、実際人間同士の会話においては、この○○やxxxの順番は日本語においては順不同の場合でも通じます。このような難しいインタラクションルールによって「使い難い」「使えない」といったレッテルを貼られてしまうのも、コミュニケーションできないロボットといわれる理由のひとつではないでしょうか。
今回は音声に限っていますので詳細は省きますが、ノンバーバル(非言語)コミュニケーションもロボットにおいては大きな要素だとおもいます。視線、ジェスチャといった動き等も実は非常に大きなコミュニケーションの要素です。
たとえば視線。
藤堂高行さんは、GAZEROIDは人型ロボットの視線インタラクション表現の研究開発(SEER: Simulative Emotional Expression Robot) をしています。 SEERのYouTubeの動画を見ると分かりますが、我々人間が視線、顔の向きや表情というものを凄く感情的に、意図的に、様々な意味を含めて表現し捉えているんだと分かります。音声も同じで、しゃべり方(抑揚、間、アクセント、言葉の選定など)一つとっても様々な要素が含まれているのです。これらの要素を取り込まないままでは、コミュニケーションロボット、とは言いきれないのではないでしょうか…
ユースケースが絞れていない
ロボットはスマートフォン同様に様々な機能を有しています。人工知能(AI)を駆使した技術は当然のこと、クラウドに繋がるのであれば、天気・ニュース・占いから始まりショッピングやタクシー配車などなど様々なサービスにも繋がってきます。これらはスマートスピーカーにも同じことが言えますが、結果としてユーザーにとって「何ができるの?」「何がうれしいの?」これがはっきりわかる使い方(ユースケース)を提示できなれけばなりません。
スマートスピーカーを買うぐらいならルンバ(自動掃除機)買ったほうが良かった、なんて話しがありますが、これは、ルンバが明確なユースケースをだしているからです。掃除を不在時にしてくれるというキラーユースケースです。声で操作できることは二の次です。
世の中の発表をみると、コミュニケーションロボットは、「最新型の人間の音声を理解するロボット」という「ロボット」そのものをユースケースとして売り出しすぎているのではないでしょうか?
でも実際大事なのは、そのロボットで何をするか?何をしてもらうか?どう使うか?です。
まとめ
コミュニケーションロボットバブルがなぜ終焉していくのか、色々原因はあると思いますが今回は音声UI/UXデザインの視点から私なりに整理してみました(ビジネス上の課題等他にもあると思います)。
コミュニケーションロボットなのに音声でコミュニケーションできていない
これが一番の理由です。
じゃあそのコミュニケーションってなんだ?というと、感情や思考を伝え合い理解していくこと、で人間同士でも難しく理解がまだまだできていないことです。それでも様々な学問でコミュニケーションについては語られています。音声を認識して最適な解を人間的な声で返事すればいい、という単純なものではないと思っています。
もはやロボットは機械的な仕掛けや機能を入れていけばいいわけではなく、人間を知り、人間に対してどうあるべきか、どうすべきか、何ができると良いか、といった部分を考えていかなくては、単なるエンジニアのエゴの固まりになってしまう、そんな気がしてなりません。
ネオマデザインでは、旧来のUI (GUI, タッチUI) からジェスチャや音声といった次世代のUIを使ったユースケース創りを創造しています。スマートスピーカー、スマートホーム、次世代の家電やこれからスマート(ICT)化を目指している業界や企業の方、音声UI(VUI)の開発やコンサル承っていますので、ぜひお声掛けください。