音声UI講演より:最新のスマートスピーカー利用事情と音声UXデザインの必要性
読了時間: 約 11 分
株式会社 social solutions (現在は株式会社CHaiLD に社名変更)様向けに音声UI講演「音声に未来はあるか?」を弊社代表の河野及び音声UIデザイナーの小日向の2名でレクチャー致しました。
拙書「音声に未来はあるか?インターフェースがビジネスを動かす」を執筆したのが2018年の春なので、すでにそれから2年が経ち、スマートスピーカーや対話ロボットに関する状況も変わってきています。今回の講演においては新しい情報も盛り込みました。
social solutions 様は保育園を運営している企業グループに属しており、その保育園の玄関にクマ型の保育ロボットVEVO を置き、子供や親御さんとのコミュニケーション体験作りをしています。このVEVOは対話も可能なこともあり、音声対話をするロボットを開発し実際に運用している中での更なる音声対話体験向上などになればと、お話しました。
今回のブログでは本講演を行うにあたって調べた最新スマートスピーカー利用状況や保育事業におけるエージェント(ロボット)体験から感じた音声UXデザインの重要性について書きます。
スマートスピーカー事情(日本)
スマートスピーカーを購入された方、最近使ってますか?
日本におけるスマートスピーカーの認知度はこの2年で70%から80%と上がったものの、利用者は7%前後と伸びていません。その利用者においての利用している機能としては「天気予報を聞く」「音楽を聴く」「ニュースを聞く」そして「時計関連」(アラームや時刻を聞く)というアンケート結果が出ています。音声で簡単で聞けるから、ながら作業しながら聞けるから、といったあたりの音声UIの利便性の良さが出ています。しかし、見方を変えるとどれもスマートフォンでも出来ることばかりで、「スマート」なのかというと若干疑問も残ります。それぞれ単体の機能のボタンなりがある、ネットに繋がるハードがあればいい、そう考えるとなんだか宝の持ち腐れ感もしなくもありません。当初画面を持たないことからスマートスピーカーという名前がついていたはずですが、すでにタッチパネルを備えてタブレットのようになりました。据置きする、家族共有で使うタブレットになって来ています。
また、スマートスピーカーに対する期待機能として上げられていた、「対話」(コミュニケーション)がまったく利用されていないこともアンケート結果からわかりました。市場にはコミュニケーションロボットやコミュニケーションをうたい文句にするスマートスピーカーアプリ(スキル)がこの数年で非常に増えてきていますが、結局、ほとんど使われていない、または限定的であると分かります。これはなぜでしょうか?
それは、以前書いたブログ「いまのコミュニケーションロボットはなぜダメなのか」にもいくつか理由を書きました。一言でいうと、音声を使った体験デザインを開発側がしっかり設計していないままリリースしてしまっている、ということになります。では、その「音声を使った体験デザイン(音声UXデザイン)」とはなんでしょうか。
音声UXデザイン
音声UI、Voice UI (VUI) を使ったユースケース(利用シーン)や開発について語る人はこの日本でも増えました。しかし、それはどちらかというと、エンジニアリング的な、旧来あったユーザーインターフェースの延長的な扱いで伝える人が多いように感じます。しかし、音声は、キーボードやマウス操作、タッチ操作とは異なり、人と人とのコミュニケーションをするために使われているインターフェースで、それこそそこに感情や心理状態が色濃く反映される非常に面白く、かつ、複雑なUIと言えます。
音声UXデザインの重要性を伝えることが本講演の趣旨でした。私は下記の6つの要素が音声対話をするのに重要だと考えています(ネオマデザインが考える音声対話の6要素)。
これを1つずつ説明すると数日かかってしまう内容なのでここでは割愛しますが、この図をみてもざっと想像できるように、我々人間がコミュニケーションをする時には様々な要素が絡んでいて、それが対話の体験価値を創っているのだ、ということが分かると思います。
「今のニューヨークの時間を教えて」と自然会話風でなくても、「ニューヨークの時間!」でも人間同士でも通じる時がありますし、そのほうが楽な時があります。なんでも対話風に言えばいいわけではありません。音声で「OK、○○!照明をつけて」というよりも、部屋に入ったら、暗くなったら自動で明かりが灯るほうが楽ですよね。無理やりなんでも音声使えば良いわけではないし、一方で、タッチなどと組み合わせると便利なこともあります。
「好きな果物はなんですか?」と聞くと人は本当に様々な言いかたで返答します。人間同士ならそれでもよいでしょう。でも、「うーん、スイカかな、あ、そういえば、スイカは果物じゃなくて野菜ってきいたことがあるけど、そうなると…」なんて返事を人間がしているのをシステム(ロボット側)でどう理解すればいいでしょうか。いくつも答える人もいるでしょう。方言で答える人もいるでしょう。こうなるとシステムを創る側は大変で、結局、お決まりの「よく分かりませんでした、もう一度話してください」を連発することになります。
それよりも、「この中で好きな果物を教えてください。りんご、パイナップル・・・」というほうが、答えるほうも楽です。これはシナリオを工夫する例ですが、このように音声を使った体験デザイン “音声UXデザイン” をしっかり考えていかないと、本当に音声UIはこのままだと過去のインターフェースになってしまうのではないか、と私は危惧しています。
保育施設と音声体験デザイン
今回の講演にあたり、実際にVEVOの動作も拝見させて頂き、音声UXデザインについて改善の余地があるのがすぐにわかりました。それ以上に感じたのが、そもそも対話がベストな解なんだろうか、ほかにももっと体験デザイン(UX)としてやることがあるのでは、そのために VEVO ができることがあるのでは、とも感じました。「対話できるロボットがいたらコミュニケーションできていいのでは」という発想良く聞くのですが、その考え方は若干危険をはらんでいます。本当にコミュニケーションをしたいのか、実は他にもユーザーなり顧客が不満を感じていることがあるのではないか、といった違う視点から課題を見ていくのも大事になります。
たとえば、保育施設に必要なのは
人手が足りない現場にロボットのような対話できる相手がいると良さそう
という「ロボットの対話が解決策になる」というものではなく、
人同士の対話のネタになるモノコトがなく、コミュニケーションが薄くなっている
という問題かもしれなく(あくまでも仮定)、そのために、
ロボットとの対話から生まれたものが面白く、
それが親子や保育士らの円滑かつ効率的なコミュニケーションに繋げる
という「ロボットの対話や行動がきっかけで創り出す体験が解決策になる」まで考える必要があるのではないでしょうか。
実際、保育園の現場は多くの子供たちの声が入り交じりノイズも多くて音声認識するには厳しい状況です。また、子供の発話も大人と違って、文法通りでもなければ、滑舌も良くない時もあります。色々難しい現場ではあるものの、しっかり人の体験価値から戦略しながら、要所要所にIT技術などのツールを入れることによって、まだまだ改善できることはあると感じています。
まとめ
B2B(企業向け)業界では、音声を逐次認識して文字にしていくディクテーションサービスが非常に注目を浴びています。議事録の自動生成、サポートセンターの応答記録など多くの分野で注目されていて精度も日々向上しています。一方で、コンスーマー向け(一般消費者向け)については、若干トーンダウン気味な感じがしています。天気予報を聞く、美味しい店を調べる、音楽を聞く、その音楽のアーティストについて調べる、といった人間が「こうしてほしい」「こなしてほしい」という作業(タスク)のための発話であるタスク型処理は割りと進歩してきているのですが、それとは異なる、雑談に近い、対話を楽しむといったまさに「コミュニケーション」部分がまだまだできていません。
この「コミュニケーション」をAIの技術を使うにしろ、従来のUIの延長という考え方から脱却して考えていかない限りは音声を使った対話デザインの体験価値を向上させるのは無理でしょう。そのためには、人間をもっと知る必要があります。コミュニケーション学的な部分、感情や心理、文化や言語の違いなども考慮が必要です。様々な分野を統合しながらユーザー視点の体験が必須になります。
ネオマデザインでは、まさにこの「音声UXデザイン」を最重要項目として手がけています。先の「音声対話に重要な6つの要素抽出」もその研究・調査の1つです。旧来のUI (GUI, タッチUI) からジェスチャや音声といった次世代のUIを使った様々な体験・ユースケース創りをしています。スマートスピーカー、スマートホーム、次世代の家電やこれからスマート(ICT)化を目指している業界や企業の方、音声UI・UXデザインのコンサルティング相談も常時お請けしていますのでお声掛けください。
また音声UI、音声UXデザインについてのセミナーも行っています。過去に様々な会社や団体等にもセミナー・講演実績があります。ぜひ興味ある方はお声掛けください(※1)。オンラインセミナーまた関東圏内ではなく全国にもお伺い致します。
※1:講演・セミナー費、交通費等はご相談にのります
※本記事投稿は、講演先企業 social solutions 様の確認及び承諾を得ております