音声認識AIで業務効率アップ!
その仕組みと課題

スマートフォンの音声アシスト機能やスマートスピーカーの出現で、音声認識技術は私たちの生活に溶け込むようになりました。キーボードやタッチディスプレイの扱いが不得手な人でも簡単に操作ができるようになるため、デジタル化の促進にも一役買っています。音声認識システムは一般家庭だけではなく、ビジネスシーンでも活用されており、活躍の幅は計り知れません。しかし発展途上の技術であり、課題が残っていることは確かです。ここでは、音声によるシステム操作のメリットや課題、そしてギグワークスグループとXITの取り組みについて紹介します。 

音声によるシステム操作

音声によるシステム操作は徐々に私たちの暮らしに浸透してきています。その仕組みや事例をみていきましょう。 

音声認識とシステム操作

音声認識とは、人間が発した音声をAIが解析してテキスト化する技術です。人間同士が会話をする場合、相手の音声を聞き取り瞬時に意味を理解します。一方コンピューターの場合は、声を音として認識したうえで、音響モデルや言語モデル、発音辞書といった情報と組み合わせて意味を理解します。近年ではディープラーニングに代表される学習手法の進化により、音声認識技術の精度も格段に上がりました。さらに、この音声認識技術と様々な機器を連携させることによって、音声によるシステム操作が行えるようになったのです。 

音声認識によるシステム操作の例

身近なところでは、スマートフォンに内蔵されている音声認識機能が挙げられます。2010年代に登場したその機能は、iPhoneであれば「Hey Siri」、Androidであれば「OK Google」「ねぇGoogle」の呼びかけで起動するバーチャルアシスタントです。カレンダーの登録やアラームのセット、翻訳や計算など口頭で指示した数々の操作に応えてくれます。 

2014年にAmazon Alexaがアメリカで誕生してからは、スマートスピーカーが生活の一部となっている人もいるでしょう。また、自動車にも音声認識機能は搭載され始めています。現状は目的地の設定にとどまっていますが、今後は空調の操作や追従走行の設定など、様々なことが行えるようになる予定です。 

【参考】一般社団法人 日本自動車会議所 対話型音声認識、広がる機能 採用車種拡大、日系メーカーも 

音声によるシステム操作のメリット

音声によるシステム操作のメリットは多岐にわたります。ここでは、非接触・ハンズフリーで操作できることによるメリットを紹介します。 

音声操作で利用者の負担を軽減

声に反応してくれるため、まだ文字が読めない子供や操作が難しい高齢者、そして目が不自由な人でも扱うことができます。また、両手に荷物を持っていたり、料理をしたりして両手がふさがっていても指示が出せます。そのため、スマートスピーカーやスマートリモコンなどのIoT機器を利用する家庭が増えています。料理中にエアコンやテレビの操作をしたい場合も、音声で指示を出せば操作が可能です。また、照明を音声で点けられるため、夜間でもスイッチを探す必要がなくなります。 

ウェアラブル機器の活用で効率化

音声認識機能を搭載したウェアラブル機器はハンズフリーでの操作が可能なため、2人で行っていた荷受け作業を1人で行うことができるようになるなど、様々な現場で活用されています。電子化が進む病院でも、音声認識機能付きの電子カルテや医療用のウェアラブル機器を利用することで、手間や時間をかけずに診療記録の入力ができます。また、コールセンターでは顧客対応と同時にテキスト化できるため、顧客対応後の入力時間を短縮することが可能です。 

メタバースの拡大へ貢献

2022年2月Meta社が発表した「Builder Bot」は、音声で指示を出すだけでモノや場所、風景などの3Dオブジェクトやテクスチャを作成・消去するなどの操作を行い、バーチャル空間を構築できるというものでした。音声により簡単にメタバースを操作できるようになれば、メタバースは利用者にとって非常に身近な存在になるでしょう。

【参考】知財図鑑 音声だけでバーチャル空間を構築できるAIシステム Builder Bot(ビルダー・ボット) 

音声によるシステム操作の課題

音声認識技術は便利ですが、まだまだ課題を抱えているのも事実です。ここでは、音声によるシステム操作の課題についてみていきましょう。 

反応速度

音声認識システムを利用する際は、明瞭な発音が求められます。音声の意味を理解する際に、音と意味を組み合わせる必要があるからです。クリアな発音かつ汎用的な言葉であれば反応までの時間は短くてすみますが、わかりにくい発音や語句の場合は言葉の引き出しにたどり着くまでに時間がかかるため、必然的に反応速度が遅くなります。コールセンターでオペレーターが復唱するのは、顧客の発話内容をクリアに発音し、システムでの認識精度を高める狙いもあるのです。 

雑音に弱い

静かな空間で利用する際には問題がないものの、屋外などの騒がしい場所で利用する場合、必要な音を聞き分けられないなど認識精度が著しく低下する恐れがあります。ノイズを抑える、またはノイズ下でも精度の高い認識を行えるようにするために様々な対策が試みられていますが、基本的には雑音の少ない環境で利用することが望ましいといえます。 

【関連記事】音声認識でコールセンター業務を効率化!音声認識の仕組みとノイズ対策

認識ミスによる誤動作の可能性

音声でシステムを操作する場合、認識ミスによって誤った動作を指示してしまう可能性があります。認識精度が高いAIを作れたとしても、咄嗟の言い間違いや偶発的なノイズで認識を誤る可能性をゼロにすることはできません。そのため、認識ミスが発生しても即座に取り消したり、重大な事故に繋がらないようにリカバリーできる仕組みが必要です。

音声認識に関するギグワークスグループの取り組み

ギグワークスグループでは音声認識エンジンの開発や音声認識AIを取り入れた製品開発・運用など、未来につながる研究を行っています。ギグワークスグループとXITの取り組みをみていきましょう。 

音声認識AIの開発・ノイズの分析

2021年にはXITの研究チームから音声認識エンジンが誕生しました。デコールCC.CRM3と連携することでコールセンターにおけるお客様との会話をリアルタイムでテキストログ化することができます。リアルタイムの音声認識によるシステムへの自動入力が可能となるだけではなく、ワードクラウドやテキストマイニングによる問合せ内容の分析ができるようになり、コールセンター業務の利便性が大きく高まるでしょう。ギグワークスグループでは自社コールセンターでの運用を通して音声認識エンジンの改良を進めており、より高性能な音声認識エンジンへのアップデートを図っています。 

【参照】ギグワークスクロスアイティ株式会社 デコールCC.CRM3

【関連記事】ギグワークスクロスアイティが開発!デコール音声認識エンジンとは?

リモート接客

XITが開発を手掛けたリモート接客システムでは、AIカメラを搭載した店頭サイネージでオンラインアバターによる接客が可能です。少数のスタッフが遠隔で複数の店舗を担当できるようになるため、業務の効率化や人件費の削減など様々なメリットがあります。また応対中の音声を分析することで応対品質の改善に役立てることができます。

【参考】凸版印刷とギグワークス、「AIリモート接客」で顧客の反応を可視化 

【関連記事】AIカメラ搭載のデジタルサイネージでオンライン接客!店舗のDX化を推進

音声認識技術が業務を効率化!

音声認識の精度はディープラーニングの発展に伴い飛躍的に向上しています。そして、バーチャルアシスタントやスマートスピーカーが出現したことで音声認識システムの利用シーンが拡大しました。最近は一般家庭にも浸透している音声認識技術ですが、ビジネスシーンでの活用事例は多岐にわたります。音声認識には反応速度の遅さや雑音に弱いといった課題が残されていますが、ギグワークグループ・XITではそれらの課題を解決するため、自社開発の音声認識エンジンの改良に取り組んでいます。現在は労働人口の減少や生産性の向上などの観点からあらゆる場面でデジタル化が求められているため、音声認識技術の活用は今後ますます広がっていくでしょう。 

この記事を書いた人

ビジネス・テクノロジスト 貝田龍太