マスク時代を表情豊かに。
音声による感情分析エンジンとは?

コロナ禍により、社会生活を送る上でマスクがほぼ必須となりました。これに伴い、顔画像による個人の識別や表情認識は従来よりも困難になっています。

マスク越しで年齢・性別・表情を検出できることを売りにした製品も開発されていますが、いずれもマスクをつけない場合に比べて多少の精度悪化は避けられません。

そんな中、非接触の「AIリモート接客」を提案するギグワークスクロスアイティでは、画面越しに接客する際、顔画像だけでなく音声認識エンジンによる声色や口調の分析、さらに身振りといった情報を合わせて総合的に判断する技術の調査・開発に取り組んでいます。

音声認識技術とはどのようなものか、またその技術を接客にどのように活用できるのか、詳しく見ていきましょう。

音声認識とは?

音声認識とは、人が発した音声をコンピュータに認識させ、解析して文章化する技術です。

AIによる音声認識が進化し、スマートスピーカーが日常的に使われるようになったことで、声だけで機械を操作することや、会議の議事録を効率よく作成するといったことが実現されてきています。

音声認識AIによって得られるメリットにはどのようなものがあるか、見ていきましょう。

業務効率化

音声認識による文字のタイピングは、音声を発するだけで自動的に文字を判定し漢字へ変換され、文章を作成することができます。そのため、議事録作成やテープ起こし、記入作業の自動化などに音声認識AIを用いることで、業務の効率化が期待できます。またデータ入力業務を自動化することで人的ミスを軽減でき、人はチェックに集中できるようになるというメリットが生まれるでしょう。

手を使わないで操作ができる

手を使わず声による操作ができることで、遠く離れた場所からの指示出しも可能となり、遠隔操作によってアプリケーションを実行させることができます。

例えば工場で製造工程を管理している場合、1人で複数のロボットに音声で指示を出し操作しながら、自分は全体の管理に専念するといった運用ができるようになるでしょう。

顧客満足度の向上

顧客やオペレーターの状態を音声から把握することができれば、様々な業務品質の改善ポイントを発見し、顧客満足度を向上させるような施策の実施につなげることも期待できます。

コールセンターでの活用はとくに進んでおり、テキスト化した音声からオペレーターの応対品質を分析したり、ウィークポイントの洗い出しなどにも利用されています。

ギグワークスクロスアイティが開発を進める音声による感情分析エンジン

実店舗に設置されたサイネージを利用して、遠隔から接客できる「AIリモート接客」を提案するギグワークスクロスアイティでは、表情だけに頼らず感情を認識する方法として、様々なアプローチから並行し研究しています。

それぞれの長所・短所を補い合うことで、より精度の高い推定が可能となります。音声による感情分析エンジンとは、具体的にどのような方法で判断するのでしょうか。

文章の内容から感情を推定する

ギグワークスクロスアイティが開発している音声認識エンジンは、認識結果から単語を取り出し、それぞれの単語の属性から感情を推定します。例えばポジティブワードが多く含まれていれば良い感情、ネガティブワードが多ければ悪い感情が含まれていると予想できます。

このアプローチでは、声の個人差によらない推定が行えるという利点があり、その一方で、感情を一概に判断できない中立的なワードが多く使われた場合は判定が困難となる場合もあるでしょう。

喋り方による推定

音声データを取得・分析し、その抑揚や速度から喜怒哀楽といった感情が現れるパターンを認識することで感情を判定する方法もあります。

このアプローチでは、様々な感情がのった学習用の音声データが多数必要となります。 課題として、話者による個人差が大きい点があげられます。例えばいつも怒っているような話し方をする人や、声に表情が出にくい人の場合、この方法では十分に認識精度を得られない可能性があるでしょう。

音声以外からの推定

表情・音声以外にも、身振り手振り等、話者の感情が現れる情報が存在します。これを利用し、身振り手振りから感情の乗った動きを認識して感情を推定することができます。

喋り方や身振り手振りから推定した感情の情報は、音声翻訳への応用可能性があると言えます。単純な機械翻訳では、喋り方に含まれる微妙なニュアンスを訳語に反映できませんが、話者が楽しそうに喋っている、あるいは怒気を込めて喋っている、といった情報が加われば、より適切な訳文を構成できるかもしれません。

リモート接客の紹介

ギグワークスクロスアイティが提案する「AIリモート接客」は、リアルとデジタルを融合させ、リアル店舗の良さを生かしつつ、DXを活用したこれからの接客と言えます。消費者はリアル店舗で五感をフルに使う体験をし、予定していなかった商品との出会いや、非接触での店員とのコミュニケーションを楽しむことができるでしょう。

【関連記事】「REALとDIGITALの融合が必須な現代の「リモート接客」とは?」

遠隔からオペレータが接客

店頭のサイネージにAIカメラを搭載することで、オペレーションセンターに待機しているスタッフが店頭を歩く消費者を目視でき、サイネージを通して遠隔から消費者に声をかけて接客することが可能になります。また、1人のオペレータが複数店舗の状況を確認できるうえ、1つのオペレーションセンターから全国各地の店舗へ接客対応が可能です。

顧客に合わせた的確なアプローチを実現

店頭サイネージに搭載するAIカメラやセンシング技術により、接客時の顧客の反応を可視化することができます。そのデータをもとにAIで接客に使用するトークスクリプトを生成・更新することが可能になるでしょう。例えば、顧客の性別や年代、来店時間や表情などから、何を購入する傾向があるかなどのデータをもとに、顧客へのアプローチ方法を変えることができます。AIがフォローすることで、たとえ経験の浅いオペレータでも、熟練オペレータのような接客を実現することができるでしょう。

経験やノウハウを蓄積できる

来店した顧客の行動や年齢・性別などの属性情報を認識し、データとして蓄積します。これまでのようなPOSやアンケートで入手できるデータだけでなく、接客員の経験やノウハウといった情報もデータ化し蓄積していくことで、購買へのプロモーションに繋げていくことが可能になるのです。

非接触でも表情豊かな接客を実現

英国拠点の調査会社Juniper Researchの予測では、デジタル音声アシスタントの利用数が2023年には80億台に達すると推計しており、音声認識の技術はますます発展し、活用の場は今後も広がっていくと予想されます。

AIによるリモート接客は、画面から見える表情の認識だけでなく、音声による感情分析も活用し、様々なアプローチでリモートでの接客クオリティを上げることが可能です。

マスクの欠かせない時代であっても、接客における顧客との表情豊かなコミュニケーションを実現するために、ギグワークスクロスアイティの技術導入を検討してみてはいかがでしょうか。

【参考】「音声アシスタント利用、2023年に80億台へ – CNET Japan」

この記事を書いた人

ビジネス・テクノロジスト 貝田龍太