同時通訳や作業のハンズフリー化を実現!
リアルタイム音声認識の活用事例とXITの取り組み

音声認識が私たちの生活に浸透し、知らないうちに利用していたという人も多いのではないでしょうか。音声認識の高い利便性から、医療機関、製造業、金融業、コールセンターなど業種を問わず、多種多様なビジネスシーンでも活用され始めました。AI技術が発達しリアルタイムに音声認識ができるようになると、私たちがタイピングするよりも速く、ミスなくテキスト化することが可能です。より速く、より正確に業務を進められるリアルタイム音声認識とはどのようなものでしょうか。広がりを見せる活用事例、いまだ残る課題と合わせて、リアルタイム音声認識における XITの取り組みについても見ていきましょう。 

【関連記事】音声認識AIで業務効率アップ!その仕組みと課題

リアルタイム音声認識とは

聴力が衰えた高齢者や聴覚障害者と会話をする場合、音声ではなく文字コミュニケーションのほうがスムーズにいくことがあります。その際に役立つのがリアルタイム音声認識です。音声を瞬時に文字へ変換するリアルタイム音声認識について見てみましょう。 

リアルタイム認識とバッチ認識

音を細かく切り出し、都度テキスト化を行うリアルタイム音声認識は、発話した内容をその場で文字として読むことが可能です。即時性があるため、聴覚が不自由な人や翻訳機能を利用した外国人との会話、コールセンターの通話、会議中のリアルタイムな議事録作成などに役立ちます。 

一方バッチ認識は、一定量のデータをまとめて処理する方法です。大規模なデータをまとめて処理するため、時間に余裕があるデータ集計などに向いています。バッチ認識はコールセンターの通話録音や会議録音など、膨大な音声データの文字起こしに適しています。 

リアルタイム音声認識 の仕組み

発話からテキスト化までは、大きく分けて3つのステージが必要です。まずは、発話の「音」を認識し音素を割り当てる「音響モデル」を行います。次の作業は、音素から単語単位に組み立てる「発音辞書」によるマッチングです。最後に「言語モデル」を用いて文字列や単語間のつながりが日本語として正しいかどうか統計を用いて判断します。ディープラーニングの技術によって、テキスト化までの過程を繰り返し学習していくため、回数をこなすほど精度が上がっていく仕組みです。 

リアルタイム音声認識は、音声を短く切り出して連続的に変換することで、即時性のあるテキスト化が実現できます。 

活用事例からみるリアルタイム音声認識

私たちの生活でも音声認識が利用される場面が増えています。具体的にどのような場面で利用されているのか、リアルタイム音声認識の活用事例を紹介します。 

動画の自動字幕

YouTubeやTikTokなどを通じて個人でも手軽に動画配信できる時代になりました。ミュート視聴に備え字幕があることが望ましいですが、動画編集だけでも手間がかかるため、音声認識術を用いた字幕生成アプリの活用がおすすめです。音質やアプリの性能によっては認識精度が下がる場合もありますが、0から書き起こすよりも下敷きとなる文章があったほうが効率よく字幕を作成することができます。 

通訳いらずの翻訳機

海外からの観光客や日本語を話せない在日外国人への対応は、その国の言語スキルが必要です。しかし、言語は多岐にわたり十分な対応が難しいため、通訳が不要になるリアルタイム翻訳機の需要が高まっています。 

例えば「ポケトーク」はボタンを押しながら話すだけで、リアルタイムに翻訳、テキスト化することが可能です。70以上の言語に対応しており、本体価格に通信費も含まれているためWiFi設定も必要ありません。医療機関や教育現場での翻訳だけではなく、言語学習にも役立てることができます。 

【参考】POCKETALK 

音声認識によるオペレーションの自動化

作業現場や工場などでも音声認識の活用が進んでいます。岐阜車体工業株式会社では、車体建付けの監査業務に音声認識を取り入れたところ、手書きや手入力で行っていた時と比べて作業時間が3分の2になりミスも減りました。このように目に見える形で導入効果が現れたため、工場内の様々な作業での活用が検討されています。

【参考】株式会社アドバンスト・メディア 導入事例 岐阜車体工業株式会社様 

リアルタイム音声認識の課題

ここまで見てきたように、リアルタイム音声認識には様々な応用の可能性がありますが、同時に多くの課題も残されています。ここでは、リアルタイム音声認識を導入する上での課題について見ていきましょう。 

バッチ型に比べて認識精度が落ちる

音声を短く切り出したリアルタイム音声認識は、音声データをまとめて後処理するバッチ型に比べて精度が劣ります。そのため、即時性が求められる場面ではリアルタイム型を選択し、即時性よりも精度が求められる場面ではバッチ型を選択するといった使い分けが必要です。また、一旦リアルタイム型で処理した後、バッチ型で再度認識を行い精度の高い文章に順次置き換えていくといった使い方も可能です。

誤認識の可能性

音声を聞き取って文字に変換するという仕組みの性質上、うまく聞き取れない場合もあります。そのため誤認識した場合に、重大な事故に繋がるような誤動作が起きないようにするための対策が求められます。コールセンターにおいては、顧客の発話が不明瞭な場合はオペレーターが復唱して正しく認識させる、といった運用面での対策も有効です。

音声に混ざる「ノイズ」は、認識精度が悪化してしまう原因として代表的なものです。周りから聞こえる不要な音を拾うと認識精度が落ちてしまうため、ノイズの軽減やノイズに強い音声認識AIの開発が求められます。

 【関連記事】音声認識でコールセンター業務を効率化!音声認識の仕組みとノイズ対策 

コールセンター業務を自動化!デコールCC.CRM3 x リアルタイム音声認識

XITではサービスの1つとしてコールセンター向けCRMシステムを提供しています。250社7,000席以上の実績を誇るデコールCC.CRM3と音声認識について紹介します。 

デコールCC.CRM3とは

デコールCC.CRM3はコールセンター向けのCRMです。20年以上にわたる豊富な導入実績によるノウハウを活かし、見やすく疲れにくいワンビュー設計を採用しています。ダッシュボードや多言語対応などの多彩な機能を備えるだけでなく、利便性を追求したセルフカスタマイズも可能です。音声認識やAIボット等とのシステム連携もしており、導入後のサポートも充実しています。CRM導入を検討しているコールセンターは、デコールCC.CRM3を選択肢の一つとしてご検討下さい。 

リアルタイム音声認識との連携でコールセンター業務を自動化

デコールCC.CRM3とリアルタイム音声認識を組み合わせると、お客様の質問からキーワードを抽出し、該当するFAQをリアルタイムに表示させることが可能です。新人オペレーターの負担を減らし、お客様に迅速かつ正確な情報が提供できるようになるため、顧客満足度の向上につながることが期待できます。 

【参考】AI・音声認識・テレワーク時代のコールセンターCRMシステム デコールCC.CRM3 

リアルタイム音声認識で業務効率アップ

音声認識の精度は日々改善が進んでおり、活用の場が増えると共に様々な場面で有用性が示されています。作業時間やミスの発生率が減っている事例が多く挙げられており、業務効率化のために音声認識を取り入れる企業は今後増えていくでしょう。音声で対応するコールセンターやコンタクトセンターでは、音声認識をいち早く取り入れることが効率化につながります。オペレーターとお客様、双方にとってメリットが大きいリアルタイム音声認識を取り入れて、業務効率化の実現とともに顧客満足度もアップさせましょう。 

この記事を書いた人

ビジネス・テクノロジスト 貝田龍太