音声認識でコールセンター業務を効率化!
音声認識の仕組みとノイズ対策

コールセンターで導入が進む音声認識AIは、お客様とのやり取りを録音し、自動的にテキスト化を行う非常に便利な機能です。この機能を活用することでお問い合わせ内容の記録や検索が容易となり、コールセンター業務の飛躍的な効率化が期待できます。しかし、AIが音声を認識しテキストに起こすまでには複雑な工程が必要なうえ、システム導入コストや認識率の低さなど様々な課題もあります。特にノイズがあると音声の認識精度が著しく落ちるため、ノイズ対策は必須です。
音声認識AIの仕組みについての理解を深め、ノイズの種類や原因、対策方法について見ていきましょう。

音声認識AIの仕組みとは

音声認識AIを利用するためには、まずは認識したい音声をマイクなどの入力装置で録音する必要があります。録音データを取得した後も、AIが音声を認識するためには様々な工程が必要です。

①音響分析

人間とは異なり、コンピューターは必要な音声と雑音の聞き分けを自然に行えるわけではありません。そのため、音声データを音声認識AIに渡す前に雑音の除去や認識したい音源の抽出を行い、コンピューターが認識しやすい形に変換します。この整形作業の過程で音響分析、音声のデジタル化を行います。

②音素の抽出

「あ、い、う、え、お」などの音響モデルと照らし合わせ、抽出した音声データの「音素」を推定しながらテキストに起こします。音素とは意味を形成する最小単位の音声で、日本語では母音、子音、はつ音(ん)の3要素で表現されています。

③発音辞書との照合・文章の組み立て

音素の抽出で推定した「音素」のつながりを、発音辞書と照らし合わせながら最も確度が高い単語を選定していきます。さらに、この選定した単語の並び方から意味の通る文章に整形する工程が必要です。文章の整形は「言語モデル」と言われるAIのための学習データを元に行われます。こうした様々な工程を経て、音声認識AIは音声の意味を読み取るのです。

音声認識AIの課題の一つ「ノイズ」

録音中に入り込む雑音を「ノイズ」とも呼び、このノイズが多いとAIによる音声認識の精度が著しく下がります。それでは、ノイズの主な原因について見ていきましょう。

風切音やポップノイズ

屋外などで録音したときにより顕著に現れるノイズが、 入力機器に吹き付ける風が原因となる「風切音」です。他にも風が要因となるノイズには、マイクにかかる息の音が入り込む「ポップノイズ」などもあります。

ハンドノイズやリップノイズ

音声データに入り込んだ「マイクを持つ腕の筋肉が起こす振動音」がハンドノイズです。また、マイクを持って動く動作音や口や舌を動かした際に起こるリップノイズ、人の体が入力機器に接触するタッチノイズなど、人の動作に起因する様々な音がノイズとして認識されます。

環境音

空調音や電化製品が出す稼働音、壁面からの反響音など周囲の環境によってもたらされるノイズが環境音です。環境音は集中力を高める効果があると注目されていますが、AIに音声を認識させる妨げになるため、音を発するものを遠ざける工夫が必要です。

電気回路によるもの

実際に音が出ていないのに録音されるノイズの多くは電気回路が原因です。機器の性能はもちろんのこと、コンセントへの不適切な接続やコードの性能、USBケーブルによる電気供給を伴う接続など様々な原因が考えられます。電気系統が原因となるノイズは非常に繊細で、二つ穴コンセントの差し込みを入れ替えただけでもノイズのパターンが変化します。また、電話などの通信機器を通すとそのノイズが顕著に現れます。

ノイズの対応策① 録音時の対策

ノイズの対応策は大きく分けて二つあります。一つは録音をする際に行う対策、もう一つは音声の録音後に行う対策です。まずは、録音する際にできるノイズ対策を見ていきましょう。

録音環境の改善

風切音やポップノイズに関しては、入力装置にスポンジや布、ファー状のものを被せることで軽減できます。また、周囲を防音カーテンや吸音材といった吸音性の高い材料で覆うことで、反響や残響などといった環境音の低減が可能です。

入力装置の配置を工夫する

録音時にマイクを2つ使い、平均値を取ることで無音時に聞こえる「サー」や「ザー」といったホワイトノイズを減らすことができます。また、メインマイクから離れたところにサブマイクをおいて録音し、欲しい音声はメインマイクの側でより大きく聞こえることを利用してノイズを除去します。音を拾う範囲を絞ることができる指向性マイクもおすすめです。

運用でのカバー

コールセンターなどでかかってきた電話を録音する場合、音質の良し悪しは相手の通信環境に大きく左右されます。さらに、電話音声は単に雑音が入るだけではなく、話者の声質や滑舌などによって本来の音声自体が聞き取りにくい場合もあり、品質の高い音声に復元することが困難です。そのため、オペレーターが応対内容を復唱するなど、より良い音質で内容が録音できるように運用面での工夫が必要です。また、コールセンターCRMシステムと音声認識システムを連携させることで、顧客情報とテキスト化した応対内容を紐づけ、業務を効率化できます。

【関連記事】コールセンターにCRMシステムを!経営戦略につながるメリットとは

【参照】ギグワークスクロスアイティ株式会社 デコールCC.CRM3

ノイズの対応策② 録音後の対策

こちらは録音後にデジタル的にノイズを解決するための方法です。録音環境を整えることが難しい場合はもちろん、環境改善だけでは解決しないノイズもこの段階で対策することができます。

特定の周波数をカットする

風切音やハンドノイズなど原因が分かっているノイズは、中心的な周波数をカットすることで除去できます。一般的に風切音は80Hz、ハンドノイズは200Hz以下の周波数でカットする「ローカットフィルター」を設定すると不快な音を軽減できるとされています。この技術は映画やテレビの撮影現場でも使用されている手法です。

【参考】ノイズを消せ・第1弾「風切音やハンドノイズからの脱出」

ノイズに強い音声認識AIを作る

人間は無意識に余分なノイズを除去し、必要な音声だけを聞き取っています。今開発が進められているノイズに強い音声認識AIは、様々なノイズパターンを記憶し音声から除去するため、ノイズがある状態でも必要な音声を認識することが可能です。これらは既に実用化されており、カーナビや家電などの音声操作に活用されています。さらに、通信によって破損した音声を復元させるアルゴリズムを備えた音声認識AIの開発も進んでいます。

【参考】雑音環境下での音声認識精度を向上させよう

音声認識でコールセンター業務が変わる!

音声認識を始めとした様々なAIシステムは今後のコールセンター運営を支える大きな力となります。さらに、XITの「デコールCC.CRM」なら顧客管理システムに音声認識AIシステムを連携させ、顧客情報とテキスト化した応対内容を紐づけることで、コールセンターのさらなる効率化が可能です。

AI・音声認識・テレワーク時代
コールセンターCRM

ギグワークスクロスアイティ株式会社


音声認識AIは性能の改善が日々行われています。今後はより実用的な、ノイズや揺らぎに強い音声認識AIが作られていくでしょう。現在は、人手不足や市場の停滞などの様々な要因から業務効率化や顧客満足度の向上が求められています。それらの課題を解決する方法として、AIの積極的な活用がおすすめです。

この記事を書いた人

ビジネス・テクノロジスト 貝田龍太