音声認識に必要不可欠なアノテーションとは?
具体的な種類と課題 

AIやビッグデータの活用が進められる中「アノテーション」という単語を聞いたことがあっても何を表す言葉なのか分からない人も多いのではないでしょうか。 アノテーションは、ITの分野で「データに対してメタデータを付与する」という意味を表す一般的な英単語です。 

アノテーションはどのようにして私たちの暮らしに役立っているのでしょうか。AIの機械学習におけるアノテーションの役割、具体的な作業の種類について考えていきましょう。 また、アノテーションの課題や音声認識システムなどの実際のビジネスシーンにおける活用例も紹介します。 

アノテーションとは

アノテーションとは、ビジネスシーンにおいてどのような場面で使われているのでしょうか。その具体的な意味とAIの機械学習について見ていきましょう。 

アノテーションの意味

アノテーション(annotation)とは、「注釈」「注解」「注記」という意味を表す英単語です。 

プログラミングやWebサイトの分野では違う意味で使われることもありますが、ITの分野では、テキスト・音声・画像・動画などのさまざまなデータに対して、メタデータと呼ばれる情報タグ(補足的な情報)を付与する作業を指しています。

アノテーションとAIの機械学習

AIの認識精度を上げるためには、入力に対して正しい出力を返せるように機械学習させなければなりません。 機械学習の「教師あり学習」には「教師データ」と呼ばれる正解が記載されたデータが必要とされ、アノテーションはこの教師データを作る作業にあたります。 例えば、AIに「チューリップ」という花を機械学習させるには、さまざまな色と形のチューリップの画像(教師データ)をできるだけ多くAIに覚えてもらい、入力された花が「チューリップ」かどうか判断できるようにしていきます。 アノテーションの品質によってAIの認識精度が変わるため、AIの機械学習においてアノテーションは必要不可欠な作業と言えるでしょう。 

アノテーションとビッグデータの活用

膨大な情報の集まりであるビッグデータをビジネスに活用していくためには、必要な情報を瞬時に正確に取り出せるように、データごとに分類してパターン化し、アノテーションしていく必要があります。特定の情報をタグ付けしていくことで、個々のデータが「何であるのか」認識できるようになるため、ビッグデータが扱いやすくなり、膨大なデータの整理や管理を効率化することができます。 

アノテーションの種類

では、IT分野においてアノテーションには具体的にどのような種類があるのでしょうか。 ここではアノテーションを3つに分けて分かりやすく説明していきます。 

画像・映像アノテーション

「物体検出」「領域抽出」「画像分類」など、さまざまな手法で作業が行われます。 

物体検出は画像や映像の中に映っているターゲットを長方形の図形で囲って認識させ、領域抽出は物体の背景に別の物体や建物が映っている場合に特定の領域のみを抽出させる手法です。また、画像分類は画像に対して「ネコ」「人間」「赤色」などの属性をタグ付けします。 

主にテレビや映画、インターネット上に投稿された動画などの情報から特定のシーンを検出したり、オンラインストアでの商品リストの分類や自動車の自動運転などに取り入れられている技術です。 

音声アノテーション

音声データをテキスト化したものに音や言葉の意味をタグ付けします。「私」などの名詞や「楽しい」などの形容詞だけでなく、「あぁ」などの感嘆詞も含めた単語ごとの意味と音声の特徴を細かくタグ付けしていくことで、テキストと音声の整合性を図る手法です。 

主にコールセンターでの顧客とのやり取りや議事録、スマートスピーカーなどのAIアシスタントに利用されています。 

テキストアノテーション

テキスト化されたデータを指定した分類項目をもとにタグ付けするため、大量のデータから特定の単語を抽出することができます。 また、テキストの内容を「クレームか問い合わせか」「ポジティブかどうか」「何についての話題か」などに分類してタグ付けすれば、テキストの判別や顧客感情の分析が可能です。 

主にニュース記事などのカテゴリ分けや、顧客データの整理と分析、チャットボットなどに利用されています。 

アノテーションの課題

アノテーションは今後はさらに広がりを見せ、あらゆるシーンで活用されることが予想されますが、作業量が膨大になるため自動化できるかどうかが課題と言えます。 

膨大な作業時間とリソースの確保

アノテーション作業においてリソース不足は大きな課題であり、AI開発の専門知識を持つ人材が少ないのが現状です。 また「教師データ」を大量に作成しAIの認識精度を上げていくためには、深い知識を持った担当者が膨大な量のデータを手作業でひとつずつ正確にタグ付けしていく必要があります。非常に手間と時間がかかるため、他のプロジェクトにかけられる時間の多くが失われたり、コア業務に集中することが難しくなります。 

アノテーションの自動化は困難

そうした課題を解決するためにアノテーション作業の自動化が期待されています。 しかし、自動化の研究は進められているものの現時点では完全自動化と呼ぶには精度が低く、自動化を試みた結果かえって時間もコストもかかってしまうことにもなりかねません。 最終的には人が判断しなければならないことからも、アノテーションは業務の効率化を進めるための手段として利用されているのが現状です。 

コールセンター業務×音声認識エンジン

コールセンター業務を効率化するため、音声認識によるテキストの自動要約と顧客に対する感情分析に期待が寄せられています。アノテーションは必要不可欠なプロセスであることから、ギグワークスクロスアイティでも日々開発が進められています。 

自動要約と感情分析とは

AIに顧客との会話の文章を要約させることを「自動要約」といい、指定した要件にあわせて文章をコンパクトにすることが可能なため、データの管理が容易になります。 一方、AIがテキストの文脈や人の声に含まれるさまざまな要素にもとづいて顧客の感情を分析することを「感情分析」といい、クレームの防止やオペレーターの支援を可能にしています。 

【関連記事】コール業務を効率化!ギグワークスクロスアイティの音声認識と分析技術

コールセンター業務と音声認識システム

自社で自動要約や感情分析などを実現するためには多くの労力と人員の投入が必要です。コールセンター向けにテクノロジーが集約された既存の音声認識システムを導入すれば、こうした労力やコストを抑え、すぐにもコールセンター業務に活用することができるでしょう。 

CRMシステム×音声認識エンジンで利便性アップ

ギグワークスクロスアイティが開発した「デコールCC.CRM3」は、コールセンター業務向けのCRMシステムです。約20年にわたる導入経験とノウハウをもとに、コールセンター業務に必要な機能を豊富に搭載し、トータルコストを抑えながら業務効率化と品質の向上を支援しています。 

「デコールCC.CRM3」は音声認識エンジンとのシステム連携が可能で、コールセンターの応対時に自動で音声録音と対話ログの作成が行えます。さらに、認識結果からピックアップされた単語をもとに感情分析することで、利便性と顧客分析を掛け合わせたコールセンターシステムを構築が可能です。 

【関連記事】ギグワークスクロスアイティが開発!デコール音声認識エンジンとは?

アノテーションはAI開発に必要不可欠

既に私たちの生活の中で身近に利用されているアノテーションは、AI開発には必要不可欠なテクノロジーです。特にコールセンター業務では音声認識システムを活用することで、顧客との会話を自動的に要約し、顧客がもっている複雑な感情をAIで解析することが可能になりました。完全自動化は難しくとも、コールセンター業務が音声認識システムによって効率化できれば、オペレーターの対応を技術的に支援することができ、顧客の満足度もアップしていきます。 アノテーションの活用はAIの認識精度を高め、ひいてはサービス全体の品質の向上に繋がっていくと言えるでしょう。 

この記事を書いた人

XIT編集部 スペシャリスト 塚越友貴