メイン 技術

音声認識技術

音声認識技術
音声認識技術

ビデオ: データサイエンスと音声処理技術 ②音声認識入門 (S2-110) 2024, 七月

ビデオ: データサイエンスと音声処理技術 ②音声認識入門 (S2-110) 2024, 七月
Anonim

音声認識、音声コマンドに応答するデバイスの機能。音声認識により、さまざまなデバイスや機器(多くの障害者にとって特別な恩恵)のハンズフリー制御が可能になり、自動翻訳への入力が提供され、印刷可能なディクテーションが作成されます。音声認識の最も初期のアプリケーションには、自動電話システムと医療用ディクテーションソフトウェアがありました。これは、ディクテーション、データベースのクエリ、およびコンピューターベースのシステムにコマンドを提供するために、特に専門用語に依存する職業で頻繁に使用されます。また、自動車やAppleのSiriなどのスマートフォンのパーソナルアシスタントも使用できます。

機械が音声を解釈する前に、マイクは人の声の振動を波状の電気信号に変換する必要があります。この信号は、システムのハードウェア(コンピュータのサウンドカードなど)によってデジタル信号に変換されます。これは、音声認識プログラムが、音声の基本的な構成要素である個別の音素を認識するために分析するデジタル信号です。その後、音素は単語に再結合されます。ただし、多くの単語は同じように聞こえ、適切な単語を選択するためには、プログラムはコンテキストに依存する必要があります。多くのプログラムは、トライグラム分析を通じてコン​​テキストを確立します。これは、任意の2つの単語の後に特定の3番目の単語が続く確率が割り当てられている、頻繁な3単語クラスタのデータベースに基づく方法です。たとえば、話し手が「誰であるか」と発声した場合、次の単語は、似たような響きではあるが「目」ではなく、代名詞「I」として認識されます。それでも、エラーを修正するために人間の介入が必要になる場合があります。

電話の音声ナビゲーションシステムなど、いくつかの孤立した単語を認識するプログラムは、ほとんどすべてのユーザーに役立ちます。一方、ディクテーションプログラムなどの継続的な音声プログラムは、個人の音声パターンを認識するようにトレーニングする必要があります。トレーニングには、ユーザーがテキストのサンプルを読み上げることが含まれます。今日、パーソナルコンピューターやモバイルデバイスのパワーが高まるにつれ、音声認識の精度は著しく向上しています。数万の単語を含む語彙では、エラー率が約5%に減少しました。放射線診断の口述などの特殊なアプリケーションでは、限られた語彙でさらに高い精度が得られます。