音声をコンピューター上で文章として認識すること。入力された音声は、100分の1秒レベルで細分化された波の動きとしてとらえられ、(1)主にフーリエ変換という数学的処理によって特徴を強調しつつ、子音や母音をかたちづくる波の形の特徴を登録した「音響モデル」に照合し、子音と母音が織りなす言葉の流れを認識。(2)さまざまな単語や文節、発話の特徴を登録してある「認識辞書」に、(1)で得た音声の特徴を照合し、確率的にもっとも近いパターンを選び出し、文章として完成させる。だが、実際の会話などの場面では、男女の差やイントネーションなど、発話の特徴は多様で、認識辞書に登録されていない単語もあるなど、多くの難関があった。昨今では、単語の登録数やパターンを増やしたり、より高度な算出方法を導入したりする一方で、コンピューターの性能向上も相まって、実用レベルにまで熟達した。例えば、乗り物の「バス」と風呂の「バス」などは認識を誤りやすかったが、一連の発話の中に「乗る」「停留所」「運賃」などという単語があれば、前者である確率が高いと類推するような工夫が設けられることもある。2008年5月、NHK放送技術研究所は、中継やインタビュー時の会話などを専門の話者が明瞭に言いなおすことで認識率を高めたり、音声認識された文章を補助要員が微修正したりして、即座に字幕を完成させるシステムを開発。NECは同年4月に、会議のやりとりを発言者ごとに議事録式でテキスト化できる製品を発売した。また、国際電気通信基礎技術研究所(ATR)の関連会社とNTTドコモが07年11月に始めた音声翻訳サービスも、音声認識技術に基づく。