言語の壁とコミュニケーションの制約
英語教育が充実し、外国語がはんらんしている昨今の日本でも、言語の壁は厳然として旅行やビジネスの障害になっている。法務省による2007年度の調査によれば、年間1754万人の日本人が旅行や仕事で海外を訪れ、一方で、海外から日本に入国する人はその半分以下の年間811万人にとどまっている。この差の原因も、外国人にとって日本語が壁になっている点があげられよう。また、総務省が08年に国内の宿泊施設に対して行った調査では、外国人の受け入れを望まない理由の1位に「外国語対応ができないため」があげられている。世界言語のデータを記した「エスノローグ(Ethnologue)」によれば、地球上には約7000の言語があるという。もし、SFに登場するような自動通訳機が実現すれば、誰もが苦もなく言語の壁を越えられるようになり、究極のコミュニケーションシステムとなろう。
世界共通語となりつつある英語が日本語と比べて言語構造的に大きく異なる点や、学校での英語教育が読み書き中心であった点が原因で、日本人にとって外国人との自然なコミュニケーションは大きな壁だった。そうした事情もあり、日本では早い時期から自動通訳の研究が開始されている。1983年には、NECが世界電気通信展「ITUテレコム」でコンセプト展示を行い、86年には、政府による研究開発資金の出資を受けて国際電気通信基礎技術研究所(ATR)自動翻訳電話研究所が設立された。
自動通訳は、音声認識、機械翻訳、音声合成の三つのモジュールで構成され、それぞれ統計的なモデルをベースに、コーパスという大規模な言語データベースを用いてモデルの構造や変数を学習していく確率モデルを取り入れ、多くの要因を統合して計算を実行する。
音声認識のメカニズム
音声認識は、入力された音声を、コーパスにあらかじめ収集しておいた音声のサンプルと照合することによって、単語列や音素(発音記号とほぼ同じで、日本語の場合、ローマ字表記したものに近い)列に変換し、テキスト化(文字データ化)する技術である。私たちは、発話者が違っていても「あ」なら「あ」と同じ言葉に知覚できるが、音声認識装置にとってはそれぞれが違う音であり、同じ「あ」として認識できない。たとえば、女性の「う」は、男性の「い」に重なる場合があるなど、声の質は性別や年齢、方言を含む地域性によっても相当に異なる。また、同じ人であっても、たとえば「とうきょう」の最後の「う」が長かったり短かったり、「お」になったり、長音化したりする。自由な発話の場合には、「えー」「あー」「じゃぁ」などの間投詞や、「と、東京」などの言い直し、「東京、いや、東北」のような言い間違いも存在し、音声認識をいっそう困難にしている。そこで、現在では確率モデルを用い、多量のデータで学習を重ねて、入力された音声と確率的に照合することで最適な単語列を求める、以下のような方法がとられている。
(1)音声はマイクロホンで受音された後、波形として表される電気的な信号に変換される。音声は時間的に変化し、音素の特徴はその周波数強度の分布、すなわち音声の波の振動の仕方に含まれるため、100分の2秒ほどの単位ごとに区切った周波数スペクトルとする。
(2)あらかじめ収録しておいた多様な発話者の音声をもとに、同じ音素に対するパターンの広がりを確率的に計算しておき、入力信号の周波数スペクトルの列を音素の列に変換。音声と異なる騒音の成分は、雑音抑圧手法などの適用により、この段階で抑えられる。
(3)さらに確率を考慮しながら、音素を系列化。ローマ字の文章のような状態に変換。
(4)多量の日本語テキストをもとに、もっとも可能性の高い漢字仮名まじり文に音素列を変換。
このような確率を考慮したモデルにより、多様な発話による音声の違い、発話ごとの時間的な構造の違いを除去していく。
しかし、課題も多い。たとえば、日本語には多くの同音異義語が存在する。「庭には二羽鶏がいる」などは音声認識で仮名漢字列に変換するときに難しい問題となる。アクセントの違いを正確に認識できれば、同音異義語の問題は解消されるのだが、それには至っておらず、言語モデルに頼っているのが現状である。音響環境も重要で、交差点や駅のプラットホームなどでは騒音が多く、また部屋の壁に音声が反射して生じる残響も、対象音声との区別を混乱させる。そして、旅行などで利用する場面を考えると、宿泊先のホテル名や施設名などの固有名詞を取り扱う必要もある。
(後編に続く)