機械翻訳のメカニズム
機械翻訳とは、ある言語のテキストをコンピューターによって他の言語へ翻訳する技術である。音声を起源とする話し言葉の翻訳に対応するために、2000年ごろから、以下のような、対訳文から学習した確率モデルを用いる統計翻訳手法が利用され始めた。(1)入力された音声認識結果に対し、単語の区切りを行い、品詞情報を付与。
(2)話し言葉に特有のくだけた表現も含む大量の対訳文を収めたコーパスに基づき、日本語の句と英語の句との対応関係の確率を求める。
(3)日本語の句を英語の句に置き換える。
(4)英語の多量の文章をもとに単語列の確率を計算し、英語として正しい語順に入れ換える。
しかし、人間が行う通訳では、文脈に照らして言葉の意味を理解し、意図を解釈し、それらを反映した翻訳文を作ることになり、時には意訳することさえある。たとえば、日本語の「結構です」は文脈と意図がわからなければ訳せないし、レストランで注文する際の「僕はカツ丼だ」をそのまま訳せば“I am Katsudon”になってしまうなど、状況がわからないと、正しく訳せない。「窓をあけてもいいですか」に対する口語的英語表現を示してみただけでも、“may i open the window”“can i open the window”“would you mind if i opened the window”……と、いろいろな口語表現があることがわかる(注:自動通訳の過程を考慮して、文頭などは小文字とし、疑問符なども入れていない)。
音声合成のメカニズム
現在の音声合成は、多量の音声波形を蓄積し、それらの波形素片を接続することで自然性の高い音声を合成する方法が主に採用されており、さらに近年では、以下のような、確率モデルを導入した音声合成法が提案されている。(1)入力されたテキストは、単語に分割され、発音アクセント辞書によってアクセント付きの音素列に変換。
(2)音素列を、周波数スペクトル系列に変換。
(3)(2)はいわば「口の形」に相当するものであり、声だてをするために、声帯の開閉を模した信号と雑音から構成した声帯信号を生成する。
(4)多量の文章音声からイントネーションの確率モデルを学習しておき、前後関係を考慮しながら単語のアクセントを考慮した最適なイントネーションを作り、これらを合体させて最終的な合成音声を作り出し、自動通訳を実行する。
自動通訳機の現在
08年4月、内閣府主導で関連府省と産学官が連携して、社会還元加速プロジェクト「言語の壁を越える音声コミュニケーション技術の実現」が開始された。同年開催の北京オリンピックへ訪問する日本人旅行客への自動通訳機の貸し出しや、翌09年には国内5地域で、自動通訳機各300台以上を使用する実証実験も進められている。現在の自動通訳機は、旅行ガイドブックにあるような典型的な基本会話を対象に、約1秒で処理できるところまで来ている。性能的にも、日常的な旅行会話に対して、国際コミュニケーション英語能力テストのTOEICスコア600点のレベル(860点以上で最高ランク)の人と同等以上の翻訳結果が得られている。京都市内の観光地で行った、外国人が自動通訳機を携行して日本人と会話する実験では、日英、日中翻訳で95%以上の利用者が「相手の言うことを半分以上理解できた」という結果を残している。
07年には、海外でも使える一部の携帯電話で自動通訳サービスが利用できるようになった。これは、携帯電話とサーバーとに処理系を分割したもので、携帯電話で音声認識の雑音除去までを行った後、パケット網を通してサーバーに送り、音声認識の後処理、機械翻訳、音声合成をして、再び携帯電話に結果を送るという、世界初のネットワーク型商用サービスとなる。
自動通訳機の次なる目標
現在、日本で研究されている自動通訳の対象言語は、日本語、英語、中国語が中心であるが、今後は、世界中のいろいろな言語への対応が望まれる。音声処理部や機械翻訳部を各国の機関が研究開発して供給する将来を考えると、高速なインターネットでそれらを接続して自動通訳サービスを実現する方法があるだろう。情報通信研究機構(NICT)が中心となって、中国、韓国、タイ、インドネシア、インド、ベトナム、シンガポールの8カ国で組織されたA-STAR(Asian Speech Translation Advanced Research)コンソーシアムは、09年7月に、音声認識、機械翻訳、音声合成を共通の仕様でインターネット接続し、自動通訳するシステムの実験を行い、その実現性を示している。
また、同時通訳者のように、一文を話し終わらないうちに、文脈や文意を予測して通訳を始めることは不可能だろうか。現在対象としている基本旅行会話は、一文あたり平均7単語程度の文章を対象にしているが、同時通訳で対象とする文は非常に長く、現在の技術では十分に達成することはできない。また、ビジネス会話における自動通訳の必要性も高いが、文脈や微妙なニュアンスの翻訳が必要になり、旅行会話に比べて高い精度が要求される。ビジネス会話の自動通訳や、講演などの同時通訳技術の実現には、さらなる研究開発が必要になるだろう。