声と心の間には密接な関係がある
発端は、人間の喜怒哀楽といった感情を、声からコンピューターに認識させることはできないかという発想でした。怒っているときや悲しんでいるときでは、それぞれ話し方が変わりますよね。であれば、そのときの声の調子をコンピューターで細かく分析していけば、感情を測定できるかもしれないと考えたのです。最初は思いつきだったのですが、研究を続けていくうちに、声と心の間にはかなり密接な関係があることがわかりました。その結果生まれたのが、ST(Sensibility Technology 感性制御技術)というオリジナルの技術です。STでは「喜び」「怒り」「悲しみ」「平常」「興奮」という五つの情動の状態を、10段階で検出することができます。たとえば、ある人が怒ったふりをしたとします。演技がうまければ、たいていの人はだまされるでしょう。ところがSTによって声を分析すると、心の本当の動きがわかるので、作為的に怒ったようにしゃべったとしても見破れるのです。この技術は、たとえばアップル社の音声認識技術「Siri」のように、言葉の意味を理解して受け答えするようなものではないので、発話の内容は一切関係ありません。
なお、これはよく誤解されるのですが、STはウソ発見器としては使えません。なぜなら、外面的に見える感情を判定することと、内面的な情動の状態を分析することは同じではないからです。たとえば、本人は対面する他者に心のうちでは怒っているけれど、相手を慮って表面では平常を装っているとします。この場合、STは怒りの情動を検知しますが、一方、人の社会的機能の一部でもある、内的な情動と異なる外的な感情表出をウソと言い切ることはできないからです。また、本人が本当に思い込んでいれば真実を言っているのと同じ感情でウソをつけるので、そこまではわかりません。
感情測定のカギは声帯
それにしても、なぜ、声で心の状態がわかるのでしょうか?感情というものを生理学や脳科学などから分析していくと、大脳辺縁系の扁桃体という部位からの脳内伝達物質放出、自律神経系への興奮伝達、およびホルモンの分泌促進が関係してくるのではないかと考えられます。
一方、人間の発する声は、咽喉部の形状と声帯ひだの振動という二つの要素によって決定されます。このうち、喉は多くの随意筋によって構成されているので、意図的に形を変えて声色を変化させることができますが、声帯は扁桃体と自律神経でつながっており、不随意な面を多く含んでいるので、脳の状態に大きく支配され、自由にコントロールできません。したがって、声の中にある声帯による部分、たとえば基本周波数などを中心に解析していくことで、脳の動き、つまり感情がわかることになるのです。
ここからは推論も含むのですが、感情と声の関連性というのは、哺乳類の体に最初から組み込まれている機能ではないかという気がしています。もともと体が小さくて弱かった哺乳類は、他の捕食動物に襲われたとき、逃げるために集団で情報を共有する必要がありました。たとえば「キー」と一声鳴いて周囲に危険を知らせるわけですが、そのとき声帯は恐怖で固まり、鳴き声は高周波になったはずです。そうした種が生き残ったとすれば、我々人間の声も同じ特徴が残っているのではないでしょうか。
つまり、STでは人間が遺伝的に備えている非常に原始的な部分を見ているわけで、この技術を使えば老若男女、あらゆる人の感情を同じように分析できますし、脳の構造から来る声のデータを調べるので、生まれ育った国などの文化的な違いにも左右されません。
このように「声帯は感情の影響を受ける」というのがSTの発想の原点ですが、音声に含まれる基本周波数や音量などの変化を細かく分析し、パラメーター化していくだけでは、心の動きを表現することはできません。抽象的に思える人間の感情を、数学や工学の手法を駆使してモデル化していくという作業も重要です。それができれば、声の分析によって得たデータとの紐づけができます。そこで、感情の動きを「感情地図(Emotional map)」という形でマッピングし、さまざまな感情がどういう心理状態の表れであるかわかるようにしました。
感性制御技術を医療に応用したPST
こうして誕生したSTは「ココロスキャン」というセガのニンテンドーDS向けゲームソフトや、「本音サーチャー」というiPhone向けのアプリケーションなどに採用されました。また、コールセンターの顧客対応システムにも応用され、お客がどういう感情でいるかすぐにわかることから適切な対応がすばやくできると好評です。そうした実用化の段階を経てSTの精度が上がってきたため、この技術を医療の分野でも活用できないかと考えるようになりました。現代社会では身体だけでなく心の健康も重要で、定期的にチェックできればいいのですが、残念ながら心の状態を数値化して評価する方法がありません。しかし、もし血圧計やレントゲン装置のように心の健康を測定できる機械があれば、深刻なうつ病などになる前に適切な医療を受けることができるでしょう。
そういった経緯で新たに開発されたのが、声から情動やストレス、抑うつ状態を分析するPST(Pathologic condition analysis and Sensibility Technology 音声病態分析感性制御技術)という技術です。また、そのPSTコンセプトに基づき、コンピューター上で動くように開発された最初のソフトウェアがマインド・モニタリング・システム(Mind Monitoring System)、名付けて「MIMOSYS(ミモシス)」です。MIMOSYSは、スマートフォン上で動く簡易版も開発されており、それを使えば、それこそ自宅で毎日、心の健康チェックができるため、メンタルヘルスの維持に多いに役立つはずです。
たとえばスマホ用のMIMOSYSは、アプリケーションを立ち上げると簡単な質問がいくつか表示されます。それに答えるだけで声の調子から心の健康診断ができるのです。ST同様、あくまで音声から判定を行うので、発話の内容は関係ありません。
今回、私たちは結果をわかりやすく表示するために血圧ならぬ「元気圧」という言葉とその単位MIMO(ミモ)をつくりました。これは心がどれだけ元気であるかを示す指標で、65MIMO以上だと活動的で調子がよく、50MIMO周辺は自然な感じで落ち着き気味、そして35MIMO以下が落ち込み気味です。数字は日々上下するのが通常ですが、低い数字が続くようにだったら精神科医などに相談することにより、深刻なうつになる前の未病の状態で治療が受けられるでしょう。
PSTとMIMOSYSの開発にあたっては、私自身、医療の専門ではありませんので、さまざまな研究機関の協力を得ています。