日本人科学者たちが専門誌に発表したばかりの最新のがん研究の成果について、プロジェクトのリーダーとして論文を発表した星野歩子さん(東京工業大学生命理工学院生命理工学系准教授)に、インタビューした。
体内にがんがあるとエクソソームに変化が現れる
パンデミック前後で、人々の消費スタイルは世界的に様変わりした。外食費が減って、自炊のための食費は増え、化粧品や美容院などにかける美容費が減り、マスクなどの衛生用品にかける費用は増えた。需要が変われば、サプライチェーンを流れる商品の種類も量も変わる。もし宇宙人が地球人を観察していたとしたら、たとえコロナウイルスを知らずとも、流通する商品の変化から感染症の世界的流行を推測できるに違いない。
人間の体内で何らかの異常事態が発生した場合にも、全身の細胞が生産する「商品」が変わるらしい。2020年8月13日付で米専門誌Cellのオンライン版に発表された論文「Extracellular Vesicle and Particle Biomarkers Define Multiple Human Cancers」(星野歩子他「血液内のエクソソームをバイオマーカーとしたがん診断法の開発」)によれば、体内にがんがあると、「エクソソーム」と呼ばれる小胞に変化が見られるという。
エクソソームは、直径50〜150ナノメートル(1ナノメートルは10億分の1メートル)の袋状の粒で、あらゆる細胞の中で作られ、外に分泌される。エクソソームの変化を正しく見極めることができれば、がんの早期発見や、最適な治療法の選択に役立つ可能性がある。宅配の小包の中身をのぞき見して、マスクが入っている小包が多いことから、単にパンデミックが起きていることだけでなく、飛沫感染しうる何かが流行していることを突き止めるようなものだ。
「血液を見ることで、どういうがんを持っているかがわかるようになれば、たとえば原発不明がんの治療法の改善につながる」
論文を発表した研究チームを率いる、東京工業大学生命理工学院生命理工学系准教授の星野歩子氏は、こう期待を語る。
原発不明がんとは、その名の通り、どこで最初にできたのかわからないがんのことである。一口にがんと言っても、どの臓器で発生したかによって性質はさまざま。最初に肺で発生したがんと、大腸で発生した後に肺に転移したがんでは、同じ肺から見つかったものでも異なる。がんの性質は、抗がん剤の選択に関わるから、原発巣の特定は極めて重要だ。しかし、転移した後に原発巣がなぜか消えるなどして、がんが発見されたときに原発巣を特定できないケースは、成人がかかるがんの2〜5%を占める。診断から5年後の生存率は、全部位・全ステージの平均で70%に迫るが、原発不明がんの場合、2〜6%と極端に低い。
星野氏らの前出の研究では、1から4まであるステージに関わりなく、血液など体液中のエクソソームのタンパク質を調べることで原発巣の特定やがんの種類を、きちんと分類できるようになったという。
タンパク質を「機械学習」で網羅的に調べると
エクソソームに含まれるタンパク質から、どうしてがんの種類がわかるのか?
研究チームが今回用いたのは、「プロテオミクス」と「機械学習」だ。プロテオミクスは、ある生物が持っている多種多彩なタンパク質(プロテイン)を網羅的に列挙して調べる手法である。タンパク質は、生物の設計図であるゲノムを構成する遺伝子の情報によって作られるが、一つの遺伝子から複数のタンパク質が作られたり、いったん作られたタンパク質も後で他の分子が付いたり、分解したりするため、遺伝子よりはるかに種類が多い。
プロテオミクスで、どんなタンパク質がどれくらい存在するかを列挙してみる。人間が、そのリストを眺めても、がんの人と、がんでない人を見分けたり、がんの種類を言い当てたりするのはほとんど不可能だ。可能だとしても途方もない時間がかかるだろう。そこで機械学習の出番となる。機械学習は、近年、著しい進展を見せるAIの核となる手法で、あらかじめサンプルデータをコンピュータに与え、正解と不正解を教えてデータを学習させ、本番では未知のデータを与えて答えを出させる。コンピュータはトレーニングの過程で、正解の特徴を学び、未知のデータに対しても対処できるようになる。顔認識や、機器の故障検知などでも同種の手法が使われている。
実験では、77人のがん患者、43人の健常者の方から採った血漿(血液から赤血球、白血球、血小板などを除いた成分)、胆汁、リンパ液からエクソソームを採取。サンプルの数は400以上に及んだ。各サンプルのプロテオミクスにより、1人あたり1000種類ほどのタンパク質のデータがリストアップされた。「エクソソームに含まれるタンパク質について、これだけ多くのサンプルを扱っている論文は今までなかった」(星野氏)
400以上のサンプルから得られたデータは、その4分の1を本番用とし、4分の3のデータを機械学習のトレーニングのために使用した。星野氏らは、どれががん患者のサンプルで、どれがそうでないかを当然知っているから、正解と不正解を機械学習させることができるわけだ。
「こういったトレーニングを施したのち、残りの4分の1について、『これはどうですか?』と本番の処理をさせました。そうすると、〈実際にがんで、がんと答えた〉例が19例の中で18例。1例だけ、がんであるのに〈非がん〉=がんではない、と分類されました。また〈実際には非がんで、非がんと答えた〉例が10例中9例で、1例だけ〈非がんであるのに、がん〉と分類されてしまった。
特異度
検査の精度を示す指標。ある検査が、がんのない人を「陰性」と正しく判定する割合のこと。