抗がん剤の感受性を予測する【機械学習方法とリソース】

抗がん剤がどれくらい効くのか、を予測する取り組みは古くから行われてきましたが、機械学習の手法を取り入れた方法もここ数年で数多く提案されるようになりました。

この記事では、そういった手法の概要やリソースについて紹介します。

この記事の内容

1 簡単な背景
2 単剤治療の効き目を予測する
3 抗がん剤併用療法の効果を予測する
- 3.1 代表的な有用なデータセット
- 3.2 併用療法予測の試み
4 まとめに代えて
5 関連図書

簡単な背景

がんは、もともと正常だった自分の細胞に遺伝子変異が起こる結果、勝手に増殖してしまう病気です。

その罹患率は年齢の5乗に比例するとも言われていて、高齢化の影響もあって日本では2人に1人が一生のうちにがんに罹患しています。

幸いなことに数々の治療法の改善が積み重なって、世界のすべての人種・民族を合わせたがん死亡率は、ごくわずかですが減少してきている傾向にあります。

抗がん剤は一部 (BCR-ABL融合遺伝子がある白血病患者に対するイマチニブなど) を除いて、それが有効な患者さんを同定する確立された方法は残念ながらありません。

そのため、標準療法と呼ばれる治療を (効くかどうかは何とも言えないが) まずやってみて、それがダメなら次の治療法、ということが行われています。

その患者さんにとってより効果が見込まれる抗がん剤を事前に予測できれば、がんの進行を抑えることにつながります。

そうした個別化医療へ向けて、抗がん剤に対する感受性 (効きやすさ)の予測をしようという動きがあります。

臨床的に予測性能の高いシステムを開発するためには、オミクスデータと実際の患者さんの転帰 (抗がん剤がどれくらい効いたかなど) をたくさん収集する必要がありますが、これらを得るには(時間・研究費両方の) コストがかかることや、その他の多くの要因により、そのサイズが制限されていることが多い (患者さんの数が少ないことが多い) です。

限られたデータセットの中でいかに予測性能を高めていくか、ということが問われています。

単剤治療の効き目を予測する

代表的な有用なリソース

細胞株や動物を使った抗がん剤の効き目とその分子プロファイルを関連付けるための大規模な取り組みは、古く1990年代後半にまでさかのぼります。

アメリカ・国立がん研究所 (NCI)は、FDAによって承認されている抗がん剤パネルを含む数万の化合物を使って、60種類のがん細胞株（NCI60）にどれくらい効くのかを大規模に調べリソースとして発表しました。

このリソースは実際にいくつかの新規抗がん剤の発見につながり、例えば26Sプロテアソーム阻害剤であるボルテゾミブは、多発性骨髄腫という血液の病気の治療に使用されています (The NCI60 human tumour cell line anticancer drug screen. Nat. Rev. Cancer, 2006).

それから時がたち、大手製薬会社ノバルティスは、PDX Encyclopediaと呼ばれる、これまでで最大規模のPDXベースの薬理ゲノムデータセットを発表しました (High-throughput screening using patient-derived tumor xenografts to predict clinical trial drug response. Nat. Med.,2015)。

NCIは最近、包括的な分子プロファイリングを備えたPatient-Derived Models Repository（PDMR）を発表し、将来的には薬理学的プロファイルを公開することを約束しています。

Patient-Derived Modelというのは、患者さんから得られたがん細胞・組織をマウスなどの実験動物に移植した上で実験動物に抗がん剤治療実験を行いその効果を見るという方法で、抗がん剤を (実験動物の) 生体に投与したときにそれがどのように (患者さん由来の) がん細胞に効くのかを評価できるシステムです。

また、それ以外にも次のような代表的なリソースがあります。

抗がん剤感受性に関する有用なリソース

PharmacoDB
GDSCTools
CTD2
PRISM repurposing
CellminerCDB
CancerDP
PDXFinder
Xeva
Cancer-Drug eXplorer

機械学習を使った感受性予測

感受性予測は、実際の感受性を計測し、細胞の特徴量 (遺伝子発現など) 抽出や次元削減を行い、モデルのフィッティングや機械学習を行い、そしてまだ学習に使っていないデータで評価するという流れになります。

特徴量としては、遺伝子変異 (SNPを含む)、コピー数変異、RNA発現量、DNAメチル化、近年ではそれにプロテオミクスデータがよく使われています。

がんにおいては突然変異やコピー数変化がクローズアップされてきましたが、近年の複数の感受性予測の研究から、この2つは情報が少なく、むしろこれまであまり注目されてこなかった遺伝子発現、メチル化、タンパク質量の方が予測能が高いということが示されてきています (Discovering the anticancer potential of non-oncology drugs by systematic viability profiling. Nature Cancer 2020: Gene isoforms as expression-based biomarkers predictive of drug response in vitro. Nat. Commun. 2017)。

おそらく、すべてのデータを効果的に活用する上での現時点での大きな障壁は、冗長性を無視しながらそれらを融合させる確立された方法がないことです。

また、例えば測定される遺伝子数は2万もあるのに、サンプル (細胞株や患者さん由来の腫瘍) は数百しかないということも問題を複雑にしています。

というのも、深層学習のような複雑度の高いモデルは、過学習を避けるために多くのサンプルを必要になるため、より昔ながらのサポートベクトルマシンやロジスティック回帰のような複雑度の低いモデルをメインで使わざるを得ないということになるからです。

この問題を解決できるような深層学習システムを開発できれば、より複雑なモデルも使えるようになるというモチベーションのもと、いくつかの試みがなされているので後述します。ここでは、深層学習ではなく古典的な機械学習の方法をいくつか紹介します。

CostelloらとJangらは、がん細胞株における薬物反応予測のための機械学習手法の広範な比較分析を行い、すべてのプラットフォームからの特徴量を用いたelastic netまたはリッジ回帰の使用を推奨しています。DREAMチャレンジという国際的な予測性能を競う大会で抗がん剤の感受性モデルが題材になったことがあり、その結果をまとめたのです (A community effort to assess and improve drug sensitivity prediction algorithms. Nat. Biotechnol. 2014)。

このコンペティションで優勝したベイズ型マルチタスクマルチカーネル学習法 (Drug susceptibility prediction against a panel of drugs using kernelized Bayesian multitask learning. Bioinformatics 2014)は、データの持つ非線形の関係と既存の生命科学知識 (特にパスウェイ情報) をうまく組み込んだモデルでした。

Leeらは、疾患に関連するマルチオミクスの事前情報を統合して遺伝子と薬物の関連を順位付けする方法を発表しています (A machine learning approach to integrate big data for precision medicine in acute myeloid leukemia. Nat. Commun. 2018)。

深層学習を使った感受性予測

ニューラルネットワークを使って抗がん剤の反応を予測しようというのも今に始まった話ではなく、1990年代にさかのぼります。El-Deredyらは、核磁気共鳴（NMR）スペクトルデータで訓練されたニューラルネットワークがグリオーマ (脳にできるがんの1つ) における薬物反応を予測できる可能性を示しています (Pretreatment prediction of the chemotherapeutic response of human glioma cell cultures using nuclear magnetic resonance spectroscopy and artificial neural networks. Cancer Res. 1997)。

そこからしばらく、浅いニューラルネットワークが使われていて、それは上で述べたとおり利用可能なデータが少なく過学習を避けるためでした。

しかし徐々にさまざまなデータが蓄積してきて、より深いニューラルネットワークも徐々に使われるようになってきました。

例えばChangらは、それぞれの化合物につき1000程度のデータ数の薬剤感受性データセットで畳み込みニューラルネットワーク (CNN) を訓練し、CDRscanモデルを発表しました (Cancer drug response profile scan (CDRscan): a deep learning model that predicts drug effectiveness from cancer genomic signature. Sci. Rep. 2018)。このモデルは、ランダムフォレストやサポートベクトルマシンといった古典的な機械学習アプローチと比較して、大幅に改善された性能を達成しています。

もう一つの有望な方向性は、より小さなデータセットから学習できるオートエンコーダーです。

Rampášekら (Dr. VAE:Improving drug response prediction via modeling of drug perturbation effects. Bioinformatics 2019)は、単剤治療の反応予測における変分自動エンコーダーを評価して、その拡張モデルであるDr.VAEを開発しました。これは、細胞株における治療前後の遺伝子発現を活用したもので、多くの古典的な機械学習アプローチと比較して、様々なFDA承認薬の薬剤反応予測において総合的に改善された性能を示しています。

Dincerら (DeepProfile: deep learning of cancer molecular profiles for precision medicine. bioRxiv 278739)は、急性骨髄性白血病 (AML) 患者の遺伝子発現を8次元に圧縮するする変量自動エンコーダーを応用した手法であるDeepProfileを開発し、この圧縮した8次元の情報を使ってLasso線形モデルに適合させ、性能を向上させた薬剤応答予測のための手法を開発しています。

Chiuら（Predicting drug response of tumors from integrated genomic profiles by deep neural networks. BMC Med. Genomics 2019）はTCGAデータセットの突然変異データと遺伝子発現量を使ったオートエンコーダーを事前に学習し、その後、深層学習を使って薬物反応を学習しました。

この事前訓練により、TCGAのような薬剤情報についての情報がないデータを活用することができ、実際の薬物反応についてのデータは少なく済ませることができています。

抗がん剤感受性を予測する手法 (抜粋)

HNMDRP
KRL
Dr.VAE
CancerDP
BMTMKL

抗がん剤併用療法の効果を予測する

代表的な有用なデータセット

実際のところ、がん治療において1剤のみで行うことはあまり多くはありません。複数の薬を組み合わせる併用療法が普通です。

となれば、1剤の予測だけではなく、併用療法の効き目についても予測できるようにしたいものです。

そのために必要なデータセットやリソースも、大手製薬会社や公的機関が中心になって次々に公開されてきています。

併用療法に関する代表的なデータセット

Merck
AstraZeneca-Sanger Drug Combination Dataset
NCI ALMANAC

併用療法予測の試み

ゲノムデータ、薬物データ、あるいは既知のパスウェイデータなど、いろいろなデータに基づいて抗がん剤の組み合わせによる相乗効果を予測する手法が数多く開発されています。

全ての薬の組み合わせを調べるというのは不可能なので利用可能な組み合わせデータも少なくなってしまいます。それならば、併用療法の予測をするのに薬への反応のデータを使わないという、極端な手法も発表されました。

これはPreuerらが発表した方法 (DeepSynergy: predicting anti-cancer drug synergy with Deep Learning. Bioinformatics 2018)で、トランスクリプトームデータと薬物構造データのみを使ってどの程度2剤の併用が有効かを予測できる方法です。ここには深層学習が使われていて、従来のランダムフォレスト、サポートベクトルマシンなどのベースラインモデルと比較して良好な性能が出たとのことです。

Xiaらは深層学習を使って複数のデータタイプ (遺伝子発現、microRNA、およびタンパク質量)から薬の併用療法の効果を予測しています (Predicting tumor cell line response to drug pairs with deep learning. BMC Bioinformatics 2018)。

併用療法を予測・評価するのに有用なツール

SynergyFinder
Combenefit
CImbinator
DIGREM
RACS
DeepSynergy