ハイスループットスクリーニングなどの新しい実験技術の出現により、PubChemやChEMBLなどには化合物の活性や生物医学的データが著しく増加しています。
そのデータを人工知能で解析することで創薬に結びつけようという動きも盛んです。この記事では、そうした学術研究のいくつかを紹介します。
化合物の生理活性を予測する
単層ニューラルネットワークは特に新しいものではなく、化学への応用も例えばQSAR (Quantitative Structure-Activity Relationship)モデリングに1990年代から用いられていました (The use of artificial neural networks in QSAR. Pestic. Sci. 1992)。
QSARモデリングとは、化合物の構造からその生理活性を予測することです。
深層学習技術が開発されたことで、より深いネットワークを使ってQSARモデリングを行うための方法が盛んに研究されました。
例えばMaらはMerck KaggleチャレンジデータセットにDeep Neural Network (DNN)を適用して、15のターゲットのうち13のターゲットにおいて、それまで標準的な方法だったランダムフォレストよりも優れた性能を示しました (Deep neural nets as a method for quantitative structure–activity relationships. J. Chem. Inf. Model. 2015)。
本研究から得られた重要の知見の1つは、マルチタスクDNNモデルがシングルタスクモデルよりも優れた性能を発揮するということで、別の複数の研究でも同様の結果が報告されています (DeepTox: toxicity prediction using deep learning. Front. Environ. Sci. 2016やIs multitask deep learning practical for pharma? J. Chem. Inf. Model. 2017など)。
これらの初期の研究は化合物をSMILESやInCHIといった分子記述子に変換した後に訓練していましたが、これらを使わない「生の」構造だけを使う表現学習を利用した取り組みも行われています。
これはもともとは2005年にMerkwirthらによって最初に検討されたアイデア (Automatic generation of complementary descriptors with molecular graph networks. J. Chem. Inf. Model. 2005)でしたが、その数年後にはこの問題に対処するための大きく2つの方法が開発されました。
Lusciらは2013年に発表した論文 (Deep architectures and deep learning in chemoinformatics: the prediction of aqueous solubility for drug-like molecules. J. Chem. Inf. Model. 2013)の中で、UGRNNという再帰型ニューラルネットワーク (RNN)の変形版を提案していて、ここではまず分子構造を同じ長さのベクトルに変換し、それを全接続した普通のニューラルネットワークに渡してモデルを構築します。これを使って、その化合物の溶解度を予測モデルが作られました。ほぼ同じ方法を使って、薬物誘発性肝障害のリスクを算出するという論文もあります (Deep learning for drug-induced liver injury. J. Chem. Inf. Model. 2015)。
もう一つの手法として、グラフ畳み込みモデルと呼ばれるものがあります。基本的な考え方はニューラルネットワークを使って分子記述ベクトルを自動生成しそれを学習させてベクトル値を学習するUGRNN法と似ています。
例えばGoogleの研究者はいくつかの既存のグラフ畳み込みアルゴリズムを使ったフレームワークであるメッセージパッシングニューラルネットワーク(MPNN)を開発し、量子化学的な性質を予測させる問題に取り組みました (Neural message passing for quantum chemistry. ArXiv. 2017)。
他のタイプの分子表現に基づく方法も探索されました。BjerrumらはSMILES文字列をLSTMの入力として使用しています (SMILES enumeration as data augmentation for neural network modeling of molecules. ArXiv. 2017)。興味深いことに、同じ化合物を表す複数のSMILESでデータを「拡張すると」、もともとのデータセットよりも良い結果が得られています。
化合物を描いた2次元画像に畳み込みニューラルネットワーク (CNN) を使って、既存の深層学習モデルに匹敵する性能が出せたという報告もあります (Chemception: a deep neural network with minimal chemistry knowledge matches the performance of expert-developed QSAR/QSPR models. ArXiv 2017)し、画像にいくつかの基本的な化学情報を付加するとモデルの性能がさらに向上したそうです。
人工知能で化合物をデザインする
人工知能で化合物を1からデザインする試みもやられています。
Gómez-Bombarelliらは、変分自動エンコーダー(VAE)を用いて化学構造を生成する新しい手法 (Automatic chemical design using a data-driven continuous representation of molecules. ArXiv. 2016)を提案しました。まず、ZINCデータベースの化学構造(SMILES文字列)を使った教師なし学習を行い、この学習されたVAEによってlatent spaceのベクトルをSMILES文字列に可逆的に変換することができます。望ましい特性を持つ新しい構造を、任意の最適化手法による探索で実現できると主張しています。日本語で書かれた論文の解説記事もごらんください。
VAEを使ったde novo designはいろいろ試みられていて、例えば
laschkeらによるドーパミン受容体を標的にした創薬 (Application of generative autoencoder in de novo molecular design. Mol. Inf. 2017)などがありります。
ドーパミン受容体は血圧の維持やパーキンソン病に代表される一部の神経疾患の治療を考える上でとても重要な標的であり、現状ではいろいろな問題もあるとはいえ目的の性質を持った化合物をデザインできるのは大きな可能性があります。
VAE以外の方法ももちろんあって、例えばRNNを使った研究論文 (Generating focussed molecule libraries for drug discovery with recurrent neural networks. ACS Cent. Sci. 2018やChemical space mimicry for drug discovery. J. Chem. Inf. Model. 2017)では、多数のSMILES文字列に対してRNNを訓練したところRNNは訓練セットに含まれていない新しい有効なSMILES文字列を生成するのに驚くほどうまく機能したそうです。
RNNと一緒に強化学習を組み合わせる手法も登場しました。
分子ドッキング計算と巨大データセット
タンパク質とリガンドの間の相互作用を評価することは分子ドッキングプログラムの重要な部分です。
これまで多くの評価関数は物理化学的性質に基づくものか、あるいは既存のタンパク質-リガンド複合体の構造から得られた知識に基づくものでした (Software for molecular docking: a review Biophys. Rev. 2017)。
この評価関数についてCNNを応用した研究がいくつか発表されています (Protein–ligand scoring with convolutional neural networks. J. Chem. Inf. Model. 2017)。
画像ではImageNet、自然言語処理ではWordNetという巨大なデータベースがありますが、その化学版を作ろうという動きの中からできたのがMoleculeNetです。
これはオープンソースパッケージDeepChem上に構築されていて、DeepChemに存在するいくつかの一般的なアルゴリズムとの連携が簡単にできるようになっています。
さまざまなアルゴリズムが提案されていますが、こういった統一的なデータセットがあればその比較検証も容易になっていくでしょう。
関連図書
この記事に関連した内容を紹介している本はこちらです。
今日も【生命医学をハックする】 (@biomedicalhacks) をお読みいただきありがとうございました。