深層学習による化合物・タンパク質の相互作用予測【AIによるドッキング】
この記事のタイトルとURLをコピーする

化合物とタンパクの相互作用 (chemcial-protein-interaction, CPI) を予測する人工知能 (AI) が近年さまざま登場しています。ここではAIの中でも特に深層学習を使った方法を概説します。

再帰型ニューラルネットワーク (RNN)を使う方法

RNNはもともと自然言語処理用に開発されたものですが、化合物をSMILES、タンパクをアミノ酸のように表記すれば両者とも一種の「言語」として表現できることからCPI予測にも使われるようになりました。(Gao et al., IJCAI 2018)では、RNNを使ってアミノ酸配列を数値に変換しており、具体的にはタンパクの配列そのものとGOアノテーションの2つをRNNで処理して数値に変換しています。別の研究として、タンパクの3次元構造で近接する残基や原子間の依存性を考慮した上でRNNベースのseq2seqオートエンコーダを使用してタンパク側の埋め込みベクトルを学習し、その後にattentionメカニズムを使用して化合物とタンパク質間の結合部位情報を学習しながら畳み込みニューラルネットワーク(CNN)でCPI予測モデルをトレーニングしたという報告もあります (Bioinformatics 2019)。RNNそのものではなく変形であるLSTM(Long Short-Term Memory)を使ってより良好な性能を発揮するということも示されました (BMC Med Inform Decis Mak 2020)。

自然言語処理においては事前学習済みモデルの活用が広く行われていますが、分子配列の単語的な埋め込みと位置の埋め込みをモデル化したBERTモデル (arXiv 2018) をCPI予測に利用した報告も出始めています (arXiv 2019)。Transformerも配列に基づく手法であり、CPI予測タスクに広く用いられています (arXiv 2019; arXiv 2020)。

畳み込みニューラルネットワーク (CNN)を使う方法

コンピュータビジョン領域での成功に触発され、CNNは構造ベースの結合親和性予測を行うために2015年には使われるようになりました (arXiv 2015)。その後、タンパク質-リガンド複合体の構造情報を用いてCPIをスコアリングするためにCNNを使用した報告も登場しています (J Chem Inform Modeling 2017)。

CNNそのもので最後までやるのではなく一種の特徴量抽出器として利用するということも行われています。例えばタンパクのアミノ酸配列の特徴量、低分子化合物のSMILESから特徴量を抽出したり (arXiv 2019; Bioinformatics 2020)、タンパク質と小分子の複合ベクトル  (arXiv 2018)にも応用されています。

近年はタンパク質データの進化情報を利用するためにまずタンパク質配列をBLOSUM62行列 (PNAS 1992)で符号化した後にCNNモジュールで処理するというアプローチが登場しました (Cell Systems 2020)。しかし、1次元の情報のみを考慮することは、タンパク質の3次元構造を反映する上でどうしても限界があります。そこでZhengらの研究ではタンパク質の構造情報を提供するために、タンパク質の2次元距離マップを使っています (Nat Mach Intell 2020)。2次元距離マップを入力とするCNNベースの視覚的質問応答(VQA)システムは、SMILESをクエリーとして「化合物とタンパク質のペアが互いに作用しているかどうか」に対する答えを生成できます。また、化合物の2次元画像も入力として用いることで化合物とタンパク質間の相互作用を予測したという報告もあります (Chem Sci 2020)。

グラフ畳み込みニューラルネットワークを使う方法

化合物とタンパク質は、元素やアミノ酸をノードとし、ノード間をエッジとするグラフとして表現できます。グラフ学習のための深層学習手法、特にGNN(Graph Neural Network)は最近飛躍的に進歩しており、これをCPI予測に用いることも行われるようになってきました。基本的な戦略は化合物グラフとタンパク質グラフの埋め込みベクトルを別々に学習し、2つの埋め込みベクトルを組み合わせてCPIを予測するという、いわばlate integration戦略ですが、より前の時点で両者を統合する (early integration) 、つまり化合物とタンパク質の埋め込みベクトルを同時に学習することも可能です。GNNにはいろいろな手法がありますが、その中でも Graph Convolutional Network (GCN) は、隣接するノードの畳み込み演算を利用して中心ノードを更新する方式で、Message Passing Neural Network (MPNN) は,各ノードの情報をエッジを介して隣接ノードに伝搬させることでグラフトポロジーの構造を学習し,その結果,エッジとノードの特徴を同時に学習することができる方法です。

GCNは分子グラフの埋め込みベクトルを学習するために用いられています。例えばTorng・Altmanは、分子グラフ構造とタンパク質ポケットの2つのグラフオートエンコーダを用い、相互作用パターンを決定するための埋め込みベクトルを構築し、それらを組み合わせた方法を報告しました (J Chem Inf Model 2019)。Limらの研究では、タンパク質-リガンド複合体を同様に3次元グラフ表現を埋め込むための入力とみなしています (J Chem Inform Modeling 2019)。近年の自然言語処理においてあちこちで採用されているattentionメカニズムは、より良いCPI予測性能を達成しながら、より良い解釈可能性を提供するために、しばしばGCNと同時に使われています。

GCNの限界の一つは、GCN は局所的な情報のみを考慮し、グローバル構造を反映することが困難であるということでした。この限界を克服するために、Karlov らは MPNN を用いて、ノードとエッジの両方を考慮することで薬剤化合物を埋め込むことに成功しています (ACS Omega 2020)。より最近の研究では、CPI予測に深層学習手法のアンサンブルを用いたLiらの報告もあります (Cell Systems 2020)。この論文では、MPNNだけでなくGWU (Graph Wrap Unit) も化合物グラフの特徴を反映するために使われています。

まとめに代えて

この記事では、AI創薬、特にCPI予測手法について概説しました。

創薬科学ははじめてだといろいろ難解な用語が出てきますが、それらを平易に解説した入門書がこちらの本です。

また、AIで予測した化合物が本当に薬として機能するかは、タンパクと化合物の相互作用を調べる必要があります。そういった実験手法をまとめたのがこちらの本です。

AI創薬研究については、このような関連記事があるので合わせてご覧ください。

今日も【生命医学をハックする】をお読みいただきありがとうございました。当サイトの記事をもとに加筆した月2回のニュースレターも好評配信中ですので、よろしければこちらも合わせてどうぞ

この記事のタイトルとURLをコピーする
生命医学の知識や進歩を無料のニュースレターで

がんをはじめとする病気やよくある症状などの医学知識、再生医療などの生命科学研究は、研究手法が大きく前進したこととコンピューターの発達なども相まって、かつてないほどの勢いで知識の整備が進んでいます。

生命医学をハックするでは、主として医師や医学生命科学研究者ではない方や、未来を担う学生さんに向けた情報発信をしています (より専門的な内容はnoteで発信中)。

月に1回のペースで、サイトの更新情報や、それらをまとめた解説記事をニュースレターとして発行しています。メールアドレスの登録は無料で、もちろんいつでも解除することができます。

サイト名の「ハックする」には、分かってきたことを駆使し、それを応用して、病気の治療や研究などにさらに活用していこうという意味があります。

生命医学について徐々に解き明かされてきた人類の英知を受け取ってみませんか?

こちらの記事もいかがですか?
ブログランキング参加中 (クリックしていただけると励みになります)