化合物-タンパク結合予測モデルの改善点【2022年末時点】

2022年12月13日 2022年12月13日 19分28秒

Web master

この記事のタイトルとURLをコピーする

化合物-タンパク相互作用予測をより正確に行うために、まだまだ改善するべき点が残されています。この記事では2022年12月時点での代表的なトピックスを紹介します。

この記事の内容

1 主な改善点
2 新たな技術方法の開発
3 まとめに代えて

主な改善点

CPI の相互作用予測を成功させるためには、2 つの大きな課題があります。一つはデータ表現、もう一つはネガティブサンプルを使ったポジティブ・ネガティブの判定を洗練させることです。

データ表現

化合物やタンパク質の表現には、SMILESやアミノ酸配列のような人間が読みやすい形式が広く使われています。しかし、これらの人間が読める形式では、3次元空間における近傍性などの重要な情報を伝えることができないことが多いのも事実です。そこで、CPI予測のために様々なデータフォーマットが設計され、試されてきました。

化合物やタンパク質の表現方法の選択は、CPI予測に用いる技術に依存します。例えば深層学習技術では、化合物やタンパク質の潜在的なベクトル表現が用いられます。これは、深層学習法が化学元素やアミノ酸配列などの記号情報を扱うように設計されていないからです。その代わりに、深層学習法は潜在的なベクトルを生成し、これらの潜在的なベクトルを組み合わせてCPIを予測してきました。化合物とタンパク質の可能性のある組み合わせに比べ、CPIのデータ量は少ないため、埋め込みベクトルは学習データを超えてCPIを予測するための汎化能力を持つことが必要です。Sanchez-Lengelingらは化合物の分子表現を離散グラフ、連続グラフ、重み付きグラフの3つに分類しています (Science 2018)。SMILES 文字列は典型的な 1 次元分子グラフ表現ですが、他にも化合物のフィンガープリントは分子環境の定量化に有用であり (J Chem Inform Modeling 2010)、クーロン行列 (Phys Rev Lett 2012)や電子密度など他の表現は原子核間の静電環境を模倣することができます。

タンパク質の表現には、主にアミノ酸配列が広く用いられています。現在では、タンパク質の進化情報を考慮し、AA配列をPSSMやBLOSUM62で符号化する手法が多く用いられています(Anal Biochem 2020)。また、PseAAC (Pseudo Amino Acid Composition)による配列ベースの特徴量や、タンパク質の3次元情報による構造ベースの特徴量 (Anal Biochem 2020) も、アミノ酸配列と併用することが可能になってきました。

陰性例を用いた判定境界

真のCPIに対するポジティブ・ネガティブ境界の構築には、化合物やタンパク質の深層学習ベースの潜在ベクトル表現などの高度な計算手法が必要になりますし、計算手法だけでなく真のネガティブ相互作用をフィルタリングすることが重要です (Briefings Bioinform. 2014)。Liuらは、類似の化合物は類似の標的タンパク質と相互作用する可能性が高く、その逆もまた然りであるという仮定に基いて、信頼できるネガティブサンプルをスクリーニングする系統だった方法を提示しました (Bioinformatics 2015)。具体的には、様々なリソースから化学構造類似性とタンパク質構造類似性を計算し、その類似性、検証済み/予測済みの相互作用から陰性サンプルをさらにスクリーニングするために計算するために統合しています。古典的な分類法と既存の予測モデルを用いた様々な実験設定により、このフレームワークでスクリーニングされた陰性サンプルは信頼性が高く、CPIの同定に有用であることが実証されています。

アテンション機構

深層学習は、最終的な判断がどのようになされたかについての解釈が困難であるという点で、ブラックボックス的な判断をしていると批判されることが多いです。この問題を解決する最も有力な方法の1つとして、アテンションメカニズムが提案されています。もともとは画像処理や音声認識に広く利用されてきたものですが、CPI予測にも広く利用されるようになってきました。アテンション機構を持つ機械学習モデルは、CPI 予測のための原子レベルの寄与を捉えることもできます。例えば、Gaoらは、LSTM層とGCN層でそれぞれタンパク質と化合物の潜在的なベクトルにアテンションを用いています (IJCAI 2018)。この手法により、ファーマコフォアを特徴付ける標的タンパク質に関連する原子の寄与を視覚的に調査することが可能となりました。

Karimiら (Bioinformatics 2019)は、アテンションメカニズムを用いてモデルを学習し、リガンド結合部位を特定し、さらに対応するタンパク質セグメントを予測していますた。Shinら (arXiv 2019) は、SMILES文字列を自己アテンション機構を持つより良い表現ベクトルにモデル化する分子変換器を提案しました。また、Tsubakiら (Bioinformatics 2019)は、化合物の部分グラフとタンパク質の部分グラフの間の相互作用を捉えるために、GNNとCNNの出力にニューラル・アテンション機構を用い、分子とタンパク質のペアの相互作用強度をアテンション重みで測定してCPI予測に用いています。また、Agyemang ら (arXiv 2020) は、マルチヘッド自己アテンションメカニズムを用いて、様々な単峰性表現を組み合わせることで、化合物とターゲットの情報豊かな表現を生成しています。

このように、アテンションメカニズムはこれからもさまざまなところに使われていくでしょう。

新たな技術方法の開発

データの記述

ほとんどの CPI 手法は、化合物もしくはタンパクのいずれかに関する解釈を提供してくれます。例えばInteraction fingerprint (IFP) は、3次元のタンパク質-リガンド複合体を表現・解析する手法で、結合部位の特定の相互作用の有無を1次元ベクトルで表現するものです。このIFPを使ってDengらは類似の結合モードを持つドッキングポーズを特定し、クラスタリングすることで、異なる結合相互作用を明らかにし、IFPがCPIの可視化と分析に有用であることを実証しています (J Medicinal Chem. 2004)。この仕事に触発されて、ChupakhinらはSILIRID (Simple Ligand-Receptor Interaction Descriptor) と呼ばれる新しいタイプの固定サイズフィンガープリントを考案しました (Computat Struct Biotechnol J. 2014)。SILIRID は、同一のアミノ酸に対応するビットを合計することで IFP から計算され、168 個の整数値からなり、1 組のアミノ酸と 1 つの原子が持つ 8 種類の相互作用を考慮し、リガンド-受容体（化合物-タンパク質）複合体を表現するものです。また、複雑で次元の高い生体分子データを、数学的手法により特徴量に変換する方法については他にもいろいろあり、詳細にレビューされています (PCCP 2020)。

強化学習による生成モデル

データの隠された表現を利用して、特定のターゲットに対する新しい化合物を生成することができます。例えばZhavoronkovらは、DDR1キナーゼ阻害剤のための化合物を生成するための革新的なソフトウェアフレームワークを開発しました (Nat Biotechnol. 2019)。彼らは、CPI空間を探索するためにいくつかの戦略を用いています。

まず、DDR1キナーゼ阻害剤の化合物空間をモデル化するためにVAE (変分オートエンコーダー) を使用しました。この研究では、ターゲット遺伝子空間をDDR1キナーゼに限定することで、VAEによる化合物空間の探索を制限しています。

次に、強化学習（RL）を用いて、VAEで生成された化合物を3つの自己組織化マップ（SOM）を報酬関数として評価し、キナーゼ阻害剤の標的遺伝子空間を探索しました。彼らは、GENTRYと呼ばれる探索フレームワークを開発・使用し、線維症などに関与するキナーゼの標的であるディスコイジンドメイン受容体1（DDR1）の強力な阻害剤をわずか21日間で発見しました。

この研究は、CPI相互作用の観点から化合物空間と標的遺伝子空間を探索した優れた例の1つです。他の最近の研究でも、VAE と強化学習を単独または組み合わせてデータ空間を探索し、所望の特性を持つ化合物を設計した報告があります (J Cheminformatics 2019; Chem Sci. 2020)。

課題と問題点

Drug Design Data Resourceが2015年から開催している、化合物設計の最先端手法を試す世界的なコンテストD3R Grand Challengeと名付けられたチャレンジがあります。各年とも，タンパク質-リガンドの共結晶構造と親和性データが多数提供され，リガンドのポーズ，親和性，自由エネルギーが推定するという課題が出されました。

Nguyenらは、D3R Grand Challenges 3において、Cathepsin Sの自由エネルギーを予測するモデルを開発し、優勝しています (J Comput-Aided Molecular Des. 2019)。最新のD3Rチャレンジは2018年12月に開催され、NguyenらはGAN-およびCNNベースの深層学習モデルによるBACEリガンドのポーズの推定で上位に入るパフォーマンスを示しました (J Comput-Aided Molecular Des. 2020)。

また、適切な評価メトリクスの選択も重要な課題です。タンパク質-リガンドのさまざまな評価指標について、Comparative Assessment of Scoring Functions (CASF) (J Chemical Inform Modeling 2018; Nature Protocols 2018)において広範囲に比較されています。