創薬研究に役立つ化合物とタンパクのデータベース 【基本を紹介】

創薬研究においては公開されているデータを効率よく集めるというのがスタート地点になります。本記事では、化合物やタンパクについて、創薬研究の最初の時点でよく使われているデータベースを紹介します。

化合物を中心としたデータベース

PubChemは化合物のデータベースの中でも中心的な存在で、様々な生物・化学実験や文献から得られた化合物や相互作用するタンパク質の2次元・3次元構造情報を収録しています。また、Pubchemには化合物を機械学習などで学習可能な形に変換するために広く利用されている881のフィンガープリント (J Chem Inform Modeling. 2011)の情報も提供されています。

ケモインフォマティクスで最も包括的なデータベースの一つであるChEMBLは、潜在的に薬になる可能性のある化合物を含む大量のchemical-protein interaction (CPI) 情報を含んでいます。このChEMBLの化合物と活性アッセイデータを用い、50%阻害濃度IC50値を使ってモデル評価のためのデータセットを報告しています (J Chem Inform Modeling 2019)。

DrugBankは、承認済みの薬や、まだ実験段階にある医薬品候補を含む、医薬品に関するより詳細な情報を提供しています。例えばZengらは、このアノテーション情報を用いてGPCRタンパク質のターゲット駆動型ドラッグリポジショニングのためのデータセットを構築しています (Bioinformatics 2020)DUD-Eは、活性型相互作用分子と、物理的特性は似ているがトポロジーが活性型分子と異なるデコイ分子のセットを提供してくれています (J Medicinal Chem. 2012)。これらの活性化合物とデコイは、CPI予測のためのポジティブサンプルとネガティブサンプルとして使用することができます。

他にもSTITCH, TTD, PharmGKBDrugCentralといったデータベースもよく使われています。

タンパク質中心データベース

UniProtは、レビュー済みの563,552個のタンパク質を編集した代表的なタンパク質配列データベースです。構造については、PDBにX線結晶構造解析などで得られた多数の立体構造データが集積しています。また、PDBbindはタンパク質とリガンド複合体間の実験的に測定された結合親和性データを包括的に提供してくれています。このPDBbindは、例えば機械学習に基づいた新しいスコアリング関数 (Bioinformatics 2010)のベンチマークにも使われています。

化合物とタンパク質の相互作用は通常はタンパク質表面の「ポケット」と呼ばれる好ましい部位で行われるので、タンパク質のポケット情報を利用することで、構造的な洞察に基づくより正確なCPI予測を行うことができる (PLoS Comput Biol. 2013)と考えられています。Torng と Altman による研究 (J Chem Inf Model. 2019) では、FEATUREソフトウェア (Protein Sci. 1995)を使用して、480 の物理化学的特性をタンパク質エンコードベクターに使用して、局所タンパク質ポケットをモデル化しています。

もともとタンパク質の立体構造データが解かれているものは、アミノ酸配列が分かっているタンパクに比べてずっと少ないのが課題でしたが、アミノ酸配列から立体構造を予測できるAlphaFoldによる予測構造を収録したデータベースが利用可能になり近年の研究には使われるようになってきています。

統合データベース

特別なキュレーションを行うことで、統合的なアノテーションを提供するデータベースがあります。その1つBindingDBは、酵素阻害や熱量測定などの実験から詳細な結合データを収集し、PubChemChEMBLから文献情報をキュレーションしたデータベースになっています。Gaoらは、このBindingDBから50%阻害濃度 (IC50) 値別にポジティブの化合物-タンパク組み合わせ39,747ペア、ネガティブの31,218ペアの情報を収集し、カスタマイズしたデータセットを発表しました (IJCAI 2018)。このカスタマイズされたデータセットはNatureの姉妹誌でも使われるようになっています (Nat Mach Intell. 2020)。

BindingDB以外にも、Davisらのデータセット (Nature Biotechnol. 2011) などがよく使われています。

まとめに代えて

この記事では、AI創薬を行う上で情報をどこから持ってくればよいのか、代表的なデータベースを紹介しました。

創薬科学ははじめてだといろいろ難解な用語が出てきますが、それらを平易に解説した入門書がこちらの本です。

また、AIで予測した化合物が本当に薬として機能するかは、タンパクと化合物の相互作用を調べる必要があります。そういった実験手法をまとめたのがこちらの本です。

AI創薬研究については、このような関連記事があるので合わせてご覧ください。

今日も【生命医学をハックする】をお読みいただきありがとうございました。当サイトの記事をもとに加筆した月2回のニュースレターも好評配信中ですので、よろしければこちらも合わせてどうぞ

 

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA