タンパク質の代表的なデータベース7つ【まずはここから】
執筆者
【生命医学をハックする】運営者 (@biomedicalhacks)。生命科学研究者、医師・医学博士。プロフィールはこちら

タンパク質の研究をする上では、実験的なアプローチももちろんですが、コンピューターを使った検討も同じくらい重要で、それにより大きなヒントを得ることもできます。

この記事では、普段あまりコンピューター解析に馴染みがない方に向けて、マウスクリックで操作できる代表的なタンパク質データベースをまとめました。

PDBj

PDBjは生体高分子の構造データを実験的に決定したデータを集めたものです。

wwPDB (worldwide Protein Data Bank) 一員であり、X線結晶解析、NMR (核磁気共鳴)、電子顕微鏡いずれのデータも扱っています。

wwPDBのメンバーには日本のPDBj以外にアメリカのRCSB PDB、ヨーロッパのPDBe、そしてNMRのデータに特化したBMRBの3つがあり、これらはお互いに連携してデータをやりとりしています。

構造についてはウェブベースで閲覧できる他のツールもあります。

関連記事タンパクの構造を可視化するデータベースとwebツール 【初めてでも直感的に使える】

UniProt

UniProtは、タンパク質のアミノ酸配列に関する情報を網羅的に収集したデータベースです。

2002年にスイスバイオインフォマティクス研究所のSwiss-Prot, 欧州バイオインフォマティクス研究所のTrEMBL、ジョージタウン大学メディカルセンターのPIR-PSDという当時は独立していた3つのデータベースを統合する形で始まりました。

この3つ以外にも、Ensembl, PDB, REfSeqなど多くのデータベースからもアミノ酸配列を収集しているので、世界で最も網羅性の高い公共データベースといっても過言ではありません。

UniProtの中は3つのデータベースがあります。

UniProt knowledgebase (UniProt-KB)は、UniProtタンパク質の配列の配列とアノテーションがまとめられたもので、専門家による主導のものにはUniProt--KB/Swiss-Prot, 機械的なアノテーションにはUniProt-KB/TrEMBLとしてまとめられています。
1遺伝子座に由来するアイソフォームはまとめて登録されています。

UniProt Archive (UniParc)は網羅的にタンパク質配列を収集したもので、1残基でも異なれば別のエントリーとして登録されています。

UniProt Reference Clusters (UniRef)はUniParcのデータをクラスタリングしたもので、その相同性の閾値によってUniRef100, UniRef90, UniRef50の3種類が用意されています。

InterPro

InterProは、いろいろなタンパク質ファミリーやドメインなどのデータベースを統合した欧州バイオインフォマティクス研究所 (EBI) のツールです。

これらのデータベースと提携しています。

https://www.ebi.ac.uk/interpro/

検索ツールであるInterProScanを使って、これらのデータベースに横断的に検索することが可能です。

STRING

STRINGは、EMBL (European Molecular Biology Laboratory) やSIB (Swiss Institute of Bioinformatics) といったヨーロッパの複数の公的機関が運営しているタンパク-タンパク相互作用のデータベースです。
2000年に開発された歴史のあるデータベースですが、頻繁に更新されています。

検索したタンパクと相互作用するタンパクがネットワーク図として表示されます。「相互作用」には実際の物理的な相互作用だけでなく機能的な相互作用も含まれており、STRINGは機能的なつながりも意識して設計されています。

STRINGの姉妹サイトとして、タンパクと化合物の相互作用データベースであるSTITCHや、遺伝子のオルソログ分類をまとめたeggNOGもあります。

BioGRID

BioGRIDは、タンパク間や遺伝子間の相互作用データベースです。

さまざまなモデル生物を対象として、論文情報から相互作用情報がキュレーションされています。

データベースの一括ダウンロードも可能で、さまざまなフォーマットに対応しています。また、ネットワーク可視化ツールであるCytoscape専用のプログラムが配布されていて、BioGRIDで提供されたファイルをCytoscapeで読み込んで相互作用ネットワーク解析を行うことができます。

またREST APIに対応しているので、BioGRIDの検索結果を利用したwebサービスの開発を行うこともできます。
https://youtu.be/lvX24gvZYDs

Reactome

Reactomeは、EBI、ニューヨーク大学メディカルセンターなどが共同で運営をしている人に特化したパスウェイデータベースです。

専門家が文献情報からパスウェイを集め、別の専門家によるレビューを経てから登録されているのでとても信頼性が高いデータベースと言えます。

Reactomeの名前の通り反応に特化した生化学的なものだけかと思いきや、複合体形成や活性化などの制御関係なども含まれています。

パスウェイの可視化や、指定した遺伝子 (タンパク) リストをパスウェイ上にマッピングすることも可能です。

BRENDA

BRENDAはドイツのグループが酵素反応に関する知見を文献から集めたデータベースです。

反応式だけではなく、その反応槽度定数や酵素の安定性、アミノ酸を改変した場合の酵素活性の変化なども収集されています。

テキストマイニングにより酵素情報を自動収集したAMENDA/FRENDAも合わせて公開されています。

関連サイト・図書

この記事に関連した内容を紹介しているサイトや本はこちらです。

タンパクの構造を可視化するデータベースとwebツール 【初めてでも直感的に使える】

まとめ

最後に今回の内容をまとめます。

  • タンパク質のデータベースにはいろいろある
  • まずは基本的なデータベースを使ってみる
  • 公共データを解析することで大きなヒントを得られることもある

今日も【医学・生命科学・合成生物学のポータルサイト】生命医学をハックするをお読みいただきありがとうございました。

生命医学の知識や進歩を無料のニュースレターで

がんをはじめとする病気やよくある症状などの医学知識、再生医療などの生命科学研究は、研究手法が大きく前進したこととコンピューターの発達なども相まって、かつてないほどの勢いで知識の整備が進んでいます。

生命医学をハックするでは、主として医師や医学生命科学研究者ではない方や、未来を担う学生さんに向けた情報発信をしています。

2週間に1回のペースで、サイトの更新情報や、それらをまとめた解説記事をニュースレターとして発行しています。メールアドレスの登録は無料で、もちろんいつでも解除することができます。

サイト名の「ハックする」には、分かってきたことを駆使し、それを応用して、病気の治療や研究などにさらに活用していこうという意味があります。

生命医学について徐々に解き明かされてきた人類の英知を受け取ってみませんか?

この記事が気に入ったら
フォローしよう

最新情報をお届けします

Twitterでも情報発信中

こちらの記事もいかがですか?
ブログランキング参加中 (クリックしていただけると励みになります)