生命科学研究で、たくさんの遺伝子リストを得ることがあります。この遺伝子リストにはどのような生命医学的な意味があるのかを調べる際に、手がかりとなるのがエンリッチメント解析です。この記事では、エンリッチメント解析の方法と注意点をまとめます。
この記事の内容
エンリッチメント解析とは
バイオ系の研究をしている方はご存知の通り、エンリッチメント解析はある遺伝子リストにはどのようなものが多く含まれているかを調べる解析手法です。
例えば細胞接着に関わる遺伝子セットが100あったとしましょう。今手元にある遺伝子リスト200遺伝子を見てみると、この細胞接着に関わる遺伝子セットに入っている遺伝子が10個あったとします。
手元にある遺伝子リストには、細胞接着に関わる遺伝子が多いといっていいでしょうか?
こういった疑問に答えるのがエンリッチメント解析です。
具体的には、全20000遺伝子のうち細胞接着に関わる遺伝子が100だとすると、これは全体の0.5%になります。手元にある遺伝子リスト200のうちの0.5%、つまり1個ほどは細胞接着に関わる遺伝子になっても確率的にはおかしくありません。
しかし今回は手元の遺伝子リストのうち10個も細胞接着遺伝子があるのです。細胞接着遺伝子が濃縮 (エンリッチメント) されているかもしれません。これを統計学的に確かめるのがエンリッチメント解析の概略になります。
GO (Gene Ontology) 解析
一口にエンリッチメント解析と言っても、いろいろな種類があります。
最もシンプルなのはGO (Gene Ontology) 解析です。Gene Ontologyというものが国際団体によって登録されているため、これと照らし合わせてエンリッチメント解析を行います。
注意点として、新しい遺伝子機能の発見などで常にGOは変化していくので最新のデータを使わないといけません。これまでGO解析ツールはいろいろ開発されてきましたが、ツールの開発者がいつまでも最新版のデータを提供し続けることができるとは限りません。
本当に最新版のアノテーションデータが使われているかをきちんと確認しておく必要があります。
GOの本家サイト
GO解析の本家サイトはこちらです。必要に応じて最新版のデータをダウンロードすることもできます。
PantherはGOの本家サイトから直接提供されているツールですが、可視化もあまりできないなど使い勝手がよくないため、この後紹介するツールがいくつも作られました。
GOが入っているウェブツール
ツールの名前にはGOが入っていることが多いです。具体例として、GOrilla、AmiGO、BiNGO、QuickGOなどがあります。
DAVIDと結果の解釈の注意点
DAVIDは生物学者が好んで使ってきたツールであり、いろいろなサイトで紹介されています。
しかし2009-2016にかけてDAVIDで行われた結果の解釈には問題があることを知っている人はあまり多くないかも知れません。
具体的には、DAVIDは2010年から2016年までアップデートされていなかったため、情報が古くなり、正確なものは2割になってしまっています。特にGOの情報はかなり急激に変わるものという認識が大事です。
Nature Methods誌に掲載されたImpact of outdated gene annotations on pathway enrichment analysisもご覧ください。
Metascape
Metascapeは、アメリカ国立衛生研究所 (NIH) の支援を受けて作られたツールです。インターフェイスもとても使いやすく、マニュアルも充実しています。非常に頻繁に更新されているというのも重要なポイントで、現時点ではMetaScapeをオススメします。
GO解析の欠点
GO解析は手軽にできる反面、いくつかの欠点があります。
まず、どれくらい発現しているかの情報を加味していないという点が挙げられます。同じ「発現変動遺伝子」でも、ぎりぎり差がある遺伝子と大きく変動する遺伝子はその意味合いも異なるでしょう。しかしGO解析では、単に遺伝子がリストにあるかないかという情報だけで判定されています。
また、GO解析は異なるアルゴリズムを使うと異なる結果になりうるというのが大きな問題で、結果の質をチェックするような客観的な手法がありません。これはしばしば議論されている問題で、例えばこちらにも書かれています。
仮説の設定にはGO解析は向いていますが、最終的な結論を出すときの方法としてGO解析を使うのは避けたほうがいいかもしれません。
関連サイト・図書
この記事に関連した内容を紹介しているサイトや本はこちらです。
まとめ
最後に今回の内容をまとめます。
- エンリッチメント解析は濃縮度を統計学的に評価する方法で、その筆頭にGO解析がある
- GO解析を行うには最新版のデータを使うのが極めて大事
- GO解析は結論を出す時には向いていない
今日も【生命医学をハックする】 (@biomedicalhacks) をお読みいただきありがとうございました。