ENCODEは、アメリカ国立ヒトゲノム研究所(NHGRI)が2003年に立ち上げたヒトゲノム解析プロジェクトで、ヒトゲノムのすべての機能要素の解析をめざしています。
日本を含む多国籍の共同研究チームによりこれまで数々の知見が得られてきました。この記事では、フェーズIからIIIまでの概略についてまとめます。
ENCODEフェーズI, II
ENCODE (ENCyclopedia Of DNA Elements)プロジェクトは、ヒトゲノムのドラフト配列が報告された2003年にスタートしました (ENCODE Project Consortium. The ENCODE (ENCyclopedia Of DNA Elements) Project. Science 2004).その当時、ヒトゲノムに関して分かっていることは非常に限られていて、特にタンパクをコードしない領域やプロモーター・エンハンサー等の制御領域についてはよく研究されているいくつかの領域についてしか知られていませんでした。
ENCODEのフェーズI(2003年~2007年)では、当時開発されつつあった新たな技術を評価するために、ヒトゲノムのわずか1%の部位に限ったパイロット実験が行われました (Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project. Nature 2007)。
このフェーズIでは、マイクロアレイベースのアッセイにより、様々な細胞株の転写領域、オープンクロマチン領域、転写因子やヒストン修飾に関連する領域がマッピングされています。
続いて行われたフェーズII(2007年~2012年)では、シークエンスベースの技術、例えばRNA-seqやChIP-seqが導入され、ヒトゲノム全域が探索されました (ENCODE Project Consortium. An integrated encyclopedia of DNA elements in the human genome. Nature 2012)。
このフェーズIIでは、ヒトだけでなくマウスについての探索も始まりました。Mouse ENCODE Projectにより、成体マウスの組織や細胞株を使ってトランスクリプトームやエピジェネティクスが調べられ、成体マウスの組織および細胞株において、マウスのエピゲノムおよびトランスクリプトームの特徴のマッピングが行われています (A comparative encyclopedia of DNA elements in the mouse genome. Nature 2014)。
また、model organism ENCODE (modENCODE) プロジェクトも行われ、ショウジョウバエと線虫の組織や発生段階におけるトランスクリプトームやエピゲノムの情報収集も行われ、そのプロジェクトが終了後もmodERN(model organism Encyclopedia of Regulatory Networks)と名前を変えた新しいプロジェクトで、引き続き転写因子結合部位などの探索が続いています (The ModERN Resource: genome-wide binding profiles for hundreds of Drosophila and Caenorhabditis elegans transcription factors. Genetics 2018)。
フェーズIII
ENCODE 3(2013年~2016年)では、さまざまなアッセイが追加され、例えばChIA-PET (chromatin interaction analysis by paired-end tagging) やHi-Cを使ったクロマチンの3次元構造が明らかにされています。
このフェーズIIとIIIでは、500以上の細胞や組織で9239の実験(ヒト:7495、マウス:1744件)が行われ、転写領域や転写アイソフォーム、転写因子結合領域、ヒストン修飾、オープンクロマチン領域、3次元クロマチン情報など多用な情報が収集され、その実験結果はENCODEポータルで公開されています。
この結果、20225のタンパクコーディング遺伝子、37595のノンコーディング遺伝子、2157387のオープンクロマチン領域、750392のヒストン修飾領域 (H3K4me1, H3K4me2, H3K4me3, H3K27ac)、1224153の転写因子結合領域、13万以上のクロマチン相互作用領域などが同定されています。
フェーズIIIでは、マウス胎児の発生過程の8段階で採取したサンプルを使い、ダイナミックなヒストンマークやDNAメチロームなどが探索され、1500以上のデータセットが得られています。これは、哺乳類の発生期のエピゲノム・トランスクリプトームに関する最も包括的な研究です (The changing mouse embryo transcriptome at whole tissue and single-cell resolution. Nature 2020)。
これらの結果はENCODEポータルから利用できるだけでなく、生データやプロセス済みデータはAmazon Public Data Setからダウンロードできます。
サンプルの取り扱いの詳細についてはENCODEのホームページで公開されていますし、データ解析に使われたコードも専用のGitHubレポジトリーで公開されているため、自分で再解析することも可能です。
これらのデータを使って、本記事執筆時点ですでに2000本以上の学術論文がENCODEグループ以外の科学者たちによって発表されています。
UCSCゲノムブラウザなどの主要なゲノムブラウザからも、ENCODEのデータを閲覧できるようになっていますし、ENCODE独自のゲノムブラウザーであるSCREENからもさまざまなデータに簡単にアクセスできるようになっています。
まとめに代えて
フェーズ3までのENCODEには、特定の細胞種や状態に選択的な現象についての情報はあまりありません。また、ヒト胎児組織、生殖器官、初代細胞らの情報も限られています。
また、転写産物のアイソフォームについての情報も一部の細胞でのみ検証されています。
そこで現在進行中のENCODEフェーズ4では、解析対象となる細胞や組織を増やし、さらにシングルセルRNA-seqを拡充させ、そして他の大規模な国際プロジェクト、例えばNIH Roadmap Epigenomicsプロジェクト、がんゲノムアトラス(TCGA)、国際ヒトエピゲノムコンソーシアム(IHEC)、BLUEPRINT、 Canadian Epigenetics, Environment and Health Research Consortium (CEEHRC)、Genotype and Tissue Expression Project (GTEx)、Functional Annotation of Animal Genomes(FAANG)、Global Alliance for Genomics and Health(GA4GH)、4D Nucleome Program(4DN)、Human Cell Atlas、FANTOMコンソーシアムなどとの連携を強化することで、現状の問題を少しでも克服しようとしています。
これらの取り組みにより、ヒトの機能をシステム全体で理解し、ヒトの形質に関連する遺伝情報と統合することができれば、ヒトの生物学や病気の理解が大きく進展すると考えられます。
関連図書
この記事に関連した内容を紹介しているサイトや本はこちらです。
Expanded encyclopaedias of DNA elements in the human and mouse genomes
今日も【生命医学をハックする】 (@biomedicalhacks) をお読みいただきありがとうございました。当サイトの記事をもとに加筆した月2回のニュースレターも好評配信中ですので、よろしければこちらも合わせてどうぞ