がん研究に有用なゲノムやプロテオームリソース【TCGAだけではない】

近年のオミクス技術の発達により、がんに関するさまざまなデータが取得されてきました。そこでこの記事では、がん研究者なら絶対に押さえておきたいリソースを紹介します。

がんゲノムデータセットを生成する大規模プロジェクト

TCGAは最も有名な国際プロジェクトかと思います。米国国立がん研究所と米国国立ヒトゲノム研究所の共同研究で、原発性がんと対照となる正常組織 (+一部のがんは転移性のがん) があり、33種類のがんから11,315個のサンプルを得ています。遺伝子発現、DNA変異、DNAメチル化、クロマチンアクセシビリティ、コピー数異常、タンパク質発現、病理組織画像があります。

似たようなものにICGCもあり、こちらは22のがん種、25000サンプルの遺伝子発現やDNA変異、DNAメチル化、コピー数異常、タンパク質発現のデータが提供されています。

この両者のサンプルを使ったのがPCAWGで、コンソーシアムからはトップジャーナルを始めさまざまな論文が発表されています (Nature 2020)。

TARGETがターゲットにしているのは小児がんです。包括的なゲノム解析アプローチにより、小児がんを引き起こす分子変化を明らかにすることを目指したプロジェクトです。9つのがん種にまたがる6,196のがんゲノムや遺伝子発現、DNA変異(全ゲノムおよび全エクソームシーケンス)、DNAメチル化のデータが収集されています。

GENIEは世界19カ所のがんセンターから集められた、がん患者さんの日常診療で得られたシークエンスデータを集約したレジストリーです。一般的ながん関連遺伝子に焦点を当てたエクソーム変異に強く、110のがん部位、136,096症例も集まっています。

GDCはがん研究者コミュニティに、ゲノムのデータ共有を可能にする統一リポジトリを提供しています。67の原発性がん、85,552症例が格納されていて、TCGA、TARGET、GENIE、CPTACを含む20のプロジェクトのデータにアクセス可能です。

がん細胞株のデータ

LINCSは患者サンプルではなくヒト細胞株のデータですが、細胞に薬や遺伝的perturbationをかける前後のトランスクリプトーム変動をマイクロアレイで調べたというデータベースです。全部の遺伝子ではなく、変動の大きな約1,000の遺伝子に着目したマイクロアレイを用いています (Cell 2017)。50種類の細胞 x 140万種類の遺伝子発現プロファイルが得られています。

CCLEはヒト癌細胞株のデータ百科事典を目指したプロジェクトです (Nature 2019)。1,072細胞株について、遺伝子発現、DNA変異、プロモーターメチル化、コピー数異常、メタボローム、薬剤感受性、CRISPR/RNAiゲノムワイドスクリーニングなどのデータがあります。

がんのタンパクを調べる

CPTACはヒトの癌と正常組織におけるタンパク質発現を比較したという点で価値の高いリソースです。大規模プロテオームによるがんの分子基盤の解明を目指したアメリカの国家的取り組みで、14種類の腫瘍、約4,000のサンプルのデータを得ています。タンパク質の発現はもちろん、翻訳後修飾についてもデータを持っています。

Human Protein Atlasもタンパクを調べるという点ではCPTACに似ていますが、こちらは抗体を使った免疫染色により腫瘍や正常組織中の全ヒトタンパク質のマッピングを目指す取り組みです。17のがん種にまたがる、ほとんどのタンパク質コード遺伝子の免疫染色画像や遺伝子発現などが提供されています (Science 2015)。

がんの画像を調べる

IDCは、一般に公開されているがん画像データを研究者に提供し、他のがん研究データと統合したクラウドコンピューティング環境も提供しています提供 (Cancer Res. 2021)。具体的には、21種類の原発性がん61,134症例があり、TCGA、CPTAC、その他のプロジェクトからデータの供与を受けています。

TCIAは癌の医療画像をIDを除いた状態でホストしているサービスです。がんだけではなく、例えばCOVID-19のようながんではない疾患を含む69の疾患種類、65,508症例の画像です。

CAMELYONは、転移性乳がん患者のセンチネルリンパ節について、リンパ節のホールスライド画像における乳がん転移を自動検出しようとするコンペティションに使われたデータセットです (JAMA 2017)。1,399枚のHE画像と病理学的注釈がつけられています。

まとめに代えて

この記事では、がん研究に関するリソースについて紹介しました。

がんの研究は医療とも密接に結びついています。がん医療をわかりやすくイラストつきで解説してくれているのがこちらの本です。

がんゲノム医療の全体像を俯瞰したい場合には、こちらのような総説も参考になります。

がん研究については、このような関連記事があるので合わせてご覧ください。

今日も【生命医学をハックする】をお読みいただきありがとうございました。当サイトの記事をもとに加筆した月2回のニュースレターも好評配信中ですので、よろしければこちらも合わせてどうぞ

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA