機械学習・人工知能がライフサイエンス領域に入るようになってきているが、利用可能な十分なデータセットがないことも多い。そこでこの記事では、ライフサイエンスに使える (かもしれない) データセットを随時紹介していく。

一般的な医療データセット

HealthData.gov

アメリカ人の健康を改善することを目的としているアメリカ連邦政府が提供するデータセットへのリンク。3200超のデータが利用できる。

PhysioNetwork

医療データの有名なポータルサイト。ここも多数のデータが利用可能。

Human Mortality Database

40カ国以上の死亡率と人口データ

SEER*Explorer

アメリカ政府の研究機関NIHが提供するがん統計。がん部位別の性別/人種/年齢/病期/組織型などさまざまな統計情報がダウンロードできる。

MHealth (Mobile Health) Dataset

いくつかの身体活動を行いながらさまざまな体動記録やバイタルサイン、心電図などをとったもの

医療画像データセット

OASIS (Open Access Series of Imaging Studies)

脳画像データセットを収録するプロジェクト。 MRIやPETもある。

Open NEURO

脳画像および脳波の網羅的プラットフォーム。MRI、MEG、EEG、iEEG、およびECoGデータを共有

CT Medical Images

がん患者のCT画像のデータセット。

NIH Chest X-ray Dataset of 14 Common Thorax Disease Categories

3万人以上の肺のレントゲン写真11万枚のデータセット。その結果は14のカテゴリーに分かれている。

CheXpert

65,240人 (224,316枚) の患者の胸部レントゲン写真集。文章による所見つき。

DeepLesion

4,400名の患者, 32,000枚のCT画像のデータセット。病変部位のデータつき。

MURA

骨のレントゲン画像のデータセットで40,561枚の写真からなる。

fastMRI

膝のMRI画像集。

MRNet Dataset

こちらも膝のMRI画像だが、前十字靭帯/半月板の損傷に特化している。

 

ゲノムデータ

GEO

バイオ研究者にはおなじみ。遺伝子発現データ (マイクロアレイ, RNA-seq) やその他の実験データの代表的なレポジトリである。同様の役割を果たすサイトであるArrayExpressも生物学界隈では非常に有名。

1000 Genomes Project

ヒトの遺伝的変異の最も詳細なカタログを作る国際プロジェクト。世界中の国々から2500人以上のゲノムを集めた。

病院・治療

Hospital Compare datasets

Medicare.govで使用されているデータセット。アメリカの4,000以上の病院の質を比較できる。

MIMIC Critical Care Database

重篤な患者の集中治療に絞ったデータセットがいろいろダウンロードできる。

この記事が気に入ったら
フォローしよう

最新情報をお届けします

Twitterでも情報発信中

こちらの記事もいかがですか?