機械学習・人工知能がライフサイエンス領域に入るようになってきているが、利用可能な十分なデータセットがないことも多いです。
この記事では、ライフサイエンスに使える (かもしれない) データセットを随時紹介していきます。
この記事の内容
- 1 一般的な医療データセット
- 2 医療画像データセット
- 2.1 OASIS (Open Access Series of Imaging Studies)
- 2.2 Open NEURO
- 2.3 NDA
- 2.4 ISLES
- 2.5 iSeq-2017
- 2.6 CT Medical Images
- 2.7 NIH Chest X-ray Dataset of 14 Common Thorax Disease Categories
- 2.8 CheXpert
- 2.9 DeepLesion
- 2.10 Annotated lymph node CT data
- 2.11 CHAOS
- 2.12 Annotated pancreas CT data
- 2.13 MURA
- 2.14 IVDM3Seg
- 2.15 fastMRI
- 2.16 MRNet Dataset
- 2.17 ANHIR
- 2.18 Optos images dataset
- 2.19 IDRID
- 2.20 CATARACTS
- 2.21 MPI Dynamic FAUST(D-FAUST)
- 3 ゲノムデータ
- 4 生命科学系画像・動画
- 5 病院・治療
- 6 関連記事
一般的な医療データセット
HealthData.gov
アメリカ人の健康を改善することを目的としているアメリカ連邦政府が提供するデータセットへのリンク。3200超のデータが利用できる。
PhysioNetwork
医療データの有名なポータルサイト。ここも多数のデータが利用可能。
Human Mortality Database
40カ国以上の死亡率と人口データ
SEER*Explorer
アメリカ政府の研究機関NIHが提供するがん統計。がん部位別の性別/人種/年齢/病期/組織型などさまざまな統計情報がダウンロードできる。
MHealth (Mobile Health) Dataset
いくつかの身体活動を行いながらさまざまな体動記録やバイタルサイン、心電図などをとったもの
VGGFace2
9131人分の顔画像。1人当たり平均362枚あり、年齢や人種など多様な人の画像が含まれている。
医療画像データセット
OASIS (Open Access Series of Imaging Studies)
脳画像データセットを収録するプロジェクト。 MRIやPETもある。
Open NEURO
脳画像および脳波の網羅的プラットフォーム。MRI、MEG、EEG、iEEG、およびECoGデータを共有
NDA
脳画像と認知機能についてのデータセット
ISLES
脳梗塞の画像データ
iSeq-2017
6ヶ月の乳児の頭部MRIのデータセット。
CT Medical Images
がん患者のCT画像のデータセット。
NIH Chest X-ray Dataset of 14 Common Thorax Disease Categories
3万人以上の肺のレントゲン写真11万枚のデータセット。その結果は14のカテゴリーに分かれている。
CheXpert
65,240人 (224,316枚) の患者の胸部レントゲン写真集。14の病気について有無のラベルつき。
DeepLesion
4,400名の患者, 32,000枚のCT画像のデータセット。病変部位のデータつき。医療画像データセットとしてはかなり大規模。
Annotated lymph node CT data
リンパ節の位置がついた胸腹部CT画像。
CHAOS
腹部のCTおよびMRI画像集。
Annotated pancreas CT data
膵臓の位置がついた腹部造影CT画像。
MURA
骨のレントゲン画像のデータセットで40,561枚の写真からなる。肘、指など7つの部分、正常/異常のアノテーションつき。
IVDM3Seg
脊椎のMRIデータ
fastMRI
膝のMRI画像集。10,000の画像からサンプルされた1500件のデータが提供されている。
MRNet Dataset
こちらも膝のMRI画像だが、前十字靭帯/半月板の損傷に特化している。データ数は1,370。
ANHIR
さまざまな正常組織のHE染色標本データ
Optos images dataset
5389名の患者から得られた眼底画像13,000枚。患者の性別、右目or左目、疾患のラベルあり。
IDRID
糖尿病性網膜症の患者さんの眼底写真。
CATARACTS
白内障手術のアノテーションつき動画セット。
MPI Dynamic FAUST(D-FAUST)
人体の3次元データに時間軸を加えた、4次元の動きデータ(60fpsで撮影)。
https://youtu.be/6T9FSC2bQDA
ゲノムデータ
GEO
バイオ研究者にはおなじみ。遺伝子発現データ (マイクロアレイ, RNA-seq) やその他の実験データの代表的なレポジトリである。同様の役割を果たすサイトであるArrayExpressも生物学界隈では非常に有名。
1000 Genomes Project
ヒトの遺伝的変異の最も詳細なカタログを作る国際プロジェクト。世界中の国々から2500人以上のゲノムを集めた。
Dermis Datasets
さまざまな皮膚疾患の遺伝子発現データが収録されている
生命科学系画像・動画
Cell Tracking Challenge
蛍光染色した細胞の動きのタイムラプスビデオ
SMLM
超解像顕微鏡による画像と分子局在データ
CREMI
神経シナプスの電子顕微鏡写真
病院・治療
Hospital Compare datasets
Medicare.govで使用されているデータセット。アメリカの4,000以上の病院の質を比較できる。
MIMIC Critical Care Database
重篤な患者の集中治療に絞ったデータセットがいろいろダウンロードできる。40,000人の患者データで、人口統計、バイタルサイン、検査結果、医薬品などの情報がある。
関連記事
最後にこの記事と関連性が深い内容として、深層学習で生物の動きを観察する【無料で使えるツール】というのも書いています。もしよろしければこちらもどうぞ。