機械学習に使える医療系データセット【随時更新】

機械学習・人工知能がライフサイエンス領域に入るようになってきているが、利用可能な十分なデータセットがないことも多いです。

この記事では、ライフサイエンスに使える (かもしれない) データセットを随時紹介していきます。

一般的な医療データセット

HealthData.gov

アメリカ人の健康を改善することを目的としているアメリカ連邦政府が提供するデータセットへのリンク。3200超のデータが利用できる。

PhysioNetwork

医療データの有名なポータルサイト。ここも多数のデータが利用可能。

Human Mortality Database

40カ国以上の死亡率と人口データ

SEER*Explorer

アメリカ政府の研究機関NIHが提供するがん統計。がん部位別の性別/人種/年齢/病期/組織型などさまざまな統計情報がダウンロードできる。

MHealth (Mobile Health) Dataset

いくつかの身体活動を行いながらさまざまな体動記録やバイタルサイン、心電図などをとったもの

VGGFace2

9131人分の顔画像。1人当たり平均362枚あり、年齢や人種など多様な人の画像が含まれている。

医療画像データセット

OASIS (Open Access Series of Imaging Studies)

脳画像データセットを収録するプロジェクト。 MRIやPETもある。

Open NEURO

脳画像および脳波の網羅的プラットフォーム。MRI、MEG、EEG、iEEG、およびECoGデータを共有

NDA

脳画像と認知機能についてのデータセット

ISLES

脳梗塞の画像データ

iSeq-2017

6ヶ月の乳児の頭部MRIのデータセット。

CT Medical Images

がん患者のCT画像のデータセット。

NIH Chest X-ray Dataset of 14 Common Thorax Disease Categories

3万人以上の肺のレントゲン写真11万枚のデータセット。その結果は14のカテゴリーに分かれている。

CheXpert

65,240人 (224,316枚) の患者の胸部レントゲン写真集。14の病気について有無のラベルつき。

DeepLesion

4,400名の患者, 32,000枚のCT画像のデータセット。病変部位のデータつき。医療画像データセットとしてはかなり大規模。

Annotated lymph node CT data

リンパ節の位置がついた胸腹部CT画像。

CHAOS

腹部のCTおよびMRI画像集。

Annotated pancreas CT data

膵臓の位置がついた腹部造影CT画像。

MURA

骨のレントゲン画像のデータセットで40,561枚の写真からなる。肘、指など7つの部分、正常/異常のアノテーションつき。

IVDM3Seg

脊椎のMRIデータ

fastMRI

膝のMRI画像集。10,000の画像からサンプルされた1500件のデータが提供されている。

MRNet Dataset

こちらも膝のMRI画像だが、前十字靭帯/半月板の損傷に特化している。データ数は1,370。

ANHIR

さまざまな正常組織のHE染色標本データ

Optos images dataset

5389名の患者から得られた眼底画像13,000枚。患者の性別、右目or左目、疾患のラベルあり。

IDRID

糖尿病性網膜症の患者さんの眼底写真。

CATARACTS

白内障手術のアノテーションつき動画セット。

MPI Dynamic FAUST(D-FAUST)

人体の3次元データに時間軸を加えた、4次元の動きデータ(60fpsで撮影)。

ゲノムデータ

GEO

バイオ研究者にはおなじみ。遺伝子発現データ (マイクロアレイ, RNA-seq) やその他の実験データの代表的なレポジトリである。同様の役割を果たすサイトであるArrayExpressも生物学界隈では非常に有名。

1000 Genomes Project

ヒトの遺伝的変異の最も詳細なカタログを作る国際プロジェクト。世界中の国々から2500人以上のゲノムを集めた。

Dermis Datasets

さまざまな皮膚疾患の遺伝子発現データが収録されている

生命科学系画像・動画

Cell Tracking Challenge

蛍光染色した細胞の動きのタイムラプスビデオ

SMLM

超解像顕微鏡による画像と分子局在データ

CREMI

神経シナプスの電子顕微鏡写真

病院・治療

Hospital Compare datasets

Medicare.govで使用されているデータセット。アメリカの4,000以上の病院の質を比較できる。

MIMIC Critical Care Database

重篤な患者の集中治療に絞ったデータセットがいろいろダウンロードできる。40,000人の患者データで、人口統計、バイタルサイン、検査結果、医薬品などの情報がある。

関連記事

最後にこの記事と関連性が深い内容として、深層学習で生物の動きを観察する【無料で使えるツール】というのも書いています。もしよろしければこちらもどうぞ。
[getpost id=”1929″ title=”関連記事” ]

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA