多様なメディカルデータの統合プロジェクト 【世界各国で進む】

データを活用するためには、まずしかるべきデータリポジトリーが必要です。世界各国でそのような取り組みが進んでいますが、その概要をこの記事では紹介します。

各国のデータ整備事業

データマイニングや機械学習をメディカル領域に活用するために最初に必要なのは、そのような目的に向いている大規模なアノテーションつきデータセットの収集です。AIをはじめデータサイエンスの技術の進歩は素晴らしいですが、データに存在しない情報を導き出すことはできないからです (N. Engl. J. Med. 2017)。

過去数十年にわたり、最終的には個別化医療を加速させることを目的として多くの国際的な研究により多様なデータが収集されてきました。例えばイギリスのUK Biobankは2006年に開始されましたが、最終的な参加者数は50万人以上に達し、それらの参加者について登録後少なくとも30年間は追跡する予定になっています (Nature 2018)。この大規模なバイオバンクでは、年齢や性別・身長や体重といった基本情報はもちろん、ライフスタイルに関する情報や血液検査などの検査データ、12誘導心電図、あるいは電子カルテの文章など非常にたくさんのデータを収集しています。ほぼすべての参加者はゲノムワイドなジェノタイピングを受けていますし、より最近の参加者はプロテオーム、全エクソームシーケンス (Nat. Genet. 2021) 、そしてwhole genome sequence (Nature 2022) に関するデータがあります。さらに、一部の患者には脳や心臓、腹部のMRI画像がありますし、頸動脈の超音波画像といった特殊な医療検査画像もついています (Nat. Commun. 2020)。利用登録はする必要がありますが、これらがオープンアクセスで利用できるというのは驚きです。

同様の取り組みは、(アクセスには制限がかかっていますが) 中国のChina Kadooire Biobankや日本のバイオバンク・ジャパンなど、イギリス以外の国にも広がっており、それぞれ50万人・20万人のデータがあります。

一般国民というわけではありませんが、アメリカでは退役軍人省が2011年にMillion Veteran Programを立ち上げ、退役軍人100万人を登録し、科学的発見に貢献することを目標とした取り組みがあります。臨床データや血液検査値と一部の遺伝情報が利用可能です。米国国立衛生研究所(NIH)が資金提供している重要なアメリカのプロジェクトとしては、Trans-Omics for Precision Medicine(TOPMed)およびAll of Us Research Programがあります。TOPMedは、Whole genome sequenceデータを収集し、この情報を他のオミックスデータと統合することを目的としています (Nature 2021)。これまでおよそ20万人が登録しておりオープンアクセスで利用できます。All of Us Research Program (N. Engl. J. Med. 2019) は、NIHによるもう一つの斬新で野心的な取り組みであり、米国全体で計画された100万人のうち約40万人の多様な参加者を登録し、医学的AIで特に必要とされる生物医学研究における広義の不特定多数からの個人の登録に焦点を当てている (JAMA 2020).

機関レベルの取り組み

これまでは大規模な国家的取り組みについて紹介しましたが、より小規模だが狙いが明確な研究機関レベルのプロジェクトもあります。例えばVerily社がが資金提供し、スタンフォード大学、デューク大学等と共同で運営しているProject Baseline Health Studyは、少なくとも1万人の登録を目指しており、最初は2,500人の参加者からさまざまなマルチモーダルデータを収集するところからスタートし、徐々に参加人数を増やしていく計画です (NPJ Digit. Med. 2020)。

近年研究が進むマイクロバイオームに特化した例としてはAmerican Gut Projectは一番有名な進行中プロジェクトかもしれません (mSystems 2018)。参加者は、一般的な健康状態、疾病歴、ライフスタイルデータ、食事頻度に関するアンケート調査に答えたうえでマイクロバイオームデータを提供しています。

マサチューセッツ工科大学が主催するMedical Information Mart for Intensive Care (MIMIC) データベースは集中治療領域のさまざまなデータが集約されています。例えば、ベス・イスラエル・ディーコネス医療センターの重症患者病棟に入院した数千人の患者の年齢性別等の情報、電子カルテデータ(例えば、診断コード、オーダー及び投与した薬、検査データ、血圧や頭蓋内圧値などの生理データ)、画像データ(胸部レントゲン写真など)、一部の患者については放射線科の読影レポートや医療者のメモなどの自然言語テキストが含まれています。このMIMICは、腎不全などの臨床イベントの発生や、生存や再入院などの転帰を予測することを目的としたAIモデルのベンチマークデータセットの一つとして使われています (Sci. Rep. 2020)。

Michigan Predictive Activity & Clinical Trajectories in Health (MIPACT) 研究もその一例で、参加者はウェアラブル端末をつけて測定した生理データ(例えば血圧など)、臨床情報(電子カルテやアンケート調査)および血液検査データ等が集まっています (Lancet Digit. Health 2021)。

North American Prodrome Longitudinal Study というのもあって、これは、精神病の前駆期を理解することを目的に参加者から年齢・性別等の基礎情報、臨床データ、血液データを収集しています。精神科領域ではPersonalised Prognostic Tools for Early Psychosis Managementも複数の種類のデータを収集しており、そのデータはすでに機械学習ワークフローの開発に使われ始めています (JAMA Psychiatry 2021)。

まとめに代えて

この記事では、国際的なバイオメディカルデータリソースを紹介しました。

日本人のデータに特化したメディカルデータレポジトリーもあり、日本語で概略を学べる特集号も出ています。うまく活用して研究を加速させたいですね。

医療に特化したAIを学べる入門書も登場しました。データリソースはもちろん、注意しないといけない法規制なども一冊で学ぶことができます。

メディカル領域のデータリポジトリーについては、このような関連記事があるので合わせてご覧ください。

今日も【生命医学をハックする】をお読みいただきありがとうございました。当サイトの記事をもとに加筆した月2回のニュースレターも好評配信中ですので、よろしければこちらも合わせてどうぞ

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA