対話型AIによる次世代のがんオミクス解析 【DrBioRightの登場】

これまで多数のバイオインフォマティクスツールが開発されてきましたが、ついに対話型AIによるがん解析ツールDrBioRightが登場しました。この記事ではDrBioRightについて紹介します。

2010年代までのがんデータ解析の流れ

2000年になる前までの生命科学のデータは、バイオインフォマティシャンや計算生物学者が、Python、R、Perlなどの汎用プログラミング言語で書いたスクリプトを使って解析してきました。

2000年代になり、さまざまなツールが開発され、例えばBiopython (2000年)、BioPerl (The Bioperl toolkit: Perl modules for the life sciences. Genome Res. 2002)、Bioconductor (Bioconductor: open software development for computational biology and bioinformatics. Genome Biol. 2004)、ggplot (2009年)などがあります。

これらを流用することで自前で用意するスクリプトが大幅に減少し、研究の進展に大きく寄与しましたが、それでもコマンドラインベースの解析に慣れていない人にとっては自分でドライ解析を行うのは難しい状態でした。

2010年代になると、オミクスデータ探索のためのwebベースのプラットフォームが人気を集めました。これには大きく2つの系統があります。

一つは、GalaxyGenePatternのような解析モジュールを多数集めたハブであり、ここではwebベースでさまざまなパイプラインを動かすことができます。

もう一つのタイプは、cBioPortalGTEx portalのようなインタラクティブなデータポータルで、ここではあらかじめ用意されたデータに対して簡単な分析や可視化を行うことができます。

これらはいずれも素晴らしい取り組みですが、ツールによって使用方法が違うため、ユーザーとしてはそれぞれ異なるインターフェースや手順を習得したりするのにかなりの時間を費やす必要がありました。

対話型AIプラットフォームDrBioRightの登場

そこで、自然言語 (英語)を使って統一的なオミクス解析ができるツール、DrBioRightが開発されました。

DrBioRightは、使いやすいWebインターフェースと、バックエンドの計算サーバーの2つブシステムで構成されています。入力エリアと出力エリアはたった1つしかないシンプルなチャット形式でツールに指示を出すことができます。

原理としては、入力エリアに打ち込んだ英語をAIが自然言語処理アルゴリズムで解析し、どのようなことを要求されているのかをユーザーに確認した後、そのタスクをクラウドベースで実行し、結果を出力エリアでユーザーに伝えます。

コンピューターのプログラミング言語についての知識は一切不要であり、実験系の研究者や学生が今日から使えるツールになっています。

DrBioRightでできること

それではDrBioRightでできることを見ていきます。まずはp53遺伝子の発現量をもとに乳がん患者さんの予後を分けられるかを質問してみます。そうするとどのデータを使うのか聞き返されたので、「TCGA」と答えています。AIが解釈したことを確認されるので、yesと答えます。

200929 1

そうすると、すぐにこのような結果が返されます。

200929 2

予後ではなく、遺伝子発現の相関を調べることも簡単です。例えばPTENとBMPR2遺伝子の乳がんにおける相関関係なら

200929 3

とすれば簡単に結果が得られます。

200929 4

もちろん遺伝子変異についての情報を表示することもできます。例えば腎がんにおいてp53の突然変異が見られる場所を表示してみます。

200929 5

200929 6

DrBioRightでRNA-seq解析も可能

DrBioRightに“Could you do an RNA-seq analysis?”と聞くことでRNA-seq解析をやってもらうこともできます。どのデータを解析するのか聞かれるのでアクセッション番号を指定します。

200929 7

少し待つと、リードのクオリティーチェック・マッピング等を行った結果が返ってきます。

200929 8

もちろん遺伝子ごとのTPM発現値も計算されていて、結果をダウンロードすることもできます。

200929 9

まとめ

この記事ではチャット形式でがんデータ解析ができるDrBioRightを紹介しました。がんゲノムのデータベースと解析ツール 【コマンド不要】で紹介したように、これまでさまざまながん解析ツールが開発されてきましたが、DrBioRightは同じプラットフォームからいろいろできるという点で画期的な取り組みです。

最初はこのようなツールから入り、もっといろいろやってみたくなればコンピューター解析を勉強するといいでしょう。例えば「バイオインフォマティクスデータスキル」という本は、コマンドラインが全くの初めてという生命科学系の研究者を対象とした本ですが、結構高度なことまで書かれています。もともとは英語の本でしたが、海外で人気だったため日本語版も出ました。

これよりは専門性が高くなりますが、Pythonでバイオインフォマティクスに特化した「バイオインフォマティクス: Pythonによる実践レシピ」という本もあり、ゲノム配列の探索から集団遺伝学、タンパク質の解析までさまざまなバイオインフォマティクス分野での解析事例が載っています。

今日も【生命医学をハックする】 (@biomedicalhacks) をお読みいただきありがとうございました。当サイトの記事をもとに加筆した月2回のニュースレターも好評配信中ですので、よろしければこちらも合わせてどうぞ