シングルセル (1細胞) RNA-seq解析は、多くの新しい知見をもたらしてくれました。その技術が登場してから日がたつにつれ、大衆化し、今ではそれほどデータ解析に馴染みがない方でも一般的な解析ならば比較的簡単にできるようになってきました。この記事では大衆化するシングルセルRNA-seqパイプラインについてまとめます。
この記事の内容
1細胞RNA-seq技術の普及がもたらしたもの
1細胞RNA-seq技術の普及により、バイオ系の研究者はこれまでよりも複雑な生命現象や病気の解明に取り組むことができるようになりました。
例を少しあげれば、幹細胞のような組織内に稀にしかない細胞のプロファイリングや、分化段階にある細胞のトレース、がんの異質性の研究などが行われています。
こういったデータを処理するためには、細胞集団での (バルク) RNA-seqとはまた違う、シングルセルデータに特有のアーチファクトやバイアスを考慮できるような特殊なアルゴリズムが必要となります。
この領域の専門家によってこれまでに多くの計算ツールが開発されてきましたし、当サイトでもその一部をシングルセル解析に使うR/Bioconductorパッケージ 【入門編】で紹介しました。
1細胞RNA-seq解析の大衆化
scRNA-seqが昨今では大流行していることから、多くの計算科学にあまりなじみがない生命科学研究者や学生さんもscRNA-seqデータに触れる機会が増えています。
経験豊富なバイオインフォマティシャンや新しい技術の習得に意欲的な方がいるラボではRやPythonなどの言語で開発されたオープンソースの解析ツール (SeuratやScanpyなど) を導入できるでしょうが、実験専門の研究者にとってはそれでもまだ敷居が高いです。
そのため、いくつかの1細胞RNA-seqのキットを提供する会社が、より簡単にデータ解析を行える解析パイプラインを提供するケースも増えてきました。
イルミナとFlowJo (現BD)が共同で開発したSeqGeqパイプラインもその1つで、コードを書かずにデータの正規化や品質チェック (QC)、次元削減やクラスタリング、可視化などよく行われるscRNA-seqデータ解析を実行することができます。
プラットフォームに特化した解析パイプライン
解析が便利になったとはいえ、ただしい分析を行うには幅広い専門知識が必要になることは変わりません。
標準的なRNA-seq実験では、次世代シークエンサーから出てくるリードを遺伝子にマッピングし、カウントマトリックスが得られます。1細胞RNA-seqではここが少し複雑になります。例えば多くのscRNA-seqプロトコルでは各細胞を小さな液滴の中に取り込み、その液滴に取り込まれたすべてのRNAは同じ細胞から来たことを示すバーコード配列でタグ付けされ、各転写物は信頼性の高いカウントを行うためのUMI (unique molecular identifier) と呼ばれる配列が付加されます。これらの処理を適切に行う必要があります。
さらに1細胞RNA-seqのデータは疎 (sparse) であり、これは発現してないように見える遺伝子が単に検出されなかっただけかもしれないということでもあります。
これらのデータ処理を簡潔に行えるように、そのプラットフォームに特化したパイプラインをメーカーが提供することも珍しくなくなりました。例えば、10XGenomics社は自身のプラットフォームである10xChromiumに特化したCell Rangerパイプラインを開発しています。これは、バーコードとUMI検出を含む効率的なQCや、カウントマトリックス生成を行えるように設計されています。
タカラバイオ社が作成するmappa Analysis Pipelineや、Fluidigm社のSingular Analysis Toolsetも、それぞれ自社が提供するプラットフォーム用の解説パイプラインです。
ユーザーフレンドリーなソフトウェアは、データの可視化にも役立ちます。Qlucore社が提供するOmics Explorerはライセンス契約が必要ですが、プラットフォームに依存せずさまざまなオミクスデータの可視化が簡単に行えるツールで、1細胞解析にも対応しています。
1細胞解析を勉強できるリソースと新技術の台頭
1細胞解析手法をレクチャーしてくれるチュートリアルも充実してきています。例えばBioconductorの使い方をまとめた解説論文 (Orchestrating single-cell analysis with Bioconductor. Nat. Methods 2020)やそのオンラインガイドが有名です。
シングルセルRNA-seqは活発に研究が進んでいる領域であり、勉強できるリソースが整備されてもさらに新しい技術がどんどん登場しています。
そのうちの1つは、1細胞技術に空間的な情報をもたせるということです。たとえば10xGenomics社のVisium Spatial Gene Expression Solutionは組織標本内の遺伝子活性を調べることができる新しい方法であり、その解析を容易にするためのSpace Rangerというソフトが出ています。
詳しくは10xGenomics社が出した動画をご覧ください。
今回はRNA-seqの話を紹介しましたが、他のレイヤー (ゲノミクス、エピゲノミクス、プロテオミクス、メタボロミクス) についてもシングルセル技術開発が進んでいます。その一部はシングルセル解析プラットフォーム入門【技術の概略】にまとめましたが、折をみてアップデートしていきます。
関連図書・サイト
この記事に関連した内容を紹介している本やサイトはこちらです。
シングルセル解析に使うR/Bioconductorパッケージ 【入門編】
今日も【生命医学をハックする】 (@biomedicalhacks) をお読みいただきありがとうございました。