はじめてのRNA-seqをやる前に 【シークエンサーのしくみとデータ登録】

RNA-seqは今やほとんどの生命科学研究に使われていると過言ではありません。

この記事では、これからRNA-seqを始めようという方に向けて、シークエンサーの基本的なしくみや設定の目安をまとめています。

リードの構造

はじめてのRNA-seqをやる前に 【RNA抽出~サンプル調製の概略】でRNA-seqのサンプル調製までを紹介しましたが、この結果つくられるライブラリーはこのようになっています。

RNA由来のインサートは中央にあり、両端にアダプターが結合しています。

このアダプターは、フローセル (後述) に結合する配列と、シークエンスプライマーが結合する配列、そしてサンプルを識別するためのインデックス配列からなっています。

シークエンスの読み取りは、アダプターのすぐ下の1塩基目から始まり、RNA由来のインサートが5’末端から読まれます。

リードの長さは、機械で設定した長さ (100 bpや150 bpなど) で一律固定です。

もしリード長が実際のインサートの長さより長ければ、リードの3’側にはアダプター配列が含まれることになり、これらはその後のデータ解析の段階でトリミングの対象となります。

一般的に3’側の方がリードの品質が落ちるので、そういった低品質のデータもトリミングでは落とすことになります。

アダプターの中にはインデックス配列がありますが、この部分も別途シークエンスされて、紐付けられたデータとして記録されます。

シークエンサーの仕組み

Illumina社のシークエンサーでは、フローセルという基盤の上でライブラリーのクラスターができます。

フローセルにはオリゴヌクレオチドがついていますが、ここにライブラリー中のアダプターが結合し、PCRベースの増幅の結果、数百コピーの束になったクラスターができます。

各クラスターにおいて1塩基伸長と蛍光のスナップショットをとることで、同時並列シークエンスを行っています。

実際には動画でみるほうがずっと分かりやすいので、Illumina公式動画をご覧ください。

データ量の基本

NGSデータのデータ量は、読み取り方法 (シングルリード or ペアエンド)、リード長リード本数で計算されます。

シングルリードよりもペアエンドの方が一般には精度が向上しますが、普通の遺伝子発現解析をしたいだけならシングルリードで十分です。

リード帳はシークエンサーや試薬によって決まっていて、100 bpや150 bpなどが代表的な値です。

リード本数は、シークエンサーや基盤となるフローセルの種類によって最適なクラスター数 (=総リード数) が決まっています。

複数のサンプルを混合してマルチプレックス解析ができるので、1レーンが1億リードがベストである機械で4サンプルを混合してランした場合、1つのサンプルは平均して2500万リードということになります。

一般的な遺伝子発現解析には2000-3000万リードくらいが最適ですが、低発現遺伝子やレファレンスゲノムがない生物種の場合には1-2億リード程度が必要とされます。

NGS生データの登録方法

RNA-seqの解析結果を論文投稿する場合、生データをSequence Read Archiveに登録する必要があります。

日本の場合、DDBJという組織が運営するレポジトリーDRAがあるので、そこに登録すればOKです。

どのようなライブラリー調製をして、どのようなシークエンスをしたのかを記載する「Experiment」という項目があります。

次のような項目を聞かれるので、あらかじめ用意しておくといいでしょう。

生データを登録する時に必要となる情報
Library Source: Total RNAサンプルなら「TRANSCRIPTOMIC」
Library Selection: オリゴdTによるmRNA精製をした場合は「Oligo-dT」、rRNAキャプチャー除去をしているなら「Inverse rRNA」
Library Strategy: 通常のライブラリー調製なら「RNA-Seq」、small RNA用のライブラリ調製なら「miRNA-Seq」
Library Construction Protocol: ライブラリー調製法についてフリーテキストで記載
Instrument: 使った機械の名前 (HiSeq 2500など)
Sort Type: シングルリードの場合は「Single」、ペアエンドの場合は「paired (FR)」
Nominal Length: シングルリードの場合は記載不要。ペアエンドの場合、ライブラリーのサイズ測定結果から推定。ライブラリーサイズのピークが250 bpなら、アダプターの120 bpを引き、インサートは130 bpくらい。
Spot Length: 101塩基読み取りのシングルリードの場合は「101」、ペアエンドシークエンスの場合は (101+101で)「202」

詳しい方法はNGS生データの登録方法の概要 【DDBJの例】をご覧ください。

まとめに代えて

この記事ではRNA-seqのサンプル調製後にやることについて概略を紹介しました。

実際にはいろいろ調べながらになりますが、概略だけでもイメージを持っているのとそうでないのでは大きく違います。

サンプル調製についてははじめてのRNA-seqをやる前に知っておきたいこと 【RNA抽出~サンプル調製の概略】にまとめているのでこちらも合わせてお読みください。

より体系だった知識を日本語で勉強したい場合には本を読むのが一番です。
「次世代シークエンス解析スタンダード〜NGSのポテンシャルを活かしきるWET&DRY」は、まさにはじめての方向けのノウハウが濃縮されています。

データ解析については、「RNA-Seqデータ解析 WETラボのための鉄板レシピ」という本が、比較的手取り足取り解説してくれています。

今日も【生命医学をハックする】 (@biomedicalhacks) をお読みいただきありがとうございました。当サイトの記事をもとに加筆した月2回のニュースレターも好評配信中ですので、よろしければこちらも合わせてどうぞ