はじめてのRNA-seqをやる前に【シークエンサーのしくみとデータ登録】

2020年10月30日 2020年10月30日 10分8秒

Web master

この記事のタイトルとURLをコピーする

RNA-seqは今やほとんどの生命科学研究に使われていると過言ではありません。

この記事では、これからRNA-seqを始めようという方に向けて、シークエンサーの基本的なしくみや設定の目安をまとめています。

この記事の内容

1 リードの構造
2 シークエンサーの仕組み
3 データ量の基本
4 NGS生データの登録方法
5 まとめに代えて

リードの構造

はじめてのRNA-seqをやる前に【RNA抽出~サンプル調製の概略】でRNA-seqのサンプル調製までを紹介しましたが、この結果つくられるライブラリーはこのようになっています。

RNA由来のインサートは中央にあり、両端にアダプターが結合しています。

このアダプターは、フローセル (後述) に結合する配列と、シークエンスプライマーが結合する配列、そしてサンプルを識別するためのインデックス配列からなっています。

シークエンスの読み取りは、アダプターのすぐ下の1塩基目から始まり、RNA由来のインサートが5'末端から読まれます。

リードの長さは、機械で設定した長さ (100 bpや150 bpなど) で一律固定です。

もしリード長が実際のインサートの長さより長ければ、リードの3'側にはアダプター配列が含まれることになり、これらはその後のデータ解析の段階でトリミングの対象となります。

一般的に3'側の方がリードの品質が落ちるので、そういった低品質のデータもトリミングでは落とすことになります。

アダプターの中にはインデックス配列がありますが、この部分も別途シークエンスされて、紐付けられたデータとして記録されます。

シークエンサーの仕組み

Illumina社のシークエンサーでは、フローセルという基盤の上でライブラリーのクラスターができます。

フローセルにはオリゴヌクレオチドがついていますが、ここにライブラリー中のアダプターが結合し、PCRベースの増幅の結果、数百コピーの束になったクラスターができます。

各クラスターにおいて1塩基伸長と蛍光のスナップショットをとることで、同時並列シークエンスを行っています。

実際には動画でみるほうがずっと分かりやすいので、Illumina公式動画をご覧ください。

データ量の基本

NGSデータのデータ量は、読み取り方法 (シングルリード or ペアエンド)、リード長、リード本数で計算されます。

シングルリードよりもペアエンドの方が一般には精度が向上しますが、普通の遺伝子発現解析をしたいだけならシングルリードで十分です。

リード帳はシークエンサーや試薬によって決まっていて、100 bpや150 bpなどが代表的な値です。

リード本数は、シークエンサーや基盤となるフローセルの種類によって最適なクラスター数 (=総リード数) が決まっています。

複数のサンプルを混合してマルチプレックス解析ができるので、1レーンが1億リードがベストである機械で4サンプルを混合してランした場合、1つのサンプルは平均して2500万リードということになります。

一般的な遺伝子発現解析には2000-3000万リードくらいが最適ですが、低発現遺伝子やレファレンスゲノムがない生物種の場合には1-2億リード程度が必要とされます。

NGS生データの登録方法

RNA-seqの解析結果を論文投稿する場合、生データをSequence Read Archiveに登録する必要があります。

日本の場合、DDBJという組織が運営するレポジトリーDRAがあるので、そこに登録すればOKです。

どのようなライブラリー調製をして、どのようなシークエンスをしたのかを記載する「Experiment」という項目があります。

次のような項目を聞かれるので、あらかじめ用意しておくといいでしょう。

生データを登録する時に必要となる情報

Library Source: Total RNAサンプルなら「TRANSCRIPTOMIC」
Library Selection: オリゴdTによるmRNA精製をした場合は「Oligo-dT」、rRNAキャプチャー除去をしているなら「Inverse rRNA」
Library Strategy: 通常のライブラリー調製なら「RNA-Seq」、small RNA用のライブラリ調製なら「miRNA-Seq」
Library Construction Protocol: ライブラリー調製法についてフリーテキストで記載
Instrument: 使った機械の名前 (HiSeq 2500など)
Sort Type: シングルリードの場合は「Single」、ペアエンドの場合は「paired (FR)」
Nominal Length: シングルリードの場合は記載不要。ペアエンドの場合、ライブラリーのサイズ測定結果から推定。ライブラリーサイズのピークが250 bpなら、アダプターの120 bpを引き、インサートは130 bpくらい。
Spot Length: 101塩基読み取りのシングルリードの場合は「101」、ペアエンドシークエンスの場合は (101+101で)「202」

詳しい方法はNGS生データの登録方法の概要【DDBJの例】をご覧ください。