論文を投稿するときには、そのデータを公共データベースに登録することが要求されます。論文執筆等であまり時間がないときに説明を急いで見ても分かりにくいものなので、余裕を持って登録方法を確認しておきましょう。
はじめてだと一見難しそうにも見えますが、実は予想以上にシンプルです。
NGS生データ登録の流れ
NGS生データを登録する公共データベースとして、アメリカのNCBI、ヨーロッパのEMBLという選択肢もありますが、日本にもDDBJ Sequence Read Archive (DRA) があるので、特に意味がなければ日本国内からはDRAに登録するといいでしょう。
登録をしようとしたとき、まず壁になるのは独特の用語です。登録をする上で理解しておかないといけない用語をまとめます。
Biosample: サンプル情報
Experiment: NGSデータのひとまとまり
Run: 実際のNGS生データ
DRAに登録するときのデータの基本単位はExperimentになります。例えば、サンプルAについてのNGSデータであれば、それをExperimentに登録します。
実際のNGSデータそのものは、例えばペアエンドであれば2つありますが、これらの実際の生データの置き場所がRunであり、対応するExperimentに対応づけます。つまり1つのExperimentには、同じサンプル・同じ装置 (HiSeqなど) から得られた複数の生データが紐付いています。
実際には1サンプルだけでなく複数のサンプルをまとめて解析することになります。どのサンプルが何かを記述するのがBioSampleになり、各Experimentはどのサンプルを使ったデータなのか、BioSampleとも紐付いています。
そして複数のExperimentが、1つのBioProjectを構成しているという形になります。
データのアップロードの流れとしてはこのようになります
↓
2. NGSの生データをDRAにアップロード
↓
3. BioProjectを登録
↓
4. BioSampleを登録
↓
5. DRA Experiment、Runを登録
NGS生データ登楼の実際
まず、D-wayアカウントを作成します。これを作って公開鍵/秘密鍵ペアを用意することで、DRA登録 (Submission) ができるようになります。
これにより、新規Submission IDが発行されます。
次に生データをアップロードする必要があります。データ受付サーバー上で、Submission IDに対応するディレクトリに生データをアップロードします。これにはscpコマンドが便利です。
例えばこのようなスクリプトです (アカウント、submissionIDは適宜置き換えます)
scp *fastq アカウント@ftp-private.ddbj.nig.ac.jp:~/submissionID
DRA Submissionページに移動し、メタデータ入力ボタンをクリックすることで、DRAの各種登録画面が表示されます。
百聞は一見にしかず、ですので動画を御覧ください。
アクセス制限が必要なデータを登録する
DRAは利用制限がないオープンアクセスデータベースです。
例えばwhole genome sequenceを登録したい場合など、アクセス制限をかけたいケースもあります。
そういった場合には、アクセス制限データベースであるJapanese Genotype-phenotype Archive (JGA)を利用することができます。JGAを使うためには、事前にバイオサイエンスデータベースセンター (NBDC) にデータ提供申請が必要になります。
まとめに代えて
この記事では、NGS生データを登録するためにまず確認しておくべき流れについてまとめました。
登録方法の詳しいことは動画にも解説されていますし、「次世代シークエンサーDRY解析教本」にも書かれています。
さらに、実験系研究者のためにより詳しく書かれている「RNA-Seqデータ解析 WETラボのための鉄板レシピ」の一番最後にも、数十ページにわたってスクリーンショットつきで登録方法が紹介されているので合わせてご確認ください。
登録する直前に慌てて調べても分かりにくいものなので、時間に余裕を持って確認しておきましょう。
今日も【生命医学をハックする】 (@biomedicalhacks) をお読みいただきありがとうございました。当サイトの記事をもとに加筆した月2回のニュースレターも好評配信中ですので、よろしければこちらも合わせてどうぞ