次世代シークエンサー (NGS) は通常数百万のシークエンスリードを生成するため、その中からウイルスを見つけるのは、データ解析に使うバイオインフォマティクスツールに大きく依存します。残念ながら、NGSデータを自動的に解析してウイルスに関連する可能性のあるリードを特定することができる1つのパイプラインというのは存在しません。ウイルス検出のための典型的なNGSデータ解析ワークフローは、NGSデータの品質管理、ホストのrRNAデータの除去、リードのアセンブリ、分類、ウイルスゲノムの検証といった、いくつかの重要なステップから構成されています。本記事では、各ステップで使われている主要なツールを紹介します。
品質プロファイリング
FASTQ ファイルの品質管理や前処理は、特にサンプルの質が低い場合にはその後の解析に不可欠であり、これにはアダプター配列の除去や低品質なリードのフィルタリングなどが含まれます。Trimmomatic, Cutadapt, SOAPnukeなどの配列マッチングベースのアダプタートリミングツールが使用でき、スライディングウィンドウや最大情報品質フィルタリングといったこともオプションで可能です。最近では、AfterQCや fastpなどのさまざまな機能がオールインワンで搭載されたFASTQファイルのプリプロセッサーが人気で、品質プロファイリング、アダプターやポリG/ポリXテールのトリミングだけでなく様々な機能が提供されています。
これらのツールではシングルエンド(SE)およびペアエンド(PE)シーケンスデータの両方に対応していますが、PEデータについてはいくつかの追加ステップが必要になることもあります。また、SARS-CoV-2をターゲットとするマルチプレックスPCR増幅技術については、MGI Techが開発した特定のPythonスクリプト (Cut_Multi_Primer.py) を用いた前処理の方法もよく使われています。
宿主rRNAデータの除去
通常、ウイルス由来のリードはシークエンスランのごく一部しかなく、大部分は宿主由来のものです。宿主由来のホストリードは、マッピングおよびアライメントツール(Hisat2・BWA・Bowtie2・KMAなど)によりリードをホストゲノムにマッピングして削除する必要があります。また、rRNAもBowtie2やSortmeRNAを用いて除去する必要がありますが、ライブラリ調製の段階でrRNAの除去を行うことも可能です。
リードのアセンブリ
新規ウイルスでゲノムに関する事前知識がない場合、リードをde novoでコンティグにアセンブルするのが一般的なアプローチです。よく使われているのは、短いリードをk-mersに変換してアセンブルするde Bruijn graph法に基づくもので、例えばTrinity, Megahit, SPAdes , Trans-ABySSなどがこの仲間です。これは通常ロングリードのアセンブリに使用され、ウイルス変異体などのような類似性の高いゲノムに適用可能で、PEHaploや SAVAGEなどのプログラムにも使われています。最初期のCOVID-19のようなレファレンスゲノムがない新興感染症では、De novoアセンブリが最適なアプローチとなります。
コロナウイルス科(新規および既知の種を含む)のゲノム配列を復元するために、専用のアセンブラcoronaSPAdesも開発されました (Bioinformatics 2021)。これはrnaviralSPAdesのアルゴリズムアセンブリとbiosyntheticSPAdesの隠れマルコフモデル (HMM) アルゴリズムを用いて、断片的なアセンブリからコロナウイルス科のゲノムを復元しています。
分類学的分類
NGSリードをコンティグにアセンブルした後には、それらのコンティグを分類、つまり種/属/科に割り当てる必要があります。最も一般的なアプローチは、reference virus sequence database (RefSeq_viruses) などの核酸・タンパク質データベースに対して個々のコンティグをblastすることです。Diamondは、翻訳されたショートリードを核酸データベースに対してアライメントする際に最もよく使われるツールの一つで、Blastx(タンパク質アライメントのゴールドスタンダード・ツール)よりもはるかに速いという特徴があります。Blastnは、従来のヌクレオチド間検索プログラムとして、ヌクレオチド配列のアライメントに今でも広く使われています。
コンティグの数は数万に及ぶため、計算負荷をさらに軽減し、blast処理を高速化するために、通常、すべての既知の参照ウイルスのタンパク質配列を含むローカルデータベースを作成することが推奨されますが、ローカルなBlast検索によりウイルスと相同性を持つ非ウイルスタンパク質が誤ってヒットする可能性があるため、慎重に結果を解釈する必要があります。そのためには、偽陽性を避けるために核酸データベースに対して確認的なBlastx検索を実行することが重要です。また、コンティグ用のアライメントツールを用いて、残りのリードをすべてレファレンスデータベースに直接アライメントする方法もあります。
それでも注釈ができないコンティグは、暫定的に「オーファン」コンティグと呼ばれます (Viruses 2020)。このようなオーファンコンティグは、Phyre2に実装されているようなタンパク質構造を考慮したアプローチでさらに解析することが行われています。
ロングリード解析の場合
ロングリードシーケンサー(Oxford Nanoporeなど)から得られたシーケンスデータの場合、データ解析のワークフローは基本的に同じですが、より長いリードに対応したプログラムを使います。例えば、NanoPackは、ロングリードのシーケンスデータ用に開発された包括的な前処理ツールで、複数の品質プロファイリング機能(NanoStat, NanoPlot, NanoComp)、リードフィルタリングとトリミング(NanoFilt)、コンタミの除去(NanoLyse)などが提供されています。Porechopはアダプタートリマーとして機能し、配列の同一性が低くても、アライメントに基づく戦略によってOxford Nanopore リードからアダプターを検出・除去することが可能です。さらに、新しいアライメントツール(Minimap2・NGMLR・MarginAlignや複数のde novoアセンブリツール (Canu・Falcon・Miniasmなどもロングリードデータ用に特別に開発されてきたものです。
まとめに代えて
この記事では、コロナのNGS解析の流れについて紹介しました。
コロナに限らずロングリード技術が昨今の生命科学研究に使われるようになってきました。まだ黎明期ですが現状の解析手法をまとめたのがこちらの本です。
多様な病原体の中から目的のものをきちんと調べるためにはメタゲノム解析技術も重要です。近年入門書が登場したことでこの領域にも参入しやすくなりました。
コロナ研究については、このような関連記事があるので合わせてご覧ください。
今日も【生命医学をハックする】をお読みいただきありがとうございました。当サイトの記事をもとに加筆した月2回のニュースレターも好評配信中ですので、よろしければこちらも合わせてどうぞ