コロナウイルス研究を支えているのは情報科学による解析手法や各種データベースです。この記事では、これまで使われてきたリソースを紹介します。
この記事の内容
SARS-CoV-2関連のデータベース
SARS-CoV-2関連のデータベースは、Global Initiative on Sharing All Influenza Data (GISAID), National Center for Biotechnology Information (NCBI), Genome Warehouse, National Bioinformatics Center (CNCB)/National Genomics Data Center (NGDC) database, Virus Pathogen Resourceなど多数存在しています。このうち、GISAIDはSARS-CoV-2のゲノム配列が最も多く登録されています。これらのデータベースは、配列のアーカイブ、相同性検索、変異の発見、疾患表現型の関連付けなどに重要な役割を果たしています。
マルチプル配列アライメント
正確な多重配列アライメント(MSA)は、すべての比較ゲノム配列解析の基礎となるものです。MSAは大きく3つの手法に分けることができ、(i)progressive-based methodsとしてはCLUSTALW、MAFFT、MUSCLEなどに組み込まれています。(ii)consistency-basedなMSAはT-Coffee、ProbConsおよび MAFFTといったツールが有名です。(iii) evolution-basedの手法はPRANK, Bali-Phy, StatAlignといったMSAツールに実装されています。
これらを統合して閲覧できるツールも出てきました。JABAWSは、様々なMSAツール(MUSCLE、MAFFT、ClustalWなど)を統合し、ローカルで実行できるようにしたパッケージです。EMBL-EBIなどのウェブサービスでは、一般的な配列解析ツール(MUSCLE、MAFFT、ClustalW、T-Coffee、webPRANKなど)をオンラインで実行できるようになっています。
MSAに使うアルゴリズムが異なると、結果として得られるアラインメントも異なるものになり、その後の解析に影響を与えます (Mol. Biol. Evol. 2013)。幸い、SARS-CoV-2ゲノムは配列が非常に似ており、挿入-欠失(indel)がほとんどないため、MSAは通常は簡単です。得られたMSAは、Jalview, MSAViewer, AliView, BioeditやGeneious等で可視化することができます。
系統樹と進化解析
系統樹はSARS-CoV-2の出現と進化を理解する上で重要であり様々なアプローチがありますが、特に近傍結合(NJ)のような距離に基づく方法 (Mol. Biol. Evol. 1987) と、最大級パーシモン(MP)、最尤法 (ML)、ベイズ推定(BI) (Mol Biol Evol 1999) などの特徴に基づく方法に分けることができます。NJ法、ML法、BI法は、ヌクレオチドまたはアミノ酸置換の明示的な統計モデル(jMODELTESTやProtTestなどのプログラムを使って比較・評価できる)を使用します。
これらの系統分類法を実装したコンピュータプログラムやパッケージが数多く開発されており、NJではBIONJ 、MLではPhyML・RAxML ・ IQ-TREE 、BIではMrBayes ・PhyloBayes ・BEAST1 ・ BEAST2などがあります。また、PAUPや MEGAなどのパッケージには、複数の手法が利用可能になっています。より最近では、分子配列データの管理と系統学研究を効率化するための新しい統合デスクトッププラットフォーム、PhyloSuiteが開発されました。また、Dendroscope, FigTree, ggtreeなど、得られた系統樹を可視化するための様々なツールもあります。iTOL や Evolviewなどのオンラインツールも系統樹のアノテーションに利用可能です。
SARS-CoV-2の進化を研究するためには、MLとBIの両方のアプローチが広く使われてきました (Nature 2020; Nat. Med. 2020)。SARS-CoV-2のゲノム配列を大量に解析する場合、多くの計算ノードを効率よく利用でき、大規模データセットに適用できるIQ-TREや RAxMLなどが推奨されています。例えば, BIベースの解析プラットフォームである Nextstrainは, GISAIDの最新のSARS-CoV-2 データを解析し,利用可能なすべての SARS-CoV-2 株の拡散と進化をリアルタイムに可視化しています。
ウイルスゲノムのアノテーション
新しいウイルスゲノムのアノテーションは困難です。SARS-CoV-2のオープンリーディングフレームは、当初Geneiousで予測され、Conserved Domain Databaseでアノテーションが行われました。その後、SARS-CoV-2のゲノムアノテーションを容易にするために、一般的なゲノムブラウザであるUCSC, Ensembl, NCBI SARS-CoV-2 Resourcesなどのオンラインサービスが開発されたという経緯があります。複数のSARS-CoV-2配列については、GenBank の参照ウイルスゲノム、NC_045512.3 (strain Wuhan-Hu-1) とクロスリファレンスすることにより、遺伝子アノテーションが簡略化できます。また、ウイルスゲノムのアノテーションを行うオフラインのアプリケーション(GFF2PS、Vectro NTI、IBSといったものががいくつかあります。
遺伝的変異の検出
遺伝的類似性の程度によりウイルス間の関係を調べることができます。Geneiousなどのコンピュータプログラムにより、配列間の配列同一性を計算することができますし、PHYLIPのDNADISTプログラムでSARS-CoV-2の遺伝的距離行列の推定も可能です。
ウイルスゲノムの数が少ない場合は、アラインメントを目視することで変異の有無を十分に確認できます。例えば、全長SARS-CoV-2ゲノムのアラインメントを調べ、MEGA Xを用いて各ウイルスゲノムの塩基置換やインデルを含む変異部位を容易に同定することができたと報告されています (Mol. Biol. Evol. 2018)。しかし、解析する配列の数が多い場合、目視での確認は困難になります。そういったとき、CNCB/NGDC database、Nextstrain、UCSC Genome Browser for SARS-CoV-2 などのオンラインリソースを使うことでSARS-CoV-2ゲノム全体の一塩基多型を表示することが可能です。
コロナウイルスの組換えを検出する
コロナウイルスは頻繁に組換えを行っていることが知られています (Trends Microbiol. 2016)。RDP4は、特定のデータセットにおけるゲノム組換えを検出するための一般的なパッケージで、RDP、GENECONV、3Seq、Chimaera、SiScan、MaxChi、LARDなど、組換え検出に用いられる多くの重要なアルゴリズムが利用可能です。これらの複数の独立した手法でゲノムの組み換えが検出された場合、信頼性が高いとみなされます。
まとめに代えて
この記事では、コロナウイルス研究に使われてきたリソースについて紹介しました。
感染症のデータサイエンスには独特の概念を理解する必要がありますが、それらの基本事項を分野外の人にも理解できるように第一人者がまとめた入門書です。
それにしても新型コロナウイルスはどこから来てどこに行くのでしょうか?研究者による一般向けの解説書です。
コロナウイルス研究については、このような関連記事があるので合わせてご覧ください。
今日も【生命医学をハックする】をお読みいただきありがとうございました。当サイトの記事をもとに加筆した月2回のニュースレターも好評配信中ですので、よろしければこちらも合わせてどうぞ