２－２節

中国論文がしていること

ステファン・ランカ氏が主催している科学雑誌「W＋」に興味深い記事が掲載されました。

einem Mathematiker aus Hamburg：
「Ein neues Coronavirus im Zusammenhang mit menschlichen Atemwegserkrankungen in China」,
WISSENSCHAFFTPLUS magazin, 4/2021

この論文のお陰で、中国論文における遺伝子配列決定において、今までよりも正確に何をしているのか、何をしていないのかが分かりました。

非常に有益な内容なので、ここで紹介します。

この節では、まず中国論文で何をしているのかについてお話します。

まずは、中国論文に書かれていることを、遺伝子配列決定に関する部分を抜き出して、そのまま引用します。

主要

To investigate the possible aetiological agents associated with this disease, we collected bronchoalveolar lavage fluid (BALF) and performed deep meta-transcriptomic sequencing.
The clinical specimen was handled in a biosafety level 3 laboratory at Shanghai Public Health Clinical Center. Total RNA was extracted from 200 μl of BALF and a meta-transcriptomic library was constructed for pair-end (150-bp reads) sequencing using an Illumina MiniSeq as previously described.
In total, we generated 56,565,928 sequence reads that were de novo-assembled and screened for potential aetiological agents.
Of the 384,096 contigs assembled by Megahit, the longest (30,474 nucleotides (nt)) had a high abundance and was closely related to a bat SARS-like coronavirus (CoV) isolate—bat SL-CoVZC45 (GenBank accession number MG772933)—that had previously been sampled in China, with a nucleotide identity of 89.1% (Supplementary Tables 1, 2).
The genome sequence of this virus, as well as its termini, were determined and confirmed by reverse-transcription PCR (RT–PCR) and 5′/3′ rapid amplification of cDNA ends (RACE), respectively.
This virus strain was designated as WH-Human 1 coronavirus (WHCV) (and has also been referred to as ‘2019-nCoV’) and its whole genome sequence (29,903 nt) has been assigned GenBank accession number MN908947.
Remapping the RNA-sequencing data to the complete genome of WHCV resulted in an assembly of 123,613 reads, providing 99.99% genome coverage at a mean depth of 6.04× (range, 0.01–78.84×) (Extended Data Fig. 3).
The viral load in the BALF sample was estimated by qPCR to be 3.95 × 108 copies per ml (Extended Data Fig. 4).

本疾患に関連する病原体の可能性を検討するため、気管支肺胞洗浄液（BALF）を採取し、ディープメタトランススクリプトームシーケンスを実施した。
臨床検体は、上海公衆衛生臨床センターのバイオセーフティレベル3の実験室で取り扱った。200μlのBALFからトータルRNAを抽出し、既報の通りIllumina MiniSeqを用いたペアエンド（150bpリード）シーケンスのためにメタトランススクリプトームライブラリーを構築した。
合計で56,565,928のシーケンスリードを生成し、de novoアセンブルして潜在的な病原体を排除した。
Megahitで組み立てた384,096本のコンティグのうち、最も長いもの（30,474塩基（nt））は存在量が多く、中国で以前にサンプリングされたコウモリSARS様コロナウイルス（CoV）分離株-コウモリ SL-CoVZC45 (GenBank アクセッション番号 MG772933) と塩基類似性が高く、89.1％の一致が見られた（補足表1、2）。
このウイルスのゲノム配列および末端配列は、それぞれ逆転写PCR（RT-PCR）および5′/3′ RACE（rapid amplification of cDNA ends）により決定・確認された。
このウイルス株をWH-Human 1コロナウイルス（WHCV）（および「2019-nCoV」とも呼ばれる）と名付け、その全ゲノム配列（29,903 nt）にはGenBankアクセッション番号MN908947が割り当てられている。
RNA配列データをWHCVの全ゲノムに再マッピングした結果、123,613リードのアセンブリが得られ、平均深度6.04×（範囲、0.01～78.84×）で99.99%のゲノムカバレッジが得られた（拡張データ図3）。
BALFサンプルのウイルス量はqPCRにより3.95×108 copies/mlと推定された（Extended Data 図4）。

The viral genome organization of WHCV was determined by sequence alignment to two representative members of the genus Betacoronavirus: a coronavirus associated with humans (SARS-CoV Tor2, GenBank accession number AY274119) and a coronavirus associated with bats (bat SL-CoVZC45, GenBank accession number MG772933).
The un-translational regions and open-reading frame (ORF) of WHCV were mapped on the basis of this sequence alignment and ORF prediction.
The WHCV viral genome was similar to these two coronaviruses (Fig. 1 and Supplementary Table 3).
The order of genes (5′ to 3′) was as follows: replicase ORF1ab, spike (S), envelope (E), membrane (M) and nucleocapsid (N).
WHCV has 5′ and 3′ terminal sequences that are typical of betacoronaviruses, with 265 nt at the 5′ terminal end and 229 nt at the 3′ terminal end.
The predicted replicase ORF1ab gene of WHCV is 21,291 nt in length and contained 16 predicted non-structural proteins (Supplementary Table 4), followed by (at least) 13 downstream ORFs.
Additionally, WHCV shares a highly conserved domain (LLRKNGNKG: amino acids 122–130) in nsp1 with SARS-CoV.
The predicted S, ORF3a, E, M and N genes of WHCV are 3,822, 828, 228, 669 and 1,260 nt in length, respectively.
In addition to these ORF regions, which are shared by all members of the subgenus Sarbecovirus, WHCV is similar to SARS-CoV in that it carries a predicted ORF8 gene (with a length of 366 nt) that is located between the M and N ORF genes.
The functions of WHCV ORFs were predicted on the basis of those of known coronaviruses and are described in Supplementary Table 5.
In a manner similar to SARS-CoV Tor2, a leader transcription regulatory sequence (TRS) and nine putative body TRSs could be readily identified upstream of the 5′ end of the ORF in WHCV, and the putative conserved TRS core sequence appeared in two forms—ACGAAC or CUAAAC (Supplementary Table 6).

WHCV（新型コロナウイルス）のゲノム構成は、βコロナウイルス属の代表的なヒトコロナウイルス（SARS-CoV Tor2, GenBankアクセッション番号 AY274119）およびコウモリ用コロナウイルス（bat SL-CoVZC45, GenBankアクセッション番号 MG772933）との配列アライメントによって決定された。
この配列アラインメントとORF予測に基づいて、WHCVの非翻訳領域とオープンリーディングフレーム（ORF）のマッピングを行った。
WHCVのウイルスゲノムは、これら2つのコロナウイルスと類似していた（図1、補足表3）。
遺伝子の順番（5′から3′）は，レプリカーゼORF1ab，スパイク（S），エンベロープ（E），膜（M），ヌクレオカプシド（N）であった。
WHCVは5′末端と3′末端の配列がベータコロナウイルスに典型的であり，5′末端が265nt，3′末端が229ntである．
WHCVの複製酵素ORF1ab遺伝子は21,291 ntの長さで、16個の非構造タンパク質が予測され（補足表4）、それに続いて（少なくとも）13個の下流ORFが予測された。
さらに、WHCVはSARS-CoVとnsp1の高度に保存されたドメイン（LLRKNGNKG：アミノ酸122-130）を共有している。
WHCVの予測されるS, ORF3a, E, M, N遺伝子は、それぞれ3,822, 828, 228, 669, 1,260 ntの長さである。
これらのORF領域はSarbecovirus亜属の全メンバーに共通であるが、WHCVはM ORF遺伝子とN ORF遺伝子の間に予測されるORF8遺伝子（長さは366 nt）を持つ点でSARS-CoVと類似している。
WHCVのORFの機能は、既知のコロナウイルスに基づいて予測され、補足表5に記載されている。
SARS-CoV Tor2と同様に、WHCVのORFの5′末端上流には、リーダー転写調節配列（TRS）と9つの推定ボディTRSが容易に同定でき、推定保存TRSコア配列は、ACGAACまたはCUAAACの2形態で現れた（付表6）。

RNAライブラリの構築と配列決定

Total RNA was extracted from the BALF sample using the RNeasy Plus Universal Mini kit (Qiagen) following the manufacturer’s instructions.
The quantity and quality of the RNA solution was assessed using a Qbit machine and an Agilent 2100 Bioanalyzer (Agilent Technologies) before library construction and sequencing.

An RNA library was then constructed using the SMARTer Stranded Total RNA-Seq kit v.2 (TaKaRa).
Ribosomal RNA depletion was performed during library construction following the manufacturer’s instructions.
Paired-end (150-bp reads) sequencing of the RNA library was performed on the MiniSeq platform (Illumina).
Library preparation and sequencing were carried out at the Shanghai Public Health Clinical Center, Fudan University, Shanghai, China.

全RNAを、RNeasy Plus Universal Mini kit（Qiagen）を用いて、製造者の説明書に従ってBALFサンプルから抽出した。

RNA溶液の量と質は、ライブラリ構築と配列決定の前に、QbitマシンとAgilent 2100 Bioanalyzer (Agilent Technologies) を用いて評価した。

その後、SMARTer Stranded Total RNA-Seq kit v.2 (TaKaRa)を用いてRNAライブラリーを構築した。

リボソームRNA（ヒト由来のRNA）の排除を、製造者の指示に従ってライブラリ構築中に行った。
MiniSeqプラットフォーム（Illumina）を用いて、RNAライブラリーのペアエンド（150bpリード）配列決定を実施した。

ライブラリーの調製と配列決定は、中国上海の復旦大学、上海公衆衛生臨床センターで行った。

データ処理とウイルス遺伝子配列の同定

Sequencing reads were first adaptor and quality trimmed using the Trimmomatic program.
The remaining 56,565,928 reads were assembled de novo using both Megahit (v.1.1.3) and Trinity (v.2.5.1) with default parameter settings.
Megahit generated a total of 384,096 assembled contigs (size range of 200–30,474 nt), whereas Trinity generated 1,329,960 contigs with a size range of 201–11,760 nt.

All of these assembled contigs were compared (using BLASTn and Diamond BLASTx) against the entire non-redundant (nr) nucleotide and protein databases, with e values set to 1 × 10^(−10) and 1 × 10^(−5), respectively.
To identify possible aetiological agents present in the sequencing data, the abundance of the assembled contigs was first evaluated as the expected counts using the RSEM program implemented in Trinity.
Non-human reads (23,712,657 reads), generated by filtering host reads using the human genome (human release 32, GRCh38.p13, downloaded from Gencode) by Bowtie2, were used for the RSEM abundance assessment.

シーケンシングリードは、まずTrimomaticプログラムを用いてアダプターおよび品質トリミングを行いました。

残りの56,565,928個のリードは、Megahit (v.1.1.3) とTrinity (v.2.5.1) を用い、デフォルトのパラメータ設定でde novoアセンブルした。

Megahitは384,096本のコンティグ（サイズ範囲200-30,474 nt）を、Trinityは1,329,960本（サイズ範囲201-11,760 nt）のコンティグを作成した。

これらのコンティグを、non-redundant (nr) nucleotide databaseおよびprotein databaseと比較し、e値をそれぞれ1 × 10^(-10) および1 × 10^(-5) に設定して、BLASTn および Diamond BLASTxで解析した結果、1,329,960個のコンティグが得られた。

シークエンスデータに存在する病原体の可能性を特定するために、まず、Trinityに実装されたRSEMプログラムを用いて、組み立てられたコンティグの存在量を予想カウントとして評価した。

ヒトゲノム（human release 32, GRCh38.p13、Gencodeからダウンロード）を用いてBowtie2によりホストリードをフィルタリングして生成した非ヒトリード（23,712,657リード）をRSEMによるabundance評価に使用しました。

As the longest contigs generated by Megahit (30,474 nt) and Trinity (11,760 nt) both showed high similarity to the bat SARS-like coronavirus isolate bat SL-CoVZC45 and were found at a high abundance (Supplementary Tables 1, 2), the longer sequence (30,474 nt)—which covered almost the whole virus genome—was used for primer design for PCR confirmation and determination of the genome termini.
Primers used for PCR, qPCR and RACE experiments are listed in Supplementary Table 8.
The PCR assay was conducted as previously described and the complete genome termini was determined using the Takara SMARTer RACE 5′/3′ kit (TaKaRa) following the manufacturer’s instructions.
Subsequently, the genome coverage and sequencing depth were determined by remapping all of the adaptor- and quality-trimmed reads to the whole genome of WHCV using Bowtie2 and Samtools.

Megahit（30,474 nt）とTrinity（11,760 nt）が生成した最長コンティグは、いずれもコウモリSARS様コロナウイルス分離株SL-CoVZC45と高い類似性を示し、高い確率で見つかったため（補足表1、2）、ウイルスゲノムのほぼ全体を覆う長い配列（30,474 nt）は、PCRの確認とゲノム末端の決定のためのプライマーデザインに使用された。
PCR、qPCR、RACE実験に使用したプライマーを補足表8に示す。
PCRアッセイは前述のように実施し、完全なゲノム末端は、製造者の説明書に従ってTakara SMARTer RACE 5′/3′ キット（TaKaRa）を用いて決定された。
その後、Bowtie2およびSamtoolsを用いて、アダプターおよび品質トリミングしたリードのすべてをWHCV（新型コロナウイルス遺伝子配列）の全ゲノムに再マッピングすることにより、ゲノムカバレッジおよび配列決定深さを決定した。

中国論文で何をしているのか

上記引用を見ながら、中国論文が何をしたのか確認していきます。

本疾患に関連する可能性のある病原体を特定するために、患者からBALFを採取し、その後、メタ・トランスクリプトームによる遺伝子配列の解析を行った。
BALFから全RNAを抽出した。
遺伝子配列解読に先立ち、RNA溶液の量と質の評価をした。
ヒトの遺伝子を排除するために、ヒト由来のリボソームRNAを除去した。
遺伝子配列アセンブリをする前に、RNAライブラリーを構築する必要があり、RNAを逆転写によりcDNAに転写し、適当な長さに切ってリードを作成した。
リードをPCRで増幅させた。
リードの読み込みは、上海のIlluminaのMinSeqプラットフォームで行った。
プログラムTrimonmaticによる調整と品質管理の結果、約150塩基の長さのリード（データ）が合計56,565,928本得られた。
このリードに対して、ヒトの参照ゲノム（human release 32, GRCh38.p13）を用いて、ヒト由来の可能性のあるリードを除去した。
その結果、非ヒトリードが23,712,657本残った。
このリードを２つのアセンブラを使って遺伝子配列アセンブリをした。
そのアセンブラは、Megahit(Ver. 1.13)とTriniry(Ver. 2.5.1)で、それぞれデフォルトの設定でアセンブリした。
以上の前処理した上でアセンブリした結果、以下のようなコンティグが得られた。

アセンブラ	コンティグ数	最短コンティグ	最長コンティグ
Megahit	384,096本	200塩基	30,474塩基
Trinity	1,329,960本	201塩基	11,760塩基

それぞれの最長コンティグがコウモリSARS様コロナウイルスSL-CoVZC45(GenBankアクセッション番号 MG772933)と高い類似性を持つことが判明した。
得られたコンティグのうち最長のコンティグ（30,474塩基）は、ウイルスゲノムのほぼ全体をカバーしているため、PCRの確認とゲノム末端の決定のためのプライマー設計に用いられた。
新型コロナウイルスの遺伝子配列は、最長のコンティグ（30,474塩基）に対して、βコロナウイルス属のヒトコロナウイルスSARS-CoV Tor2（GenBankアクセッション番号 AY274119）およびコウモリ用コロナウイルスSL-CoVZC45（GenBankアクセッション番号 MG772933）との配列アライメントを行い、遺伝子配列の整理を行った。
以上の処理の結果、新型コロナウイルスの遺伝子配列（29,903塩基）を決定し、Genbankにアクセッション番号MN908947で登録した。

対照実験が記載されていない

冒頭に紹介した論文によれば、中国論文には対照実験が記載されていないと言います。

著者は以下の事項が検討されるべきと言っています。

複数の研究チームが、患者の出自や病歴、臨床象などの情報を一切持たずに、同じBALFを検査する。
その結果、同じような遺伝子配列を得ることができるか？
BALFに対する前処理が異なっても、使用したアセンブラで同一、もしくは類似した遺伝子配列が得られるか？
感染していない健康な人からは、新型コロナウイルスのゲノム配列は再現されないのか。
同様な症状を持つ患者からは、新型コロナウイルスのゲノム配列は再現できるのか。
明らかにウイルスを含まないRNAソースから、新型コロナウイルスのゲノム配列は再現されないのか。

複数の研究チームによる検討

中国論文に関わった研究者らは、BALFを抽出した患者の病歴や症状を知っていた。

このことが、呼吸器系の病原体の可能性を探る動機となっている。

もし、患者の病歴や症状を知らない他の研究チームが同じBALFを検査した場合、同じような結果が得られただろうか。

例えば、呼吸器系の疾患の原因となる薬剤、大気汚染、その他考えられる病因を仮説に立て、ウイルス以外の病因を発見することはなかったか。

遺伝子配列の再現可能性

アセンブラで遺伝子配列をアセンブルを可能にするために、BALFに対して以下のような処理が必要です。

BALFから全RNAを抽出する。
全RNAからリボソームRNAを除去する。
RNAからcDNAに変換する。
cDNAを断片化する。
cDNAをPCRを用いて増幅する。

これらの処理を行うために市販のキットや装置を使用します。

そのキットや装置が異なれば、当然得られるリードも異なってきますから、異なるリードでも同じような遺伝子配列が得られるのか。

特に科学において、再現性は十分検討されるべきであって、この論文でどの程度保証されているのか疑問が残ると言っています。

２つのアセンブラの結果の違い

得られた遺伝子配列の信頼性を確認するために、複数のアセンブラで得られた遺伝子配列を比較検討するということが行われるようです。

中国論文でも２つのアセンブラでアセンブルしています。

ですが、上掲の表を見て分かるように結果が全く異なります。

中国論文では全く触れていませんが、この違いは得られた遺伝子配列の信頼性から言って、大きく問題があると言えるでしょう。

特にTrinityで得られた最長コンティグは11,760塩基です。

それに対して決定した新型コロナウイルスは29,903塩基です。

Trinityは再現すらできていません。

コンティグ	コンティグの長さ
Megahitの最長コンティグ	30,474塩基
Triniryの最長コンティグ	11,760塩基
新型コロナウイルス	29,903塩基

ここで中国論文の研究者らがするべきことは、より多くのアセンブラで検討し、同様なコンティグが得られるか確認することです。

中国論文はそれを怠っています。

もっと言えば、何のためにTrinityの結果を載せたのでしょうか。

比較検討のためですよね。

それよりも、日本の研究者がこれをなぜ指摘しないのでしょうか。

特に遺伝子配列の指摘は非常に少ないです。

更に適切に指摘している批判を日本語サイトで見かけたことがありません。

私はずっと間違った理解をしていました。

異なるアセンブラの結果

実は、異なるアセンブラで結果を比較検討した論文があります。

Rashedul Islam et al.：
「Choice of assemblers has a critical impact on de novo assembly of SARS-CoV-2 genome and characterizing variants」,
Briefings in Bioinformatics, Volume 22, Issue 5, September 2021.

Assemblers tested

In this study, de novo assembly of paired-end reads was performed using the current versions of eight different short-read assemblers.
We used ABySS assembler which is optimized for short reads.
The parallel version of ABySS is capable of assembling large genomes [21].
MEGAHIT is an ultra-fast and memory-efficient short-read assembler, optimized for metagenomes, also works well on generic single genome assembly of small or mammalian size [22].
Ray Meta is used for metagenome assembly and profiling [23].
SPAdes can assemble sequences from single-cell and multi-cell data types [24].
The Velvet assembler was designed for short-read sequencing data [25];

metaSPAdes is a metagenomic assembler and MetaVelvet is an extension of Velvet for metagenome assembly from short reads [26, 27].
Trinity performs de novo transcriptome assembly [28].
For every assembler mentioned above, we have used default parameters unless otherwise mentioned. K-mer lengths 21, 63, 99 were used for ABySS, Velvet, MetaVelvet and Ray Meta.
For the rest of the assemblers, default k-mer length was applied (Figure 1A, Supplementary Table S1, see Supplementary Data available online at http://bib.oxfordjournals.org/).

テストしたアセンブラ

本研究では、8種類のショートリードアセンブラを用い、ペアエンドリードのde novoアセンブルを実施した。
ショートリードに最適化されたABySSアセンブラを使用しました。
ABySSの並列バージョンは大規模ゲノムのアセンブルに対応しています[21]。
MEGAHITは、メタゲノムに最適化された超高速かつメモリ効率の良いショートリード・アセンブラで、小型または哺乳類サイズの一般的なシングルゲノムアセンブリにも有効です[22]。
Ray Metaは、メタゲノム解析とプロファイリングに使用されています[23]。
SPAdesは、シングルセルおよびマルチセルデータタイプから配列をアセンブルすることができます[24]。
Velvetはショートリードのシーケンスデータ用に設計されたアセンブラです[25]。

metaSPAdesはメタゲノムアセンブラ、MetaVelvetはショートリードからのメタゲノムアセンブリのためのVelvetの拡張版です[26, 27]。
Trinityはde novoトランスクリプトームアセンブルを行う[28]。
上記のどのアセンブラも、特に断りのない限り、デフォルトのパラメータを使用しています。ABySS、Velvet、MetaVelvet、Ray Metaでは、K-mer長21、63、99を使用した。
それ以外のアセンブラでは、デフォルトのk-mer長を適用した（図1A、補足表S1、オンライン版補足データ（http://bib.oxfordjournals.org/）を参照）。

SARS-CoV-2 genome assembly contiguity breaks at the repeat region

We investigated the simple tandem repeat of 585 bp in the SARS-CoV-2 genome located at the 3′-end (MN908947.3:29 870–29 903).
Most of the assemblers failed to assemble the repeat region and more than 100 bp gap was created at the 3′-end in different assemblies.

SARS-CoV-2ゲノムアセンブリのリピート領域におけるコンティギュイティーブレイク

SARS-CoV-2ゲノムの3′末端（MN908947.3:29 870-29 903）にある585 bpの単純タンデムリピートを調べた．
ほとんどのアセンブラがこの領域のアセンブルに失敗し、異なるアセンブラで3′末端に100 bp以上のギャップができていた。

DISCUSSION

In this study, we compared 16 assembler variations using eight de novo assemblers for the benchmarking of the genome assembly quality of the SARS-CoV-2 virus.
We observed two metagenomic assemblers, e.g. MEGAHIT and metaSPAdes outperformed other assemblers in regards to the genome fraction recovery, largest contig length, N50 length, NA50 length, L50 and LA50 contig number.
The fraction of genome recovery could be 10-folds different between assemblers, e.g. MEGAHIT (99%) versus MetaVelvet-K21 (10%).
Although all eight assemblers used the graph-based method for de novo assembly, the differences we observed are due to the variations in their implementation, error correction, quality thresholds and choice of other parameters.
Despite better performances by the two metagenomic assemblers, the entire viral genome was not assembled in most cases, especially at the termini of the genome.
Therefore, there is a need to develop newer assembly methods specially designed to assemble complete viral genomes.
The SARS-CoV-2 virus genome could also be assembled by aligning the reads to the reference genome or using a reference guided assembly.

考察

本研究では、SARS-CoV-2ウイルスのゲノムアセンブリ品質のベンチマークを目的として、8種類のde novoアセンブラを用い、16種類のアセンブラを比較検討した。
その結果、2つのメタゲノム解析アセンブMEGAHITとmetaSPAdesは，ゲノム割合，最大コンティグ長，N50長，NA50長，L50およびLA50コンティグ数に関して，他のアセンブラを凌駕することが分かった．
また、MEGAHIT（99%）とMetaVelvet-K21（10%）のように、アセンブラ間でゲノム回収率が10倍も異なる場合がある。
8つのアセンブラはいずれもde novoアセンブリにグラフベース法を用いているが、我々が観察した違いは、その実装、エラー修正、品質閾値、その他のパラメータの選択のばらつきによるものである。
また、2つのメタゲノム解析ソフトの性能は高かったものの、ほとんどの場合、特にゲノムの末端部ではウイルスゲノム全体がアセンブルされていなかった。
そのため、ウイルスゲノムを完全に組み立てるために特別に設計された新しいアセンブリー法の開発が必要である。
また、SARS-CoV-2ウイルスゲノムは、リードを参照ゲノムにアラインメントするか、参照ガイドアセンブリを使用してアセンブルすることも可能であった。

この論文では、MegahitとMetaVelvet-K21以外のアセンブラは、繰り返し領域で失敗し、新型コロナウイルスの遺伝子配列を再現できなかったと言っています。

この論文では、新型コロナウイルスの遺伝子配列を再現するためには、アセンブラの選択が大きな役割を果たすと述べていますが、本当にそうでしょうか？

この再現性の低さから、新型コロナウイルスが高性能なアセンブラによるキメラ配列が生成されたと考えられないでしょうか？

実在する遺伝子物質で異なるアセンブラの結果がここまで異なるものはあるのでしょうか？

この論文で得られた結果から得られる最も適切な結論は、「新型コロナウイルスの遺伝子配列は実在する遺伝子物質から得られたとは考えにくい」ではないでしょうか。

実は、この論文はもう一つ興味深いことを言っています。

この実験でMegahitとmetaSPAdesの間で、少なくとも9％のバリアント（変異）が、アセンブラに固有のものであると言っています。

同じリードを使っても、アセンブラによって結果にばらつきが起こるのです。

リードが変われば、同じアセンブラでも結果が変わることは容易に予想できます。

何故なら、そもそも病原性ウイルスは存在しないからです。

存在しないものを無理やりキメラ遺伝子配列を作っているわけですから、条件が変われば結果が変わるのは当然です。

つまり、世の中で言われている「ウイルスの変異株」とは、生物学的な事実ではなく、アセンブラによる人工物であると考えられるのです。

Megahitが存在していなかったら？

上記論文では、同じリードから得られる結果が、アセンブラによってばらつきが出たと言っています。

もし、Megahitが中国論文を執筆した時点で存在していなかったら、新型コロナウイルスの遺伝子配列はどうなっていたのでしょうか？

当然、異なっていただろうと予想できます。

であるならば、それは実在する遺伝物質から得られた遺伝子配列と言えないでしょう。

新型コロナウイルスが最長コンティグより短い謎

Megahitで得られた最長コンティグ（30,474塩基）に対して、新型コロナウイルスの遺伝子配列は、29,903塩基です。

なぜ571塩基短いのでしょうか。

品質の低いリードはアセンブルの前処理で排除されているので、得られた最長コンティグは新型コロナウイルスの遺伝子配列の候補としてよいはずです。

勿論、アセンブラによって結果にばらつきがあるという事実を無視した上での議論です。

それなのに、中国論文では、この最長コンティグに対してβコロナウイルス属のヒトコロナウイルスSARS-CoV Tor2、およびコウモリ用コロナウイルスSL-CoVZC45との配列アライメントを行っています。

このステップによって塩基長が短くなったのは確かですが、このステップは必要だったのでしょうか。

感染研の結果は興味深い

感染研の分離報告では、新型コロナウイルスの遺伝子配列と99.9%の相同性のある遺伝子配列を得たと発表しました。

後に、感染研はGenBankからこの遺伝子配列の登録を取り下げるのですが、ここまで再現率の高い遺伝子配列を再現できたことは、注目に値します。

アクセッション番号LC521925のデータを見てみると、日本人の患者から分離したことが分かります。

シーケンサーはNextSeq500を使用し、アセンブラはA5-miseqを使っています。

感染研のアセンブリは、中国論文とは前処理も使用したリードも異なり、かつシーケンサーもアセンブラも異なります。

同じリードを使ってもアセンブラによって結果にかなりばらつきがあるのに、なぜ異なるリードで感染研はここまで高い相同性で新型コロナウイルスの遺伝子配列を再現できたのでしょうか。

その謎は、解析結果を記載した論文が却下されたことやGenBankから登録を取り下げせざるを得なかった理由の中に、きっとあるのでしょう。

謎はまだまだ続く

本節では、中国論文が遺伝子配列決定において何をしたかについて説明しました。

そして、冒頭の論文で挙げている、この遺伝子配列決定における疑問点を紹介しました。

実は、中国論文で使ったリードデータ（SRR10971381）やアセンブラは無料で入手することができます。

Linuxマシンさえあれば自宅で検証することができます。

次節では、論文の筆者が公開のリードを使って検証した内容につてい紹介します。