２－３節

中国論文の欺瞞

前節の続きです。

再掲しますが、本節で説明する内容は、次の論文で主張されている論文です。

einem Mathematiker aus Hamburg：
「Ein neues Coronavirus im Zusammenhang mit menschlichen Atemwegserkrankungen in China」,
WISSENSCHAFFTPLUS magazin, 4/2021

本節では、中国論文の欺瞞に迫ります。

公開されているデータを用いて実際にアセンブルすると、様々な嘘が見つかったのです。

リードの不自然な偏り

公開されているリード（SRR10971381）を新型コロナウイルスの遺伝子配列にマッピングしてやり、各塩基のカバレッジを確認しました。

その結果が下の図です。

青い線がカバレッジで、緑の線が中国論文で得られた最長のコンティグ（30,474塩基）から設計したPCRのプライマ（52個）の位置です。

ウイルスの遺伝物質が実在して、そのコピーをランダムに切り刻んだのであれば、リードは均等にマッピングされるはずです。

グラフの黒い横線は、カバレッジの平均値を中心に99％の確率でカバレッジが入る区間です。

つまり、ランダムに切り刻んでいれば、99％の確率でこの2本線の間にカバレッジが入って来るということです。

ですが、約９割がそうなっていません。

つまり、リードに偏りがあるということです。

これは、新型コロナウイルスの遺伝子配列が実在するという主張が疑わしいことを示しています。

中国論文では、最長のコンティグ（30,474塩基）に対して、βコロナウイルス属のヒトコロナウイルスSARS-CoV Tor2およびコウモリ用コロナウイルスSL-CoVZC45との配列アライメントを行い、遺伝子配列の整理を行っているが、この処理が、上記のような偏りを作っているのではないかと論文は言っています。

また、PCRのプライマの付近に高いカバレッジが見られることから、中国論文が主張するウイルスゲノムに特異的な多数のPCRプライマを用い、高いCt値（35）で増幅することによって、現実には存在しない「連鎖配列」が形成されているのではないかと、述べています。

ちなみに、中国論文の拡張データ図３に全く同じ図がありました。

このことから、この図は公開データを使っていることが分かります。

それにしても、この分野に関わっている研究者たちは、この異様に偏って分布しているカバレッジを見て、なぜ「不自然である」と指摘しないのでしょうか。

ヒト細胞のリードで確認

上記の仮説を確認するために、市販の感染していないヒト細胞の培養液を用いて、RNA全体の遺伝子配列決定を行いました。

cDNA断片の必要な増幅は、PCRにより行い、Ct値を14、ランダムヘキサマー（6塩基長のプライマ）で行われました。

非特異的なランダムに設定されたプライマであれば、カバレッジは均質になるはずです。

アセンブルはMegahitを用いて、長さが21,814塩基のコンティグが得られました。

このコンティグはBlastnによる全塩基配列データベースとの比較でヒトのmRNA（アクセッション番号：NM_182914）と99.91％の一致率であることが分かりました。

カバレッジの結果が下の図になります。

グラフのレンジを見れば分かるように、カバレッジが均質になっていることが分かります。

ですが、多くの塩基のカバレッジが99％区間の外にあることも分かります。

しかし、99％区間の上でも下でも偏りがないことが分かります。

実在する遺伝子物質でアセンブルすると上記のような均質のカバレッジが得られることが分かります。

この遺伝子配列決定において、特異的なPCRプライマは必要ありませんでした。

ランダムプライマで再現できるのです。

そして、既存の遺伝子配列をリファレンス配列にして、得られたコンティグをアライメントする必要はありませんでした。

上記の結果から生じる疑問点

論文の著者は、上記結果から次の疑問が生じると述べています。

最長のコンティグ（30,474塩基）に、なぜ新型コロナウイルスの遺伝子配列がそのまま含まれていないのか？
最長のコンティグ（30,474塩基）が、新型コロナウイルス（29,903塩基）より短いのはなぜか？
最終的な遺伝子配列決定に、特異的なプライマやリファレンス配列がなぜ必要なのか？

30,474塩基の連続した塩基が見つかれば、「真」のゲノムは少なくとも30,474塩基で構成されているはずです。

そうでなければ、アセンブラで特定された重複部分（のりしろ）の一部が間違っていることになります。

これらの疑問に対して、ウイルス学者に限らずバイオインフォマティクスの研究者らは誠実に答えるべきです。

中国論文の不都合な事実

ご家庭にLinuxマシンがあれば以下に書かれていることをご自身で確認することができます。

「fastq-dump」というコマンドを使ってNCBIから「SRR10971381」をダウンロードします。

これは、中国論文が公開しているアセンブルで使用したリードデータです。

これはFASTQ形式のテキストファイルで、最初の７本のリードはこんな感じです。

２本目以降、未知のヌクレオチド「N」でかなりの数のリードが構成されています。

これらは誤った読み取りであったり、その後上書きされた、例えば人間による配列の読み取りであることを意味するそうです。

なぜこのようなリードを公開しているのでしょうか。

再現性の確認ができないという意味で、科学として許される行為とは思えません。

私もダウンロードしてみて「seqkit」というコマンドを使って、リードの数を確認してみました。

結果は以下の通りです。

ファイル名	本数	最短長	平均長	最長長
SRR10971381.fastq	56,565,928本	35塩基	142塩基	151塩基

中国論文では得られたリードは56,565,928本と述べています。

ですから、公開されているリードはヒト由来のゲノムを除去する前のデータであることが分かります。

アセンブルした結果

「fastp」というコマンドで品質の低いリードをトリミングした後、MegahitとTriniryでアセンブルしています。

公開されたリードの「N」を含むリードがヒト由来の遺伝子配列だった可能性を確認するために、fastpを実行後の、リードの数と中国論文に掲載の数を比較してみました。

この結果から、「N」を含むリードがヒト由来の遺伝子配列ではなさそうです。

つまり、fastpを実行した後のリードにもヒト由来の遺伝子配列が入っていると言えます。

対象	本数	最短長	平均長	最長長
ヒト由来の遺伝子を除去した後のリード	23,712,657本
fastp後のリード	28,656,596本	31塩基	137.6塩基	151塩基

fastpをした後の最初の７つのリードは以下のようになっていました。

「N」を含んだリードが消えているのが分かります。

このfastpを実行して得られたリードをアセンブルすることにより、様々な嘘が見つかりました。

まず、得られた結果は以下の通りです。

アセンブラ	コンティグ数	最短コンティグ	最長コンティグ
Megahit	28,459本	200塩基	29,802塩基
Triniry	157,283本	201塩基	29,875塩基

中国論文と比較してみます。

アセンブラ	コンティグ数	最短コンティグ	最長コンティグ
Megahit	384,096本	200塩基	30,474塩基
Triniry	1,329,960本	201塩基	11,760塩基

一目瞭然、全く異なることが分かります。

興味深いことに、今回はTrinityの最長コンティグの方が長くなりました。

そして、コンティグ数が約1/10に減りました。

更に、得られた最長コンティグをBlastnで検索すると、新型コロナウイルスのゲノム「MN908947」にほぼ一致することが分かりました。

つまり、公開されているリードで、中国論文の２つの最長コンティグを再現することができません。

上述の通り、中国論文の記述と一致することから、公開されているリードはヒト由来のゲノムを排除していないことが分かります。

今回のアセンブリでは、品質の低いリードだけを排除しました。

その結果、得られた最長コンティグが新型コロナウイルスのゲノムとほぼ一致しました。

これは何を意味するのでしょうか。

この事実から、この公開されたリードはオリジナルのリードではない、ということが言えます。

そして、この公開されたリードからヒト由来のゲノムが排除されていないことから、新型コロナウイルスのゲノムにはヒト由来の遺伝子配列が含まれている可能性があります。

ヒトゲノムの混入

新型コロナウイルスのゲノムにヒト由来の遺伝子が含まれているかを確認するために、Megahitによるアセンブリで得られたコンティグを、NCBIのヌクレオチドデーターベースと比較しました。

その結果は以下の通りです。

最長コンティグk141_11881（29,802塩基）は新型コロナウイルスのゲノム（29,903塩基）と29,801塩基に渡って完全に一致しています。

それに続くコンティグはヒト由来の遺伝子と約6,000塩基までの長さで高い類似性を示しています。

このことは、公開されたリードにはヒト由来の遺伝子が含まれていることを意味しています。

そして、そのリードで新型コロナウイルスの遺伝子配列を作ることができることを意味しています。

これは、ヒト由来の遺伝子物質を含んだ検体から新型コロナウイルスの遺伝子配列を再現できることを示唆しているのではないだろうか。

コウモリコロナウイルスとの一致度

中国論文では、MegahitとTrinityの最長コンティグがコウモリコロナウイルスSL-CovZC45と高い一致率を示したと述べています。

図が小さいので表にします。

アセンブラ	コンティグ	長さ	Blast hit	一致率
Megahit	K141_275316	30,474塩基	MG772933	89.113%
Trinity	yingji_DN483566_c8_g3_il	11,760塩基	MG772933	90.415%

表にあるように高い一致率を示しておりますが、合計で何塩基が一致しているのかは分かりません。

もしかすると、1,000塩基しか一致していないということもあり得ます。

中国論文で得られた結果は公開されているリードでは再現できないので、それを確かめることができません。

まとめ

公開されたリードをアセンブルすることにより、中国論文とは異なる結果が得られ、リファレンス配列を用いてアライメントしなくても新型コロナウイルスの遺伝子配列が得られました。
最長コンティグ以外のコンティグはヒトのRNAと高い一致率を示した。
このことから、公開されたリードはヒト由来のリボソームやmRNAが含まれている可能性が高い。
また、新型コロナウイルスの遺伝子配列にもヒト由来の遺伝子配列が含まれている可能性がある。
中国論文の結果に再現性がない。
公開されたリードは、論文で使われたリードと異なっている。
患者のBALFから新型コロナウイルスのゲノムが得られなかった可能性もある。
Megahitの最長コンティグにリファレンス配列を用いてアライメントしたのは、デフォルトでアセンブリしても完全な「ウイルスゲノム」が得られないと考えたからではないか。
Megahitの最長コンティグを再現することはできず、どれだけ新型コロナウイルスのゲノムとずれているのか検証することができない。
対照実験は記載されていない。
したがって、対照実験は行われていないと考えられる。
中国論文ではウイルス粒子は見つかっていない。
公開されたリードがどのようにして用意されたのか説明される必要がある。

したがって、中国論文は、「新規ウイルス」「新規ウイルス配列」「病原体」の存在を証明するものではないと、言わざるを得ない。

特に、研究対象となった患者の症状と、新規ウイルスとの因果関係を見出すことができない。