前節の続きです。
再掲しますが、本節で説明する内容は、次の論文で主張されている論文です。
本節では、中国論文の欺瞞に迫ります。
公開されているデータを用いて実際にアセンブルすると、様々な嘘が見つかったのです。
公開されているリード(SRR10971381)を新型コロナウイルスの遺伝子配列にマッピングしてやり、各塩基のカバレッジを確認しました。
その結果が下の図です。
青い線がカバレッジで、緑の線が中国論文で得られた最長のコンティグ(30,474塩基)から設計したPCRのプライマ(52個)の位置です。
ウイルスの遺伝物質が実在して、そのコピーをランダムに切り刻んだのであれば、リードは均等にマッピングされるはずです。
グラフの黒い横線は、カバレッジの平均値を中心に99%の確率でカバレッジが入る区間です。
つまり、ランダムに切り刻んでいれば、99%の確率でこの2本線の間にカバレッジが入って来るということです。
ですが、約9割がそうなっていません。
つまり、リードに偏りがあるということです。
これは、新型コロナウイルスの遺伝子配列が実在するという主張が疑わしいことを示しています。
中国論文では、最長のコンティグ(30,474塩基)に対して、βコロナウイルス属のヒトコロナウイルスSARS-CoV Tor2およびコウモリ用コロナウイルスSL-CoVZC45との配列アライメントを行い、遺伝子配列の整理を行っているが、この処理が、上記のような偏りを作っているのではないかと論文は言っています。
また、PCRのプライマの付近に高いカバレッジが見られることから、中国論文が主張するウイルスゲノムに特異的な多数のPCRプライマを用い、高いCt値(35)で増幅することによって、現実には存在しない「連鎖配列」が形成されているのではないかと、述べています。
ちなみに、中国論文の拡張データ図3に全く同じ図がありました。
このことから、この図は公開データを使っていることが分かります。
それにしても、この分野に関わっている研究者たちは、この異様に偏って分布しているカバレッジを見て、なぜ「不自然である」と指摘しないのでしょうか。
上記の仮説を確認するために、市販の感染していないヒト細胞の培養液を用いて、RNA全体の遺伝子配列決定を行いました。
cDNA断片の必要な増幅は、PCRにより行い、Ct値を14、ランダムヘキサマー(6塩基長のプライマ)で行われました。
非特異的なランダムに設定されたプライマであれば、カバレッジは均質になるはずです。
アセンブルはMegahitを用いて、長さが21,814塩基のコンティグが得られました。
このコンティグはBlastnによる全塩基配列データベースとの比較でヒトのmRNA(アクセッション番号:NM_182914)と99.91%の一致率であることが分かりました。
カバレッジの結果が下の図になります。
グラフのレンジを見れば分かるように、カバレッジが均質になっていることが分かります。
ですが、多くの塩基のカバレッジが99%区間の外にあることも分かります。
しかし、99%区間の上でも下でも偏りがないことが分かります。
実在する遺伝子物質でアセンブルすると上記のような均質のカバレッジが得られることが分かります。
この遺伝子配列決定において、特異的なPCRプライマは必要ありませんでした。
ランダムプライマで再現できるのです。
そして、既存の遺伝子配列をリファレンス配列にして、得られたコンティグをアライメントする必要はありませんでした。
論文の著者は、上記結果から次の疑問が生じると述べています。
30,474塩基の連続した塩基が見つかれば、「真」のゲノムは少なくとも30,474塩基で構成されているはずです。
そうでなければ、アセンブラで特定された重複部分(のりしろ)の一部が間違っていることになります。
これらの疑問に対して、ウイルス学者に限らずバイオインフォマティクスの研究者らは誠実に答えるべきです。
ご家庭にLinuxマシンがあれば以下に書かれていることをご自身で確認することができます。
「fastq-dump」というコマンドを使ってNCBIから「SRR10971381」をダウンロードします。
これは、中国論文が公開しているアセンブルで使用したリードデータです。
これはFASTQ形式のテキストファイルで、最初の7本のリードはこんな感じです。
2本目以降、未知のヌクレオチド「N」でかなりの数のリードが構成されています。
これらは誤った読み取りであったり、その後上書きされた、例えば人間による配列の読み取りであることを意味するそうです。
なぜこのようなリードを公開しているのでしょうか。
再現性の確認ができないという意味で、科学として許される行為とは思えません。
私もダウンロードしてみて「seqkit」というコマンドを使って、リードの数を確認してみました。
結果は以下の通りです。
ファイル名 | 本数 | 最短長 | 平均長 | 最長長 |
SRR10971381.fastq | 56,565,928本 | 35塩基 | 142塩基 | 151塩基 |
中国論文では得られたリードは56,565,928本と述べています。
ですから、公開されているリードはヒト由来のゲノムを除去する前のデータであることが分かります。
「fastp」というコマンドで品質の低いリードをトリミングした後、MegahitとTriniryでアセンブルしています。
公開されたリードの「N」を含むリードがヒト由来の遺伝子配列だった可能性を確認するために、fastpを実行後の、リードの数と中国論文に掲載の数を比較してみました。
この結果から、「N」を含むリードがヒト由来の遺伝子配列ではなさそうです。
つまり、fastpを実行した後のリードにもヒト由来の遺伝子配列が入っていると言えます。
対象 | 本数 | 最短長 | 平均長 | 最長長 |
ヒト由来の遺伝子を除去した後のリード | 23,712,657本 | |||
fastp後のリード | 28,656,596本 | 31塩基 | 137.6塩基 | 151塩基 |
fastpをした後の最初の7つのリードは以下のようになっていました。
「N」を含んだリードが消えているのが分かります。
このfastpを実行して得られたリードをアセンブルすることにより、様々な嘘が見つかりました。
まず、得られた結果は以下の通りです。
アセンブラ | コンティグ数 | 最短コンティグ | 最長コンティグ |
Megahit | 28,459本 | 200塩基 | 29,802塩基 |
Triniry | 157,283本 | 201塩基 | 29,875塩基 |
中国論文と比較してみます。
アセンブラ | コンティグ数 | 最短コンティグ | 最長コンティグ |
Megahit | 384,096本 | 200塩基 | 30,474塩基 |
Triniry | 1,329,960本 | 201塩基 | 11,760塩基 |
一目瞭然、全く異なることが分かります。
興味深いことに、今回はTrinityの最長コンティグの方が長くなりました。
そして、コンティグ数が約1/10に減りました。
更に、得られた最長コンティグをBlastnで検索すると、新型コロナウイルスのゲノム「MN908947」にほぼ一致することが分かりました。
つまり、公開されているリードで、中国論文の2つの最長コンティグを再現することができません。
上述の通り、中国論文の記述と一致することから、公開されているリードはヒト由来のゲノムを排除していないことが分かります。
今回のアセンブリでは、品質の低いリードだけを排除しました。
その結果、得られた最長コンティグが新型コロナウイルスのゲノムとほぼ一致しました。
これは何を意味するのでしょうか。
この事実から、この公開されたリードはオリジナルのリードではない、ということが言えます。
そして、この公開されたリードからヒト由来のゲノムが排除されていないことから、新型コロナウイルスのゲノムにはヒト由来の遺伝子配列が含まれている可能性があります。
新型コロナウイルスのゲノムにヒト由来の遺伝子が含まれているかを確認するために、Megahitによるアセンブリで得られたコンティグを、NCBIのヌクレオチドデーターベースと比較しました。
その結果は以下の通りです。
最長コンティグk141_11881(29,802塩基)は新型コロナウイルスのゲノム(29,903塩基)と29,801塩基に渡って完全に一致しています。
それに続くコンティグはヒト由来の遺伝子と約6,000塩基までの長さで高い類似性を示しています。
このことは、公開されたリードにはヒト由来の遺伝子が含まれていることを意味しています。
そして、そのリードで新型コロナウイルスの遺伝子配列を作ることができることを意味しています。
これは、ヒト由来の遺伝子物質を含んだ検体から新型コロナウイルスの遺伝子配列を再現できることを示唆しているのではないだろうか。
中国論文では、MegahitとTrinityの最長コンティグがコウモリコロナウイルスSL-CovZC45と高い一致率を示したと述べています。
図が小さいので表にします。
アセンブラ | コンティグ | 長さ | Blast hit | 一致率 |
Megahit | K141_275316 | 30,474塩基 | MG772933 | 89.113% |
Trinity | yingji_DN483566_c8_g3_il | 11,760塩基 | MG772933 | 90.415% |
表にあるように高い一致率を示しておりますが、合計で何塩基が一致しているのかは分かりません。
もしかすると、1,000塩基しか一致していないということもあり得ます。
中国論文で得られた結果は公開されているリードでは再現できないので、それを確かめることができません。
したがって、中国論文は、「新規ウイルス」「新規ウイルス配列」「病原体」の存在を証明するものではないと、言わざるを得ない。
特に、研究対象となった患者の症状と、新規ウイルスとの因果関係を見出すことができない。