これまでは中国論文が公開しているリードデータに注目し、中国論文で採用しているアセンブラMegahitとTrinityを使って遺伝子配列の再現実験を行ってきました。
ここでは、上記2つのアセンブラ以外のアセンブラで同様の結果が得られるのか?という再現実験について議論したいと思います。
今回実験に使用したアセンブラは以下の4つである。
他のアセンブラでもいくつか試そうとしましたが、インストールに失敗して、上記4つのアセンブラしか結果が得られませんでした。
もっと数多くのアセンブラで検証する必要があることを、ここでは指摘しておきます。
今後、追加結果が得られましたら、その度にこの記事を更新したいと思います。
実験結果は以下の通りです。
アセンブラ | コンティグ数 | 最短コンティグ | 最長コンティグ |
A5-Miseq | エラーが発生しアセンブルに失敗した。 | ||
Velvet | 1,124,003本 | 41塩基 | 1,347塩基 |
SPAdes | エラーが発生しアセンブルに失敗した。 | ||
ABySS | 596,625本 | 96塩基 | 1,453塩基 |
新型コロウイルスの塩基長は約3万塩基(29,903塩基)です。
それに対して、アセンブルに成功した2つのアセンブラが再現したのはたった1,500塩基未満のコンティグでした。
全く再現できていません。
この得られた2つの最長コンティグをBlast検索にかけてみましたが、どのウイルスにも引っ掛りませんでした。
つまり、過去に登録されているどのウイルスにも類似性がなかったということです。
以上の実験結果から分かることは、アセンブラによって結果が大きく変わるということです。
つまり、ウイルス遺伝子配列の決定がアセンブラの選択に大きく影響を与えるということです。
もし、上記アセンブラが中国論文で採用されていたならば、新型コロナウイルスは定義されていなかったということです。
何故なら、過去のウイルスと類似性がないコンティグしか生成できないからです。
ここでなぜ中国論文はMegahitとTrinityを採用したかという疑問が湧いてきます。
そして、なぜMegahitとTrinityだけが公開リードデータから新型コロナウイルスの遺伝子配列をほぼ再現できるのか、という疑問も湧いてきます。
当然、その理由が中国論文で採用された理由であり、そこに仮想技術が隠されていると思われます。
この疑問については、今後の研究が待たれます。