前々節と前節で紹介した「W+」の論文ですが、その続編が掲載されました。
この論文の内容は難しくて私の理解力では全てを把握することはまだまだ時間がかかりそうですが、本節では私が理解した部分を私になりに解釈した表現で説明したいと思います。
この分野に詳しい方は是非、原著に触れて欲しいと思います。
因みにこれまで著者名を紹介していませんでした。
ドイツ語が分かる方なら気付いていらっしゃると思いますが、著者名が書かれていないのです。
「ハンブルグ出身の数学者で、まだ無名であることを望んでいる」と書かれています。
なんかお茶目です。
まずこの図を見ていただきたい。
これは新型コロナウイルスの遺伝子配列(アクセッション番号:MN908947.3)をリファレンス配列として、公開リードデータ(SRR10971381)をマッピングした時に、マップすることができたリードを取り出して、リードの長さとその数をグラフにしたものです。
明らかにおかしなグラフが得られています。
ランダムに遺伝子物質を切ったのであれば、その長さは正規分布に従うはずです。
ですが、得られたグラフは約20塩基から80塩基にかけて正規分布のような形をしている領域と、140塩基以降の搭のような形、まるで揃えて切ったような印象を持つ分布に分かれています。
明らかに不自然です。
これのカバレッジが前節でお見せしたグラフです。
再掲します。
このグラフのデータを下に示します。
リファレンス配列 | MN908947.3 |
ゲノムの長さ | 29,903塩基 |
マッチしたリードの数 | 121,779本 |
平均リード長 | 145.56塩基 |
カバーした塩基の数 | 29,903塩基 |
カバー率 | 100.00% |
次に100塩基以上を除外して、新型コロナウイルスの遺伝子配列にマッピングすると、次のようなカバレッジのグラフが得られました。
赤い線が100塩基以下のリードでマッピングしたカバレッジで青い線が全てのリードでマッピングしたカバレッジです。
このグラフのデータは以下の通りです。
リファレンス配列 | MN908947.3 |
ゲノムの長さ | 29,903塩基 |
マッチしたリードの数(100塩基長未満) | 59,949本 |
平均リード長 | 46.24塩基 |
カバーした塩基の数 | 29,903塩基 |
カバー率 | 100.00% |
赤い線と青い線は、分布の仕方がまるで異なります。
赤い線はプライマの位置で極端に多いわけでもないことが分かります。
つまり、先ほどのグラフで、自然な山に分布している比較的短いリードは、新型コロナウイルスゲノム配列を偏りなく均等にマッピングされるということです。
逆に、150塩基長付近の人工的なリードはプライマ付近に偏って分布しているということが分かります。
これらの人工的リードは、最初から存在していたのか、それとも公開のリードに後から追加されたのでしょうか。
論文では他のウイルスの遺伝子配列でも比較検討しています。
まずHIV(アクセッション番号:LC312715.1)で検討しています。
なぜこの遺伝子配列を選択したのかは、論文を何度読んでも分からなかったのですが、公開されたリードデータと高い構造類似性が見られたからと書いてあります。
カバレッジを示すグラフは下図のようになりました。
このグラフの青い線がカバレッジ、オレンジの線がプライマの位置です。
この結果の様々なデータは以下の通りです。
リファレンス配列 | LC312715.1 |
ゲノムの長さ | 8,819塩基 |
マッチしたリードの数 | 65,196本 |
平均リード長 | 51.84塩基 |
カバーした塩基の数 | 8,819塩基 |
カバー率 | 100.00% |
リファレンス配列にマッピングされたリードの長さの分布は以下の通りです。
カバレッジのグラフを見るとプライマの付近で高いカバレッジが見られます。
ですが、新型コロナウイルスのような150塩基長のリードはほとんど使われていません。
つまり、プライマで増幅された短いリードしかマッピングされなかったということです。
150塩基長の長いリードはHIVウイルスの構造には無関係だったということが言えます。
可能な方は是非論文で確認していただきたいのですが、他のリファレンス配列でも検討していますが、150塩基長のリードは新型コロナウイルスのゲノム配列しかマッピングされていませんでした。
他のリファレンス配列では最初に掲載したグラフのような2つの分布を示すことはなく、このHIVと同じような1つの正規分布的な分布を示しています。
このことから、プライマで増幅された長いリードは、新型コロナウイルスの構造に大きく関与していると言えます。
言い換えれば、150塩基長の長いリードは、アセンブルして新型コロナウイルスゲノム配列を再現するのに重要なリードであると考えられます。
前節で新型コロナウイルスのゲノム配列を再現するにはアセンブラの選択が重要であると主張した論文を紹介しました。
この主張とは異なり、新型コロナウイルスに特異的なプライマとPCRで検体を増幅することでゲノム配列を再現することができるという論文があります。
この論文はA459ヒト細胞株の全核酸を含んだサンプルを用いて、設計したプライマでPCR増幅させ、リードが新型コロナウイルスのゲノム配列の全域を覆うことができるかを調べています。
Ct値が35までが効果的であると言っています。
上記論文と同様に検体をPCR増幅して、リードが新型コロナウイルスのゲノム配列を覆うことができるかを調べています。Ct値が大きいとシーケンスできなかったが、Ct値が35であれば可能だったと言っています。
正直、これらの論文の内容を正確に理解しているわけではありませんが、新型コロナウイルスに特異的なプライマを使用することで、新型コロナウイルスのゲノム配列を再現できるリードデータを作成することが可能であることを示唆しているものと思われます。
今回紹介した2つの論文から、次のことを考えました。
これはあくまでも仮説です。
ですが、ステファン・ランカ氏が行った対照実験で、ゲノム配列の再現も行っていると聞いているので、その結果が公表されたときに、遺伝子配列の謎が全て解明されると思われます。