ちょっと前の論文なので、状況はより改善されているかもしれませんが。
2012年1月にNature Biotechnology に発表された論文
タイトルは
Optimized filtering reduces the error rate in detecting genomic variants by short-read sequencing.
http://www.nature.com/nbt/journal/v30/n1/full/nbt.2053.html
この実験では、ゲノム情報が全く同じはずの一卵性双生児の白血球から抽出したゲノムを利用して、2つのゲノムから得られたDNA断片をおのおの独立にリファレンス配列(既知のゲノム配列)にアライメントした。
(体細胞変異が起こる可能性は否定できないが、確率は20億分の1程度)
検出されたリファレンス配列との差は約328万個で、その内、2つのゲノム共通のモノが280万個。エラーが48万個もあったのだ。約15%もエラーを含んでいる!!
本論文の主旨はこれだけエラーの多い解析結果から各種フィルターを用いることにより、エラーを減らせるかということ。
例えば、
1.被覆度の低い部分のSNV(single nucleotide variation)を除く
2.挿入削除部のSNVはアライメントツールが誤ることが多いので排除
3.リピート配列周辺のSNVを除く
4. Complete genomicsだけでなくイルミナを用いて(違う方式をつかって)多数決を取る。
なりふり構わない4までやってエラーを846個まで減らせた(トータル数は約170万個)。
つまり、単純に次世代シーケンサーで配列を読むだけでは、エラーが非常に多いということ。
現実の解析ではリファレンス配列との差の部分に目が行くので、このエラーの大きさはかなり問題。
通常、被覆度を40倍としてシーケンスしてこれであるから、医療用に使うのは結構難しい、と思う。
(被覆度というのは、同じ部分を何回読むかと言うこと、人には30億塩基あるのでそれを被覆度を40倍にして読むと言うことは1200億塩基読むと言うこと)
用語
www.src.riken.jp/glossary/
