[NGS] TophatでmappingしようとしてError: Could not find Bowtie 2 index filesと出た場合はbt2lファイルが原因の可能性大。
久しぶりのNGSの話。
トランスクリプトーム解析をしようとして、Tophatでヒトゲノムのindexに対してマッピングしようとしたら次のようなエラーが。
Error: Could not find Bowtie 2 index files
調べてみてもwebに情報が転がっていなかったので、いろいろと試行錯誤して右往左往すること2時間。
どうやらbowtie2-buildで作成したindexファイルがbt2lというフォーマットになっていて、これはtophatでは読み込めないそう。
なんでも、index化の時にリファンレンスのゲノム情報が馬鹿でかいとbt2lというファイル(lはlongの意味)でbowtieは出力してしまうらしい。
今回、僕のリファレンスはヒトゲノムだったので、そりゃサイズはでかいわけです。
じゃあどうすりゃいいねんと調べたところ、Tophatではなくhisatを使えばいいとのこと。
histatはbowtieを開発した人が作った言わば改良版tophatで、bt2lファイルを問題なく読み取ってくれます。
また、マッピングも独自のアルゴリズムでかなり高速化しています。
今回、このソフトを使ってみたところうまくいきましたので、tophat関連でお悩みの方は是非使ってみてください。
インストールは
http://ccb.jhu.edu/software/hisat2/manual.shtml
からできます。