nt、env_ntデータベースから相同性ベースで配列を取り出す
ある遺伝子ホモログについて、代表配列20個程度がある状態がスタート。
この配列をnt、env_ntデータベースに投げてヒットした領域をmulti fastaとして取り出したい。そんなのしょっちゅうやってるよと思ったが意外とめんどくさかった。
なんでかというとファイルのデカさ。ntより小さめのenv_nt でさえ100GB以上ある。このサイズだと大好きなSeqIO.parseで処理できない。どうしよう。分割して保存したらサーバー上の僕の領域が確実にパンクする。
アプローチを変えてみる。遺伝研スパコンの力でblastはいけたので、ヒットした配列のGenBank IDを取得。http://www.ncbi.nlm.nih.gov/nuccore/**のアドレスからソースを取得し無理矢理配列をゲットしようと思ったがあまり美しくないなと思い直し、biopythonでできないかしらと調べるとコードまで出てきてハッピー。
Fetching Genbank Entries For List Of Accession Numbers.
リンク先のコードのrettype="gb"をrettype="fasta"にすれば万事解決。