この資料に、mafftのオプションを決める際の指針が記述してあった。

例えば、MSAに多くのinternalなギャップが入ることが予想される場合は-einsi オプション、terminalな領域にのみギャップが入ることが予想される場合は-linsiオプションを用いる、など。

2015-09-01

系統解析のワークフロー(MrBayes)

Bayes法による微生物のたんぱく質のアミノ酸配列に対しての系統解析手法。

この方がいいという意見あれば教えて下さい。

なんとなく想定してるのは数百オーダーのアミノ酸配列の系統解析をする場合。

①MSA(multiple sequence alignment)データの前処理

最初はとても大事。NCBIから取ってきた配列は大体"|"とか" "とか、イヤなものがたくさん入っている。

MrBayesとかはこの辺の変な文字は結構嫌がるし、biopythonでFastaをパースするときも空白以下は読み込んでくれない。

一番いい解決策は、配列を全部 seq001, seq002 ,......, seqXXXみたいに名前を変更して、変更した名前のファイルを紐付けて保存しておくこと。これなら、最後系統樹を描画する直前に名前を戻してやればいいので楽。

②アラインメント

mafft。オプションは以下のようにいじるといいらしい。

http://kmooog.hatenablog.com/entries/2015/09/02

③カラム抽出

trimal。データにもよるが、-gtオプションを0.8〜1.0くらいの間で振って、抽出される配列の長さを見てどれぐらい厳しくするかを決定する。

③モデル推定

AminosanでやるとMrBayesの入力を自動的に出力してくれる。DNAの場合は最適な置換モデル細かくを推定してくれるPartitionFinderの方がいい。でも使い方が割と面倒&計算に時間がかかる&スパコンに入れるのが大変(僕は結局スパコンで使うのは諦めました)。

④系統解析

置換モデルについてはAminosanの出力を利用。

その他のコマンドとしては、

mcmc Starttree=random ngen = 100000 printfreq = 1000 samplefreq = 100 nchains = 4

でmcmcを走らせ、Average standard deviation of split frequenciesの減少が見られなくなるまで続行。ngenはどれだけ時間かかるか予測つかない場合はちょっと少なめに設定して様子を見たりする。

sump burnin = xxx sumt

*ここでxxxは(最終的な世代数)/ Samplefreq数 / 4

事後確率が改善されていない(定常期に入っている)ことを確認。事後確率の散布図が出てくるから、それがランダムな分布をしていれば良し。

PSRFが1.0から離れている場合はサンプルの頻度を上げるか世代数(ngen)を増やす。

sumt conformat = simple Contype = Allcompat burnin = xxx

conformat = simpleにしないとR(ape)で樹形を弄れない。Contype = Allcompatを指定しない場合は、事後確率50%以下の分岐がコンセンサスになる。

2015-07-31

祖先配列再構築-marginal reconstruction と joint reconstruction

Ancestral reconstruction - PLoSWiki

祖先配列再構築には大きくmarginal reconstruction と joint reconstructionがある。

marginal reconstructionはその名の通り、それぞれのノードにおいて*周辺確率を最大化する手法。

つまり、与えられた樹形の元で、あるノードで推定されたある祖先配列(β)が、現存する配列を出力する確率を最大化する。ここで、現存する配列というのはそのノード以下にある直系の子孫だけを考慮する。

しかし、それぞれのノードで独立に祖先配列を推定するため(?)、系統樹全体を考慮した最適解は保証されない。

対してjoint reconstructionは全てのノードの全ての祖先配列のセットについて周辺確率を最大化する手法っぽい。解析的に難しいし計算時間も遅いとのこと。

f:id:kmooog:20150731132600p:plain

つまり、☆印の配列を推定する際、marginal reconstructionの場合はABCDの配列の影響しか受けないけど、joint reconstructionではEの配列にも影響を受ける。

理屈的にはjoint reconstructionの方がよさそうだけど、外群に大きく気を使わなきゃいけなくなるし、問題設定にもよるけど大抵の場合はmarginal reconstructionの方が良さそうな気がする。系統樹の樹形とか、明らかに配列データが足りていないクレードがあるとか、そんなのによってもどっちの手法が有効かは変わってきそう。

*周辺確率

訓練標本X = {x1,x2,,,,,,xn}が与えられた時、あるパラメータβの元でXが出力される確率

参考: http://nlp.dse.ibaraki.ac.jp/~shinnou/zemi2010/staml/staml-tsaito-0706.pdf

2015-07-20

MrBayesで出力された樹形をapeで描画する

MrBayesで出力された図形をapeで描画してやろうと思ったのだが、どうにもうまくいかない。

hogehoge.nex.con.treファイルを読み込んでも、事後確率(というか各ノードの情報)を上手く読み込んでくれないのだ。

アノテーション付きのnexファイルを読み込めるライブラリとか色々試したけど上手くいかず。

散々苦戦した挙句、Mrbayesの出力を弄り、

sumt conformat = simple burnin = xxx;

とすることで解決。

ピエール瀧になりたい

備忘録として

mafftのオプション

最近見た映画

系統解析のワークフロー(MrBayes)

祖先配列再構築-marginal reconstruction と joint reconstruction

MrBayesで出力された樹形をapeで描画する