解析ソフトウェア
研究関係で役立つソフトの備忘録です。
私は主にWindows環境で使用していますが、一部にMacやLinux専用のソフトも含まれています。
有料と書いていないソフトは基本的に全てフリーです。
自分で使ったことがあるソフトがほとんどですが、一部にはまだ使っていないソフトも含まれています(実際に使っていてお薦めのソフトは★印)。
注: あくまで備忘録的な意味合いが強いので、記述に間違いがあるかもしれません。。。基本的に自己責任でお願いします。
追記: 間違いやリンク切れなどがあれば、ご指摘いただけると大変助かります。
#####
# 2018.3.14に開催された日本生態学会第65回大会の自由集会W06-4「いまさら聞けない! 次世代シーケンサーで何ができるの?」で、
岩崎が講演した「NGSのSNPデータを集団遺伝解析に使う事の利点と欠点:非モデル生物の研究で気をつけることは?」のスライドから、未公開データを除いたものをアップしました。データの取扱や注意点についてまとめていますので、何かの参考になるかと思います。
https://drive.google.com/open?id=1UK04C1IbHGvosibPWjjbKT1t1pcaTR9-
#####
# ずっと自分の備忘録的なメモ状態でしたが、2021年に大幅整理を行う予定です。今はかなりごちゃごちゃ状態ですみません。
シーケンスの波形チェック、アラインメント
★ ATGC(http://www.sdc.co.jp/genetyx/product/atgc/)有料。シーケンスアセンブルソフト。大量に同じ配列の波形を比較しながらアラインメントする際には最強だと思う。系統地理的な解析にはぴったり。これで全体の変異をチェック→FASTAで出力の流れで現在は解析中。
Chromas Pro(http://www.technelysium.com.au/ChromasPro.html)有料。結構使いやすいアラインメントソフト。アセンブリもできる。今は個々の配列の最初のチェックに使っている。その後はATGCへ。Contigを作らないならFreeバージョン(下のChromas Lite)でも大丈夫。
Chromas Lite (http://technelysium.com.au/?page_id=13)上の Chromas Pro の無料版(他に無印のChromasも有り)。Contig作りはできないが、波形チェックはやりやすいまま。フリーで全部やるなら、Chromas Liteで波形チェック→GeneStudioでContig作り(?)
★ BioEdit(http://www.mbio.ncsu.edu/bioedit/bioedit.html)アラインメントソフト。波形もチェックできるが、ほとんどマルチプルアラインメントと手動での修正にしか使っていない。後はデータの変換などに便利(tabでサンプル名と配列を区切っただけのデータもインポート・エクスポートできたりする)。
★ GeneStudio(http://genestudio.com/)波形編集の他、サンガー法で両端からシーケンスしたリードを繋いでContigにできる。Contig作りはかなりやりやすい。(こちらのブログで紹介されていて知りました→http://d.hatena.ne.jp/extinx0109y/20131113)GeneStudioは、作成したContigファイル(FASTAではなく、GeneStudio独自のファイル)を保存する際、ドライブから途中に日本語名のあるフォルダを指定していると、中身の無いファイルになってしまうことがあります。Dドライブ直下などの英数字だけの環境にフォルダを作って保存した上で、何回かはちゃんと保存できていて開けるか確認された方がいいと思います。
MAFFT(http://mafft.cbrc.jp/alignment/software/)高速のアラインメントソフト。
MACSE(http://bioweb.supagro.inra.fr/macse/index.php?menu=intro&option=intro) コーディング領域のフレームシフトやストップコドンまで考慮してアラインメントできるソフトらしい。核遺伝子などをアラインメントする際に便利。
DNA配列からのハプロタイプ推定やコアレセント解析、集団遺伝学的パラメータの推定など
★ DnaSP(http://www.ub.edu/dnasp/)塩基配列データを元にいろいろ計算できる便利なソフト。塩基多様度の計算からTajima's Dなどかなり広く使える。
DNADynamo(http://www.bluetractorsoftware.co.uk/)
PHASE(http://c4c.uwc4c.com/express_license_technologies/phase)
★ fastPHASE(http://c4c.uwc4c.com/express_license_technologies/fastphase) 複数のヘテロ座位を含む塩基配列データから、ハプロタイプフェイズを推定。DnaSPに内臓されている。
マイクロサテライト(Simple Sequence repeat, SSR)マーカー開発
MISA(http://pgrc.ipk-gatersleben.de/misa/) SSRマーカー開発
分子系統解析、祖先形質復元、分岐年代推定など
★ MEGA(http://www.megasoftware.net/)コマンドラインではなく、メニューを選択していくことで解析できる分子系統解析ソフト。最近のバージョンで最尤法にも対応。メインの分子系統解析以外にも、波形のチェックやアライメント、アミノ酸への翻訳など、いろいろと便利な機能有り。
MrBayes(http://mrbayes.sourceforge.net/)
SNPhylo(http://chibba.pgml.uga.edu/snphylo/) 次世代のデータなどから出てくる大量のSNPデータを使用して系統解析を行うパイプライン。LinuxかMacのみ。論文によればSTRUCTUREのクラスタリングで見えているミックスのパターンも検出できるなど、従来のシンプルなNJ treeよりも精度が高そう。また、ブートストラップさせて信頼度を出すことも可能。他の系統樹ソフトと違うのは、ヘテロの考慮の仕方。他はヘテロをmissingと同じにして評価するが(たぶん)、SNPhyloはヘテロ1塩基を連続するするホモ接合の2塩基に変換して計算しているっぽい。ヘテロの多い種内の解析の際には、これでかなり情報量が変化する。
BANANAS (http://www.helsinki.fi/bsg/software/BANANAS/) 集団間の系統関係を推定する
★ RAxML-NG ()
★ Modeltest-NG ()
分子系統樹の描画
★ FigTree(http://tree.bio.ed.ac.uk/software/figtree/)★
TreeExplorer(http://www.ctu.edu.vn/~dvxe/Bioinformatic/Software/BIT%20Software/TE_man.html)
ネットワーク解析
★ network(http://www.fluxus-engineering.com/sharenet.htm)ハプロタイプネットワーク作成ソフト。Median-joiningというアルゴリズムでネットワークを作るため、TCSとは少し結果が異なる。 DnaSPから直接インプットファイルを出力可能。各ハプロタイプのコピー数などに応じて円の大きさを変えられたりといろいろ便利。詳しく色などを編集し たり、高精度の画像を出力したりするためには有料のオプションが必要。無料で出力できるbmpファイ ルをイラストレーター上のレイヤーに置き、上のレイヤーからなぞったりしています。★
★ Spritstree (http://www.splitstree.org/)個体間や集団間の遺伝距離に基づいたNeighborNet作成ソフト。集団間の関係を示すならこれが一番かも。
TCS (http://darwin.uvigo.es/software/tcs.html)最節約法に基づくハプロタイプネットワーク作成ソフト。
★ PopART( http://popart.otago.ac.nz/documentation.shtml )Minimum Spanning, Median Joining, TCSの3手法でネットワークを作成できる。カラーの表示がかなり便利で、ネットワークの円を構成に基づいて、更に色分けしたりできるみたいです(パイチャートのような感じ)。
集団遺伝学的解析のパッケージ(シーケンス、SSR、SNPなど。データの形式変換も含む)
★ GenAlEx(http://biology.anu.edu.au/GenAlEx/Welcome.html)遺伝的多様度やF統計量、PCAなどの解析、データ形式の変換までかなり幅広くできるソフト。Globalなら、G''stなどの指標も計算してくれる。Excelのアドインで動く。SSRデータの場合、最初にこのファイル形式に合わせてインプットデータを作成すると便利。RAD-SeqなどでSNPデータでも、数字に変換してしまえば、これで扱うことが可能。
GenoDive (http://www.patrickmeirmans.com/software/Home.html) Mac専用。遺伝的多様度の計算やPCAなど、様々な解析が可能。Globalだけでなく、pairwiseのFst、D (Jost 2008)、G''st (Meirmans & Hedrick 2011) なんかを計算できるので超便利(単純なFstやGstはHsの値によって頭打ちになることが知られているため、SSRマーカーなどの多様性の高いマーカー を使用する際には、G''stなどに補正する必要がある)。他のソフト経由だと、Fst以外のpairwiseの計算は手作業だった。
★ FSTAT(http://www2.unil.ch/popgen/softwares/fstat.htm)遺伝的多様度(アレリックリッチネスなども)の計算、連鎖不平衡やHWEの検定など、いろいろ解析できるソフト。グループ間での多様度や分化度の違いをpermutationで検定してくれる機能が独特で便利。
★ Microsatellite analyzer (MSA)(http://i122server.vu-wien.ac.at/MSA/MSA_download.html)いろいろな解析ができますが、ブートストラップさせた遺伝距離の作成が個人的には便利。そのままBARRIERなどに使える。
★ The Excel Microsatellite Toolkit (MStools)(http://animalgenomics.ucd.ie/sdepark/ms-toolkit/)GeneAlexと同じような感じでExcelのアドインで動く。GeneAlexでは変換できないデータ形式にも変換できたりする。GeneAlex形式からいくつかの行を削除するだけでインプットデータは作成できる。FSTAT、Arlequinのインプットデータはこちらを介して作成した方が良い。葉緑体などのハプロタイプデータであっても、形式の変換にはかなり便利(特に、arlequinデータを作成する時)
次世代シーケンサーデータの集団遺伝学的解析(大量SNPデータなど)
EIGENSOFT (http://genetics.med.harvard.edu/reich/Reich_Lab/Software.html)Linux専用。次世代シーケンサーで得られるような大量のSNPデータで主成分分析などの解析ができる。マーカー間の連鎖の情報なども入れることができるらしい。
treemix(https://bitbucket.org/nygcresearch/treemix/wiki/Home)ゲノムワイドなSNP(やSSR)の情報から、集団の歴史における分岐や混合を推定するソフトウェア。
PEAS (http://www.picb.ac.cn/~xushua/index.files/PEAS.htm)次世代シーケンサーで出てくる大量SNPデータの形式変換ソフト。fastPHASE, PHASE, STRUCTURE, Haploview, Arlequin, EIGENSOFT, LDhar など、多くの解析ソフトのインプットファイルへ変換可能。まだ使えていない。。正確なゲノム情報も必要??
CLC genomics workbench(http://www.clcbio.co.jp/index.php?id=78)有料。NGSデータ解析いろいろ。マッピングからSNP検出、RNA-seqなどなど、かなり幅広くできるみたい。使いやすいけど、高い。。。
★ plink (http://pngu.mgh.harvard.edu/~purcell/plink/) ゲノムワイドなSNPデータを元に、ゲノムワイド関連解析 GWAS Genome-wide Association Studyを行う。他にもいろいろできる。vcf形式のSNPデータを入れて、ジェノタイピング率などでの個体や遺伝子座のフィルタリングが可能。RAD-Seqなどで出てくるSNPデータのフィルタリングはこれ。
★ BEAGLE (https://faculty.washington.edu/browning/beagle/beagle.html) ハプロタイプブロックの連鎖情報に基づき、SNPのmissingデータを推測 imputation して埋めてくれるソフト。家系情報などがないデータセットを対象とする場合、これが一番使用されている? 私のデータセットだとver. 4.1ではなぜか途中で止まってしまいましたが、4.0なら最後まで進みました(データセットとの相性との問題と思われます)。
★ TASSEL (http://www.maizegenetics.net/#!tassel/c17q9) 農学の方で開発されたSNPデータを扱う総合的な解析ソフト。家系情報を元にしたSNPのImputationから、PCA、GWAS、系統解析など、かなりいろいろできる。また、GUIベースで操作できるため、vcfなどのデータの中身を確認するのにも使える。また、多様な形式(Hapmap, HDF5, VCF, Plink, Phylip. FASTAなどなど)のデータのインポート・エクスポートが可能なため、GUIベースのデータ形式変換ソフトとしても有用。
findhap (http://aipl.arsusda.gov/software/findhap/) SNPのIMPUTATIONを行うソフト。
データ形式変換ソフト。上のGeneAlexやMStoolsなど、他のいくつかのソフトでも可能
★ PGDSpider(http://www.cmpg.unibe.ch/software/PGDSpider/)集団遺伝、集団ゲノミクスのデータの形式変換ソフト。扱いやすい。SNPだけでなく、SSRのデータも変換可能。NGSのデータだと、他のソフトではエラーが出ることもあるが、これは大丈夫。NGSデータなら圧倒的にオススメ。
CONVERT(http://www.agriculture.purdue.edu/fnr/html/faculty/Rhodes/Students%20and%20Staff/glaubitz/software.htm)GENEPOP形式のデータファイルから、様々なソフトのインプットファイルを作成可能。
CREATE(http://bcrc.bio.umass.edu/pedigreesoftware/node/2)CONVERTと同じく、様々な形式のインプットファイルを作成できる。CONVERTよりこちらの方が使いやすいかも。Arlequin、FSTAT、GenePop、IM、LAMARC、MSA、MSVAR、STRUCTUREなど非常に多くの形式に対応。インプットに使える形式もかなり多い。
遺伝的クラスタリングなど(STRUCTURE解析的なもの)
★ STRUCTURE (http://pritch.bsd.uchicago.edu/structure.html)SNPデータやSSRデータから遺伝構造を推定する。様々な研究でかなり多く使われている。他の派生ソフトも同じだが、集団単位ではなく、個体ベースでのベイジアンクラスタリングを行う。
★ STRUCTURE Harvester(http://taylor0.biology.ucla.edu/structureHarvester/)STRUCTUREのアウトプットファイルから、簡単にΔKなどを推定してくれる。論文に使えるレベルの図も出してくれる。CLUMPPへのインプットファイルも生成してくれる。
CorrSieve(http://www.mcdonald.cam.ac.uk/projects/genetics/projects/CorrSieve/CorrSieve.htm)ΔKとは異なる基準でSTRUCTUREのベストなKを推定する。
★ TESS(http://membres-timc.imag.fr/Olivier.Francois/tess.html)集団の地理的分布情報も使用してクラスタリングを行う。最近のバージョンだと、更にその推定したクラスタリング結果を元にしてのアウトライヤー探しも可能になっている。BayeScanで用いるような明示的な構造を与えられないような場合のアウトライヤー探しでかなり有用かも。
ClusterDIs(http://www.picb.ac.cn/~xushua/index.files/Software.htm)STRUCTURE のクラスター間の遺伝距離を計算してくれる。Fstだけでなく、Nei's standard distance, Nei's DA distanceなど、いくつかの距離が選択可能、ブートストラップさせた距離行列も計算してくれる。アウトプットファイルはMEGAとPhylipで読み込み可能。
★ CLUMPP(http://www.stanford.edu/group/rosenberglab/clumpp.html)STRUCTUREの同じKの中の複数試行の結果を平均化してくれるソフト。ベストのKが決まった段階で、最大尤度の試行結果を採択するか、CLUMPPで同じK内の全ての結果を平均するかの2通りがある。同じKの中の複数ランの結果が、ほぼ安定して同じパターンに収束しているのであればどちらでも大きな問題は無い。もし収束していないのであれば、CLUMPPを安易に行ってはならない。上述のSTRUCTURE Harvesterでインプットファイルを生成できる。手動で行うのは結構面倒なので便利。
CLUMPAK(http://clumpak.tau.ac.il/)上のCLUMPPのweb版のようなもの。ADMIXTUREのアウトファイルも扱えるので便利。下のDISTRUCTで使用する用の数字⇒ラベル名の変換もできる。
★ Distruct (https://rosenberglab.stanford.edu/distruct.html) STRUCTUREの結果で出てくるバープロットを綺麗に書き直すためのソフトウェア。色はもちろん、線の太さも変えられる。
STRUCTURE PLOT (http://btismysore.in/strplot/index.php) Distructと同様、STRUCTUREのバープロットを書き直すためのソフトウェア。Rなどの様々なソフトで同じことはできるのであまり必要性は感じないが、web上で簡単にできる点は良いかも。オプションもそこそこ細かく設定できる。ダウンロードしてRの中でも実行可能らしい。
★ADMIXTURE (http://www.genetics.ucla.edu/software/admixture/index.html)STRUCTUREと同じ統計モデルを使用しつつ、計算のアルゴリズムを変えて高速化したソフト。マルチコアにも対応。Natureの論文(2万年前のシベリア人ゲノムの解析など)などでも使用されているので、今後のNGSデータ解析では広く使われるようになるかも。かなり早い。さすがに、ゲノムワイドSNPでSTRUCTUREをかけると、時間がかかりすぎる。Linux専用。
★sNMF(http://membres-timc.imag.fr/Olivier.Francois/snmf/index.htm)NMF (non-negative matrix factorization)というアプローチを使用して、STRUCTUREやADMIXTUREとほぼ同じ結果を超高速に出すことができるソフト(シミュレーションではなく、PCAのようにデータを分解していくような手法)。Linux用だが、Rで動かすパッケージもある。ADMIXTUREも十分に早いが、これは更に10-30倍速い(実際に試した感じでもそう)。
NgsAdmix (http://www.popgen.dk/software/index.php/NgsAdmix)ADMIXTUREやFrappeのような最尤ベースのAdmixture-クラスタリングソフト。ただし、他のソフトはGenotypeデータ(AA-ATなど)をインプットに用いるが、このソフトは各アリルの頻度(0.35-0.65など)を使用できる。NGSのデータで、古DNAであったり、カバレッジが低かったりするために各Genotypeの正確性に多少の問題がある場合、得られた各アリルのリードの割合を入力すれば不確実性も考慮に入れられる。かなり実用的な感じで、上の2万年前のシベリア人ゲノムの解析でも使用されている。要チェック。
InSTRUCT(http://cbsuapps.tc.cornell.edu/InStruct.aspx)自殖などをしている生物を対象とした場合でもうまく集団遺伝構造を推定できるソフト。個体ベースのクラスタリングの他、集団ごとの自殖率の推定も行える。
FRAPPE (http://genome.cshlp.org/content/19/9/1655.short)最尤法による個体ベースのクラスタリング。
ChromoPainter(http://paintmychromosomes.com/)主に多数の塩基配列を対象とし(?)、各locusの間の関係性(連鎖?)を構築。それを元に補正したPCAや、fineSTRUCTUREの計算時に使えるデータを出力したりする。ただし、これはhaplotype情報がいる模様。。ということは、普通のSNPやSSRのデータでは使えない?
fineSTRUCTURE(http://paintmychromosomes.com/)大量塩基配列のSNP情報を用いて、集団構造のベイジアンクラスタリングを行う。ChromoPainterのoutputを利用できる。
STRUCTURAMA(http://cteg.berkeley.edu/~structurama/)Linux。STRUCTUREの補完?
DPART(http://www.biomedcentral.com/1471-2105/12/263/)これもSTRUCTUREの補完?
集団のデモグラフィックな歴史や遺伝子流動を推定。コアレセントシミュレーションなどを含む
★ divMigrate-Online ( https://popgen.shinyapps.io/divMigrate-online/ ) Rのパッケージ「diveRsity」の中の遺伝子流動パターンの推定(ネットワークの描画までできる)の機能について、オンラインで実行できる。
★ IMa, IMa2, IMfig, IMa2p, IMgui (https://bio.cst.temple.edu/~hey/software/software.htm) コアレスセント理論に基づき、集団(近縁種)間の分岐年代やその後の遺伝子流動、有効集団サイズの大き差などを推定可能。Isolation with Migration Model。IMfigはIMaやIMa2の結果からモデル図を作成する。IMa2pはマルチコア対応(ただし、パラレルにランが動くだけで、一つの長いランを分割してやってくれるわけではない。なので、IMa2を複数立ち上げて動作させても同じと思われる。IMguiは、GUIでのIMa2pの実行をサポートするソフト。ただし、詳しい説明などが付いているわけではないので、マニュアルを熟読しながら行う必要がある。それなら、コマンドラインで実行した方が良いような気がする。。
★ DIYABC(http://www1.montpellier.inra.fr/CBGP/diyabc/)ABC(Approximate Bayesian Computation)によるデモグラフィックな挙動の推定。ユーザーフレンドリーなソフトウェアで、様々な遺伝マーカー、塩基配列データに対応し、突然変異モデルも複数選択できる。ただし、集団分化後の集団間の移住(遺伝子流動)は考慮していないため、推定される集団分化時期などの時間に関するパラメータは過小評価されている可能性がある。
fastsimcoal2 (http://cmpg.unibe.ch/software/fastsimcoal2/) SFS (Site frequency spectrum)をベースに、デモグラフィックなパラメータを推定する。かなり複雑な集団動態モデルも設定可能。
PopABC(http://code.google.com/p/popabc/) ABC(Approximate Bayesian Computation)によるデモグラフィックな挙動の推定。IMモデルを基本とする。SSRを用いた解析では突然変異モデルの設定がDIYABCより限られている。SSRあるいはシーケンスデータが使用可能。
EggLib(http://egglib.sourceforge.net/) ABC(Approximate Bayesian Computation)によるデモグラフィックな挙動の推定。移住を含めて設定できるシナリオの柔軟性が高いが、SSRを用いた解析では突然変異モデルの設定がDIYABCより限られている。SSRも使用できるが、基本的にはシーケンスデータが主な対象。
★ ABCtoolbox(http://www.cmpg.iee.unibe.ch/content/softwares__services/computer_programs/abctoolbox/index_eng.html)ABC(Approximate Bayesian Computation)によるデモグラフィックな挙動の推定。⇒ 京大動物生態の 山﨑曜 博士がとても親切な解説を書いて下さっています! 感謝!( https://yoyyamasaki.wordpress.com/abctoolbox%E3%81%A8abc%E3%81%AE%E6%93%8D%E4%BD%9C%E6%96%B9%E6%B3%95%EF%BC%9A%E3%81%9D%E3%81%AE%EF%BC%91/ )
ms, mshot(http://home.uchicago.edu/~rhudson1/source/mksamples.html)中立モデル下でのコアレセント解析
SPAms(http://compbio.igc.gulbenkian.pt/pcg/pcg_software.html#SPAms)ユーザーフレンドリーなmsのインターフェイスらしい。
msms(http://www.mabs.at/ewing/msms/index.shtml)selection有りでのms
2BAD(http://compbio.igc.gulbenkian.pt/pcg/pcg_software.html#2BAD)2-event Bayesian ADmixture。集団の混合と分岐についてABCで推定する。4集団、あるいは3集団+2回の混合イベントまで推定可能。
msBayes(http://msbayes.sourceforge.net/)HABC(Hierarchical ABC)による推定。msのABC版。
SPLATCHE(http://www.splatche.com/)
OneSAMP(http://genomics.jun.alaska.edu/asp/Default.aspx)ABCで有効集団サイズを推定。SSRデータ用。webで動く。
BEAST1 (http://beast.bio.ed.ac.uk/) 単一集団を対象に、その有効集団サイズ、突然変異率および集団成長パターンを推定する。
BEAST2 (http://beast2.org/) BEAST1の単純な拡張版ではない。SNAPPのプラグインでSNPを読みこませることができるが、ベイジアンスカイラインプロットなどはできない、みたい。
MIGRATE-N(http://popgen.sc.fsu.edu/Migrate/Migrate-n.html) 分化後のある程度長い期間、集団サイズが安定していることを仮定して、集団間の移住率や有効集団サイズを推定する
divMigrate-online ( https://popgen.shinyapps.io/divMigrate-online/ ) RのdiveRsityパッケージ内で計算できる遺伝子流動の推定をwebで実行できる。Genepop形式で読み込みできる。
LAMARC(http://evolution.genetics.washington.edu/lamarc/index.html) MIGRATE-Nに加えて、組換え率や集団生長率を考慮する
BayesAss (http://www.rannala.org/?page_id=245) MIGRATE-Nが対象とするよりもずっと最近の時代だけの、直近の遺伝子流動の量や方向性を推定する
MSVAR(http://cbsuapps.tc.cornell.edu/msvar.aspx, http://tomato.biol.trinity.edu/programs/index.php/Msvar)マイクロサテライトのデータから、シミュレーションベースで集団のデモグラフィックな歴史(増加、減少)を推定する。BOTTLENECKよりも検出力は高い(らしい)が、計算にすごく時間がかかる。
IMgc (http://hammerlab.biosci.arizona.edu/imgc_online.html) IMaシリーズの解析用データで、組換えの有無を判定、その中で最も長い部分を切り出してくれる。組換え有無の判定は、DnaSPでもできる。
遺伝子流動の地理的パターンを推定
CIRCUITSCAPE(http://www.circuitscape.org/)
自殖率や親子関係の推定など
★ MLTR (http://genetics.forestry.ubc.ca/ritland/programs.html)Mixed-Mating Model(自殖と他殖を両方行うような種)に基づき、成熟個体と種子の遺伝子型から自殖率などを計算できるソフト。針葉樹などの一次胚乳(n。胚に母親から伝わった遺伝子型と同じ)の遺伝子型データも利用することができる。各種子の親を決めていく父性解析などとは異なり、それぞれの親子関係を推定しない。
★ Cervus(http://www.fieldgenetics.com/pages/aboutCervus_Overview.jsp)最尤法に基づいて親子推定を行う。マーカーのnull allele確率や、それを使った検定力などについても計算可能。
遺伝構造推定(グルーピングや遺伝的障壁の推定など)
★ BARRIER(http://www.mnhn.fr/mnhn/ecoanthropologie/software/barrier.html)集団の位置情報と、集団間の総当たり(遺伝)距離の情報と元にして、Monmonier's algorithmに基づいて(遺伝的)境界(Barrier)を検出する。境界の数は任意。遺伝距離以外でも距離マトリックスなら何でも使えるので汎用性は高い。ブートストラップさせた複数の遺伝距離マトリックスをインプットすれば、各境界についてブートストラップ確率も出力してくれる。★
★ SAMOVA(http://cmpg.unibe.ch/software/samova2/)グループ間の遺伝的分化(Fct)が最大になるように集団のグルーピングを行う。ArlequinによるAMOVA(Analysis of MOlecular VAriance)を何百回も行ってシミュレーションすることで、ベストなグルーピングを探索する。Sはspatialの略。SSRやシーケンスデータが使用できる。遺伝データは、Arlequinのインプットデータがそのまま使える。現在の最新はver.2 ★
Alleles in space(http://www.marksgeneticsoftware.net/index.html)
アサインメントテスト
GENECLASS2 (http://www1.montpellier.inra.fr/CBGP/software/GeneClass/) (ヘルプページ: http://www1.montpellier.inra.fr/URLB/GeneClass2/Help/) 複数遺伝子座の遺伝子型情報に基づき、ある個体がどの集団に由来するかをアサインメント(割り当て)する。例えば、由来不明の実生が見つかったとして、その個体が付近のどの集団から来たのか、など。ある集団の実生を解析したとして、それがが採集した集団由来なのかどうかの確率(=サンプリングした集団で、特定の遺伝子型の個体が生じる確率)も計算可能(それが閾値より低ければ、他集団から来たF0移入個体と判定する)。他集団から来ている場合には、各候補集団由来であることの尤度も計算してくれるため、尤度比をみることで、どれぐらいの信頼度でどの集団から来たと推定されたのかを検討できる。距離ベースの方法から、モンテカルロ法によるベイズ推定まで、様々な方法を実装している。
非中立な遺伝子座 (outlier)の検出
(環境情報などと相関するOutlierを探す)
LFMM (http://membres-timc.imag.fr/Olivier.Francois/lfmm/index.htm) 野外の環境勾配をベースにして、それに伴って選択されていると思われる適応遺伝子を検出する。バックグラウンドの遺伝構造として、PCA あるいは、sNMF(高速なADMIXTURE)のクラスタリング結果を、このソフトウェアの中で計算してそのまま使用できる。
Bayenv(http://www.eve.ucdavis.edu/gmcoop/Software/Bayenv/Bayenv.html)Linux用。環境データと遺伝子型の間の(ゲノムワイド)関連解析ができる。中立な遺伝構造も考慮できる。
MatSAM (http://www.econogene.eu/software/sam/default.asp) 環境要因との関係から適応候補遺伝子を検出。(まだ勉強中)
SamBada()
(集団や集団グループなどを設定し、そのグループ間で大きく有意に分化しているようなOutlierを探す)
LOSITAN (http://popgen.net/soft/lositan/)
FDIST2 (https://www.loni.ucla.edu/twiki/bin/view/LONI/Pipeline_GenomicsInformatics_FDIST2?skin=plain; http://heidi.chnebu.ch/doku.php?id=fdist2; http://www.loni.ucla.edu/~pipelnvr/serverlib/view_workflow.php?file=training/Bioinformatics/Modules/fdist2.pipe)Lunux or DOS。?集団構造がある中で outlier を検出?
BayeScan(http://cmpg.unibe.ch/software/bayescan/)集団ベースの遺伝データから、自然選択を受けている遺伝子座(Outlier)を検出。明示的にグループの設定を与えにくい場合(中立な遺伝構造を調べた後で、更にその構造を背景にしたスキャンでアウトライヤーを探したい場合)、TESS3 で実装されたアウトライヤー探しの方が良さそう。
(未分類、あとで整理します)
ENMAX(http://genetics.cs.ucla.edu/emmax/)Efficient Mixed-Model Association eXpedited。サンプル構造を考慮に入れた(ゲノムワイド)関連解析ができる。アルゴリズムを工夫していて、他のソフトウェアよりもかなり高速に計算できるらしい。
BayPass(http://www1.montpellier.inra.fr/CBGP/software/baypass/index.html)
その他の集団遺伝学的解析
BOTTLENECK ( http://www1.montpellier.inra.fr/CBGP/software/Bottleneck/bottleneck.html ) Windowsの32bit版のみ。主にSSRデータが対象。集団が最近にボトルネック(有効集団サイズの急激な減少)を受けたのかどうかを調べる。一般的にボトルネックを受けた場合には集団の遺伝的多様性が減少するが、この際に、「アリル多様度」が「ヘテロ接合度」よりも先に(早く)減少する(Maruyama and Fuerst 1985)。従って、アリルの多様さから期待されるヘテロ接合度よりも、観察されるヘテロ接合度の方が大きくなる。この差を利用し、IAM, SMMの両方の変異モデルで検定する。最新バージョンはTPMにも対応。
★ Contrib(http://www.pierroton.inra.fr/genetics/labo/Software/Contrib/)各集団が失われた場合にどれぐらい全体の遺伝的多様度が失われてしまうか、という観点で、各集団の遺伝的多様性に対する貢献度を計算する。各集団固有のアリルなどの影響を評価できる。保全遺伝学的に重要。葉緑体DNA用。
★ METAPOP(http://anpefi.webs.uvigo.es/metapop/download.htm) 共優性マーカー用。分集団化された構造に焦点を当てている。保全ユニットの設定など。各集団の全体多様性に対する貢献度を計算可能(CONTRIBの共優性マーカー版)。他にもいくつか機能有り。GenePop 形式を Metapop 形式に変換するソフトも一緒に有り。
NewHYBRIDs(http://ib.berkeley.edu/labs/slatkin/eriq/software/software.htm)
★ PermutcpSSR (http://www.pierroton.inra.fr/genetics/labo/Software/PermutCpSSR/) 葉緑体ハプロタイプデータを元に、Nst > Gst の検定などを行う。
★ populations(http://bioinformatics.org/~tryphon/populations/)集団系統樹作成ソフトウェア。コマンドラインで操作。NJ treeとUPGMAが可能。遺伝子座と個体についてブートストラップが可能。遺伝距離も結構たくさんある。遺伝距離マトリックスも出力可能。MSAだと止まってしまうことがある個体間の遺伝距離マトリックスもOK。
POPTREE2(http://www.med.kagawa-u.ac.jp/~genomelb/takezaki/poptree2/index.html)集団系統樹作成ソフトウェア。GUIで操作できる。populationsと同じようなことができる。
SPAGeDi(http://ebe.ulb.ac.be/ebe/SPAGeDi.html) Fst と Rst の比較が可能。マイクロサテライトのサイズの値自体に構造があるかどうか。
NeEstimator (http://www.daff.qld.gov.au/fisheries/research/research-centres/molecular-fisheries-laboratory/download-software/neestimator-software) 連鎖不平衡、ヘテロ接合超過、moments-based F-statistics?の3つの方法を使用して、Neを推定する。
DISPAN(http://www.softsea.com/review/DISPAN-Genetic-Distance-and-Phylogenetic-Analysis.html、http://www.personal.psu.edu/users//n/x/nxm2/dispan2.htm)
Microsat(http://massey.genomicus.com/software.html#microsat)
EASYPOP(http://www.unil.ch/dee/page36926_fr.html)集団遺伝解析用のシミュレーションデータ生成?アウトプットデータは、そのままFSTAT、GENEPOP、ARLEQUINで使用可能。
M_P_Val.exe(http://swfsc.noaa.gov/textblock.aspx?Division=FED&id=3298)集団のデモグラフィックな挙動を推定するソフト。M Ratio を計算?。
STR-FST(http://www.picb.ac.cn/~xushua/index.files/Software.htm)STR(short tandem repeats。マイクロサテライトなど)のアリル頻度から、Fst の距離行列を計算してくれる。ブートストラップも可能。アウトプットデータはPhylipで読み込み可能。
Micro-Cchecker(http://www.microchecker.hull.ac.uk/)SSRで、null alleleの頻度などを推定。
INEST(http://www.ukw.edu.pl/pracownicy/strona/igor_chybicki/software_ukw/)null alleleの頻度などを推定。集団内で自殖が起こっている場合には、その影響も補正できるらしい。他に、位置情報があれば空間自己相関も計算可能。集団内でのヘテロ接合度の超過についてpermutation testもできる(ここはたぶん”BOTTLENECK”の機能と同じ?)。
Pedant(http://www.stats.gla.ac.uk/~paulj/pedant.html)最尤法を使って、マイクロサテライトのジェノタイピングエラーの確率を推定。
Claident(http://www.fifthdimension.jp/products/claident/)メタゲノム解析における種(もしくはグループ)同定を、高速かつ大量に行ってくれるソフト。LinuxかMac。
msatcommander(https://code.google.com/p/msatcommander/)SSR部位の検出。NGSやデータベースで得たFASTAファイルからのSSRマーカー作りに。
Mantel test (http://www.passagesoftware.net/webhelp/Mantel_test.htm) その名前の通り、Mantel testをするためのシンプルなソフトです。GeneAlexでもできます。
ENM; Ecological Niche Modelling, 生態ニッチモデリング, 生育適地モデリング
★ MaxEnt(http://www.cs.princeton.edu/~schapire/maxent/)最大エントロピー原理に基づくEcological Niche Modellingを行う。在データだけで解析できる。モデルの精度もそれなりに高い。おそらく最も広く使われているソフト。手軽に動かせるが、色々と注意は必要。黒星。
★ ENMTools(http://enmtools.blogspot.jp/)生態ニッチモデリングの結果をいろいろと解析・比較したりするソフト。異なるモデル間の違いの検定であったり、モデル間の類似性なども解析できる。
MaxLike(http://www.inside-r.org/packages/cran/maxlike/docs/maxlike)MaxEntよりも良いかも?という噂のソフト。まだ試していません。Rのパッケージで動く。
DesktopGARP(http://www.nhm.ku.edu/desktopgarp/)機械学習(マシンラーニング)による生態ニッチモデリングを行う。
地理情報システム(GIS; Geographic Information System)関連
★ ArcGIS Pro や ArcGIS (http://www.esrij.com/products/arcgis/) 有料で昔は高価でしたが、ライセンス体系の変更があり、かなり安価に使えるようになりました。「Academic パックsmall」というライセンスであれば、年間10万円(+消費税)で5ライセンスまでフル機能が使用できます。ArcGIS Proは、64bit用に作り直されており。従来のArcGIS(ArcMapなど)に比べて、圧倒的に早いです。かなり使いやすくなっているので、複数人が使用するラボであれば、契約して損は無いです。大学によってはライセンスを契約していて、無料で使えたりします(東大や首都大は確認済み)。
★ QuantumGIS(http://www.qgis.org/)だいたいのことはできる便利なソフトウェア。ArcGISと併用して使っています。こちらの方が使いやすいことも多々有ります。★
★ SAGA (http://www.saga-gis.org/en/index.html) 無料。地形性湿性指数(topographic wetness index)など、水文や地形に関するような解析が圧倒的にやりやすい。
GRASS GIS(http://grass.osgeo.org/)
SuperMapViewer(http://supermap.jp/products/tools/gis_free.html)
PostGIS(http://postgis.net/)
DIVA-GIS(http://www.diva-gis.org/)★
TKY2JGD(http://vldb.gsi.go.jp/sokuchi/tky2jgd/download/agreement.html)「日本測地系(Tokyo Datum):ベッセル楕円体」に準拠した座標値を,世界測地系「日本測地系2000(=ITRF94系=JGD2000):GRS80楕円体」の座標値に座標変換するプログラムです。Windows版のみ国土地理院から提供しています。Web版もあります(http://vldb.gsi.go.jp/sokuchi/tky2jgd/)まあ、ArcGISやQGISがあれば自分で変換できるのですけどね。
Gumap!Maker2(http://service.aitacos.com/gumap2/)ローカルPC上で動作するKMLファイルの編集ソフト。GoogleMapやそのストリートビューを表示しながら、作業が可能。らしい。
その他の統計ソフトなど
★ R(http://cran.r-project.org/)ここで紹介するまでもないですが、オープンソースの統計解析ソフト。超重要です。★
WEKA(http://www.cs.waikato.ac.nz/ml/weka/)データマイニングソフト。
JMP
その他、未整理
QMSim(http://www.aps.uoguelph.ca/~msargol/qmsim/)QTL解析の他、デモグラフィックな挙動を仮定したシミュレーションによる仮想遺伝データ(SNP, SSR)の作成など。
GIMLET(http://pbil.univ-lyon1.fr/software/Gimlet/gimlet%20frame1.html)
HP-Rare(http://www.montana.edu/kalinowski/Software/HPRare.htm
Geophylobuilder()系統樹と地図を連携させて、空から降りてくるような3D系統樹を描画可能。カッコイイ(分かりにくい気がするが)。
GenGIS(http://kiwi.cs.dal.ca/GenGIS/Main_Page)こちらも、系統樹と地図を連携させて、空から降りてくるような3D(あるいは2D)系統樹を描画可能。空からではなく、2Dで横に配置するようにすれば、まだ分かりやすい図になるかも。島とかの隔離系だと、使ってみると面白いかもしれあい。他にもいろいろ機能はありそうですが、まだほとんど使ったことがないです。
便利なWEBツール
種名マッチング (https://www.gbif.org/ja/tools/species-lookup) GBIF提供のツール。学名リストをアップすると、それをGBIFの内部データベースと照合して EXACT とか FUZZY とかの判定を返してくれる。シノニムとかを考慮してデータをまとめるときに便利かも。
学名の構文解析(学名パーサー) (https://www.gbif.org/ja/tools/name-parser) GBIF提供のツール。学名をもとに、属名や種小名、亜属 、科名、命名者名などに分解(追加整理)してくれる。
維管束植物和名チェックリスト (https://www.gbif.jp/v2/activities/wamei_checklist.html )下の和名変換シートの元になっているデータです。
維管束植物和名変換シート (http://wetlands.info/tools/plantsdb/nameconv/ )超絶便利です。植物相調査などで得られた和名のリストに学名を付与できます。分類学的な問題がある種については、チェックも出してくれます。
GreenList
Y-List