Skip to content

Latest commit

 

History

History
378 lines (335 loc) · 54.8 KB

README.md

File metadata and controls

378 lines (335 loc) · 54.8 KB

「遺伝子発現DB・解析ツールの紹介」 担当:仲里 猛留

_ はじめに

_ 今回のメニュー


_ 1つの遺伝子での遺伝子発現


_ BioGPS ヒト、マウス、ラットのさまざまな組織や細胞(株)における遺伝子発現プロファイルのデータベース

  • 何コレ:さまざまな臓器、細胞株での個々の遺伝子の発現についてまとめたもの
  • BioGPSはAffymetrix社製のマイクロアレイであるGeneChipを用いた遺伝子発現プロファイルのデータベース。
  • GNF SymAtlas【参考動画】のメジャーアップデート版。
  • マウスのエキソンアレイのデータが追加されたので、遺伝子のスプライシングバリアント(Splicing variant)の発現状況も調べることが可能。
  • 検索した遺伝子に対して、種々の外部データベースに横断検索することができる。

_ 【実習1】BioGPSを使ってある遺伝子の発現プロファイルを調べる

  • 【使い方参考動画】(内容が若干 古め。近日アップデート予定)、【講習会動画】http://lifesciencedb.jp/image/small_video_icon.png
  • 1. http://biogps.org/を開きます。
  • 2.水チャネル(水を通すトランスポーター)であるAQP3 (aquaporin 3) の発現プロファイルを調べてみましょう。中央の検索窓に「AQP3」と入力し、「search」を押します。
  • 3. 表示された検索結果をクリックします。
  • 4. 最初はヒトのマイクロアレイデータが表示されます。
  • 5. マイクロアレイデータ左上の「Human」をクリックするとマウスやラットを選択できます。また、「203737_at」(プローブID)をクリックすると、別のプローブでの発現状況(別のsplice variantなど)の結果が見られます
    • 参考:GGRNAをプローブIDで検索すると、その遺伝子のどの部分でプローブが設計されているかがわかります。
    • 例:1422008_a_atで調べた例
  • 6. AQP3はどの組織、細胞で強く発現しているでしょうか?
  • 7. 右上の「default rayout」をクリックすると、検索した遺伝子に関するマイクロアレイデータ以外のデータが閲覧できますが、どのようなデータが閲覧できるのか調べてみましょう。
  • 8. [応用] 左上の「Search」タグをクリックして検索画面にもどり、自分の興味ある遺伝子について同様に検索してみましょう。

_  遺伝子発現データのリファレンスデータセット

  • 何コレ:4種類の異なる手法 (EST, GeneChip?, CAGE, RNA-seq)によるヒト、マウスおよびラットの遺伝子発現データのリファレンスデータセット
  • ようするに:発現解析にはいろいろな手法があって、それによって発現が高かったり低かったりするわけですが、それらを並べて、参照できるようなデータセットをつくりましょう、というコンセプトです。
  • 以下のようなシチュエーションで
    • ある臓器で発現の高いものを調べる
    • ある染色体領域での発現の状況を眺める
    • ある機能(ドメインを持つ、GOの語)をもつ遺伝子の発現状況を調べる

_ 【実習2】RefEx を使っていくつかの遺伝子の発現プロファイルを調べる

_ ある臓器で発現の高いものを調べる

  • 1. RefEx http://refex.dbcls.jp/を開く
  • 2. 「発現パターンから探す」タブをクリックする
  • 3. 大分類の10の臓器 or 小分類の40分類から臓器をクリック(例:骨格筋)
  • 4. 興味のある行をクリックすると、詳細が見られる

_ 全遺伝子を対象にした(=オミックス)遺伝子発現・その1:マイクロアレイ


世界最大の遺伝子発現(マイクロアレイ)データベース(レポジトリ)

塩基配列を研究者がGenBank (Nucleotide) に登録し、世界の人が見られるのと同じように、各々の発現情報も集められてみられるようになっています。それがGEOです。

  • いろいろなデータ(DataSet, Sample, Platform)が出てきて混乱するかと思います。NCBI GEO Overviewが参考になるでしょう。

_ 【実習3-1】GEOを使って、自分の興味のある遺伝子の(ある実験条件下における)発現状況を調べる

  • 【使い方参考動画】http://lifesciencedb.jp/image/small_video_icon.png
  • 1. http://www.ncbi.nlm.nih.gov/geo/を開きます。
  • 2.「Gene profiles」に自分の検索したい遺伝子名を入力します。
  • 3. 今回は例として「nanog」という遺伝子を検索してみましょう。入力終了後、「GO」をクリックします。
  • 4. GEOに登録されている様々な実験条件で行なわれたマイクロアレイ実験における「nanog」遺伝子の発現データが表示されます。
  • 5. 検索結果の右端にある画像をクリックすると、発現データの詳細をみることができます。
  • 6. 「Display values」をクリックすると、発現値を一覧できます。
  • 7. このサンプルでは、nanogはどういう細胞のどういう実験条件で発現が増減しているか調べてみましょう。
  • 8. ページ下部の「samples」に列挙されたリンクをクリックすると、そのサンプル(一枚のマイクロアレイ)の詳細を閲覧できます。
  • 9. リンク先のページの中ほどにある「series」のリンクをクリックすると、この実験全体の詳細情報が見られます。
  • 10. この実験全体の詳細情報ページの下部にある「Series Matrix File(s)」をクリックすると、この実験の正規化補正済みのマイクロアレイデータをダウンロードすることができます。
  • 11. ページ最下部の「Supplementary file」にあるリンクから生データをダウンロードすることができます。

_ 【実習3-2】データセットブラウザ(Dataset browser)を利用して、GEOに登録されているマイクロアレイデータを解析する

  • 【使い方参考動画1】http://lifesciencedb.jp/image/small_video_icon.png【使い方参考動画2】http://lifesciencedb.jp/image/small_video_icon.png
  • 1. http://www.ncbi.nlm.nih.gov/geo/を開きます。
  • 2.「Gene profiles」に自分の検索したい遺伝子名を入力します。
  • 3. 今回は例として「nanog」という遺伝子を検索してみましょう。入力終了後、「GO」をクリックします。
  • 4. GEOに登録されている様々な実験条件で行なわれたマイクロアレイ実験における「nanog」遺伝子の発現データが表示されます。
  • 5. 検索結果のアクセッション番号(今回は GDS2294)をクリックすると、解析用の「データセットブラウザ」が開きます。
  • 6. 「Expression profiles」をクリックすると、この実験データセットにおける個々の遺伝子発現状況を検索できるページに飛びます。
  • 7. 検索窓に表示されているアクセッション番号の後に続けて遺伝子名を追加(今回は例として Oct4 )すると、この実験データセット内におけるその遺伝子の発現データが検索できます。
  • 8. 「データセットブラウザ」の「Data Analysis Tools」では詳細なデータ解析が可能です。
  • 9. Quality Check: 「Experiment design and value distribution」では実験データにおける発現の分布を参照できます。これにより、各サンプルのデータが互いに比較可能か(実験上のミスがないか)チェックすることができます。
  • 10. 特定実験での各遺伝子の振る舞い: 「Find gene name or symbol:」のところに自分の興味ある遺伝子名を入れてみましょう。
  • 11. 「Find genes that are up/down for this condition(s):」の「GO」をクリックするとどのような遺伝子がヒットするでしょうか。
  • 12. クラスタリング等の解析: 「Compare 2 sets of samples」では2群間で発現に差のある遺伝子を(統計学的に)検索できます。step1で発現量の違いを検出する方法を設定します。step.2で比較する2群の設定をします。step.3の「Query Group A vs. B」をクリックすると、検索が始まります。
  • 13. 「Cluster heatmaps」では、マイクロアレイデータ解析でよく用いられるヒートマップでのデータ表示が行なえます。分類方法としてHierarchical、Partitional (K-means/K-medians)、By location on chromosomeの3種類が選べますが、それぞれどのようにデータが分類されるか試してみましょう。

_ 【実習4】GEO2Rを利用して、GEOに登録されているマイクロアレイデータを解析する

  • 【復習用】NCBI GEOの使い方5~GEO2Rを使う~ http://lifesciencedb.jp/image/small_video_icon.png
  • 1. http://www.ncbi.nlm.nih.gov/geo/を開きます。
  • 2. 画面中央下の「Series」をクリックします。
  • 3. 検索機能を使って興味のある実験データセットを探すことができます。
  • 4. 今回は喫煙による遺伝子発現の変化に関するデータについて調べたいというモチベーションを例にするので、「cigarette smoke」と入力し、検索します。
  • 5. GSE17913 - Effects of Cigarette Smoke on the Human Oral Mucosal Transcriptome という喫煙による口腔粘膜の遺伝子発現を調べたデータセットが見つかったので、「GSE17913」をクリックします。
  • 6. 今回のテーマであるGEO2Rへのリンクはページ下部にあるので、リンクをクリックしGEO2Rのページに移動します。
  • 7. このデータセットに含まれるサンプルの一覧が表示されます。列見出しをクリックすると各項目でソートできます。「Title」をクリックすると、今回のデータセットが、喫煙者・非喫煙者のそれぞれ男性・女性の頬粘膜(buccal mucosa)から得られたサンプルであることがわかります。
  • 8. 比較したいグループをそれぞれ設定します。「Define groups」をクリックして、それぞれのグループ名を入力します。今回は、非喫煙者の女性(never_smoker_F)と、喫煙者の女性(smoker_F)のサンプルをそれぞれグループ化します。

(※GEO2Rの各ジョブの実行は時間がかかるので要注意。講習では復習用統合TVの実行結果を見ながら進めるので、実行しないでください。)

  • 9. グループに入れたいサンプルをクリックやドラッグで選択してからグループ名をクリックすると、サンプルがグループに登録されます。
  • 10. 次に、「Samples」をクリックした後、「Value distribution」タブをクリックし、「View」をクリックすると各サンプルの発現分布を調べることができます。
  • 11. 発現分布が箱ひげ図で示されます。データセットブラウザと異なり、GEO2R では投稿された生のデータを用いて解析されます。
  • 12. "Export" をクリックすると、箱ひげ図で与えられている値をまとめたタブ区切りテキストが表示され、これらを保存できます。
  • 13. GEO2R タブに戻り、"Top 250" をクリックすると、選択したグループ間で各遺伝子の発現量に差があるかどうかの t 検定の結果、P 値が小さい順に 250 件表示されます。"P.Value" は元の P 値、"adj.P.Val" は多重検定の補正をかけた後の P 値です。有意性の評価は adj.P.Val に基づいています。 "t" は普通の t の標準偏差を全遺伝子の標準偏差を用いて調整したもの (moderated-t) です。普通の t より精度が上がっていますが、普通の t 分布に従うものとして扱えます。 "B" は2つのグループで発現量が異なっている対数オッズ値です。exp(B)/(1+exp(B)) の値が、発現量が異なっている確率で す。"logFC" は、発現量の差が何倍であるかを2底の対数にしたものです。つまり値が 2 なら 4 倍の差を示しています。ここでの解析では発現量が対数で与えられている必要がありますが、元のデータでは対数になっていないことがあります。そのような場合デフォルトでは自動検出し、対数変換して計算してくれます。その上でこのような表示がされます。
  • 14. 行をクリックすると、その行の遺伝子の各サンプルでの発現量グラフが見られます。
  • 15. 今回喫煙者女性・非喫煙者女性間で最も差が大きいとされた遺伝子であるシトクロム P450 (異物代謝に関わる遺伝子)は、喫煙者群で有意に発現増加したことがわかります。
  • 16. "Sample values" をクリックすると、発現量の値が一覧できます。
  • 17. "Select columns" をクリックすると、表示するカラムを変更できます。 "logFC" を消し "GO.Function" を追加してみましょう。
  • 18. "Save all results" をクリックすると、結果をテキストで表示・保存できます。
  • 19. Options タブをクリックすると、いくつかの設定を変更できます。右の項目は多重検定の補正法の選択です。デフォルトでは Benjamini & Hochberg の方法が使われていますが、これを Bonferroni の方法に変更してみます。中央はデータの対数をとるかどうかの選択です。デフォルトでは先程説明したとおり自動検出です。左の項目はプラットフォームの注釈の選択です。"NCBI generated" がある場合はそれの方が信頼できます。
  • 20. Options に変更を加えたら、GEO2R タブに戻って "Recalculate" をクリックします。 変更を反映した計算結果が表示され、多重検定の補正法を変更したため、adj.P.Val が変わっていることがわかります。
  • 21. Profile graph の項目では、プローブ ID を元に、個々の遺伝子の発現状況を調べることができます。
  • 22. 「View data for (platform ID)」をpクリックするとプラットフォームの情報が表示されるので、目的の遺伝子のプローブ ID を、ブラウザの検索機能 (Ctrl+F)を用いて調べます。今回は例としてNFE2L2(酸化ストレスによって活性化する転写因子)を検索してみましょう。
  • 23. 一番左がプローブIDなので、これをコピーし、さきほどの"Enter ID" の窓にプローブ ID をペーストし、"Set" をクリックすると。発現量のグラフが表示されます。(なおこの操作では、何の計算も実行されないので、検定の結果の P 値を調べることはできません。)
  • 24. R script タブをクリックするとこれまでに実際に実行された R のスクリプトを見ることができます。これを参考に、手元の R でパラメータを調整するなどして更なる解析を行うことができます。
  • R の使い方については、下記の統合TV のコンテンツ「統計解析ソフト「R」の使い方」シリーズをご覧ください。
  • 統計解析ソフト「R」の使い方 ~導入編~
  • 統計解析ソフト「R」の使い方 ~ヒートマップ編~
  • 統計解析ソフト「R」での立廻り

_ 遺伝子発現バンク(GEO)目次:http://lifesciencedb.jp/geo/

  • 統合ホームページ > データベース > 遺伝子発現バンク(GEO)目次
  • [ナニコレ] NCBIのGEO(Gene Expression Omnibus:mRNA発現情報のデータベース)に登録されている全レコードをプロジェクト単位で分類。「生物種」、「研究の型」、「部位」の三次元で分類。データを一括ダウンロード可能
  • http://lifesciencedb.jp/image/small_video_icon.png 遺伝子発現バンク(GEO)目次を使い倒す-その壱
  • 【実習5-1】「生物種」で特定の種を選ぶと、研究プロジェクト数が絞り込まれることで数が変化する。「生物種」で「ヒト」を選ぶ前と後で「研究の型」の「GeneChip」(Affymetrixの発現アレイ)、「cDNAアレイ」、「オリゴアレイ」の項目はいくつからいくつに変化するか?また、「生物種」に「齧歯」を選ぶとそれぞれどうか?
  • 【実習5-2】右上の検索フォームで'hypoxia'と入力して検索したあとで、「生物種」で「ヒト」、「研究の型」で「GeneChip」を選んで得られる研究プロジェクトのリストを表示せよ。「測定サンプル」のカラムの数字をクリックしてどのようなことが起こるか、確認してみよ。また、GSEで始まるGEOのエントリ(例えばGSE4725)をクリックするとNCBIのサイトに直接アクセスできるので、そのページにアクセスせよ。

_ [参考] ArrayExpress

マイクロアレイデータの生物学的な解釈

  • 上で述べたマイクロアレイの結果の解析は、統計解析で、それらの遺伝子が生物学的にどういう意味を持つかわかりません。
  • そこで、Gene Ontologyの用語を付与することで、生物学的な解釈を行います。
  • 【参考動画】DAVIDを使ってマイクロアレイデータを解析するhttp://lifesciencedb.jp/image/small_video_icon.png

_ 【実習5】DAVIDを用いて、発現データの結果を生物学的に解釈する

  • 1. 上部メニューの「Start Analysis」をクリック
  • 2. 画面左側バーで、probe IDリストをコピペ or ファイルを指定
    • 今回は、統合TVと同じ、NCBI GEOより取得した公共の遺伝子発現データ(GSE1657:Adipocyte Differentiation [Homo sapiens])を用いて、ヒトの脂肪細胞の分化過程で発現増加した上位500個の遺伝子群のリストを使って説明しています。
  • 3. リストのIDの種類タイプを選択 … 今回は、「AFFYMETRIX_3PRIME_IVT_ID」と「Gene List」
  • 4. Submit List をクリック → 読み込まれる
  • 5. 今、アップロードしたリストは、左側バーの「List Manager」で「Uploaded List_1」として保存されています。削除やrenameもできます。
  • 6. (画面がかわりました。この項目は削除)
  • 7. 今回は、Gene Ontologyでの解析を行います。「Gene Ontology」をクリック → Gene Ontologyでの解析の細かいメニューが表示されます
  • 8. 今回は、GOTERM_BP_ALL (BP=Biological Process)に注目します。その右の「Chart」をクリック → 結果がポップアップします
  • 9. P-value を2回クリックしてp-valueが小さい(統計的に有意である)順にしてみましょう … p-value小さい順は、一度やればしばらく覚えているので、次からはしばらくは必要ないです

    結果

  • [応用編] Pathways > KEGG_PATHWAY や Tissue Expression > UP_TISSUE なども見てみよう。生物学的にどういうことが言えるだろうか。

_ 全遺伝子を対象にした(=オミックス)遺伝子発現・その2:次世代シーケンサ (NGS)


_ 次世代シーケンサ(とそのデータ)基礎知識

  • 今回は省略しますが、書いておくだけはしておきます。

_ 何が新型/次世代なのか?

_ SRAとは

  • NGSのデータのレポジトリサイトです
  • SRA = Sequence Read Archive
    • 昔は「Short Read Archive」だったが、shortでなくなってきたので
  • 誰(どこ)が集めているのか?
    • NCBI(米): SRA
    • EBI(欧): ENA (European Nucleotide Archive)
    • DDBJ(日): DRA (DDBJ Sequnece Read Archive)
    • 3局でデータの交換をしている
      • DDBJを見に行ったとして、入っているのは日本だけ、ということはない、ということです。
      • (ただ、個人情報にからむものは、実際の配列データはしかるべきところにしかないものがあるとかないとか)

_ [参考] NCBI SRAやめます事件(11/2/16 現地時間)

_ 【実習6】DRASearchを使ってみる( http://trace.ddbj.nig.ac.jp/DRASearch/

  • こういうときはNCBIと思いがちですが、データ転送量が多い + インターフェースきれい なのでDDBJを使いましょう
    • http://trace.ddbj.nig.ac.jp/DRASearch/ にアクセス
    • Keyword に興味のある語を入れてみましょう(例:variation)
    • Filtered by の document type で絞り込み:Study
    • Filtered by の organism で絞り込み:Homo sapiens
    • ACCESSION の SRP...... をクリック → 詳細が
    • 画面右の Navigation にあるFASTQやSRALiteからデータがダウンロード可能
  • DDBJにあるドキュメント見てみる
    • データ構造(StudyとかExpとかRunとか)

      DDBJ Sequence Read Archive - Document - Metadataより

    • 実データ
      @DRR001107.1 GEZQ5FO01EEA7F length=77
      GCAACATTCAACACATATGTGTTGAATGTTGCACGACGGNGTGTCGCGTCTCTCAAGGCACACAGGGAGTAGNGNNN
      +DRR001107.1 GEZQ5FO01EEA7F length=77
      C@BBBECCECDBBBAAAAA<441111<?@>?=?????44!00044322====22--..//6998222<7<3/!/!!!
      • 1行目: @ + タイトル
      • 2行目:塩基配列
      • 3行目: + (+ タイトル)
      • 4行目:シーケンスクオリティ

_ 統計情報から検索する (SRAs: http://sra.dbcls.jp/ )

  • まずは普通に全部表示:まずは見てみる → by Studies
    • 最初は新着順です
    • 【実習】収載されているもので大規模にデータを出しているプロジェクトは何でしょう? → Exps や Runs をクリックして sortしてみる
  • 目的別
    • 【実習】興味のある「目的」をクリックしてどんなプロジェクトがあるか見てみましょう
  • Platform別
    • 【実習】興味のある「Platform」をクリックして、(以下同)
  • 生物種別
    • 【実習】興味のある「生物種」をクリックして、(以下同)

_ 文献から検索する

  • 質のいいデータで解析したい → ひとつの基準として論文が出ていれば質は高かろう
  • SRAs の文献リスト: http://sra.dbcls.jp/cgi-bin/publication.cgi
    • NGS関連文献とそこで言及されているNGSデータのリスト
    • 目的/Platform/生物種で絞り込み可能
  • 鎖鋸(kusarinoko):http://g86.dbcls.jp/kusarinoko
    • 目的:「使える」データをさがす
    • 文献として成果が出ているSRAデータセットをさがしてデータの内容とともに俯瞰する
    • 生物種、目的に制限あり
    • 【実習】鎖鋸をつかってみる:hypoxia で検索

_ 疾患から検索する

  • 文献が出ているもののうち、疾患に関連するものを疾患名でまとめた → 論文が出ていないものについても拡張予定
  • 1. SRAsにアクセス
  • 2. 下の方の Search by diseasesから

_ SRAへのNGSデータの登録

_ 解析その1(Whole Genome, Transcriptomics)

  • その1:既知のゲノムに貼る (Reference Genome Mapping)
    • 必要に応じ、マッピング結果(sam/bam形式)をRefSeqに対応付けてカウント
  • その2:一からつなげる(De novo Assemble)

1. DDBJ Read Annotation Pipelineにアクセス
2. ゲストとしてログイン をクリック。もしくは User ID: guest Passwordは空白でログインできます
3. まず、解析する配列ファイルを指定します。DRA (DDBJ Read Archive)に登録済みの場合はリストから選択、登録していない場合はファイルをアップロードします
 1. DRAを指定した場合、データのメタデータ(サンプル名や実験条件など)が表形式で表示されます。データのダウンロードや閲覧が可能です
 2. 解析に使用する配列データは一番下のテーブルから選択します
4. 解析に使用するツールを選択します。ツール名はツールのオリジナルサイトにリンクされています。「Help」にあるアイコンをクリックするとそれぞれのツールのヘルプが表示されます
 1. 既にゲノムが解読されている配列にマッピングする場合には「Reference Genome Mapping」を、新規にアセンブリする場合には「de novo Assembly」を選びます
 2. 使用するツールにチェックを入れて「NEXT」
5. 解析に使用するリード長を決定します
 1. 「Quality Score」のボタンをクリックすると、配列セットのQualityスコアが表示されます
 2. サンプルと(必要があれば)解析するリード長を指定して「confirm」をクリックします
 3. 複数のサンプルがある場合には、それぞれのサンプルについて配列長を指定できます
 4. 解析するすべてのサンプルを「confirm」したら、「NEXT」
6. マッピングする場合、リファレンスとなるゲノムを指定します(de novo Assemblyの場合にはこの過程はスキップされます)
 1. Majorな生物についてはあらかじめ登録されている中から選択します
 2. リストにない場合には、ゲノム配列のIDを指定して配列をダウンロードします
7. 解析プログラムのパラメータを指定します
8. 解析終了のお知らせを受け取るメールアドレスを入力します(必須)。今回はゲストアカウントなので解析は実行できませんが、実際には「BACK」の右側に「RUN」ボタンがあります
9. 左側にある「MENU」の「STATUS」から、解析の実行状況について確認できます
10. 実行結果から、リファレンス配列(Chromosome)とMapping結果ファイル(out.sam、下から3番目)をダウンロードし、Tablet などのViewerで結果を表示できます(ファイルサイズが大きいため、今回は省略します)

_ 解析その2(Metagenomics):MiGAP の使い方

1. 統合データベースプロジェクトページの「ツール&解析サービス」にあるMiGAPをクリック
2. 左上のバナーをクリック
3. 「Login」からOpenIDでログイン
4. 「Pipe Line」にアセンブリ済みの配列を アップロード or ペースト (Sample data をクリックすると入力ボックスにサンプル配列が入力される)
5. 入力した配列が「直鎖状」か「環状」か、「真正細菌」の配列か「アーキア」の配列かを選ぶ
6. 「Run」で計算開始
7. 計算状況は「Current Process」から確認できます
8. 「Change User Level」でユーザレベルを変えられます。Bronze = 初心者(すべてお任せ)、Silver = 中級者(プログラムのパラメータを自分で設定可能)、Gold = 上級者(解析プログラムを組み込んだりできるらしい)
9. 計算が終了すると、「Pipe Line History」から結果を見ることができます
 1. フォルダをクリックすると解析のサマリーと、各種ファイルのダウンロードリンクが表示されます(-a の付いているファイルがアノテーション付きの結果ファイル)
 2. ゲノムマップ上をクリックすると、その部分が拡大される。矢印をクリックするとORFの詳細が表示される(chrome ではORFの詳細が表示されない。FireFoxはOK)
 3. 例えば「result-aa.fasta」「result.csv」「result-a.csv」をダウンロードして中身を閲覧