JSBi Bioinformatics Review
Online ISSN : 2435-7022
Primers
生物多様性と文化へと繋がるバイオインフォマティクス
松前 ひろみ神保 宇嗣仲里 猛留畠山 剛臣大林 武
著者情報
ジャーナル オープンアクセス HTML

2022 年 3 巻 2 号 p. 88-114

詳細
Abstract

本稿では、これまで独立に発展を遂げてきた次の3つの領域を組み合わせ、新しい生物学のあり方を模索する:(1)遺伝子を中心としたバイオインフォマティクス解析、(2)生態系における個体や種の情報を扱う生物多様性情報解析、(3)生物たるヒトが生み出した文化情報の解析。従来これらの分野では異なる学術体系に基づいてデータが蓄積されてきたが、近年、分類学におけるDNA情報の利用や、ヒトの文化的形質の起源や進化の研究、人新世における生物多様性の研究から、3つの分野には互いに接点が生じている。しかし、学際的なコミュニティ等を活用してもなお、技術的・概念的な溝を埋めるのは容易ではない。そこで、これら3つの分野の関わりについて、データ連携を中心に、代表的なリソース・研究事例・課題などを俯瞰し、バイオインフォマティクスの研究者を生物多様性情報や文化の情報の世界へと誘いたい。

1.はじめに

情報学(インフォマティクス)の利点の1つは、分野を超えてデータを繋げたり、その繋がりを分析できることである。その一方で、研究領域ごとに問題設定が固有であったり、データの特性が異なるため、各々の領域に特有の情報学が発展するという側面もある。生物学を対象とする情報学においては、旧来のミクロ生物学(分子や細胞の生物学)とマクロ生物学(分類学や生態学)の各々を対象に、バイオインフォマティクスと生物多様性情報学が独立に発展してきた。しかし近年、分類学においてDNAが利用されるようになり、特に博物館を舞台として両者は急速に近接しつつある。一方、文化に関する情報学においては、博物館・美術館・図書館等の公共施設の遺産としてのデジタルアーカイブと、個々の研究グループが特定の文化的情報を解析する目的で集積したリソースという2つの側面からデータが蓄積されてきた。生物学とは距離のある領域も含まれるが、人類の進化や人新世における生態系への影響という視点においては、文化のデータもまた生物学的なデータと近接することになる。

しかしこれらの領域を独学で学び、またデータの近接点に生じた知識を解釈することは容易ではない。生物多様性の情報学である生物多様性情報学(後述)は日本では導入が遅れている。また文化のデータを解析するにも、初学者には適切な研究テーマを設定することが難しい。それは、文化の何をデジタル化・データベース化するかに加えて、研究者の文化に対する視点や解釈が適切かどうかというところから問題になる場合が多いため、その文化についての専門知識が必要とされるからである。一方、バイオインフォマティクスではデータと解析手法の共有が進んでおり、NGS解析をはじめとして比較的独学で学びやすいと言える。このようなバイオインフォマティクスの経験は、生物多様性や文化の情報学に役立つのだろうか。ミクロとマクロの生物学をつなげることでどのような研究ができるだろうか。例えば、生データの共有からデータ解析まで見据えたデータベースの設計では、バイオインフォマティクスで培われた技術やノウハウの転用も可能ではないか。データ解析においても、進化という視点から、文化と生物に共通するストーリーを見出すことができるかもしれない。

このような展望のもとに、バイオインフォマティクス・生物多様性・文化のデータ解析を実践してきた著者らが集まり、3つの情報学をつなぐ概念やキーワード、課題を、データ連携の観点から論じることにした。例えば、松前はバイオインフォマティクス(ゲノム)と文化に関する研究[1, 2, 3]、大林は同じくバイオインフォマティクス(遺伝子発現解析)と言語に関する研究[4, 5]、仲里はバイオインフォマティクス(データベース)と生物多様性に関する研究[3, 6, 7]、神保は生物多様性情報学と分類学に関する研究[8, 9, 10]、畠山はバイオインフォマティクス・複雑系[11, 12, 13, 14]に関する研究の実績がある。各々これまで個別に研究を行ってきたものの、異分野交流の中で博物館や文化のデータ解析へと興味の幅を広げ、コミュニティー内で議論をしてきた。2021年には、IIBMP2021ワークショップ「遺伝子から飛び出せ!ネオ・マルチオミックス解析の未来」で共通理解を深めた。最近、文化データ解析に関心があるという(バイオ)インフォマティクス研究者の問い合わせが出てきたため、本稿では特に既存のバイオインフォマティクスの概念を超えた視点を取り入れることで、生体分子中心であったバイオインフォマティクスを拡張していく未来を描くことに挑戦したい。なるべく理解を容易にするために日本語の文献も積極的に引用した。また本稿で紹介したデータリソースや公開形式に関する情報は、別途、一覧表にもまとめたので、そちらをご覧頂きたい。

2.バイオインフォマティクスから繋がる世界を俯瞰する

バイオインフォマティクスでは、生体分子の総体としてのオミックスデータの解析とその解析手法の構築が大きな焦点である。一般にオミックス(omics)とは、生体分子の総体を意味するオーム(-ome)に学問の意味であるイクス(-ics)が合成された言葉で、対象となる生体分子を網羅的に解析する研究分野のことである。生体分子のオームには、ゲノム(genome)、転写産物(トランスクリプトーム、transcritome)、代謝産物(メタボローム、metabolome)、プロテオーム(proteome)、エピゲノム(epigenome)などの様々な階層があり、それぞれの研究分野をゲノミクス(genomics)、トランスクリプトミクス(transcriptomics)、メタボロミクス(metabolomics)、プロテオミクス(proteomics)、エピゲノミクス(epigenomics)と言う。また未発表の実験データを解析するだけではなく、既に論文で発表されている公共データを集めて再解析し(こうした解析をメタ解析と呼ぶ)、データ駆動型アプローチ(data-driven)によって分子の機能を予測したり、アルゴリズムの開発に役立ててきた。例えば、モデル生物であるシロイヌナズナであれば、世界中の研究者がシロイヌナズナの発生・代謝・病気への抵抗性など様々な現象におけるトランスクリプトームのデータを解析し論文で報告する。論文で使用したトランスクリプトームのデータはバイオインフォマティクス最大のデータベースであるNCBI(アメリカ国立生物工学情報センター)の公共データベースに登録され、再利用可能な形になる。実際、公開されているシロイヌナズナの1,300以上のトランスクリプトームのデータセットを用いて解析してみると、個々の研究では発見されていなかった、同時に発現する傾向のある遺伝子のペア(これを遺伝子共発現と呼ぶ)を見つけることができ、遺伝子の機能予測に利用されている[15]。このようにバイオインフォマティクスでは、研究者が関心を持つ特定の遺伝子や表現型から分子の機能を探索するのみならず、メタ解析による研究も行われている。

バイオインフォマティクスが扱うのは主に分子から個体までの情報であるが、このメタ解析の技法を用いて、分子とそれより上位の生命階層を繋げることは出来るだろうか?分子は、分子の集合体である個体の振るまいに関与し、個体は個体同士による相互作用を、さらには環境因子や文化・社会などの因子と繋がっていくものである。「分子〜個体」より上位の概念となる、野外における個体の振るまい・個体間の関係性・環境要因を含んだ生態系までの情報を扱う分類学や生態学の情報学として、生物多様性情報学(biodiversity informatics)とエコインフォマティクス(生態情報学・ecological informatics/ecoinformatics)が存在する。生物多様性情報学では、生物多様性情報(データ)と呼ばれる生物個体の標本や野外での観察データを扱う。生物多様性情報における個体の情報は種名(学名)に基づいて整理されており、生態学研究においても利用価値が高い[9]。さまざまな生物多様性情報が、この分野の各種データベースに蓄積されている[16](Appendix 1)。一方、エコインフォマティクスでは、生態学に関する多様な観測データが対象となり[17]、ある区画に生えている樹木の継続的な計測(毎木調査)や動物のデータロガーによる個体追跡といった時系列的な生物観測データ、生態系における炭素循環に関する観測データなどが例としてあげられる。これらの分野の関連を整理すると、生命現象の階層ごとに異なる情報学が存在しており、その距離感もさまざまである(図1)。生物多様性情報学とエコインフォマティクスは、後述するGBIFなどの生物多様性情報データベースを中心に遺伝子レベルから生物の観測データまでをカバーしており、データ形式の互換性の向上を通じて、連携が進んでいる[9, 18, 19]。一方、個体を形成する分子情報も生物多様性情報の構成要素と捉えることができ、個別の現象を対象としたエコゲノミクスや育種において生物多様性情報とオミックスを組み合わせた研究が行われている。しかし生物多様性情報とバイオインフォマティクスの公開データを駆使してメタ解析を行うのは、データの連携が不完全な現状ではかなり難しい。

図1:生物データの重ね合わせを可能にする3つの情報学

生物のデータの階層をキャンベル生物学に基づき分類し、本稿で説明するどの3つの情報学で扱うのかを明記した。従来のバイオインフォマティクスは遺伝子~個体が中心で、生物多様性情報学は個体から群集までの層を扱う。これらは個体および遺伝情報の利用で重複しつつあるため、本来は連続して扱われるべきだと考える。灰色は本稿では扱わない分野である。物理的環境因子(大気、水、地質など)は、エコインフォマティクスで扱う。人類の歴史と活動のデータとして、例えば文化のビッグデータに対してはカルチャロミクスという造語がある。しかし、文化のデータ解析に人類進化という概念を導入することで生物階層との繋がりができると考え、それを本稿では人類情報学と名付けている。人類情報学では、文化進化における「ヒトが生み出した知識や文化が、最終的に人類や他種の進化に影響している」という仮説に基づき、個体から集団や群集の層へ繋がるものとしてここでは示した。

なぜ生物多様性情報学とバイオインフォマティクスを駆使したメタ解析が難しいのか、架空の事例を通してその可能性と課題を抽出してみたい。以前は広く生息していたものの現在は絶滅の恐れがある生物種の保全を、遺伝情報と観察情報から推定したいとする。まず、これまでの観察情報(観察記録や博物館標本)をまとめることで、この生物種には体色や採餌行動の違いといったエコタイプ(同一種内で地域特有の適応的形質が見られる集団)があり、エコタイプの観察数の違いから、保全に必要な個体数がエコタイプごとに異なる可能性が示唆された。一方、遺伝マーカーを用いた複数の研究があり、遺伝マーカーのDNA配列はNCBIに登録され、DNA配列が得られた個体の一部は、博物館で標本として保管されていることが分かった。この状況において、生物多様性データベースに登録されている観察記録と、複数の先行研究から得られる遺伝情報をまとめて、保全に必要な個体数の推定と遺伝情報を考察したい。ここで、遺伝情報が取られた元の個体の標本情報、すなわち体色などの表現型や採集地に関連する情報が、データベースに適切に記載されているかどうかが問題になる。現状、NCBIなどのフレームワークでは、DNAを抽出した元の標本に関する情報、すなわち標本の採集場所や所蔵機関などの生物多様性分野で詳細に扱われる情報は、自由記述形式でメタデータに記載される程度であり、実質的には塩基配列情報と生物多様性情報は独立のデータベースに格納されているのが現状である(図2)。もし観察情報、標本、塩基配列が適切にデータとして連結していれば、メタ解析も可能になり、博物館の情報の再利用にも繋がる。

図2:モノとコトのバイオインフォマティクス

左:実体は1つなのに異なるデータとして体系化される現状。

右:ゲノムが読まれたDrosophila melanogasterの証拠標本は、スミソニアン博物館に保管されていることを示すツイート。

標本と塩基配列のデータベース連携の問題は、ミュゼオミクス(museomics)(museum + omics)という研究領域が突破口になりつつある。museomicsは、一般に、博物館で長期間保存されていた標本を次世代シーケンサー(NGS)を用いてゲノム解析する研究を指す。標本のNGSデータは、INSDCを通してデータベースに登録され、標本番号も記載されるようになり、標本と塩基配列がセットで登録されることに繋がっている。Museomicsでは、博物館標本特有のゲノムデータに対するバイオインフォマティクスの課題(例えば劣化したDNA配列の評価指標[20]や、コンタミネーション率の推定法[21])も研究されている。現状のmuseomicsが博物館標本のゲノミクスに限定的である理由は、分解されやすい転写産物の解析など、バイオインフォマティクスが本来カバーしている他のオミックス解析は現状の博物館標本の保存状態では難しいからである。博物館標本のプロテオミクス解析も可能であるが[22]、技術的な難易度が高くゲノム解析ほど広くは行われていない。しかし、Museomicsという概念をこうした古い標本のゲノム解析に限定してしまうことは、omeが意味する総体という概念には物足りない。実際、植物園には「生きた」植物標本が植わっているし、近年では冷凍保存などより分子を保存しやすい技術の導入も検討されている。

Museomicsは、メタ解析を見据えた分子から生物多様性のインフォマティクス(さまざまなオームのデータベース)と博物館標本の研究それぞれで、標本と塩基配列をセットで扱う潮流に適合した名称であると言える。そこで筆者らは、omeの本来の意味に遡って、museomicsを博物館標本に由来するゲノム研究に限ることなく、転写産物など他の分子情報からそして生物多様性情報の研究まで、博物館をとりまくデータの総体をmuseome,その研究をmuseomicsと定義する試みも進めている[3]。博物館を舞台に情報学がミクロとマクロに分かれた生物学を繋ぐ時代がやってきたと言える。このような統合解析に加えて、近年、生態系と人類活動の影響に注目が集まりつつあり、学問の壁を越えた生物学と文化のデータの連携も視野に入りつつある。そこで文化データについて、4章で議論する。

3.オミックスデータの行き着く先に生物多様性情報あり

データ駆動型アプローチで分子から生物多様性を解析するには、生物多様性情報学の理解が不可欠である。生物多様性情報学とは、生物多様性に関するデータの生成・整形・共有と、データの解析を通じて知識を得る研究分野といえる[16, 23]。生物多様性情報は、分類群の名称(種や上位分類群の学名など)、オカレンス(標本や観察記録に基づき、「何という種」の生物個体が「いつ」「どこ」にいたのかを示すデータ)などから構成される[9]。その点においてはメタゲノムの塩基配列データに紐付いているメタデータ(サンプリングした場所や環境、そこに含まれる生物叢などの情報)が生物多様性情報であるとイメージしてもらえばわかりやすいだろう。オカレンスデータが大量に集まれば、それを集計することで生物分布の季節変化や年次変化を把握できる。ここに物理環境データ(気温、降水量、地質など)が加わることで、ある種がどのような物理環境に分布しうるのかをモデル化できる(これを生息適地推定という)。生息適地のモデルは種の保護区域の検討や外来種の侵入時リスク評価を行う際の重要な情報として、広く用いられている。このように、生物多様性情報は、保全分野、生態学、あるいは学際的分野まで、様々な研究に活用されている[24, 25]。また、生物多様性に関わる保全政策決定のための基礎情報としても重要である。たとえば、人間にとって利益となる生態系の機能を「生態系サービス」と呼び、生物多様性の経済的価値の指標とされるが、このような生物多様性の評価を実施するには、生物多様性情報をはじめとするさまざまなデータや知見が不可欠である[9, 26]。ただし、生物多様性と一口で言っても、遺伝子レベルから種レベル、生態系レベルまで複数のレイヤーにまたがっていることから、バイオインフォマティクス・生物多様性情報・エコインフォマティクスの情報を相互に組み合わせた活用が望まれる[27]。エコインフォマティクスを含む生物多様性情報が、おもに保全への観点からどのような情報やインフラを整備すべきか、具体的な提言もなされている[8, 9, 24, 25, 26, 28, 29]。このように生物多様性情報の利用は、地球規模の転換点を迎えていると言える。そこで、オミックスデータと生物多様性情報を相互利用する上で、理解しておくべきポイントを整理する。オミックスデータと生物多様性情報を結合しようと考えた場合、何のIDを使って紐付け(あるいは名寄せとも。複数のデータベースを共通のIDや標準名を使って情報を紐付けること)を行うのが良いだろうか。種名や、塩基配列を用いるというのが一般的なアプローチである。しかしこれにはいくつかの課題がある。2つの分野における生物の分類およびその体系へのスタンスの違いが、データベース連携の不一致を生じさせており、下記の3つの課題(1)オミックスデータにおけるメタデータの生物多様性情報に基づく記載法、(2)塩基配列データの相互利用、(3)オミックスと生物多様性情報の紐付けに用いる学名(種名)を軸に解説する。

3.1 オミックスデータにおけるメタデータの生物多様性情報に基づく記載法の違いと共通点

前提として、分野を超えたデータベースの相互利用にはデータ形式が標準化されていることが重要である。近年は、データに「タイトル」や「学名」などの「意味」を持たせることにより、コンピューターが自動的に情報の収集や統合を行えるようにするセマンティック・ウェブという仕組みが広く利用されており、塩基配列などの分子情報も生物多様性情報も、このセマンティック・ウェブを志向している点で共通である(特にウェブページにおける知識の書き方の規格であるRDFや、知識を分類体系に基づいて標準化しようというオントロジーと呼ばれる技術が利用されている)[30]。しかし、塩基配列と生物多様性では、異なる項目に力点が置かれてきたため、各々の設計思想を理解して利用することが求められる。例えば、NCBI GenBankには標本由来のDNA配列データの登録が増えつつあり、それに伴って標本のIDや地理情報などのメタデータも増えている[6, 7]。これらのメタデータは、生物多様性情報分野ではDarwin Coreと名付けられた生物多様性全般の語彙の標準規格でより詳細に記述することができる[31](Appendix 2)。語彙の標準規格では、それぞれの単語とその定義が定められており、これを利用してデータベースのテーブルやデータ交換形式を設計することで、データの共有が非常にやりやすくなる。Darwin Coreでは、分類群名、同定に関する情報、行動や生活史に関する情報、地理情報、地質年代、オカレンスの詳細情報などが定められており、後述するように最大級の生物多様性データベースであるGBIFのデータ標準形式の項目となっている。また、Darwin CoreではRDFとしての利用方法も定められており、セマンティック・ウェブとも相性が良い。図3では、DNA配列の標準的なレポジトリであるNCBIのGenBankにおける地理情報の記述と、Darwin Coreに基づく生物多様性情報における地理情報の記載の違いを表している。地理情報は、GenBank側が研究者による自由記述形式であるのに対して、Darwin Coreでは自治体や緯度経度に関する記載欄を分けて用意している(ただし、実際の運用では、例えば、属レベルまでしか分からないので種名が空欄になったり、保全の観点から地理情報は市区町村レベルの項目は記載しないということもありうる)。Darwin CoreはBiodiversity Information Standards(以前の名称であるTaxonomic Databases Working Groupの略称であるTDWGが現在も略称として用いられている)というコミュニティで管理・運営されている[3]。TDWGでは、標準化の会合や生物多様性情報学の研究発表をおこなう国際会議を毎年開催している。2024年にはTDWGの国際会議が日本で初めて開催される予定なので、生物多様性情報に関心のある方には参加を勧めたい。

図3:生物多様性データとオミックスデータのエントリ紐付の課題

ある生物種の同一の標本由来のバーコード配列のエントリをBOLDとGenBankで調べた例。

列目は左からBOLD、GenBank、右端はBOLDに登録されているGenBankから自動的に取り込んだエントリ。この例では、ユーザがBOLDとGenBankに二重登録しており、かつBOLDがGenBankから自動的に取り込んでいる分が重複している事が分かる。Museum IDが同一であることから同一標本由来であることが分かるが、メタデータや配列に微妙な違いが生じていることに注目。

生物多様性情報の中で最も蓄積されているのは、自然史系博物館等に所蔵されている標本データや、シチズンサイエンス(市民参加型科学)プロジェクトを含めた各種調査等で蓄積された観察データをはじめとしたオカレンスデータである。その最大の共有プラットホーム、地球規模生物多様性情報機構 Global Biodiversity Information Facility(GBIF)32, 33](Appendix 1)には2021年9月現在、18.9億件のオカレンスデータが蓄積している。GBIFはOECDの勧告によって2001年に発足し、参加国の拠出金によって運営されている機構である。国際協力に基づくデータベースという点で、NCBIや日本のDDBJ(DNA Data Bank of Japan)、欧州のEBI(European Bioinformatics Institute)が収集・提供している国際塩基配列データベースInternational Nucleotide Sequence Databases(INSD)の生物多様性版という位置付けになる。日本はGBIFの発足当初から正式参加していたが、2021年6月からは非公式の形での参加となっている。GBIFもDarwin Coreの語彙を利用したGBIF Occurence Coreというオカレンスデータ形式を採用している。Occurence Coreには、一般的に利用される項目のみが定義されており、これをコア形式(core)という[34]。一方で、項目を追加してさらに詳細に記述したいというニーズもある。GBIFでは、分野ごとに利用できる追加の語彙セットも定義しており、これを拡張形式(extension)という。たとえばOccurence Coreでは、DNAに関する情報はNCBI等の塩基配列情報へのリンクとしてしか記述できないが、生物多様性情報学でもDNA情報を用いるようになってきた現在、シークエンスの詳細などの情報も記述できるようにすることが求められてきた。そのため、最近ではDNAサンプル情報を記述する拡張形式も定められた[35]。この拡張形式で定義されている項目の多くはGenBankなど塩基配列のデータベースで広く用いられている標準規格 Genomics Standards Consortium(GSC)[36]がDNA配列に関して記述すべき最低限の情報(チェックリスト)として定めた語彙であるMIxS(Minimum Information about any (x) Sequence[37])に準拠しており、GenBank等と記述を共通化することでデータ連携が容易になる(Appendix 2)。GBIF以外のデータベースでは、主に昔の書籍・図鑑・図版をスキャンして公開しているBiodiversity Heritage Library、各生物種のさまざまな情報(学名、写真、生息地、寄主植物、寄生者など)を集めたデータベース Encylcopedia of Lifeが有名である(Appendix 1)。

3.2 塩基配列データの相互利用とその課題

前項で塩基配列と標本をセットにするきっかけとして、博物館標本のゲノム解析としてのmuseomicsの動向を説明した。museomicsにおける博物館標本の利用には、進化史を復元することを目的としたゲノムワイドな解析と、分類学や生態学においてDNAバーコーディング(後述)を利用した生物種の同定を目的とした解析が含まれる。特に後者において、塩基配列と生物多様性情報の相互利用が配列データと標本(データ+モノ)の集積と連携によって始まっている。DNAバーコーディングとは、DNA配列を使って生物種を同定することで、その同定に用いる配列をDNAバーコードという。DNAバーコードは、分類群によって利用する配列が異なる。動物であればmtDNAのCOI領域、植物では葉緑体のrbcLとmatK、菌類はrRNAのITS領域、細菌では16S rRNA領域を対象に収集されている。DNAバーコードも含めた塩基配列に基づく種の同定は、そのDNAバーコードを取得した証拠標本の同定結果によって担保される。そこでDNAバーコードのデータベースでは、原則として、塩基配列と同定情報を含む証拠標本の情報を実データとしてセットで集積する。言い換えるならば、これまで各々の分野で塩基配列と証拠標本はどちらか片方が主体で、もう片方が補足的なデータとして扱われていた(データベース毎に塩基配列と標本の間に主従関係があったと言える)。しかし、DNAバーコードの登場により、ミクロとマクロ、あるいはデータとモノを並列に扱うことができるようになったのである。主要なDNAバーコードのデータベース・管理環境として、Barcode of Life Data System(BOLD)[38]や、菌類ではUNITE[39]が知られている(Appendix 1)。BOLDやUNITEでは、ユーザが自身で取得したデータを管理することができ、最終的にそれぞれのデータベース上で公開できる。さらに、BOLDとGenBankの間ではデータの取り込みの形で連携が始まっており、BOLDの証拠標本のデータはオカレンスデータとしてGBIFに登録されている[40]。ここだけ見れば、分子と生物多様性情報のメタ解析は容易にできそうな印象を受けるかもしれない。

しかし、分子と生物多様性情報の統合は過渡期であり、データの齟齬により、ある配列が本当にその生物に由来するのか解釈に困るケースや、標本のIDの機械的な紐付けが難しくなるケース[41]などがある。例えば、研究者がBOLDとGenBankそれぞれにバーコード配列を登録していたところ、のちにGenBank側がBOLDのデータを取り込み始めたため、重複エントリが生じてしまうというのは、データの齟齬が生じる典型的なケースである(図3)。2つのエントリを比較してみると、BOLDは標本情報が充実しており、GenBankは配列がメインであると言える。GenBankの方が種名まで記載されているケースが多いため有用そうに見えるが、分類学的な観点から精査すると、塩基配列に記載された種名が誤同定のケースや、最新の分類体系に基づく学名と合致しないケースも少なくない。例えば、鮮魚として人気が上昇している金目鯛は、実はキンメダイ(Beryx splendens)、ナンヨウキンメ(B. decadactylus)、フウセンキンメ(B. mollis)の3種が市場に出回っている(学名については魚類の学名典拠を参照[42])。特にキンメダイとフウセンキンメは外見が酷似しており、両者が同種とみなされていた時代もあった。そのため、DNAの研究でも、現在はフウセンキンメと同定される個体から決定したDNA塩基配列が、キンメダイのものとして登録されていることもある[43]。こうした状況を知らない他の研究者が、DNA情報のみに基づいてキンメダイの資源管理や生態調査を行おうと考えた場合、データベース上の「キンメダイと名付けられているが明らかにフウセンキンメと一致する変な配列」の取り扱いについて頭を悩ませることになる。しかし、塩基配列を取得した証拠標本に遡ることができれば、魚類の専門家により形態から同定結果を再検証できる可能性が生まれる、すなわち、「変な配列」の解決と再現性の担保が可能となる。こうした同定の精度の問題は非モデル生物のデータを扱う際には必ずつきまとうため(同定に関心があるならば[44]がお勧めである)、再同定のための仕組みが必要になる。また証拠標本が残されていれば単に再同定に留まらず、最新の手法を用いてオミックス解析を行うこともできるだろう。従って、同定の担保となるDNAを抽出した証拠標本は、博物館等の長期保管施設で保管されるべきであり、実際、BOLDから標本情報を公開する際には、所蔵機関の情報が必須である。近年、さまざまな動植物のゲノム配列を解読するEarth BioGenome Projectが進行しつつあるが、このプロジェクト中でもゲノムを読んだ個体は標本として博物館に保管することが推奨されている[44]。現在用いられている標準的なバーコード領域とは別に、オルガネラや核の全ゲノムの配列がDNAバーコードとして用いられ、かつ証拠標本と紐付くケースが増えれば、GenBankのデータの利用性が向上すると考えている。

3.3 オミックスと生物多様性情報の紐付けに用いる学名(種名)の課題

データベースに記載されている塩基配列と種名の関係は、誤同定により一致しない可能性があることを述べた。実はもう一つ留意しなければならない根本的な問題がある。それは、種名などの分類体系は変わり得るため、そもそも種名で紐付けするのは容易ではないということである。一般に、種の学名は、属名種小名(植物等では種形容語)の二語からなるが、属の範囲が変わることにより属名が変わったり、異なる属との組み合わせで表記されることはしばしばある。たとえば、樹木のサクラのなかまは、サクラのみを含む狭義のCerasus属として扱われることも、より広くモモやスモモなども含むPrunus属のCerasus亜属として扱われることもある。身近な生物の例だと、キイロショウジョウバエ(Drosophila melanogaster)の属名についての議論が話題となった[45]。ショウジョウバエ属(Drosophila)は1,400種以上が属しており、あまりに巨大であるために亜属を属に格上げするなどして分類を整理する動きがある。しかし、キイロショウジョウバエはDrosophila属のSophophora亜属に含まれるため、亜属を格上げすると学名がSophophora melanogasterに変更されてしまう。また、本種を含めバイオインフォマティクスの扱う多数の種で種名の変更を余儀なくされるだろう。そのため、実際に今後このような提案がなされた場合、大きな議論が巻き起こることが危惧される。また、種は1個体の標本(担名タイプ標本)が定義となり、それと同種とみなせる範囲を一つの種とするが、その範囲は研究が進むにつれ変わってくる。例えば、ある種が2種に分割されたり(隠蔽種)、ある種と別の種が同種にされたりする。実際、実験生物としても用いられるメダカ(ニホンメダカ)は、2012年にミナミメダカ(Oryzias latipes)とキタノメダカ(O. sakaizumii)に分割されている[46]。菌類のように難培養性で、生活史によって見た目や分離される場所が異なるようなことが一般的な生物種では、これまで別種として分類されていた種が、塩基配列によって同一種として認められるようなことも起きている。こうした研究により学名は変わる。特に菌類では、以前の命名規約では1つの生物種にテレオモルフ(有性型)とアナモルフ(無性型)の2つの名前をつけることが許されていたが、2011年の国際藻類・菌類・植物命名規約の改訂に伴い、1つの名称で統一されることになった。これは多くの菌類の名称に影響を与える[47, 48]。このように種名の変更は時に学術的に大きな混乱を招く可能性もあるが、DNA情報を生物多様性情報と紐付けるためには避けて通れない課題でもある。

種名は変わり得るという上記の例から分かるとおり、生物多様性分野では分類体系の取り扱いは複雑である。同じ分類群でも分類学者によって学名の解釈や採用する分類体系が異なることもあり、それを反映して、実体としては1つの分類群であっても、さまざまな分類体系を記載したデータセットが混在することもある。生物多様性分野では、分類群毎に存在する複数の分類体系のデータセットを連携させてまとめ上げようという動きとしてCatalogue of Life(COL)というプロジェクトがある。GBIFはCOLと連携するとともに自らも分類群名のデータセットを収集しており、これらを紐付けして構築したオリジナルの分類群目録(GBIF Backbone Taxonomy)に基づいて、膨大な生物多様性情報の分類体系を整理している(Appendix 1)。

このような生物多様性分野の分類体系とその動向を、オミックスデータで参照される種名のデータベースであるNCBI Taxonomy(Appendix 1)に反映させるのは容易ではない。そもそもNCBI Taxonomy自体は、配列データのない生物種等は収載されないため、分類の参照体系としては不完全である。実際、NCBI Taxonomyに収載されているのは全生物の約10%である[49]。その上、NCBI Taxonomyに収載されている生物種であっても、分類の専門家や専門家グループによる最新の分類学的な情報ラベルが反映されるとは限らない。

それゆえに生物多様性情報とオミックスデータの紐付けを種名で揃えようとするとリンク切れや、同じ属名の生物種にヒットするといった課題が生じる(例えばBacillusという属名は、枯草菌とナナフシの両方にある。このような場合、界がわからないとどちらを指すか特定できないことがある)。配列データから証拠標本やオカレンスデータに辿り着けない恐れ(あるいはその逆)がある。今後、バイオインフォマティクスにおいても、配列データの由来となった標本の同定精度と網羅性を担保するには、各分類群の事情に詳しい専門家による学名や同定の妥当性の検証が求められるかもしれない。学名は、学問分野で生物を指し示すラベルの標準であり、膨大な知見が既存の学名に紐付いて蓄積されてきた。一方で、1つの学名が指し示す種の範囲は研究成果などの解釈によって変化する動的な存在であり、学名自体も命名規約的な手続きなど様々な理由で変化しうる。NCBI taxonomyは、バイオインフォマティクス分野における学名の一貫性を担保する役割を果たしてきたが、生物多様性分野との連携を進める際には分類体系に対する取り扱い方が異なるため、機械的にデータを連結できないという課題をもたらしている。このように分類学分野ではDNAも活用した種レベルの分類学的再検討や分類体系の再構築という課題に直面しているが、ショウジョウバエのケースのように分子生物学やバイオインフォマティクスも分類学の影響を大きく受けるため、分類体系の取り扱いはオミックスと生物多様性を超えた課題である。

3.4 塩基配列のグルーピングによる種の候補

そこでDNAバーコーディングでは、代替案として新しい概念が導入されている。その概念とは、ある程度の配列類似性をもった塩基配列をグルーピングすることによって認識されたクラスタを「種の候補」としてIDをつける試みで、すでに実用化されつつある。例えば、BOLDではBarcode Index Number[38]、UNITEではSpecies Hypothesis[50]が導入されている。特にUNITEがカバーしている菌類は上述の通り人間が気付きにくい生活史をもった種が多く、93%以上の種が科学的には未発見・未記載とされるため[51]、塩基配列によるグルーピングは有効ではないだろうか。このようにデータ解析においては、分類に関する新しい概念の利用も一つの方向性ではないかと考える。事実、NCBI Taxonomyには、Proterorhinus sp. BOLD:EUFWF4948-19のように、BIN IDを種名のように登録したデータが多く登録されている。GBIFにも、BOLDからBINと種名の対応関係がリストの形で提供されており、GBIFの種名検索を利用して種名に対応するBINを確認できるほか、BINそのものも種名のように検索できる[52]。塩基配列によるクラスタはDNAバーコードの利用が主流であるが、ゲノムサイズが小さく単細胞のバクテリアなどでは、種分類の指標として全ゲノム配列の類似度の指標であるAverage Nucleotide Identity(ANI)を用いたり[53, 54, 55]、さらにはシングルセルシーケンシングと呼ばれる技術で環境微生物においても1細胞1ゲノムを決定できるようになっている[56]。現在、DNAバーコードを用いている分類群においても、全ゲノム情報をどのように分類体系に反映させるかは、いずれ向き合わないといけない課題である。塩基配列に生物多様性情報が紐付いていれば、観察情報や表現型などの情報を集約して別の指標を決めることができるかもしれない。従って、オミックスと生物多様性情報を集約する技術的な課題を乗り越えながら、将来オミックス情報を生物多様性の理解にどのように使うのか、両輪で考えていくと発展性がある領域であると考えている。

4.ヒトの文化や行動を理解する

ここまで、ミクロとマクロの生物学を繋ぐ話題について述べてきたが、この章では生物学と人類学をつなぐデータ連携について述べる。

4.1 文化を解析する

文化の定義は研究者によってさまざまであり一様ではない[57, 58]。例えば考古学でよく用いられる定義の1つとして(道具、装飾品、埋葬儀礼、住居形態などが)「規則的に関連した形質の複合体を、文化集団あるいは単に文化とする」という定義がある[58]。また生物学としてヒトの特徴を研究する自然人類学[59]では、Cavalli-SforzaとFeldmanらの「文化とは(様々な種類の)学習によって得られる非遺伝的な形質」という定義もある[60]。また後述する文化進化と呼ばれる領域の代表的な書籍の1つで日本語化もされているメスーディの「文化進化論」では「模倣・教育・言語といった社会的な伝達機構を介して他者から習得する情報」という定義もなされている[60]。いずれの定義にしろ、このような文化の形質は、交配(遺伝)を経ずに情報として他者へ伝搬できる特徴があるため、本稿では文化をある種の情報として捉える。ダーウィンは『人間の由来』でヒトや動物の文化・行動に着目し、例えば、言語も生物と同じように漸進的な変化を経ているのではないかと考察した[62, 63]。2021年は『人間の由来』の出版から150年の節目にあたり、文化の進化や社会の進化を対象とした研究の振り返りが多くなされた[64]。現代では、ヒトや動物の文化がどのように進化するのか(生物同様に伝搬・変異・継承・収斂などのメカニズムがあるか)といったテーマを文化進化cultural evolution)と呼び、関連する研究分野は人類学・認知科学・心理学・言語学・数理生物学・行動経済学・考古学など多岐にわたる[61, 64, 65]。例えば、文化の伝搬を数理モデルで解析する研究、乳幼児の言語や認知能力に関する発達を実験から分析する研究、動物の文化的行動に関するフィールドでの観察や実験室での行動実験などがある。一方で、生物と文化両方のデータを用いて、生物と文化の(進化的)関係に着目する研究もあり、本稿で着目するデータとしての文化と生物の接点となっている。しかしデータ上は連結可能であったとしても、実際の研究にあたっては、人類進化や文化進化に関する知識、平たく言えば、ヒトが進化の過程でどのように文化を発展させてきたかについての背景知識が欠かせない。詳細な説明に入る前に、まず、文化データと生物データに基づく研究を整理すると、人類進化の時間軸に沿って、ヒトの文化的能力の進化と、文化の進化に二分できる(図4)。

図4:進化の時間軸で二分したGene-Culture Relationshipsの研究テーマ例

(1)ヒトの文化的能力の起源と進化に関する研究は、ヒト系統の研究と、動物の比較研究に分けた。

(2)ヒトの文化の進化に関する研究を3つに分けた。3. 文化の多様性とその歴史では、言語学の事例が多い。その理由としては、①音・文字・手話などの記号化体系が既に存在する、②自然言語処理のように定量解析を行う分野があるため言語資源がデータベース化されている、③言語機能(脳や音声器官、ジェスチャー等)の研究では生物学と近く、学際的な研究をしやすいといった理由が考えられる。

1つ目は、ホモ・サピエンス的な行動・社会・文化に関連する認知能力・遺伝的基盤を獲得した進化史の研究である。ヒトの文化の根幹には、言語を通じたコミュニケーションがあるため、言語機能の獲得と文化の進化は強く関係している。言語機能獲得の研究においては、マウスモデルを用いるアプローチには限界があるため、人類学、認知科学、幼児期の言語獲得、言語障害など、言語の多様な側面に基づく言語進化学がある[66]。またヒト特有の機能・現象の理解という観点では、ヒトの疾患や健康を進化の観点から分析する進化医学と呼ばれる分野もある[67]。ヒトの文化や行動の理解には、比較対象としてモデル生物に限らない動物の文化や行動の研究も同時に重要である。画像解析・観測技術等の向上により動物行動のデータ解析も進んできているのでオミックス解析のデータと連携ができれば、冒頭で示したとおり、メタ解析の裾野が広まるだろう。

文化と生物の関係についてのもう1つの区分は、ヒトが基本的な認知基盤を獲得した後の進化や歴史に関するものである。このタイプの研究はさらに3つのパターンに分けられる。1つ目は、ヒトが生み出した文化が、ヒトに対する自然選択の圧力になったと考えられるケースである。顕著な例は、乳糖耐性の変異の拡散と牧畜文化の関係である[68]。こうした研究では、文化と関連している遺伝型と表現型が分かっていれば、ClinVarのようなヒト表現型や遺伝型に関するデータベースが自然選択の検出などに使える可能性がある(Appendix 1)。

2つ目は、社会構造の進化、例えば、家族形態や社会構造の歴史を解明しようとする研究である。こうした研究は、ヒトに留まらず、非ヒト霊長類や鯨類など複雑な社会性をもつ動物も研究の対象としているが、本稿では、特にヒトとの関連に焦点を当てて説明する。他の霊長類と比較すると、ヒトは数千人以上といった大規模かつ多様なコミュニティを形成できる(町や会社、学校なども含む)。近年では遺跡から出土した人骨のDNAを分析することで、このコミュニティの変遷、すなわち、同一の墓に埋葬された人の血縁関係や、その地域の遺伝的背景と社会構造の関係を調べることができる[69]。過去のコミュニティ内部および他のコミュニティ間の遺伝的関係性は、人類の社会がどのように進化してきたかを理解する上で重要である。例えば、集団生活をする霊長類の大半は、母系社会(繁殖可能になったオスが外の群れに移動し繁殖に貢献すること)で、ヒトに近い霊長類であるチンパンジー・ボノボ・ゴリラは父系社会(繁殖可能になったメスが外の群れに移動し、外の群れで繁殖すること)である[70]。しかし、現在知られている世界の民族集団では父系社会が多いものの、母系社会も存在する。また現代の先進国では母系・父系といった概念が薄れてきていることからも分かるとおり、人間社会では、他の霊長類に比べて性別による移住に強い決まりがあるわけではない。婚姻形態もチンパンジーとボノボが乱婚的であるのに対して、ヒトの社会では一夫一妻・一夫多妻・多夫一妻と多様である。このようなヒトの社会の進化に取り組む研究も含まれる。

3つ目は文化の変遷と、その文化をもつ民族集団の遺伝的歴史の関連を調べる研究である。その典型例は「DNA配列のように時間経過と共に語彙には一定の変化が生じる」という発想に基づいた言語系統解析を、DNAデータを用いた民族集団の集団遺伝学解析と組み合わせるものである。通常、言語系統解析では基礎語彙を用いる。基礎語彙とは、身体の部位などの外来語になりにくい語彙のことである。この基礎語彙の共有を指標に言語を言語族という単位に階層的に分類でき、言語の変遷を捉えるのに有効である。欧州の言語の大半はインド・ヨーロッパ語族に属するため、語彙のデータベース(Appendix 1)を用いて系統樹を描くことができる。欧州各国を出身とする人々のゲノムと居住地の地理的距離の間には関連が知られており[71]、さらに言語史との関連を調べる研究が盛んに行われている[72, 73, 74]。しかし語彙を使った言語と遺伝子の関係を調べる研究が出来るのは、世界の言語のごく一部にすぎない。基礎語彙の系統解析は基本的に言語族内の関係性しか説明できないが、世界には7,000以上の言語が知られており、それらは400以上の言語族として分類される[75]。そのため基礎語彙に基づく手法では言語族内の解析に留まってしまう。一方、東アジアから北太平洋沿岸部は中国語・韓国語・日本語・アイヌ語など言語族が異なる言語がひしめいている。欧州に比べて言語の歴史と遺伝的な歴史の関係は定性的な議論が中心となっていた。例えば、昨年の話題として、遺伝学・言語学・考古学のデータを統合し、日本語の起源を解明したとする仮説[76]が話題になった。この論文は語彙に基づいて議論を進めていた。しかし、本稿執筆時点(2022年9月)では、語彙データの取り違えや不適切な統計解析など、手法の定量性と結論の両方に対して大きな疑問を呈するpreprintが投稿されており、語彙の定量的な分析の難しさを物語っている[77, 78, 79]。そこで、語彙以外の言語の要素に目を向けると、世界の文法要素はデータベース化が進んでおり(Appendix 1)、さらに文法は語彙に比べて変化が保守的であるという仮説がある[80]。最も分かりやすい文法要素の例は、日本では英文法の授業でお馴染みの語順である。読者が知っているとおり、日本語の語順は主語―目的語―動詞(Subject-Object-Verb; SOV)で英語はSubject-Verb-Object 主語―動詞―目的語(Subject-Verb-Object; SVO)であると教える。実はこのS-O-Vの組み合わせは、言語によって大きく異なり、特定語順を取らない場合も含めると7つの組み合わせを取り得るが、実際には地理的な分布の偏りをもつため、何らかの歴史的経緯があると考えられている[81]。文法要素の種類は多く、動詞が過去形を持つか(過去形を持たない言語もあるし、過去形を「近い過去」と「遠い過去」で分ける言語もある)、接頭辞と接尾辞のどちらが多いかなど、言語間の関係を推定するのに利用できると考えられている。これらの文法要素を適切に変数化することで、1座位につきA/T/G/Cの4変数を取り得るDNA情報(SNPs)と比較できるようになる[2](図5)。筆者の一人(松前)は、ゲノム解析と同じように、文法要素も距離行列のデータ形式に揃えて統計解析を行うことで、東ユーラシアでも言語族とゲノムの間に有意に類似性があることを見出している[1, 82]。

図5:文化データと生物データのマッチング例

検証したい仮説があると解析のフレームワークが構築しやすい。できることならば、データをコード化する時点で、最終的に比較したいデータと同じデータ形式に落とし込めるようにデータをデザインするのがベストである。(Matsumae et al, Sci. Adv. 2021)では、文法の場合、個々人が話す文法の差を見るわけではなく、各言語毎に最初から変数の値を定めることができる。例えば、一般的に日本語はSVOである。日本語話者の中でA氏が話す語順はOVSだが、B氏はSOV、C氏はVSOで話す、といったバリエーションは起こりにくい。逆に言うと、バリエーションがない部分がその言語(方言)の骨格とも言える。言語が一定のルールをもつ理由は、(1)相手との相互コミュニケーションを成立させるためには規則が固定している必要があること、(2)ヒトは同じ話し方をする人に対しては同じコミュニティに属すると感じることがあり、言語規則はコミュニティ内で固定する傾向がある(これを言語の社会的機能という)、といったことが考えられる。一方で、文化でもバリエーションから集団の代表値を求めたい場合はSNPs型のデータ形式にして解析することも可能である。国毎の民謡の特徴の計算では、例えば、日本のさまざまな種類の民謡に対して歌1種類を行情報(1個体)とし、歌1つにつき音楽学的な41要素の変数を列情報(アリル)として扱うことで、集団間の民謡の距離を計測した(Savage et al, Ethnomusical Forum, 2015; Matsumae, et al, Sci Adv, 2021)。

文化には生物のような進化メカニズム(変異・継承・伝搬などの法則性)が存在すると考える文化進化の研究に対して、単純に文化のビッグデータ解析を culturomicsカルチャロミクス;culture + omicsの造語)と呼ぶこともある[83, 84]。また本稿で注目する生物のデータと文化データの紐付とその解析という点では、人類の進化という実際に起きた過去の出来事に着目して解釈する点も相違点と言える。文化の定義で紹介したCavalli-Sforzaは、“Genes, Peoples, and Languages”という著書を1996年に出版し、日本では「文化インフォマティックス」という邦題で翻訳された[75]。この書籍では、遺伝子と言語の関係性についての話題が中心であり、当時は遺伝データが得られるようになり始めたころで、文化データもデータ量が少なかった。そこで筆者は、Cavalli-Sforzaの文化に対するデータ解析という基本的なアイデアを引き継ぎつつも、現代ではヒトの遺伝子と文化の関係にとどまらず、生物学のデータと文化データを統合的に解析し解釈する研究が可能ではないかと考え、生物と文化のデータを用いた研究をanthropological informatics(人類情報学)と名付けている(図1)。

4.2 文化はどのようにデータベース化されるのか

前項で文化を生物進化と関連付けて解釈する事例を紹介した。このように文化や社会のデータを使った研究は伸びしろの大きい分野である。しかし、ゲノムや遺伝子発現データと異なり、研究しようとする文化的現象が既にデータとしてデータベースに格納されている(データベース化)とは限らず、それどころかしばしば文化のデータを構築するところから取り組む必要がある[85]。そこで本稿ではそれらの流れを、デジタル化・コード化(coding;後述)・データベース化の観点から説明する(図6)。ところが対象を適切にデータベース化するには、その対象の特性を熟知している必要があり、初学者にはハードルが高い。作物のデータベースを作ろうと思ったら、品種の形質について熟知していないとデータとして何を閲覧出来るようにしたらよいのか分からないのと同様である。一方、既にデータベース化されている文化的現象についても、データの解析や解釈においては分野ごとの作法も存在する。著者らの経験では、用語や文章表現から、論文の形式・カバーレターの書き方に至るまで、生物学とは何らかの慣習において大きな違いがあると感じた。そのため、文化データを使った研究では、各分野の専門家に協力を仰ぐことが必要で、多角的な検討が欠かせない[86]。

図6:生物と文化におけるデータの作られ方の違い

生物でも文化でも、生データをデジタルデータ化から始める場合もあれば、アナログの資料(文献・音源など)から専門知識に基づいて研究者が重要な要素を選び出し、コード化から始める場合もある。またコード化を行わないこともある。しかし、生物に比べ、文化ではコード化の段階において抽象的概念の扱いがより重要となる。

まず文化データの受け皿として、文化のデータベースの動向を概説する。一言で文化のデータベースと言っても、人類学・言語学・考古学など個別の分野で構築されたデータベース[83]と、GLAM:美術館(Galleries)・図書館(Libraries)・公文書館(Archives)・博物館(Museums)のデジタルアーカイブとして構築されてきたものがある(Appendix 1)。デジタルアーカイブとは、様々な知的資源の情報をデジタル化・データベース化して利活用可能な形で公開する動き、およびその資源を意味し、1990年代半ばに月尾嘉男・東京大学教授(当時)によって提唱された造語とされている[87, 88]。デジタルアーカイブは厳密には複数の定義があるため関心があれば、[87]を参照して貰いたい。特に人文系の資源とその研究についてはデジタル人文学/digital humanitiesと呼ばれる分野がある[88, 89]。公的機関を出発点とする大規模なデジタルアーカイブに比べると、個別分野のデータベースは、例えば特定の研究者が特定の要素に着目してデータを集めたものが多い。また個々の研究グループが構築したデータベースであっても、近年ではバイオインフォマティクス同様に、データの永続性や公共性を鑑みて、データベース間の連結を踏まえたデータベースを開発しようという動きも見られる。例えばAppendix 1に挙げられた文化に関するデータベースのうち、マックスプランクが開発しているデータベースは、デジタルアーカイブのように公共性を意識した設計がなされている。

このように文化のデータベースには歴史的経緯による違いがあるものの、いずれも文化を“データ”にする上で必要となる基本的な概念や技術は共通しており、大規模なデジタルアーカイブを中心にデータの標準規格の開発などが進められている。そこで以下の項目では、文化のデータ解析を行う場合に、共通する基本的な概念や技術について解説する。まず、文化データ解析を行いたいと考えた時に、対象としたい文化のデータベースがないということがしばしば生じる。このような場合、文化データ解析は文化をデータとして統一的な形式に落とし込むこと、すなわちコード化(coding、記号化)から始まり、それが最初の難関になる(図6)。文化のコード化では、機械的にアナログデータをデジタル化するだけではなく、そこから一歩踏み込んで、データの特徴を反映する鍵となる情報を抽出することができる。無形文化財(舞踊、劇、儀式様式など)のコード化であれば、生データのデジタル動画を取得するだけではなく、例えば、手足の動きなどに一定の「型」のような様式がある場合、これをどのようなデータ形式に落とし込むか検討することも対象となる。動画に対してキャプションなどテキストで記載することもできるだろうし、モーションキャプチャーなどのセンシング技術による測定も可能である。こうした試みは音楽でも行われている。例えば、民謡のメロディをDNA配列になぞらえて音楽の進化を分析した研究[90]や、世界の歌を様々な音源から集めてその音楽的特徴をコード化したCantometrics/CantoCoreという手法がある[91, 92]。ここでのコード化とは、元のメロディや歌詞そのものではなく、一例としては、日本の民謡に存在する「こぶし」のような歌い方の特徴量の有無をバイナリ変数(0/1)・カテゴリ変数などを使って記述することを指す。また特定の楽器の形状などを表現型情報のようにコード化して分析した研究もある[93]。ただし、中にはコード化が難しい情報もある。例えば、行動の中に埋め込まれているような経験的知識や形式化・言語化が難しい知識/情報:例えば自転車の乗り方のような手続き的知識である。一方、有形文化財であってもコード化が一意に決まらないことがある。例えば、絵画のモチーフを定義するときに、羽根がついた幼児をキューピッドとするのか子供とするのか研究者によって見解が分かれるかもしれない(図6)。そこで分野や切り口ごとにコード化が進められている他、絵画の素材やモチーフに対する横断的な語彙目録であるGetty AATが提案されている(Appendix 2)。Getty AATには、美術様式・材質・作成技術などの様々な分類体系が含まれている。このように文化データは生物のデータと比べてより抽象的な概念を含む。そのためコード化を行った作業者や研究者の視点が反映されやすく、客観性を高めるために一定の基準を用いてコード化するなどといった手順も提案されている[85]。コード化が課題になる場合、一次資料(生データ)の共有も適切であろう。一次資料に関して、言語資料などでは録音データの公開が進んでいる他(例えば日本ではアイヌ語の音声コーパスがある(Appendix 1))、画像データとその注釈(後述のIIIFとTEI形式)の共有手法の開発も行われている。

大規模なデジタルアーカイブは公共施設を中心にオープンデータ化が進んでいる。デジタルアーカイブのデータは、Dataverse、re3data、Zenodoなどの公共レポジトリ(Appendix 1)で公開されることもあるが、自前でデータを抱えている機関も存在し、データ形式が統一されていない。そこでWikidataのようにLinked Data(セマンティック・ウェブの技術を用いたデータ表現手法)の概念に基づいた記述体系の一本化も進められている[30]。Web上のリソースに関するメタデータの語彙の標準規格Dublin Coreが1995年に提案され、Dublin Coreは文化財やデジタルアーカイブに関するリソースの記述にも用いられている[94](Appendix 2)。実は、前述した生物多様性に関する語彙の標準規格であるDarwin CoreもDublin Coreを参考にしており、ライセンスや言語などを記述する語彙はDublin Coreのものをそのまま採用している。Linked Dataに基づいた代表的なリソースとして、EUの予算を中心に運営されている、欧州の文化遺産の情報を統合的に検索できるポータルサイトEuropeanaがある(Appendix 1)。日本でも、文化データを中心とした多様なコンテンツの公的横断検索ポータルであるジャパンサーチの構築が、内閣府や国会図書館の主導のもと、博物館や自治体等の協力により進められており(Appendix 1)、こちらもLinked Dataによるデータ提供をサポートしている[95]。個別のコレクションでは、例えば、ムギ類や雑穀類の起源と農耕文化についてフィールドワークを行った植物遺伝学者・『阪本寧男フィールド写真データベース』といったものも存在する(Appendix 1)。

文化のデータベース化にあたっては画像が重要な資料であることが多いため、その公開手法としてInternational Image Interoperability Framework(IIIF/トリプルアイエフAppendix 2)の採用が標準となりつつある。文化遺産におけるIIIFの活用・導入例は[88, 89]などで紹介されているので関心があれば参照して欲しい。IIIFは画像の相互利用を容易にするもので、複数のデータベースを横断し、画像のリスト化・比較・切り取り・注釈等が可能になっている。顔貌コレクションは、美術史研究を目的として美術作品に出現する顔の部分を切り取って集めており、精力的にデータ構築が進められている[96, 97](Appendix 1)。また古文献に対してテキスト本文に段落・人名・地名などの注釈をXMLでつけられるようなTEIという形式も存在し[98]、日本では大蔵経テキストデータベース(SAT)がTEIを使用した代表例である(Appendix 1)。TEI形式は注釈と、撮影された古文献自体の画像のIIIFを連結できる特徴がある。IIIFの利用は生物画像の公開でも今後、基幹技術になると考えられる。生物学においては、国立科学博物館がIIIFを用いて、南方熊楠の図譜や矢田部良吉の科学史資料をIIIFを用いて公開している(Appendix 1)。さらに、一般にこうした科学史資料は、博物館のガラスケース内で手稿を公開したとしても見開き1ページしか閲覧できないなど実際の展示室では紹介しきれないことが多い。そこで、IIIFを利用した電子展示システム(展示会のように、博物館資料の画像を用いつつテーマに沿って紹介するウェブサイト)を作成することで[99]、両氏の科学史資料を体系的に閲覧出来るような電子展示も公開している[100, 101]。このように文献資料では、物理的な展示に比べ、画像として公開する方が情報量が格段に増えるため、画像データの利用は増えている。

さらに近年では立体物に対して3Dデータベースの構築も行われている(Appendix 1)。ただし写真に比べると3Dデータは、様々な課題があるため、現時点では大規模な博物館や美術館が試験的に取り入れているケースが多い。その課題とは、まず写真と比べて測定技術の種類が複数あり、統一されていないことが挙げられる。現在主流の測定法には、写真から3Dデータを構築するフォトグラメトリ、内部まで観測可能なX線CT、外形をスキャンし点群データに落とし込むレーザー計測などが存在し、その精度やコストもまちまちである。著者の1人である松前の研究チームが使用しているレーザースキャナは、1台数百万円とデジタルカメラに比べて高額である。また写真に比べファイルサイズが大きくなるため、ストレージを要する。さらに公開形式が整備されておらず、データ形式が多様であること、IIIFでの標準的な仕様が未決定であること、学術的な共通規格に基づいて登録や公開ができる公共データベース(レポジトリ)​​が整備されていないといった課題が挙げられる。そのため、大英博物館など著名な博物館・美術館は、商用の3D/ARプラットフォームであるSketchfabに収蔵品の3Dデータを公開しているケースがある(Appendix 1)。

文化のデータ解析における注意点を挙げる。現在にしか残らない文化であっても、古文献など過去の資料が残る文化であっても、生物学における絶滅種の取り扱い、すなわちある形質をもつ化石が見つかっていない場合、本当にいなかったのか、単に化石が見つかっていないだけなのかを区別するのが困難であるのと同様に、網羅性の観点から利用に注意が必要である(図6)。また文化データの解析には一般的な統計解析の他、分子進化や集団遺伝学における解析技法が利用されることもあるが、文化進化は生物進化と同じ原理で起きているとは限らないことに注意が必要である[61](図7)。例えば、生物進化では世代間で変異が蓄積するが、文化ではこうした進化の様式に縛られないことがある(図7-8)。ヒトでは1世代の間で、累積的に技術改良が蓄積され、子孫のみならず周囲の個体に伝わることもある。遺伝子の継承に対して文化の発達は遥かに早く、ヒトに対する自然選択に文化が影響しているという仮説もある[102]。文化進化が長期的に遺伝子レベルでヒトにどのような影響を与えたかについては、前述の乳糖耐性などの少数例を除くと、現在の遺伝学では検証するのが難しい。行動遺伝学は個人の行動に対する遺伝と環境要因の関係を対象にしているが[103]、環境要因の中から文化的因子を抜き出してその長期的な影響を検出できるかどうかは、その文化的因子がどのくらい前から影響していたのか、など不明瞭な点が多くチャレンジングな課題といえる。また文化が置換する例として、使用言語が置き換わる言語転換(language replacement)も遺伝データと言語データの重ね合わせからアプローチできる研究対象である。前述の通り、ヨーロッパではインド・ヨーロッパ語族が地理や遺伝と関連して分布しているが、言語転換が起こるとそうした連続性が途切れる。そのため、遺伝情報を用いると、ある地域の民族集団同士は遺伝的に近縁だが、異なる言語族の言語を使用しているという例が観察できる(詳細は[104]Chapter 19 “Genes and Culture”)。

図7:既存史料から文化史を解析する上での注意点

過去の文化データの網羅性に注意するべきである。過去に存在した全ての史料のうち、現存する史料は一部に過ぎない。史料が現代まで残っているかどうかは、その史料の価値のみならず、偶然や社会の在り方にも大きく左右される。従って、現在残されている史料だけで過去を遡ると、解釈にバイアスが生じる危険性がある。例えばこの図では、X国とY国の文献の歴史を示している。現存する文献から、X国で見つかる文献はア~ウの3種類に分けられ、そのうち文献ウが主要なタイプで、文献アと文献イはマイナーなタイプだと考えられていた。しかし、歴史を遡ると、中間時代1では逆転し文献アの祖先の方が文献イより主流であった。最終的にオリジナルの文献の種類は異なっていた。A-Cに具体的な進化の例を示した。

A)同じ発見・発明が同時期にX国とY国で独立で生じるような、並行進化が起きやすい。

B)ある史料は複数の祖先をもつ。文化は生物よりも網目状に進化しやすいと考えられる。

C)文化の置換例。現存する文献から見ると、Y国にはX国のタイプしか存在しないので、Y国はX国の系譜を受け継いでいるように見える。しかし歴史の実体は、Y国にはオリジナルの書籍が存在したが、文化の置換により消滅していた。外から持ち込まれた文化に、既存の文化が完全に置換されることは植民地化などでも頻繁に生じる。

生物の系統解析は全てのノードが同一祖先に由来することを前提にしているが、このように文化はそのルールに従わないケースが多いと考えられるため、分子進化や集団遺伝学の手法を用いる場合には、手法の妥当性を考慮すべきである。

図8:ヒト1世代の間に進化する文化

灰色枠内は、紫色で示された個人・Aさん1世代の時間で、文化が変わりうるかを架空の例で示した。この時間軸の中でも個人の移動手段が乗馬から外来の自転車、バイク、車へ変わるようになり、同じ社会に属する人々にもこうした文化は広まる。Aさんの子どもであるCさんが生まれた頃には、皆が車やバイクを使う社会になっており、Cさんが馬の乗り方を習ったり、車の作り方を学ばなくても、新しい乗り物を使うことができる。つまり車輪の再発明をしなくとも、既に存在する文化に相乗りすることができる。このように、ヒトの個体の世代に縛られず漸進的に文化が改良されていくことを累積的文化進化といい、累積的文化進化こそが動物にはない人類進化の大きな特徴だと考えられている。

以上のように、データベース化が発展途上である文化のデータは、文化をデジタル情報と扱い、データベースを構築すること自体が1つの研究になりうる。文化のコード化は共通技術を用いているものの、「何をどうコード化するのか」という視点と、コード化された文化の解析には、研究の主軸がデジタルアーカイブなのか、それともカルチャロミクスや文化進化かどうかで、必要となる知識が異なってくる。文化進化は生物学的な解釈がしやすい利点があるが、進化生物学全般、とりわけ人類進化を深く理解することが求められる。データ解析のしやすさという観点では、言語学のように、分野の中で記号化の基準がある程度定められており、情報科学(自然言語処理など)や生物学(脳科学や自然人類学など)との親和性の高い分野が比較的参入しやすいと考えられる。また生物画像の解析の経験があれば、デジタルアーカイブの画像データを使った解析もやりやすいだろう。前述の通り、既存のデータベースを利用する場合、文化は抽象的概念をコード化しているものが多いため、利用にあたっては設計思想を理解しておくと良い。

5.オミックス、生物多様性、文化の関わり

ヒトの文明と人口爆発は、他の生物を絶滅に追いやることもあれば、逆に感染症・有害動物(害虫・害獣)・作物・家畜・益虫のように特定の生物の拡散に寄与することもあり、生物多様性と環境を大きく変える(図9)。そこでヒトの影響により地球規模で生態系が大きく変わった地質年代を新たに人新世(Anthropocene)と区分することが国際地質科学連合(IUGS)にて提案されている(なお人新世の開始時期については、人類の農耕の開始時点から第二次世界大戦後までの幅広い時点が検討されている)[105]。文化進化における生物データと文化データを用いた研究テーマにも文化と生物多様性に関するトピックが存在する。代表例は、農耕/言語拡散仮説(Farming/language dispersal hypothesis)で、これは現在の言語(とその話者)の分布は、人類史における農耕文化の拡散と関連があるという仮説である[106]。これは農作物を主要な食糧供給源とする社会では食糧供給が安定し人口が増大するため、農耕文化が発達する過程において、農耕民が話していた言語が農耕文化と共に拡散しやすい(これには農耕を始めた民族集団の人口が増えた結果その言語の話者が純粋に増える場合と、農耕を取り入れた他の民族集団が自分たちの言語から農耕民が使用していた言語に言語転換する場合の両方が起こり得る)という仮説である。現在、古代ゲノム・栽培化植物や家畜などのゲノム解析を組み合わせた農耕/言語拡散仮説の検証は大きな研究テーマの1つである。特にDNAシークエンサーの発達により、従来は解析が難しかったムギやヒエなどの倍数化植物のゲノム解析が進んでいることから[13, 14]、文化が生物多様性や生物進化に与えた影響についても今後の展開が期待できるだろう。現在、農耕/言語拡散仮説に関して、遺伝子、言語と個別に進めた解析結果について学際的に解釈する形式が一般的であるが[76, 77]、今後はヒトゲノム解析、穀物/家畜ゲノム解析、言語解析を同一のデータ形式で統計解析ができるような統合的な解析方法の枠組みが必要である。

図9:農耕を例にした分子・生物多様性・文化の3つのデータの関係性

ヒトに由来する文化データを生物学的データに取り込むことで、(1)ヒトの生物学的な歴史と文化の関係および(2)生態系とヒトの関係が浮き彫りになる。

生物との重ね合わせに関して、文化のさまざまな特性に合わせたデータ解析を考案していくことが求められる。言語学では、近年、多数の言語に対応したデータソースが利用可能になっているため、豊富な言語資源を用いて生物との関連を探る研究もできるだろう。例えば、借用が少ない基礎語彙は言語族内の系統関係に基づいた歴史を反映する傾向があると考えられている一方で、借用語などに注目すれば系統関係を超えた情報の発信と受容の歴史を反映していると考えられる。そこで、Google Trendsを用いて、Googleで検索された文字列の絶対数、言い換えるならば単語利用の地理分布を提示し、そこから語彙の受容傾向の地域差が解析されている[107]。またWikidataは多言語コーパスとして利用可能で、これと生物種のオカレンスデータを組み合わせることで、動物の名前の地理的起源を推定する試みを筆者の一人(大林)が行っている[4]。言語以外の文化と生物の関係であれば、日本全国の遺跡のデータベースと哺乳類の地理的分布を重ね合わせて統計的に分析することで、多量の薪や炭を使用する製鉄が行われていた地域では、森林伐採の影響を受けやすい小型哺乳類の地理的分布に変化があったことを示した研究がある[108]。

ヒトに限らず、動物の文化の情報は生物多様性・保全・文化進化の観点から研究対象になるため、データの結合は有効である。例えば、シャチは地理よりも採餌行動の違いや方言、すなわち文化によってエコタイプに分けられることが知られており、生態学と文化進化の両方の観点から注目されている[109, 110]。モデル生物に限らず様々な動物の文化や行動を理解することは、ヒトの進化の特異性を浮き彫りにする。もし生物多様性や文化進化の領域で蓄積された行動・文化に関するデータに、遺伝子のデータが結びつけば、保全への応用に加え、文化と遺伝子レベルの進化の関係など、データ再利用の幅が広がる。しかし、現在のDarwin Coreでは、behaviorという行動を記載する項目があるものの、その内容は「​標本・観察データが記録された時の個体の振る舞い​」、例えばアゲハチョウがミカンの葉の上で産卵中といった内容を念頭に置いている[112]。今後、生物多様性情報でも動物の文化やエコタイプに関して詳細な記載ができるようになることが期待される。さらに踏み込んで生物多様性のあり方がヒトの身体および精神面の健康に与える影響も議論されている[113]。例えば、住環境における緑の豊かさが健康に与える影響や、アレルギーの増加と工業化や生物多様性の関係(生物多様性仮説;biodiversity hypothesis)が議論されている。このように、著者らは個別に発展してきたオミックス、生物多様性、文化のデータが繋がる可能性を見出している。もしも3つのデータの重ね合わせに関心があれば、各分野の理解に加えて、情報科学や統計学の知見も必要になってくるだろう。

6.データアクセスと倫理

生物多様性情報や文化データにもその利用に関して倫理問題がある。例えば希少種の写真をジオタグ付きでSNSにアップロードするなど、採集地を特定できる情報を公開することで、希少種が乱獲され問題になることがある(図9)[10]。そのため、生物多様性情報は完全なオープンデータにできない場合もある。また文化データの利用に当たっては著作権など知的財産権の他にも、個人ゲノム情報同様に倫理面に注意する必要がある。それは言語や文化は、個人や民族集団のアイデンティティ・尊厳を形成する重要な要素だからである[86]。実際、文化の倫理について、ユネスコでは一定のガイドラインを提示しており、例えば無形文化財について見てみると、文化の多様性やアイデンティティの尊重なども含まれている[114]。特に植民地主義的な研究手法として批判されるヘリコプター研究は文化のみならず、生物学においても課題である[115, 116]。ヘリコプター研究とは、ある国の研究資源について、より裕福な国の研究者が地元の研究者らを含めずに自国の予算や研究機器を用いて研究を行い、論文を発表をしたり特許を取得するなど研究成果を独占することである。端的に言えば、徒歩や車でアクセスできない密林の奥地まで一気にヘリコプターで飛来し、貴重なサンプルを採集してそのまま自国に持ち帰って研究室で解析するような事例をイメージすると良いだろう。特に最新技術など莫大な予算を投じないとできない研究では、富める国がより多くの知識を独占するという構造が生まれ、植民地時代の再現に繋がっているという批判がある。生物資源を利用した際の原産国への利益還元については、生物多様性条約のもとでABSAccess and Benefit Sharing)「遺伝資源の利用から生じた利益の公正で衡平な配分」[117]が掲げられており、その手続きは2010年に採択された名古屋議定書で定められ、2014年に発効した。研究においても、各国の国内法や各種国際条約とあわせ、ABSの遵守が必要である。現在、ABSの対象とされるのは、生体試料(その一部やDNAそのものも含む)と、後述する伝統的知識である。しかし近年はMinION(オックスフォード・ナノポア社が開発したUSB接続可能な手乗りサイズのシーケンサー)やBento Labo(Bento Biowork社が開発した遺伝子実験に必要なPCR装置、電気泳動槽、遠⼼分離機、トランスイルミネーターが掲載されたカバンに入るサイズの実験装置)などのポータブルな研究機器の登場もあって、現地で得られた遺伝子配列までカバーすべきという議論もなされている。NCBIやDDBJでは、2022年末を目処に、登録される遺伝子配列にサンプリングされた場所と時期の情報を記載することを必須にすることを計画している[118]。これは生物多様性情報に紐づいた遺伝子配列が増えたことによることもあろうが、ABSに代表される原産国への配慮という側面もあると言えよう。ABSは経済的利益に重きを置いた提案であるが、その対象には生物資源に関する先住民の伝統的知識も含まれており、人間の尊厳の根幹に繋がる文化研究でも、倫理面の配慮が求められる。ABSとデータ共有の問題は現在進行形で議論が進んでいる課題であるため、本稿で詳細は言及しないが、もし関心があれば、国立遺伝学研究所ABS学術対策チームがABSに関連した各国の情報を頻繁に発信しているので確認すると良い(https://www.idenshigen.jp)。

図10:稀少生物の情報アクセスについての掲示

近年では、SNSに情報をアップしないように自治体などが告知を出すこともある。写真のジオタグを削除しても、映り込んでいる地形や植生から推定できてしまうこともある。東京都某所にて筆者撮影。

Appendix 1:データリソース一覧
データ データベース名 URL 概要
分子 International Nucleotide Sequence Databases (INSD) https://www.insdc.org/ NGSなどのハイスループットシーケンスデータ公開レポジトリ。アメリカのNCBI、日本のDDBJ、欧州のEBIでそれぞれデータを相互交換している。
NCBI GenBank https://www.ncbi.nlm.nih.gov/genbank/ NCBIが提供するINSDの塩基配列レポジトリ。
NCBI ClinVar https://www.ncbi.nlm.nih.gov/clinvar/ ヒトゲノムの変異とその健康(疾患)との関連性に関する情報。
生物多様性 Biodiversity Heritage Library (BHL) https://www.biodiversitylibrary.org/ 主に著作権保護期間が終了した書籍・図鑑・図版をスキャンして公開したデータベース。
Global Biodiversity Information Facility (GBIF) https://www.gbif.org/ 生物多様性情報を利活用するための世界的な共有プラットホーム。分類群名、オカレンス、サンプリングイベント(生物観測データ)を収集し、特にオカレンスデータ数は各種データベースで最大。
Encyclopedia of Life (EOL) https://eol.org/ 各生物種の特性に関する情報(学名、写真、生息地、寄主植物、寄生者など)を集めたデータベース。複数の分類体系の比較も可能。
種名を比較するには
分子 NCBI Taxonomy https://www.ncbi.nlm.nih.gov/taxonomy NCBIで公開されている配列データベースに含まれる全ての生物の分類情報。2021年12月現在、全生物種名の10%程度をカバーしている[50]。
生物多様性 GBIF Backbone Taxonomy https://www.gbif.org/ja/dataset/d7dddbf4-2cf0-4f39-9b2a-bb099caae36c GBIFで用いられている分類情報。
Catalogue of Life (COL) https://www.catalogueoflife.org/ 全分類群に属する生物種名について、世界中の分類学者からの情報を集約したデータベース。
バーコード配列のデータを比較するには
分子 NCBI GenBank https://www.ncbi.nlm.nih.gov/genbank/ 遺伝子配列のデータベース。アノテーションされた情報も含む。BOLDやUNITEとの重複エントリに注意。
生物多様性 Barcode of Life Data System (BOLD) https://www.boldsystems.org/ 分類群ごとのDNAバーコードの国際データベース。配列で認識されたクラスターを種の候補として分類する“Barcode Index Number”も提案。
UNITE https://unite.ut.ee/ 菌類に特化したDNAバーコードの国際データベース。
形態ではなく、配列で認識されたクラスターを種の候補として分類する“hypothetical species”も提案。
研究データ全体
一般的なレポジトリ Dataverse https://dataverse.org/ 研究データを共有、保存、引用、調査、分析するためのオープンソースのウェブアプリケーション。ハーバードの社会科学系の研究所が開発。
re3data https://www.re3data.org/ 様々な学術分野の研究データリポジトリを網羅したレジストリ。ドイツの研究グループが中心となり開発。
Zenodo https://zenodo.org/ ビッグデータとオープンデータのためのデジタルライブラリ機能をもつレポジトリ。CERNが開発。
さまざまな文化データ
言語 Automated Similarity Judgment Program (ASJP) https://asjp.clld.org/ 世界中の言語について、40の共通語彙を集めたデータベース。Glottolog、WALSと同じマックスプランク研究所のチームが中心に開発。
AUTOTYP https://github.com/autotyp/autotyp-data WALSなど複数のデータベースを用いて、世界の言語の文法・音素データを体系化したデータセット。
Ethnologue https://www.ethnologue.com/ 世界の約7,000言語について話者数・分類などを集めたキリスト教系非営利団体によるデータベース。現在は有料。
Glottolog https://glottolog.org/ 世界の方言・言語・言語族名のデータベース。ASJP、WALSと同じマックスプランク研究所のチームが中心に開発。
ISO https://www.iso.org/iso-639-language-codes.html 国際標準化機構ISOには言語名の規格も存在する。世界の主要な言語に対してISOのコードが振られているため、言語系のデータベースではISOのコードを用いてデータベース同士の共通項を抽出することがある。
Google Trends https://trends.google.co.jp/trends/ Googleの検索結果を時系列や共起関係で比較できる。
World Atlas of Language Structure (WALS) https://wals.info/ 世界の言語の特徴(文法・音素・語彙)を多数の専門家のキュレーションにより体系化したデータベース。可視化もされている。2022年2月現在、ASJP、Glottologと同じマックスプランク研究所のチームが中心に開発。
アイヌ語口承文芸コーパス―音声・グロス付き― https://ainu.ninjal.ac.jp/folklore/ 1970年代後半から80年代にかけて録音されたアイヌ語の音声資料。日本のアイヌ語研究者らが、日本語および英語訳に加えて、注釈をつけて公開。
人類学的観点に基づく文化データベース D-PLACE https://d-place.org/ 世界の民族についての地名・言語・文化・環境に関する過去の資料をコード化し集約したデータベース。例えば、伝統的にどのような手段で食糧を得ていたのか・婚姻形態に関する慣習などを文献から集めたもの。
eHRAF https://ehrafworldcultures.yale.edu/ehrafe/ イェール大学の文化人類学の研究組織Human Relations Area Files(HRAF)が管理しているオープンソースのデジタルコレクション。文化や社会生活を網羅する民族誌コレクションを収録している。
Pulotu https://pulotu.com/ 東南アジアや太平洋諸島部のオーストロネシア語族の137グループについて信仰と慣習に関するデータベース。
Seshat http://seshatdatabank.info/ 文化進化に関するデータバンク。主に、世界の社会的複雑性の進化を分析する目的で、収集・整理されたデータ。
Useful Tools for Cultural Evolution Research https://coevolution.fas.harvard.edu/useful-tools-cultural-evolution-research ハーバード大学人類進化生物学の教授であるJoseph Henrichによる、文化進化研究に用いることの出来る有用なリソースのリンク集。
デジタルアーカイブ Europeana https://www.europeana.eu/en ヨーロッパの文化遺産のデジタルコレクション。利用目的は研究に限らず、教育や趣味でも閲覧しやすくなっている。テキスト、画像、音源、動画、3Dデータなどを含む。
JAPAN SEARCH(ジャパンサーチ) https://jpsearch.go.jp/ 日本の書籍・公文書・文化財・美術・人文学・自然史・理工学・学術資産・放送番組・映画など、様々な分野のコンテンツのメタデータを検索・閲覧・活用できるプラットフォーム。国立国会図書館がシステムを運用。
Wikidata https://www.wikidata.org/ Wikipediaの課題であった、どの言語でも参照可能にすることを目指した共同編集型の構造化データベース。
顔貌コレクション http://codh.rois.ac.jp/face/ 美術作品に出現する顔の部分を切り取って集めたデータベース。
国立科学博物館 IIIFデータセット https://iiif.kahaku.go.jp/list/ 国立科学博物館によるIIIF公開試行ウェブサイト。現在は、日本の近代植物学の父である矢田部良吉の資料および南方熊楠の菌類図譜を中心に画像で公開している。
国立科学博物館 剥製3Dデジタル図鑑“Yoshimoto 3D” https://yoshimoto.kahaku.go.jp/3d/ 国立科学博物館が所蔵する哺乳類の剥製標本ヨシモトコレクションの3Dモデルデータベース。
阪本寧男フィールド写真データベース https://app.cseas.kyoto-u.ac.jp/sakamoto/ 阪本寧男(京都大学名誉教授、植物遺伝学)のフィールドノート・写真のデータベース。
大英博物館 3Dコレクション https://sketchfab.com/britishmuseum 大英博物館の3Dコレクション。2022.05.09現在、古代エジプトの石像など274点の3Dモデルが公開されている。公開プラットフォームは商用サービスのSketchfabである。
奈良文化財研究所のデータベース https://www.nabunken.go.jp/publication/index.html 奈良文化財研究所が提供している、様々なデータベース。生物学との関連としては、遺跡のデータベースは野生動物と遺跡の地理的分布に関する研究に用いられた(Fukasawa &Akasaka, 2019, Sci. Rep)他、3D Bone Atlasでは遺跡から出土する動物骨を同定するため、現生動物の骨格標本の3Dデータを提供。
大蔵経テキストデータベース(SAT) https://21dzk.l.u-tokyo.ac.jp/SAT/ 大正新脩大藏経テキスト部分85巻の史料画像と全文検索サービス。
Appendix 2:データ形式・語彙集・環境に関するリスト
名称 URL 規格団体 概要
分子 データ形式 Minimum Information about any (x) Sequence (MIxS) https://www.gensc.org/pages/standards-intro.html Genomic Standards Consortium (GSC) DNA配列に関するメタデータを記述するための最低限の情報を定めた標準規格(チェックリスト)。
生物多様性 語彙集 Darwin Core https://www.tdwg.org/ Biodiversity Information Standards (TDWG)
(旧称 Taxonomic Databases Working Group)
生物多様性情報に関するデータの記録と交換のための標準語彙集およびガイドライン。
データ形式 GBIF Occurence Core https://www.gbif.org/data-quality-requirements-occurrences GBIF GBIFがDarwin Coreの語彙を用いて独自に定めたオカレンスデータ形式。
文化 語彙集 Dublin Core https://www.dublincore.org/ DCMI 文化に関する標準語彙集。
語彙集 Getty AAT https://www.getty.edu/research/tools/vocabularies/aat/ 芸術(絵画や人工物、建築物を含む)の素材やモチーフに対する横断的な語彙目録。
環境 International Image Interoperability Framework (IIIF) https://iiif.io/ The IIIF Consortium (IIIF-C) 画像の相互利用を容易にする公開環境。ドメイン横断で画像のリスト化・比較・切り取り・注釈等が可能。
文化データでの利用が盛んだが、今後、生物学のデータでも利用が増えると見込まれる。
謝辞

本稿を執筆にあたり、IIBMP2021ワークショップ「遺伝子から飛び出せ!ネオ・マルチオミックス解析の未来」の講演の演者である亀田尭宙氏(国立歴史民俗博物館)にはデジタルアーカイブについての情報提供を頂いた。国立科学博物館の中江雅典博士には、魚類の分類に関する情報を頂いた。また本稿で扱った幅広い内容について、根気強く多数のコメントや改善点を示唆してくださった査読者2名に感謝する。本総説は、科研費20H05013、21H04358、JST創発的研究支援事業JPMJFR206O、Swiss National Science Foundation(Out of Asia project: Linguistic Diversity and Population History, Number:183578)、Indo-Swiss Collaboration in Biotechnology、東海大学総合研究機構プロジェクト研究の支援を受けたものである。図に用いた一部のイラストはTogoTV(©2016 DBCLS TogoTV / CC-BY-4.0)・いらすとや・Wikipediaの画像を利用した。

References
 
© 2022 日本バイオインフォマティクス学会

This article is licensed under a Creative Commons [Attribution-NonCommercial-ShareAlike 4.0 International] license.
https://creativecommons.org/licenses/by-nc-sa/4.0/
feedback
Top