広報活動

Print

2009年7月13日

独立行政法人 理化学研究所

脳の仕組みを模倣した情報検索システムで、遺伝子研究の効率化に成功

-理研サイネスで蓄積した集合知を学習させた脳型データベースで、研究者の思考を支援-

ポイント

  • 突然変異マウスから、65例以上のヒト疾患の関連遺伝子探索研究の成功に貢献
  • イネの品種改良に役立つ、有用遺伝子の探索を効率化する統合データベースを確立
  • 生物研究の膨大な知識を学習した脳型データベース“スーパーブレイン”の創出

要旨

独立行政法人理化学研究所(野依良治理事長)は、コンピュータ上で疑似的に模倣した脳神経ネットワークに、ライフサイエンスの膨大な知識情報を学習させ、有用な情報を瞬時に想起してランキングする検索システムを開発しました。これを、病気の関連遺伝子を探索している研究者に思考支援システムとしてインターネット上で無償提供したところ、多くの成功事例にシステムが貢献していることを確認しました。これは、理研生命情報基盤研究部門(理研BASE、豊田哲郎部門長)による研究成果です。

ライフサイエンスの研究分野では、生体計測の技術が急速に進歩し、ゲノムやタンパク質に関する膨大なデータや文献情報が爆発的に増加しました。従来のように研究者がこれらの知識を自ら学習し、推論するという古典的な手法には限界がきています。このため、研究者に代わって膨大な知識を学習し、望む道筋に沿って自動的に推論した内容を提示する優れた知能化情報処理システムが必要となっています。理研BASEは、さまざまな研究者の集合知を集める情報基盤「理研サイネス※1」を使って、国際的な連携でデータ編さんした文献や遺伝子、代謝物などに関する情報を、それぞれに相当する数千万の疑似的な神経細胞(ニューロン)の結びつきに見立て、“ヘブ則※2”という学習ルールで統計的にモデル化し、GRASE法※3で瞬間的に推論検索を実行するサービスを利用者に提供しています。

この検索システムをPosMed(ポスメド:Positional Medline)と名付け、約4年間(2005年~2008年)研究者に提供したところ、理研における大規模ENU変異マウス開発プロジェクト※4でも、65例以上のENU変異マウスで変異遺伝子の同定に貢献し、国内外からも3件の成功事例が学術論文として報告され、類似の検索システムとの比較でも、正答率が高いことが第三者の研究グループの報告で明らかとなりました※5。このPosMedは、英国の学術誌『Nucleic Acids Research』のオンライン版7月1日号に掲載されました。また、この検索技術を医学分野に限らず、環境問題や食糧問題に取り組む植物研究者が、イネとシロイヌナズナのデータも検索できるように拡張したPosMed-plusが、日本植物生理学会が発行する国際学術誌『Plant & Cell Physiology』のオンライン版7月13日号に掲載されます。さらに、PosMedにより検索されたゲノムデータを詳細に閲覧するための可視化ツールOmicBrowseについても、英国の学術誌『Nucleic Acids Research』のオンライン版7月1日号に掲載され、合計3報の関連論文を相次いで発表しました。これらのツールはRIKEN Hub Database Projectから無償で公開されています。

背景

病気のかかりやすさに関連する遺伝子を見つけ出す研究や、穀物の収穫量に影響する遺伝子を探し出す研究は、人類の生存に大きく貢献する重要な研究テーマで、大きなくくりで「遺伝子研究」と呼ばれています。ヒトやイネなどの高等動植物では数万の遺伝子を持っており、その中から有用な機能を持つ遺伝子や病気に関係する遺伝子を探し出す研究は容易ではありません。さまざまな情報を組み合わせて段階的に候補となる遺伝子の数を絞り込んでいく作業では、既存の知識を総動員して遺伝子の機能を解釈する必要があります。一方、遺伝子に関するデータや文献情報は膨大化しつづけ、従来のように研究者が文献を読みながらこれらの知識を自ら学習し、研究上の推論を行うという、古典的なアプローチの研究スタイルには限界がきています。また、データベースもそれぞれ異なるデータ形式と公開方法で、ばらばらに提供されているため、研究者がデータを統合的に活用することをさらに困難にしています。このため、データベースの統合化と高度な利用技術の開発が重要になっています。特に、研究者が自らの頭脳で情報を結びつけて推論していたプロセスを、コンピュータに行わせることで、研究者の思考を支援する生命情報基盤が必要とされています。

研究手法

理研BASEでは、ライフサイエンスの膨大な情報を統合化し、研究者に有用な情報を提供するための情報システムを研究開発してきました。その結果、「研究者が望む思考パターンに沿った情報提供が可能な統合データベースシステムでは、そのデータ構造が脳の神経ネットワークの構造に類似してくる」という経験則を発見しました。その類似の理由は、恐らく、研究者の頭脳の思考様式が脳の神経ネットワークの構造に支配されているため、その思考を支援するシステムにもおのずと神経ネットワークに類似したデータ構造が必要になったのであろうと推測されます(主体規定説:認識の主体がデータ構造を規定するという説)。

しかし、従来のバイオ系データベース構築は、「記述対象の構造に基づいて、そのデータの構造も規定される」という逆の考え方が主流でした。例えば、遺伝子情報には、ゲノム上に存在する遺伝子の位置関係でデータベースの構造が規定され、代謝情報については代謝経路に沿った分子ネットワークの関係性でデータベースの構造が規定されるという考え方が常識となっていました(客体規定説:認識される客体がそのデータ構造を規定するという説)。この客体規定説では、対象とするデータの種類が少ないうちは最適なデータ構造でデータベースを迅速に作成できますが、データベースの種類が多様化するにつれ、データの構造も多様化するため、それらの統合化が困難になるという欠点がありました。

そこで、理研BASEでは主体規定説に立脚し、ゲノム情報や代謝情報、文献情報をすべて、脳神経細胞(ニューロン)のネットワークを模倣した疑似ニューロンの単純なつながりで統合化した「脳型データベース」を開発し、ライフサイエンス分野の研究者が望む情報検索の可能性について研究してきました。

まず、疑似ニューロンの構築にあたり、理研サイネスに蓄積された文献情報、ゲノム情報、表現型情報などの主要な公開データベース群から、マウス遺伝子、代謝物、薬物など約30万件のトピックを抽出して、それぞれを疑似ニューロンとしました。

また、生命科学に関する文献の要旨を集めたMEDLINE※6から、上記のトピックに関連する約1,700万件のドキュメントも、それぞれ疑似ニューロンとしました(各ドキュメントに対応する疑似ニューロンを「ドキュメントロン」と呼びます)。検索時に研究者が指定したキーワードを含んでいるドキュメントロンは、疑似ニューロンとしてアクティブな状態になり、つながっているほかの疑似ニューロンに信号を送ることで、脳の仕組みに類似した情報処理が行われます。

ドキュメントロンとほかのトピックを表す疑似ニューロンとの結びつけは正確性が要求されます。研究グループは、英文読解能力の高い海外の研究者との国際連携により、トピックごとに文献を関連づける作業を理研サイネスの情報基盤で進めてきました。この理研サイネスは、研究者の集合知を集めるための情報基盤であり、その集合知を、“ヘブ則”という学習ルールに基づいて、疑似ニューロンの統計的なつながりとして自動学習させることで、脳型の統合データベースを構築しました(図1)

こうして構築された脳型データベースを瞬時に検索する技術として、理研BASEが開発したGRASE法を適用して瞬間的に推論検索を実行可能にしました。

研究成果

この検索システムをPosMed(ポスメド:Positional Medline)と名付け、2005年11月より、主に遺伝学研究者に向けインターネット上で試験公開しました。PosMedは、ユーザからキーワードなどの検索条件を受け取ると、わずか数秒でランキングしたトピックリストを表示します(図2)。ヒトやイネなどの高等動植物では数万の遺伝子を持っています。その中から有用な機能を持つ遺伝子や病気に関係する遺伝子を探し出す際に、さまざまな情報を組み合わせて、段階的にその候補となる遺伝子の数を絞り込む必要があります。その手掛かりとなる情報をPosMedが提供するため、研究者は既存の知識を総動員して遺伝子の機能を解釈することが容易になります。現在までにPosMedが連想的に連結して提示できる情報には、ヒト・マウス・ラット・シロイヌナズナ・イネの各遺伝子や代謝物、薬物、疾病、さらに、変異体の表現型のデータベースがあります。

PosMedは、理研における大規模ENU変異マウス開発プロジェクトでも、65例以上のENU変異マウスで変異遺伝子の同定に貢献し、国内外からも3件の成功事例が学術論文として報告されています。さらにPosMedは、類似の検索システムとの比較でも、正答率が高いことが中立な第三者の研究グループによる比較研究の結果から示されました。このPosMedは、英国の学術誌『Nucleic Acids Research』のオンライン版7月1日号に掲載されたほか、この検索技術を医学分野に限らず、環境問題や食糧問題に取り組む植物研究者にも利用できるように、イネとシロイヌナズナのデータも検索できるように拡張したPosMed-plusが、日本植物生理学会が発行する国際学術誌『Plant & Cell Physiology』のオンライン版7月13日号に掲載されます。さらに、PosMedにより検索されたゲノムデータを詳細に閲覧するための可視化ツールOmicBrowseについても、英国の学術誌『Nucleic Acids Research』のオンライン版7月1日号に掲載され、合計で3報の関連論文が採択されました。OmicBrowseは、客体規定説に立脚したデータ閲覧ソフトであり、ゲノムの構造に基づいて遺伝子に関するさまざまな情報を提示し、PosMedのような脳型データベースの機能の補完するものです。脳型データベースは利用する人間(認識の主体)に“気づき”を与えるのに効果的な仕組みです。データベースを利用する研究者が、ある遺伝子(認識の客体)に気づいて注目しだすと、OmicBrowseのような客体規定説に基づくデータ可視化ツールが効果的になります。脳型データベースは、どのデータに着目すべきか悩む研究者が、データ検索をする際の入り口として利用すると効果的であり、バイオ分野の多様なデータベース群を統合的に利用するための有効な手段となることが期待されます。

発表者

理化学研究所
生命情報基盤研究部門
部門長 豊田 哲郎(とよだ てつろう)
Tel: 045-503-9610 / Fax: 045-503-9553

お問い合わせ先

横浜研究推進部 企画課
Tel: 045-503-9117 / Fax: 045-503-9113

報道担当

理化学研究所 広報室 報道担当
Tel: 048-467-9272 / Fax: 048-462-4715

このページのトップへ

補足説明

  1. 理研サイネス(SciNeS : Science Networking System)
    理研が開発したデータベース構築の共通基盤システムで、多数のデータベース公開を国際標準規格(セマンティックウエブ形式)で大規模に行うことができる、世界初のデータベースインキュベーションシステム。

    参考資料:

    2009年度アニュアルレポート
    2009年3月31日プレスリリース
  2. ヘブ則
    アメリカの心理学者ドナルド=ヘブが1949年に提唱した神経ネットワークに情報を蓄える仕組みを説明づける仮説。2つの神経細胞AとBにおいて、AとBの神経細胞が同時に活動したら、その2つの神経の結合力が強くなるという仕組みで、AとBの関係性の強さが記憶される(参考文献:池谷裕二「進化しすぎた脳」講談社)。PosMedでは、AとBの2つのトピックが同じ文中に現れた時に、AとBが共に反応し2つの神経細胞のつながりの重みづけを強くすることで学習させている。この際、AとBは、それぞれが遺伝子を代表するものや、文書を代表するものなど疑似的な数千万個の神経細胞をコンピュータ上でモデル化して学習させている。
  3. GRASE法
    数十万件の分散データベースを横断的にキーワード検索して、キーワードと関係の強いデータベースを検索するアルゴリズムのことで、これを実装した検索エンジンをGRASEと呼ぶ。

    参考資料:

    2008年3月19日プレスリリース
  4. ENU変異マウスプロジェクト
    突然変異を引き起こす性質を持つ化学物質のエチルニトロソウレア(ENU)を用い、ゲノム遺伝子上にランダムに一塩基の変異を誘発させたマウス。理研では、ヒト疾患のモデルを含む多数の突然変異マウスを開発し、表現型の解析や原因遺伝子の探索を行っている。
  5. PosMedと類似のWeb準拠の遺伝子検索サービスとの比較論文
    既知の病気原因遺伝子を検索する複数の例題において、PosMedと類似した遺伝子検索サービスであるGeneSnifferSUSPECTSを比較した結果の論文。4つの疾患(Breast cancer, Crohn's disease, macular degeneration, schizophrenia)の既知疾患関連遺伝子の再現探索実験において、PosMedの正答率は100%であった。また、ほかのサービスでも候補遺伝子として提示される遺伝子を、PosMedはより多く提示することができたことが以下の論文の図中で示された。
    Thornblad, T., Elliott, K., Jowett, J. and Visscher, P. (2007) Prioritization of positional candidate genes using multiple web-based software tools. 『Twin Res. Hum. Genet』, 10, 861-870.
  6. MEDLINE
    MEDLINE(Medical Literature Analysis and Retrieval System On-Line)は、米国国立医学図書館(National Library of Medicine; NLM)が提供する生命科学に関連する文献抄録データベース。2009年現在、米国を中心とした80カ国以上の国で出版される学術誌に掲載された 1,700万を超える文献抄録が登録されており、無料で利用できる。

このページのトップへ

脳の神経細胞ネットワークを模倣した脳型データベースの概念モデル

図1 脳の神経細胞ネットワークを模倣した脳型データベースの概念モデル

PosMedは学術論文などのドキュメントや遺伝子や代謝物などのライフサイエンスのトピックを各疑似ニューロンとし、ヘブ則に基づく共起関係でニューロンの間の結びつきを学習させた脳型データベース。ユーザがキーワードを入力すると、図1(A)層の約1,700万のドキュメントからなる疑似ニューロン(ドキュメントロン)にキーワードが伝えられる(入力部)。ドキュメントロンは入力されたキーワードがドキュメントデータ内と一致すればアクティブになり、(B)層のトピックを表す疑似ニューロンに信号が伝えられる(トピック検索部)。(B)層の各ニューロンは、(A)層でアクティブになったドキュメントロンからの信号について統計的な検定を行い、有意率が閾値を超えるとアクティブになり、(C)層のトピックを表す疑似ニューロンに信号が伝えられる(推論検索部)。次に、(C)層に伝えられた信号の強さに応じて、関連する(D)層のドキュメント数をランキングし(出力部)、そのドキュメントの内容をユーザに表示する(表示部)。この概念モデルに相当する計算処理を高速に行うための検索エンジンがGRASEである。

PosMedによる、マウス遺伝子の検索例1

図2A PosMedによる、マウス遺伝子の検索例1

キーワード「diabetes OR insulin」に関連する、第1染色体の90Mbp~140Mbpに存在する遺伝子を、関連性の高いものからランキングした様子

PosMedによる、マウス遺伝子の検索例2

図2B PosMedによる、マウス遺伝子の検索例2

PosMedで関連付けられた2つの遺伝子(トピック)間の関連性の根拠の詳細表示

このページのトップへ