広報活動

Print

2011年5月31日

独立行政法人 理化学研究所

仮想ラボセンター「SciNetS」の新たなウェブインターフェースを公開

-ライフサイエンス研究データを社会的サービスに役立てる実用化研究を加速-

ポイント

  • 公開・非公開データを統合したセマンティックウェブの検索を世界で初めて実用化
  • 従来の「URL短縮サービス」を拡張し、セマンティックウェブの機能を持たせる
  • 将来的には、健康情報活用サービスやテレワークの高度化に向けた貢献も期待

要旨

独立行政法人理化学研究所(野依良治理事長)は、知識情報を扱う国際標準規格「セマンティックウェブ※1形式」に準拠したライフサイエンス系のデータに、さまざまな情報ツールやプログラミング言語からウェブ経由でアクセスできるインターフェース「セマンティックJSON(ジェイソン)※2」を開発、2011年6月1日より一般に公開します。このインターフェースを介して取得されるデータは、パソコンやモバイル端末による自動探索に適しており、公開・非公開データの複雑なつながりをアクセス権に応じて探索することが可能で、人工知能的な技術と組み合わせてさまざまな社会的サービスに応用することが期待できます。これは、理研生命情報基盤研究部門 (理研BASE、豊田哲郎部門長) による研究成果です。

理研BASEは、生命情報の共同編さんや共有、プログラムによる活用までをすべてクラウド※3の中で行うことができるウェブ上の共同研究スペース(仮想ラボ)を提供することを目指し、2008年から仮想ラボセンター「SciNetS(サイネス)」を開発してきました。個々の仮想ラボでは、標準的な語彙を使って研究データを体系的に整理し、セマンティックウェブの標準形式で世界的に流通させることができます。また、公開データだけでなく非公開データもあわせてプログラム的に扱うことができます。しかし、SciNetSで非公開データを活用するには、アクセス権を考慮したセマンティックウェブの活用技術が必要でした。

そこで理研BASEは、セキュリティーやデータアクセス権を考慮したセマンティックウェブ検索技術を簡易なウェブインターフェースとして世界で初めて実用化し、これまでに、ライフサイエンス研究の分野でのマウス表現型※4における国際データ連携、統合データベースプロジェクト、植物ゲノムをデザインする合理的ゲノム設計コンテストなどに応用してその有効性を検証してきました。2011年5月現在、192件の仮想ラボから公開されたデータが体系的に統合化されています。今後は、基礎研究だけでなく、健康情報活用サービス※5テレワーク※6など広く社会的サービスに応用する研究を後押ししていく計画です。

本研究成果は、英国の科学雑誌『Nucleic Acids Research』の、オンライン版(6月1日付け:日本時間6月1日)に掲載され、6月1日よりセマンティックJSONが一般に公開されます。

背景

ライフサイエンスの研究活動を行う上で、遺伝子情報やタンパク質構造など大規模で多種多様なデータを体系的に蓄積した生命情報基盤は不可欠です。この生命情報基盤があって初めて、最先端技術で計測した新しいデータを真に深く理解する研究が可能になります。しかし、従来のデータベース技術では扱えるデータの種類が限られており、高度なデータ処理と統合的な解析のためには、多種多様なライフサイエンスに関連するデータを体系的に整理して提供する情報基盤が求められていました。

理研BASEはこれまでに、ライフサイエンスのさまざまなデータを格納し、同時にその関係性を体系的に整理することができる仮想ラボセンター(クラウドによる連携センター)の研究基盤を開発し、「SciNetS (サイネス、Scientists’ Networking System)」 と名付けました(図1)。SciNetSは、理研が生み出すデータの公開窓口の機能を果たすだけでなく、科学者同士を結びつけ、個別研究だけでは成し得なかった、より高度な科学的発見を積極的に生み出すための生命情報基盤として、新たな研究連携を促進する目的でも利用されています(図2)

このSciNetSにさらに求められる技術としては、ウェブブラウザで直接閲覧するだけでなく、パソコンやモバイルなどさまざまな端末のアプリケーションからプログラミング言語を使って簡便にアクセスして人工知能的な処理に応用できることなどがあげられていました。

研究手法と成果

SciNetSで管理されるデータは、世界的なデータの流通を促進し、人工知能的な技術で利活用するための標準技術であるセマンティックウェブ形式に基づいて記述されています。これらセマンティックウェブデータを、利用者が従来研究で使用してきたさまざまなプログラミング言語や情報ツールを用いて、ウェブ経由で簡便に利用するために、理研BASEは、新たなプログラミングインターフェース「セマンティックJSON (http://semantic-json.org)」を開発、2011年6月1日から一般に公開します。このインターフェースを介して取得されるデータは、JSONと呼ぶデータ形式で記述されるため、端末やプログラミング言語に依存しないデータ解析を実現します。

研究現場では、しばしば公開データと研究者が持つ非公開データとを統合させてその解析を進めることが必要になります。しかし、多数の仮想ラボごとに利用者のアクセス権が異なるため、非公開データを仮想ラボから安易に持ち出すと、その後のアクセス権を管理できずセキュリティーに問題が生じます。このため、データアクセスのインターフェースを仮想ラボ側にもたせてアクセス管理し、アクセス権の異なる複数の仮想ラボにまたがったデータ間の関係情報についても適切に取得できる技術が必要でした。

今回、理研BASEが開発したセマンティックJSONでは、twitterなどのソーシャルメディアで使われるURL短縮サービス※7に似た仕組みで、SciNetS内外にあるデータのURLを短い文字列に変換し、その文字列からアクセス権をSciNetSに毎回問い合わせることで、個々の利用者がアクセス可能なデータだけを選んで提供します。

また、通常のURL短縮サービスでは、1つのURLに対して1つの短縮URLを対応させるだけなので、短縮URLどうしの間の関係性が不明ですが、セマンティックJSONでは、1つのURLに対してさまざまな関係性情報を取得するための短縮URLもあわせて対応付けているため、セマンティックウェブの構造を反映させることができます(図3)

これにより、セマンティックJSONは、従来のセマンティックウェブデータツールにはないセキュリティーやデータアクセス権を考慮したデータアクセスを可能にします。そのため、SciNetS上にこれらの公開、非公開データを配置し、セマンティックJSONで検索すると、個々の仮想ラボの枠組みを超えて、公開データ間だけでなく非公開データ間の関連性も取得することができます。利用者はさまざまなデータの中から1つのデータを選択するだけで、それに関連する階層の異なるデータ群の中から、公開データや、利用者のアクセス権に応じた非公開のデータを個別に取り出すことができ、情報の統合的な活用を実現します。

これまでの実証研究において、理研BASEは、このセマンティックJSONをSciNetS上でプログラムを作成するツールの実装に適用しました。第1回合理的ゲノム設計コンテンスト(2010年5月24日発表)では、66名の参加者があり、ウェブブラウザ上で、理研SciNetS上のデータを用いてシロイヌナズナのDNA配列設計を行うことができました。

今後の期待

理研BASEはこれまでに、SciNetSによる研究者の連携を進めてきました。国際的には、シロイヌナズナとマウス表現型の国際データ連携において日本のデータ公開窓口を担い、国内向けには、科学技術振興機構(JST)のバイオサイエンスデータベースセンターの活動をサポートするための拠点の1つでもあります。また将来的には、SciNetSなどのクラウドを使ったテレワークへの期待も高まっています。これらの役割を担う上で、今回、SciNetSの仮想ラボから公開されたデータに対して、セマンティックJSONを介したデータの受け渡しを実現したことは、通信速度の遅い回線やデータ記憶容量の少ないさまざまな端末(パソコンやモバイルなど)からの利用を可能にした点で、大きな意義を持ちます。

今後、理研の各研究者が生産する個別データ(個人知)を、統合的に解析して体系的なデータ(理研知データ)として整理し、さらにセマンティックJSONを活用してSciNetSから公開化していくことで、各研究センターの活動と社会を情報面からつなぐ役割を担い、個人知から理研知へ、そして社会知へとデータを還元していくことが期待されています(図4)

また、これら情報技術を発展させることにより、生命情報基盤の研究開発を集中的に推進していき、将来的には、情報医療(Information as Medicine)※8や健康情報活用サービスなど、次世代医療と健康のための社会知形成へとつなげていきます。具体的には、非公開データとして取り扱われる個人の医療・健康情報と、公開データである健康知識データを利用者側の端末で統合し、自身の健康状態に即して推論された推奨情報(電子書籍など)を取得する健康情報活用サービスや、どの医療機関でも即座に自身の医療情報を提示できる「どこでもMY病院」構想※5への貢献も期待できます。

発表者

理化学研究所
生命情報基盤研究部門
部門長   豊田 哲郎(とよだ てつろう)
Tel: 045-503-9610 / Fax: 045-503-9553

お問い合わせ先

横浜研究推進部 企画課
Tel: 045-503-9117 / Fax: 045-503-9113

報道担当

理化学研究所 広報室 報道担当
Tel: 048-467-9272 / Fax: 048-462-4715
お問い合わせフォーム

産業利用に関するお問い合わせ

理化学研究所 社会知創成事業 連携推進部
お問い合わせフォーム

このページのトップへ

補足説明

  1. セマンティックウェブ
    ワールドワイドウェブ (WWW) の発展形として、英国の計算機科学者 ティム・バーナーズ・リーによって提唱されたウェブ技術。ワールドワイドウェブは、ネットワーク上に置かれた文書などのリソース間をハイパーリンクでつなぐもので、インターネット上の標準的情報基盤として爆発的な成功を収めた。しかし、ハイパーリンクは、人間がそのリンクをたどりながら文書を読み進めていくのには適しているものの、単純に2つのリソースを結びつけているだけなので、そのリンクがどのような関係付けを意味しているかは表現していない。リンクの意味については、文書に書かれた内容を人間が読んで解釈するしかなく、コンピューターが意味を認識し、高度な知識処理を行うための情報をほとんど含んでいないことがワールドワイドウェブの問題点として指摘され、ウェブにセマンティクス(意味論)を与えることが求められるようになった。セマンティックウェブでは、情報を持つ文書を機械可読な形式で提供できるようにし、また、リンクにその意味を示す値を付与することで、人間が自ら読む以上の情報を、コンピューターの力を借りて管理、活用することを目指している。
  2. JSON(ジェイソン)
    JavaScript Object Notationの略。JavaScriptと呼ぶ言語で、データオブジェクトの表記形式を基本として定義されるデータ記述言語。仕様が単純でデータ操作が軽量であることから、JavaScriptに限らず、多くのプログラミング言語でサポートされている。
  3. クラウド
    クラウドコンピューティング。多数の計算サーバやデータサーバ群の固まりを1つの巨大な仮想計算機として利用することで、大規模な情報処理ニーズを迅速かつ効率的に満たす技術。SciNetS(サイネス)ではデータ保存の分散化と、それらデータの定期的な自動編さん処理の分散化を大規模に行っている。
  4. 表現型 (ひょうげんがた・ひょうげんけい)
    個体の持つ遺伝子の変異や、ゲノムの違いなどの結果として、個体差となって現れる形質のこと。遺伝子にある変異から生じる個体の差は、遺伝子発現の違い、タンパク質の違い、代謝産物の違いという段階を経て到達する。疾患モデル動物であるマウスでは、病的な症状や行動特性の違いなどが現れるが、他の段階と違い形質の定量化が難しいため、研究室間での比較やデータベースの統一化が難しく、課題となっていた。
  5. 健康情報活用サービス、「どこでもMY病院」構想
    全国どこでも過去の診療情報に基づいた医療を受けられる「どこでもMY病院」とともに、国民が自らの医療・健康情報を電子的に管理・活用し、健康管理に取り組める環境を実現する全国レベルの情報提供サービス「健康情報活用サービス」を目指した省庁横断的な取り組み。個人の医療・健康情報を将来的に高度に活用するためには、セマンティックウェブ技術を使ってさまざまな健康知識情報と組み合わせ、人工知能的な処理を個人の端末側で行えるようにすることが必要となる。SciNetS(サイネス)は、そのための公開知識情報を全国レベルで提供するための研究基盤となりうる。
  6. テレワーク
    ネットワークを使って、職場など一定の場所に縛られずにどこでも仕事ができる働き方をいう。科学データを編纂して利用価値を高める仕事は今後ますます重要になり、高度な科学知識を持ちつつも、子育てや介護などで在宅で働かざるを得ない人々や研究の第一線からリタイアした人々に新しい雇用の場を提供することが期待されている。
  7. URL短縮サービス
    ウェブ上でリソースの位置を示すのに通常使われている多様で長いURL (Uniform Resource Locator)を短い文字列に対応付け、1つのドメイン内にマップすることで生成した短縮URLを提供するサービス。通常のURL短縮サービスでは、短縮URLの間の関係性が表現されていないため、セマンティックウェブの意味的な関係を表現することができない。これに対し、セマンティックJSONは、短縮URLの間の関係性が保持されているため、短縮URLだけを使って意味的な関係を探索することができる(図3)
  8. 情報医療(Information as Medicine)
    健康を崩さないようにするための予防医療の考え方では、本人が自覚症状を感じる前に適切な情報を適切なタイミングで提供することが重要である。この場合、情報が薬のように機能していることから、「情報薬」という用語が札幌医科大学の辰巳治之教授によって提唱されている。健康情報のデータを管理するだけなら健康管理だが、IT技術をさらに高度化することで、異常の兆しがある患者さん予備軍に対して適切な情報発信によるアプローチを行うことができる。このような先制医療において、モノとしての薬ではなく、情報としての薬で医療を行うのが「情報医療」であり、次世代医療の1つとして期待されている。

このページのトップへ

SciNetS クラウドによる仮想ラボセンター

図1 SciNetS クラウドによる仮想ラボセンター

SciNetSは、最先端計測技術で得られる生命情報資源の体系的な共有化を実現するクラウドサービスとして稼動し、ウェブ上で科学者同士を結びつけ、高度な研究活動を実現する仮想ラボラトリ(仮想ラボ)を提供する。

SciNetS上でデータ統合されている仮想ラボ群

図2 SciNetS上でデータ統合されている仮想ラボ群

桃色の丸は個々の「仮想ラボ」を表している。黄色の四角と緑色の丸は「現実の組織」を表しており、それぞれ理研センターと理研外の組織を示している。青色の線はデータ間のリンク数をその数に応じた太さで示している。また、黄緑色の線は理研総合データベースの連携関係、桃色の線はデータとそれを生み出した組織の関係を表している。

セマンティックJSONの仕組み

図3 セマンティックJSONの仕組み

セマンティックJSONは、URL短縮サービスの概念をセマンティックウェブに拡張するとともに、アクセス権の制御や検索や推論機能、そのほか、実際のデータ(DNA配列データなど)を取得する機能も備えている。

「社会的な利用に向けたデータ公開と連携の基盤(SciNetS)」

図4 「社会的な利用に向けたデータ公開と連携の基盤(SciNetS)」

SciNetSでは多数の仮想ラボを内包することができる。各仮想ラボでは研究データを単に共有する場としてだけでなく、大勢が参加する公開型研究のイベントを行う場としても使える。このように仮想ラボをカスタマイズして多目的に利用することができる一方で、そこで扱われるデータをすべてセマンティックウェブ形式で統一して扱えるのがSciNetSの強みである。今回開発したセマンティックJSONは、そのデータをより多目的に利用するためのインターフェースである。

このページのトップへ