当サイトは、Javascriptを使用しています。Javascriptを無効にして閲覧した場合、コンテンツが正常に動作しないおそれやページが表示されない場合があります。当サイトをご利用の際には、Javascriptを有効にして閲覧下さい。

2018年5月15日

理化学研究所

1分子計測のデータ同化による生体分子構造ダイナミクス

－小タンパク質が折り畳まれる際の中間構造・パスウェイを特定－

理化学研究所（理研）計算科学研究センター粒子系生物物理研究チームの杉田有治チームリーダーと松永康佑研究員の研究チームは、データ同化^[1]技術をベースとして1分子FRET計測^[2]と分子動力学シミュレーション^[3]から得られたデータを統合する手法を開発し、小タンパク質（アミノ酸残基100以下のタンパク質）がどのように折り畳まれるのかを解明しました。

本研究で開発した手法は汎用的なものであり、種々のタイプの計測データへ展開することで、複数の計測データを統合して生体分子の機能を理解するのに貢献すると期待できます。

今回、研究チームはデータ同化手法をベースに、1分子計測と分子動力学シミュレーションを統合して解析する手法を開発しました。本手法により、二つのデータを相補的に統合し、より高解像度な構造ダイナミクスのモデリングを実現しました。また、本手法を、小タンパク質折り畳み^[4]の構造変化ダイナミクスへ応用した結果、小タンパク質が折り畳まれる際の中間構造・パスウェイを特定することに成功しました。

本研究は、英国のオンライン科学雑誌『eLife』（5月3日付け）に掲載されました。

※研究支援

本研究は、文部科学省新学術領域研究「動的構造生命科学を拓く新発想測定技術」、科学技術振興機構（JST）戦略的創造研究推進事業CREST・さきがけ融合領域「計測技術と高度情報処理の融合によるインテリジェント計測・解析手法の開発と応用」による支援を受けて行われました。

また、本研究の一部はHPCI京調整高度化枠(ra000009)、HPCI「京」一般利用課題「大規模分子シミュレーションと実験の融合によるタンパク質ダイナミクス解析（課題番号：hp160022）」としてスーパーコンピュータ「京」の計算資源を用いて実施しました。

背景

タンパク質などの生体分子は、細胞内で常に決まった構造にとどまっているわけではなく、ダイナミックに揺らいだり大きく構造変化したりすることが近年の研究により、分かっています。そして、それらの経時変化（構造ダイナミクス)が酵素反応や物質輸送、シグナル伝達などに深く関わっていることが明らかになってきました。例えば、トランスポーターと呼ばれるタンパク質は、分子の形を変えて押し出す動きをすることで、薬剤などの小分子を輸送する機能を発揮します^注1）。そこで、これらの分子機能を理解するために、生体分子の構造ダイナミクスを高解像度で観測する手法の開発が求められています。

計算機を使った分子動力学シミュレーションは、分子機能を理解するための強力な手法の一つであり、生体分子おける原子レベルの解像度情報を得ることができます。しかし、分子動力学シミュレーションで用いるモデルのパラメータは完全に正しいとは限らず、現象によってはパラメータの不正確さがダイナミクスに現れることがあります。一方、近年の実験計測では、生体分子を単分子粒度で観測する技術である1分子計測という技術が開発されています。例えば1分子FRET計測という手法では、分子にラベルした二つの蛍光色素間（ドナーとアクセプター）間の距離の揺らぎを時系列データとして観測できます。これは、構造ダイナミクスを「直接」観測できるという利点がありますが、距離の時系列情報のみから分子構造を解釈しなければならないという制限があります。

以上のことから、解像度の粗い計測データと原子モデルのシミュレーションを相補的に統合させて、計測データを解釈する研究が世界規模で活発に行われています。しかしこれまで、ミリ秒（1,000分の1秒）単位の1分子FRET計測と、マイクロ秒（100万分の1秒）単位の分子動力学シミュレーションでは、時間スケールのギャップが大きいという問題があり、両者を統合することが困難でした。

注1）2018年3月12日プレスリリース「多剤排出トランスポーターの薬剤排出機構を解明」

研究手法と成果

今回、研究チームは生体分子の構造ダイナミクスを記述するために用いられている統計モデルの「マルコフ状態モデル^[5]」を導入することで、分子動力学シミュレーションと1分子FRET計測の時間スケールのギャップを埋めました。マルコフ状態モデルでは、生体分子が代表的な構造間を、サイコロを投げるように確率的に遷移すると仮定することで、構造ダイナミクスを簡単化します。簡単化することで、短時間のシミュレーションから各遷移確率を求めることにより、長時間のシミュレーションを行わなくても、長い時間の構造ダイナミクスを調べることができます。

研究チームは、分子動力学シミュレーションと1分子FRET計測データを相補的に統合したモデリングを実現するために、以下の半教師あり学習^[6]に基づいた「データ同化」スキームを提案しました（図1）。（A）まず、分子動力学シミュレーションデータからマルコフ状態モデルを構築（教師あり学習^[6]）する。（B）構築したマルコフ状態モデルを隠れマルコフモデル^[7]と見なして、教師なし学習^[6]アルゴリズムを使って遷移確率を1分子FRET計測データに合うように補正する。

これにより、構造はシミュレーションから与え、ダイナミクスは計測データを優先するモデリングが実現しました。

次に本手法を、小タンパク質（アミノ酸残基100以下のタンパク質）であるFormin-binding protein WW domainの折り畳みの構造変化ダイナミクスへ応用した結果、小タンパク質が折り畳まれる際の中間構造・パスウェイを特定しました（図2）。さらに、特定した中間構造の妥当性を評価するために、変異実験の結果と比べました。これは、タンパク質を構成するアミノ酸残基を人工的に変異させて、折り畳み速度がどれくらい変化するか観測し、そこから中間構造における重要なアミノ酸残基を推定する実験です。その結果、変異実験の計測データと提案した手法で捉えた中間構造が整合的であることが分かりました。

今後の期待

本研究で開発した手法は汎用的なものであり、種々のタイプの計測データへ展開することで、複数の計測データを統合して生体分子の構造ダイナミクスをモデリングするプラットホームになると期待できます。また、本手法を応用することで、生体分子機能の基礎的分子メカニズムの解明に寄与すると期待できます。

原論文情報

Yasuhiro Matsunaga, and Yuji Sugita, "Linking time-series of single-molecule experiments with molecular dynamics simulations by machine learning", eLife, 10.7554/eLife.32668

発表者

理化学研究所
計算科学研究センター粒子系生物物理研究チーム
チームリーダー杉田有治（すぎたゆうじ）
研究員松永康佑（まつながやすひろ）

報道担当

理化学研究所広報室報道担当
Tel: 048-467-9272 / Fax: 048-462-4715
お問い合わせフォーム

産業利用に関するお問い合わせ

理化学研究所産業連携本部連携推進部
お問い合わせフォーム

補足説明

1.データ同化
シミュレーションと現実世界とを結びつける統計数理に基づいた学際的科学、またはその技術一般の総称。
2.1分子FRET計測
二つの蛍光分子がごく近接して存在する場合、一つの蛍光分子（ドナー）からもう一つの蛍光分子（アクセプター）へエネルギーが移行する。これを蛍光共鳴エネルギー移動（FRET）と呼ぶ。FRETの効率は、主に二つの蛍光分子間の距離や角度により左右される。この原理を用いて、単分子粒度でFRETを時系列として測定し、蛍光分子間の距離等の経時変化を調べる計測法。
3.分子動力学シミュレーション
計算機の中でモデルの原子間に働く力を計算し、ニュートンの運動方程式を繰り返し解くことで、分子の動きを追跡する方法。
4.タンパク質の折り畳み
アミノ酸が数珠状につながった紐であるタンパク質が、ほどけた変性状態からコンパクトな特定の形を形成する現象。なぜ短時間で特定の形に折り畳まれるのか、物理化学的な研究の対象になっている。
5.マルコフ状態モデル
生体分子の構造ダイナミクスを、代表的な構造（状態）間の確率遷移により近似する確率モデル。構造間の遷移が過去の履歴に依らないと仮定し、長時間ダイナミクスを遷移確率というパラメータのみで近似するところに特徴がある。
6.教師あり学習、教師なし学習、半教師あり学習
状態を識別するラベルが付いているデータからの学習を教師あり学習、ラベルなしデータからの学習を教師なし学習といい、両方とも使うのが半教師あり学習である。例えば、「犬」や「猫」とラベルされた画像データから学習することは教師あり学習、画像データからそのまま学習することは教師なし学習である。マルコフ状態モデルの文脈では、ラベルとは構造状態に対応しており、シミュレーションデータはラベルありデータ。1分子計測データはラベルなしデータと見なせる。
7.隠れマルコフモデル
時系列などのデータ列（シーケンス）を出力するマルコフモデル。モデルの状態間遷移に伴って、出力シーケンスが生成されるとする。状態を直接観測することはできないが、各状態において異なる確率で出力が生成されるので、そこから遷移確率や状態遷移を推定するアルゴリズムが確立されている。

図1 データ同化スキーム

A. ステップ１：教師あり学習。分子動力学シミュレーションデータからの初期マルコフ状態モデルの構築。シミュレーションで得られた多変量の時系列データをクラスタリングし、代表構造（状態）を定義する。その後状態間の遷移をカウントし遷移確率を推定する。
B. ステップ２：教師なし学習。1分子FRET計測データを用いた機械学習によるパラメータの補正。初期マルコフ状態モデルを、計測データに対する隠れマルコフモデルと見なし、教師なし学習を適用する。

図2 計測データを同化して得られた小タンパク質の折り畳み経路

広がったアンフォールド状態からコンパクトになると同時に、中間体であるヘアピン1（左上、右上）が形成されることが分かった。また、この中間体（遷移状態）が変異実験の結果と整合的であることが分かった。