理化学研究所(理研)環境資源科学研究センター 環境代謝分析研究チームの岡田 真幸 研修生、朱 文睿 人材派遣職員、天本 義史 客員研究員、菊地 淳 チームディレクターの研究チームは、データ駆動型アプローチ[1]による高分子材料の新規設計に寄与する手法論(方程式の創出法)を構築しました。
本研究成果で得られた知見は、紙おむつなどで使われる水を抱える材料(ハイドロゲル)の設計をデータ駆動型アプローチに変換し、ワンヘルス[2]の実現に寄与することが期待されます。
高分子材料は、分子の3次元ネットワークの複雑さ故に物理方程式だけではその物性を予測することが困難です。本研究では、ハイドロゲルの機能のうち重要な膨潤(ぼうじゅん)[3]とリガンド相互作用[4]に焦点を当てました。時間領域核磁気共鳴法(TD-NMR)[5]、多重共鳴核磁気共鳴法(多重共鳴NMR)[6]と呼ばれる分析手法のデータ、およびRDKit分子記述子[7]データなどを取得し、機械学習の一手法であるシンボリック回帰[8]を実施することによって、機能に関係する要素を用いた明確な方程式を導き出すことに成功しました。この方程式には、水分子だけでなく、高分子鎖の運動性という重要な新規要素が含まれていました。これにより、多種多様なデータに基づき、ハイドロゲルの複数機能を同時に満たす合理的な設計を迅速に実施できる道が開かれました。
本研究は、科学雑誌『ACS Materials Letters』オンライン版(11月6日付)に掲載されました。
データ駆動型アプローチによるハイドロゲルの設計方程式創出プロセス
[Editageの協力により作成]
背景
新しい高分子材料を迅速に創出することは、ワンヘルスやプラネタリーヘルス[9]の実現に不可欠です。従来のプロセスは、研究者が科学的原理(物理方程式など)から一つ一つ仮説を立てて検証する「演繹的(えんえきてき)アプローチ[1]」(図1右)を用いて取り組まれてきました。しかし、演繹的アプローチでは材料創出の時間とコストが多く必要です。そこで新たなアプローチとして、機械学習・人工知能技術を用いた「帰納的アプローチ[1]」(図1左)が期待されています。菊地チームディレクターらのこれまでの研究でもこのアプローチを採用しました注1)。
図1 帰納的アプローチと演繹的アプローチ
機械学習の活用により、多種多様で大量の実験・分析データから得た知見を根拠とした材料設計が可能になる(帰納的アプローチ)。帰納的アプローチは理論やシミュレーションによる演繹的アプローチを補完できると期待されている。
研究対象としたハイドロゲルは、膨潤だけでなく、リガンド相互作用を付加価値として付与されることがあります。これらの能力を有するハイドロゲルを新規設計する際、従来の理論からさまざまな原料をどのような比率で混ぜ合わせればよいかを予測することは非常に困難です。現状は研究者が何度も試作とテストを繰り返しています。そこで本研究では、この課題を解決するためにデータ駆動型アプローチを用いて、迅速な設計に寄与する方程式の創出方法を構築することを目指しました。
- 注1)2018年9月12日プレスリリース「AIで世界最高精度の化学シフト予測を達成」
研究手法と成果
研究チームは、機械学習にハイドロゲルの機能を学習させるために欠かせない多種多様なデータを収集するために、複数の分析技術を使用しました。その中心となったのがNMRで、TD-NMRによる分子運動情報を抽出し注2)、さらに多重共鳴NMR法によるリガンド相互作用解析を行いました(図2)。多重共鳴NMRでは安定同位体標識ペプチド溶液を用いて、2種類の異なる視点を持つHSQC[10]とHNCO[10]と呼ばれる測定プログラムを使って測定しました。これによって、ハイドロゲル水溶液に添加した安定同位体標識ペプチドが、高分子鎖とどのように相互作用しているかといった、肉眼では決して見ることのできない「分子の振る舞い」を数値データとして捉えることができました。他には、ハイドロゲルの熱特性を調べることができる示差走査熱量測定(DSC)[11]と呼ばれる技術や、ハイドロゲルのRDKit分子記述子も活用し、サンプルに関する各種データを集めました。
図2 TD-NMR運動性解析と多重共鳴NMR相互作用解析
TD-NMR法は1H核を検出し、高分子材料中の分子の運動性を非破壊かつ迅速に測定することが可能な技術。多重共鳴核磁気共鳴法(多重共鳴NMR)は安定同位体標識体と高分子材料との相互作用をシグナル強度変化と化学シフト変化から調べることができる技術。
前述の分析手法で集めた大量のデータから、目的の物性に対して重要な特徴量を選択するために、再帰的特徴量削減(RFE)[12]と呼ばれる特徴量の削減手法を用いました。これは、過学習[13]となるデータを取り除き、学習の効率を高めるために実施します。次に、3次元ネットワークポリマーの「水を抱える力」とリガンド相互作用を解明するために、RFEによって厳選されたデータセットに対してシンボリック回帰を適用しました。シンボリック回帰は単に予測を行うだけでなく、予測の根拠となる数式を、人間が理解できる形で自動的に生成する画期的な技術です。この機械学習によるデータ駆動型アプローチは、材料創出の新たなパラダイムを切り開くものであり、未来の科学研究のあり方を大きく変える可能性を秘めています。
シンボリック回帰が導出した方程式により、膨潤の鍵を握る要素として、ハイドロゲルの内部にある水分子と結び付く「水素結合」に関与する官能基[14]の数が特定されました。これはハイドロゲルが膨潤する際、「水と結び付く場所の数」がその吸水性を決定付けていることを具体的な数値として方程式に組み込んだものであり、画期的な成果です。これにより、研究チームは材料の化学的性質を考慮した、より正確な設計が可能になると考えました。また、物質吸着能の鍵を握る要素として、HSQCのデータからは、運動性の高い高分子鎖が重要であるという方程式が導き出されました。これは、特定の物質(ペプチド)がハイドロゲル表面に結合する際、分子鎖が運動しやすい構造が重要であることを示唆しています。一方、HNCOのデータからは、カルボキシレート基が関与しているという異なる方程式が得られました。これは、ハイドロゲルと特定の物質が「鍵と鍵穴」のように、互いに合う特定の形や性質を持っていることを示しています。この機械学習により導出された方程式は、従来の解析手法では見えにくかった複雑な相互作用を数値で可視化し、より効率的な新材料の創出を可能にします(図3)。図3では予測性能評価指標[15]として正解率、適合率、再現率、F1値、AUC(area under the ROC curve:正解/不正解を区別できる性能を測る指標)を用いています。
図3 シンボリック回帰が導出した各方程式と評価指標
膨潤のデータからは水素結合に関与するNH基とOH基の数、HSQCのデータからは運動性の高い分子鎖、HNCOのデータからはカルボキシレート基の数をそれぞれ使った方程式が導き出された。
- 注2)2025年6月23日プレスリリース「『AI聖徳太子』が複数情報を聞き分け、開発方針を指示」
今後の期待
本研究で得られた成果は、ハイドロゲルだけでなく他の高分子材料(熱に強い高分子材料、軽量で強靭な構造材料、あるいは電気を通しやすい新世代の半導体など)が持つ特性を最大限に引き出すための設計を加速させる可能性を秘めています。
「物理的意味を持つ方程式」を機械学習によって見つけ出すことで、私たちは単にデータを予測するだけでなく、その背後にある物理的な法則やメカニズムを深く理解できるようになります。これは、いわゆる「ブラックボックス」とやゆされる従来の機械学習の弱点を克服し、人間と人工知能が協力して新たな科学的知見を創出する新しいパラダイムを築くものです。この手法が広く活用されれば、材料創出のスピードは飛躍的に向上し、人類が直面するさまざまな課題を解決するための革新的な材料が、これまでにない速さで生まれ、ワンヘルス(図4)やプラネタリーヘルス、ならびに国際連合が定めた17の目標「持続可能な開発目標(SDGs)[16]」のうち「9.産業と技術革新の基盤をつくろう」への寄与が期待されます。
図4 本研究成果によるワンヘルスの実現に向けたフロー
材料設計における大量のデータを基にしたデータ駆動型アプローチにより、ワンヘルスの実現につなげ得る材料が創出できる可能性を示した。
補足説明
- 1.データ駆動型アプローチ、演繹的(えんえきてき)アプローチ、帰納的アプローチ
データ駆動型アプローチは勘や経験といった主観的な判断ではなく、データを分析して得られた客観的な事実に基づいて意思決定を行う方法論。このアプローチは、「演繹的アプローチ」と「帰納的アプローチ」という二つの論理的思考と密接に関係している。演繹的アプローチは、一般的なルールや原理から個別の結論を導き出すアプローチで、数学の証明のように、既知の事実から論理的に結論を導く。一方、帰納的アプローチは、複数の具体的な実験データなどから一般的なルールや原理を発見するアプローチで、個々の事例の共通点を探し、そこから全体に当てはまる推論を行う。このように、データ駆動型アプローチは、帰納的アプローチで仮説をつくり、演繹的アプローチでその仮説を検証するというサイクルを繰り返すことで、より精度の高い意思決定が可能になると考えられている。 - 2.ワンヘルス
「人間」「動物」「環境」の三つの健康はつながっており、どれか一つを考えても解決できない問題については、全てを一体的に捉えて全ての関係者が協力することで解決しようという考え方。 - 3.膨潤(ぼうじゅん)
物質が溶媒を吸収して体積が増加する現象。3次元ネットワークポリマーが水を含んで膨らむこと。 - 4.リガンド相互作用
鍵と鍵穴の関係のように、「リガンド」という特定の物質が、それをぴったり受け入れる「鍵穴」(受容体やタンパク質)に結合する性質のこと。この結合は非常に特異的で、まるで専用のパズルピースがはまるように作用する。例えば、ドラッグデリバリーシステム(DDS:薬物送達)や環境浄化といった分野で求められる特定の物質と結び付く「物質吸着する能力」と同じ意味となる。 - 5.時間領域核磁気共鳴法(TD-NMR)
弱い磁場中で励起された原子核がエネルギー的に安定な状態へと緩和する過程を、時間の関数として観測する測定手法。励起された原子核が安定な状態へと緩和する速度には原子核周辺の環境が影響するため、この手法により材料の物性や食材の食感などに対する重要な情報を得られる。TD-NMRはtime domain nuclear magnetic resonanceの略。 - 6.多重共鳴核磁気共鳴法(多重共鳴NMR)
水素(1H)だけでなく、安定同位体(13C、15Nなど)のような複数の核種間のスピン結合を観測するNMR手法。安定同位体13C、15Nの天然存在比はそれぞれ、1.1%、0.3%しかないため、99%安定同位体ラベルされたペプチド試薬を用いた本研究では、豊富に存在するゲル分子のシグナルを検出することなく、相互作用する1H-15N(HSQCの場合)あるいは1H-15N-13C(HNCOの場合)間のスピン結合を観測できる。 - 7.RDKit分子記述子
分子の化学構造や性質を、コンピュータが扱える数値データに変換したもの。分子の形、原子の種類、結合の仕方などを数値で表現することで、さまざまな機械学習モデルの入力に用いることができる。例えば、創薬研究において、新しい化合物の薬効や毒性を予測するために活用されている。 - 8.シンボリック回帰
人工知能(機械学習)の一種で、複雑なデータの中から、人間が理解できる数学的な「方程式」を自動的に見つけ出す技術。従来の機械学習モデル(ディープラーニングなど)は、非常に高い精度で予測をするが、その計算プロセスはブラックボックスになりがちである。それに対し、シンボリック回帰は、単に高い予測精度を求めるだけでなく、その予測の根拠となる法則を解き明かすことで、科学的な発見や意思決定の透明性を高めることができる、「説明可能な機械学習」の技術である。 - 9.プラネタリーヘルス
「地球の健康と人類の健康は、密接につながっている」という考え方に基づいた、新しい学術分野であり社会運動である。これは、気候変動、生物多様性の喪失、森林破壊、環境汚染といった地球規模の環境悪化が、直接的・間接的に人類の健康に深刻な影響を及ぼしているという認識から生まれた。 - 10.HSQC、HNCO
HSQC(heteronuclear single quantum coherence)はタンパク質(ペプチド)を構成するアミノ酸の窒素原子(15N)とそれに直接結合している水素原子(1H)のペアを観測するNMRの手法。これらのペアは各アミノ酸の「指紋」のようなものであり、タンパク質の折り畳み状態や、薬が結合した際の構造変化を調べるのに使われる。HNCO(正式略称ではないが、HN基とCO基カップリングとの三核三重共鳴のことを指す)は、アミノ酸の15Nと直接結合している炭素原子(13C)と1Hのペアを観測する手法。こちらもタンパク質の構造解析には欠かせない重要な手法で、今回の研究では、材料のペプチドとの相互作用を調べるために使用した。 - 11.示差走査熱量測定(DSC)
物質の温度を一定のプログラムで変化させながら、試料と基準物質の間の熱の出入り(吸熱または発熱)の差を測定する技術。これにより、物質が加熱・冷却される過程で起こる融解やガラス転移(プラスチックを熱していくと、ある温度で突然柔らかく、ゴムのように弾力のある状態になる温度)、結晶化といった相転移(物質がある状態(相)から別の状態へ変わる現象。身近な例では、水が氷に変化(液体から固体)、水蒸気に変化(液体から気体)すること)や化学反応を捉えることができる。DSCはdifferential scanning calorimeterの略。 - 12.再帰的特徴量削減(RFE)
機械学習モデルの精度を最大化するため、重要度の低い特徴量を段階的に取り除く手法。まず、全てのデータを機械学習モデルに学習させ、それぞれの特徴量の重要度を評価する。次に、最も重要度の低い特徴量を一つだけ削除し、残った特徴量で再び機械学習モデルに学習させる。このプロセスを、最適な特徴量数になるまで繰り返すことで、予測性能の高い機械学習モデルを効率的に構築する。RFEはrecursive feature eliminationの略。 - 13.過学習
機械学習モデルが学習データに過剰に適合し過ぎてしまい、未知のデータに対する予測精度が低下する現象。 - 14.官能基
分子の性質や機能を決める「パーツ」。ちょうど車のエンジンやタイヤが車の性能を決めるように、官能基は化学物質の性質や機能に深く関与する。 - 15.予測性能評価指標
機械学習モデルの性能を定量的に評価するための指標。正解率は、機械学習モデルが答えた全ての問題のうち、正しく答えられた割合。適合率はそのモデルが「正しい」と判断したもののうち、実際に正しかった割合。誤って「正しい」と判断することをどれだけ防げたかを示す。再現率は実際に正しいもののうち、モデルがどれだけ正しく見つけられたかの割合。見逃しをどれだけ少なくできたかを示す。F1値は適合率と再現率のバランスを取った指標。AUC(area under the ROC curve)はモデルが「正解」と「不正解」をどれだけうまく区別できるかを測る指標。値が1に近いほど、識別能力が高いことを意味する。 - 16.持続可能な開発目標(SDGs)
2015年9月の国連サミットで採択された「持続可能な開発のための2030アジェンダ」にて記載された2016年から2030年までの国際目標。持続可能な世界を実現するための17の目標、169のターゲットから構成され、発展途上国のみならず、先進国自身が取り組むユニバーサル(普遍的)なものであり、日本としても積極的に取り組んでいる(外務省のホームページから一部改変して転載)。
原論文情報
- Masayuki Okada, Wenrui Zhu, Yoshifumi Amamoto, Jun Kikuchi, "Data-driven formulation based on integrated symbolic regression of hydrogel swelling and molecular interactions", ACS Materials Letters, 10.1021/acsmaterialslett.5c00957
発表者
理化学研究所
環境資源科学研究センター 環境代謝分析研究チーム
チームディレクター 菊地 淳(キクチ・ジュン)
研修生 岡田 真幸(オカダ・マサユキ)
人材派遣職員 朱 文睿(シュ・ブンルイ)
客員研究員 天本 義史(アマモト・ヨシフミ)
岡田 真幸
発表者のコメント
本研究の本質は、機械学習によって生成された結果を、RFEやシンボリック回帰を用いて、ハイドロゲルの機能として重要な膨潤とリガンド相互作用に関して、説明可能な方程式を示して、人間が理解できるようにした点です。本研究を実施するためには、NMR、高分子、機械学習を専門とする方々との議論が不可欠でした。こうした分野横断的な議論を通じて、アイデアが生まれ、論文として発表可能なレベルまで練り上げることができました。未知の領域に対して、親身にアドバイスをくださった先生方には、心より感謝申し上げます。(岡田真幸)
報道担当
理化学研究所 広報部 報道担当
お問い合わせフォーム
