1. Home
  2. 研究成果(プレスリリース)
  3. 研究成果(プレスリリース)2018

2018年9月12日

理化学研究所

AIで世界最高精度のNMR化学シフト予測を達成

-演繹的な量子化学理論と帰納的な機械学習法の組み合わせ-

理化学研究所(理研)環境資源科学研究センター環境代謝分析研究チームの菊地淳チームリーダー、伊藤研悟特別研究員らの研究チームは、機械学習[1]アルゴリズム[2]の探索により、核磁気共鳴(NMR)[3]化学シフト[4]の予測を世界最高精度で達成しました。

本研究で用いた化学シフトなどのNMRデータは、今後、理論化学と機械学習の組み合わせで材料物性予測を行うマテリアルズ・インフォマティクス[5]などの分野において、活用されると期待できます。

気象予測、収穫・漁獲量予測、健康予測などの「予測科学[6]」は人類の歴史上、常に大きな課題でした。最近では機械学習などのAI(人工知能)[7]を利用することで、膨大なビッグデータからさまざまな事象を帰納的に予測するアルゴリズム開発が進められています。一方でNMRデータは、量子化学理論[8]によって演繹的に予測できます。しかし、理論値と実測値との誤差が大きいため、補正値が必要でした。

今回、研究チームは、91種類の機械学習アルゴリズムを探索することで、演繹的な量子化学理論と帰納的な機械学習法を組み合せ、この誤差を学習・補正し、高精度に化学シフトを予測する手法を開発しました。

本研究は、英国の科学雑誌『Chemical Science』オンライン版(9月10日付け)に掲載されました。

予測科学の歩みと帰納的(AI)と演繹的(量子化学理論)を組み合わせた本研究アプローチの図

図 予測科学の歩みと帰納的(AI)と演繹的(量子化学理論)を組み合わせた本研究アプローチ

※研究チーム

理化学研究所 環境資源科学研究センター 環境代謝分析研究チーム
特別研究員 伊藤 研悟(いとう けんご)
研修生(研究当時) 尾渕 由佳(おぶち ゆか)
客員研究員 近山 英輔(ちかやま えいすけ)
研究員 伊達 康博(だて やすひろ)
チームリーダー 菊地 淳(きくち じゅん)

背景

人類の歴史を振り返ると、天災や収穫・漁獲量変動、感染症の蔓延など、日々の恒常性を揺るがす事態の「予測」は、どの時代でも大きな関心事でした。昔は占い師に頼っていた将来予測も、人々の経験が言い伝えられるようになると村の長老などが行うようになりました。そして、近代科学の計測データが蓄積されるようになると、例えばニュートン力学に従った天体活動の予測など、計算科学のアプローチが可能になりました。

まるで経験豊富な先駆者のように貴重な過去の知見を学習する帰納的なアプローチにより、将来予測をする手法が機械学習などのAI(人工知能)技術です。機械学習では、コンピュータに過去の計測ビッグデータを蓄積することにより、分類や回帰を行うことができます。菊地淳チームリーダーらはこれまで、機械学習やベクトル自己回帰モデリングを駆使した赤潮発生時の重要因子可視化注1)や、深層学習を駆使した天然魚の地域判別に関わる重要因子抽出法注2)を開発してきました。

一方で、物理法則による「予測科学」も着実な進歩を遂げています。特に理研の先駆者らも発展に寄与した現代物理学の分野では、量子化学理論を体系化し光や電波といった電磁波の振る舞いも、コンピュータの高速化によって予測できるようになりました。

核磁気共鳴(NMR)法は、携帯電話に近い周波数帯のラジオ波(電磁波の一種)を利用する分光法で、計測する化合物の分子構造に応じて固有の化学シフト周波数にシグナルが観測されます。この化学シフトは、化合物の分子構造さえ与えれば量子化学理論で演繹的に予測できます。しかし、その理論値と実測値には誤差があるため、補正値が必要でした。

そこで、研究チームは、量子化学理論に基づく演繹的なアプローチと、機械学習による帰納的なアプローチを組み合わせることで、化学シフト予測精度のさらなる向上が見込めると考え、その手法の開発に着手しました。

研究手法と成果

量子化学理論におけるシュレーディンガー方程式[8]を厳密に解くことができれば、NMR化学シフト値を含む化合物特性を高精度に予測できますが、現在のコンピュータでは現実的な時間で解くことは困難です。そのため、代替手法として、ハートリー=フォック法[9]密度汎関数法[10]を用いて、化合物特性を予測することが一般的です。しかしこの場合、理論値と実測値との間にある程度の誤差が生じます。そこで、研究チームは、量子化学計算と機械学習の組み合わせによりこの誤差を学習・補正することで、高精度に化学シフトを予測する手法を開発しました(図1)。

まず、化学シフトの予測モデルを作成するため、多様な化学構造を持つ150の化合物の化学シフトとスピン結合定数[11]の理論値を、コンピュータを用いた量子化学計算により算出しました。次に、これらの化合物の1Hと13Cの化学シフト[4]を、実際にNMR法を用いて取得し(実測値)、SpinAssign注3)などのデータベースを用いて化合物の各部分骨格(部分構造)の同定を行いました。

そして、化学シフトの理論値と実測値の誤差を「目的変数Y」、理論化学シフト、理論スピン結合定数、構造記述子(隣接する元素の種類と個数)、極性溶媒の種類などを「説明変数X」とし、予測モデル作成のための機械学習用の学習データセットとしました(図2)。

コンピュータの進化やAI研究の進展に伴い、機械学習のアルゴリズムは多様化しています。また、どのような予測モデルを作成するか、どのような種類の学習データセット化によって、最適な機械学習のアルゴリズムは変わってきます。そこで、91種類の機械学習アルゴリズムを用いて予測モデルを網羅的に作成・評価し、最良の予測モデルを探索しました。その結果、化学シフトの予測に最も適した機械学習アルゴリズムを見つけ、最良の予測モデルを作成できました(図3)。

また、機械学習を用いて作成した予測モデルには、過学習[12]が起きている可能性があるため、学習データセットに使われていないテストデータを用いて、予測モデルに汎用性があるか否かを検証する必要があります。本研究では、34の標品化合物と既報の海藻成分注4)を用いて、シグナル予測・帰属の汎用性を検証しました。その結果、従来の量子化学計算のみの手法および機械学習のみの手法よりも、精度の高い、世界最高精度の化学シフトの予測が可能であることが明らかになりました(図4)。

なお、本研究における量子化学計算は、スーパーコンピューター「HOKUSAI」を用いて行われました。また、本研究で開発された化学シフト予測法は当研究室のホームページ注5)に公開されています。

今後の期待

昨今では「IoT/ビッグデータ/AI」時代の到来により、AI予測に必要な分析ビッグデータの蓄積が求められています。NMR法は農林水産物やヒト検体などの代謝混合物を対象に、簡単な試料調製法でビッグデータを取得することに適しています注6-8)。最近では、NMR装置のコストダウンや小型化が進んでいることから、一連の研究成果は今後、簡易NMR装置とAIアルゴリズムによる評価手法が普及することで、重要因子を代謝マーカーとした人間や農産物の恒常性予測と管理につながると期待できます。

また、本研究の特徴は、「経験」に基づく帰納的な機械学習アプローチと量子化学理論に基づく演繹的計算を組み合わせていることです。機械学習用の説明変数に用いた化学シフトやスピン結合定数などのNMRデータは、分子構造から理論予測できます。そのため、今後、理論化学と機械学習の組み合わせにより材料物性予測を行うマテリアルズ・インフォマティクスにおいて、溶液NMR以外に固体NMRのデータも多く活用されると考えられます。

さらに、理研環境資源科学研究センターでは、NMRや計算科学といった「先端技術プラットフォーム」で持続可能な開発目標(SDGs)に貢献していくことを目指しています。本研究は、例えば材料物性予測であれば、SDGsの「12.つくる責任つかう責任」や、生分解性ポリマー開発なら「14.海の豊かさを守ろう」にも貢献できます。さらに、量子化学理論は化学反応や触媒反応予測にも有用なことから、反応時に変動する電子雲をNMR記述子として機械学習し予測精度向上させるアプローチで、将来的には低エネルギー・反応プロセス設計へ「7.エネルギーをみんなに、クリーンに」展開することも期待できます。

原論文情報

  • Kengo Ito, Yuka Obuchi, Eisuke Chikayama, Yasuhiro Date and Jun Kikuchi, "Exploratory machine-learned theoretical chemical shifts can closely predict metabolic mixture signals", Chemical Science, 10.1039/c8sc03628d

発表者

理化学研究所
環境資源科学研究センター 環境代謝分析研究チーム
チームリーダー 菊地 淳(きくち じゅん)
特別研究員 伊藤 研悟(いとう けんご)

報道担当

理化学研究所 広報室 報道担当
Tel: 048-467-9272 / Fax: 048-462-4715
お問い合わせフォーム

産業利用に関するお問い合わせ

お問い合わせフォーム

補足説明

  • 1.機械学習
    人間の学習能力と同様に、機械(コンピュータ)に学習能力を持たせる手法。データから機械自身が反復的に解析し、ルールを見つけ出すという特徴がある。
  • 2.アルゴリズム
    機械(コンピュータ)において、特定の目的を達成させるために必要な情報処理の方法や手順のこと。
  • 3.核磁気共鳴(NMR)法
    原子や分子は、静磁場中で外部からエネルギーを与えると、構造に特徴的なエネルギーを吸収、放出する。エネルギーの強さ(周波数)を変えながら吸収・放出を計測することで物質に固有の波形(スペクトル)が得られる。混合物の場合は個々の物質由来のスペクトルが足しあわされた波形が得られるので、スペクトルを調べることでどんな物質が混合されているかを知ることができる。試料を何らかの方法でイオン化しなければならない質量分析法とくらべ、NMRでは生体試料や食品、固体材料を最小限の前処理で、イオン化する必要なくそのまま計測できる特徴を持つ。NMRはNuclear Magnetic Resonanceの略。
  • 4.化学シフト、1Hと13Cの化学シフト
    NMR法では、同じ原子核でも原子核が置かれた磁場環境の違いによって、共鳴周波数がわずかに異なる。この周波数の違いは化学シフトと呼ばれ、分子中の各核スピンは、それぞれ固有の値を示す。代謝物の構成元素の多くは水素(H)と炭素(C)であるため、これらの固有の化学シフトから同定を行うことができる。NMRは核スピンを持たない原子核の観測ができないため、炭素の場合は安定同位体の13Cを用いる。
  • 5.マテリアルズ・インフォマティクス
    第一原理計算や大規模実験データなどの材料科学の手法と機械学習、人工知能、ビッグデータ解析などの情報科学の手法を融合することで、新規材料設計を従来よりも大幅に効率よく実現する手法。
  • 6.予測科学
    未来に起きる現象や未知の物事に対して、経験的「データ」から法則性を導いたり、理論式を解いたりすることで、結果を前もって推しはかること。
  • 7.AI(人工知能)
    コンピュータ上などで人間と同様の知能を人工的に実現させようという試み、あるいはその一連の基礎技術を指す。機械学習=AIではないものの、語彙に明確な線引きはなく、同義に使われることが多い。AIはartificial intelligenceの略。
  • 8.量子化学理論、シュレーディンガー方程式
    量子化学理論は、量子力学の原理に基づいた計算により、原子や分子の電子に関する性質を解明する方法。実際には、物質波の波動方程式であるシュレーディンガー方程式を、いくつかの近似的計算手法、および波動関数を既知の関数の線形結合で表す近似計算手法により解くことで、分子の最も安定な構造や分子軌道、遮蔽定数やスピン結合定数といったNMRにより得られるパラメータなどの予測が可能である。
  • 9.ハートリー=フォック法
    分子に対するシュレーディンガー方程式は数学的に解けないため、他の近似的な計算手法を用いる必要がある。ハートリー=フォック法は、平均場中の電子の運動を考慮し、分子の軌道を計算する最も基本的な計算方法である。
  • 10.密度汎関数法
    ハートリー=フォック法が分子軌道を計算するのに対し、密度汎関数法は分子の電子密度を計算する。電子密度が決まればエネルギーも決定できるという原理に基づいている。ハートリー=フォック法などの分子軌道法は、より正確に結果を導こうとすると膨大な計算時間がかかるという欠点があるが、密度汎関数法は短い計算時間で正確な結果を導くことが可能である。
  • 11.スピン結合定数
    核磁気共鳴現象における相互作用項は、化学シフト項のほかにも、スピン結合項、ゼーマン分裂項や、観測核によっては四重極項がある。スピン結合とは、ニつの核スピン間の相互作用である。スピン結合定数は分子内における二面角、結合角、結合長といった立体構造情報を含んでいる。
  • 12.過学習
    機械学習の分野において、学習データに対してのモデルの当てはまりが良いが、学習データ以外の外部データ(テストデータなど)への当てはまりが悪く、予測するための汎用性が低くなってしまう学習のこと。
本研究で開発した化学シフト予測法の概要の図

図1 本研究で開発した化学シフト予測法の概要

150の化合物の立体構造情報(学習データ)を用いて、量子化学計算(シミュレーション)を行うことにより、各化合物の化学シフトとスピン結合定数の理論値を算出した。一方で、核磁気共鳴(NMR)法を用いて、同じ化合物の化学シフトの実測値を取得した。次に、得られた理論物理化学情報などを用いて、理論値と実測値の誤差を91種類のアルゴリズムで網羅的に機械学習し、最良の予測モデルを探索した。最後に最良の予測モデルの性能を、外部データ(34化合物と海藻成分)を用いてテストした。

機械学習用の学習データセットの詳細の図

図2 機械学習用の学習データセットの詳細

  • 上: 量子化学計算により算出される理論化学シフトや理論スピン結合定数(J)などを「説明変数X」として、予測対象の「目的変数Y(誤差)」に対して機械学習させる。
  • 下: 1Hと13Cのそれぞれの場合で、実測化学シフトと理論化学シフトの補正に重要な変数(重要変数)。
91機械学習アルゴリズムの探索による化学シフト予測精度比較の図

図3 91機械学習アルゴリズムの探索による化学シフト予測精度比較

91種類の機械学習アルゴリズムを網羅的に調べ、最良の化学シフト予測モデルを探索し(上)、各機械学習アルゴリズムの性能を大きさと色で図示するワードクラウドにより可視化した(下)。

従来法と本研究のNMR化学シフト予測法の精度の比較の図

図4 従来法と本研究のNMR化学シフト予測法の精度の比較

  • 左: 上から学習データセットに使われていない34化合物(テストデータ)の13C化学シフトの量子化学計算による理論値と実測値の相関、NMRスペクトル処理ソフトウェア Mnova(機械学習)による予測値と実測値の相関、本研究の量子化学計算と機械学習の組み合わせによる補正値と実測値の相関を示す。上から下へ平均誤差が減少しているのが分かる。
  • 右: 量子化学計算により算出された理論値(×)および本研究の量子化学計算と機械学習の組み合わせによる補正値(米)を用いた海藻成分のシグナル帰属を示す。理論値は実測スペクトルのシグナルからのズレが大きいが、補正値は高精度に実測シグナルの位置を特定している。

Top