1. Home
  2. 広報活動
  3. クローズアップ科学道
  4. クローズアップ科学道 2023

研究最前線 2023年12月25日

巨大実験データを活用するための「SPring-8データセンター構想」

大型放射光施設「SPring-8(スプリングエイト)」の実験では年々データが増大しています。これに対応するために放射光科学研究センターでは2021年度から「SPring-8データセンター構想」を進めています。この構想では、ネットワークを介して接続した仮想的なデータ基盤を開発・整備することで、SPring-8の問題解決能力を強化することを目的としています。プロジェクトを主導する初井 宇記 グループディレクターに内容を聞きました。

SPring-8が直面していた課題

現在、SPring-8では、日々国内外の研究者がさまざまな実験を行っており、貴重な実験データが大量に生み出されている。しかし、これまではデータを移動するにはハードディスクなどに保存して郵送するしか方法がなく、研究が遅滞する原因になっていた。そのため、「最先端の情報通信技術によってこの遅滞を解決してほしい」という研究者からの要望が年々強まっていた。

加えてSPring-8では、2020年に初井 グループディレクターが中心となり開発した高感度で高速撮像が可能なX線画像検出器CITIUS(シティウス)の導入が進められている。それにより、今後生み出される実験データの量は現在の1,000倍以上になると想定される。

「これらの課題を解決すべく、2021年に発足したプロジェクトが『SPring-8データセンター構想』です。私がリーダーに任命されたのは、『大量データを生み出すCITIUS検出器を開発した張本人が自ら解決せよ』という意図だったと捉えています」

欧州・米国の大型放射光施設ではデータ基盤に大規模な投資を行っている。SPring-8はCITIUS検出器の開発に成功したこともあり、欧米施設よりもさらに大量のデータが得られる見込みだ。「単純な大規模化などでは対応できないレベルなので、新しい考え方でデータ基盤を整備する必要があります」

多くのデータ関連基盤をつないだ「SPring-8データセンター構想」

その概略が図1だ。「大量のデータは、検出したその場で圧縮することにしました。並行してSPring-8内の基幹ネットワークを100Gbps(ギガbps)へアップグレードし、圧縮後のデータがSPring-8内のデータセンターに円滑に保存できるようにします」。さらに、データは確実に保存されるだけでは不十分で、その品質を実験中に確認できなくてはならない。データに問題があれば、直ちに実験条件を変更しなければならないからだ。

「迅速にデータ解析するためのスーパーコンピュータをSPring-8内のデータセンターに設置しました。大規模な計算が必要な実験のために、「富岳」などのSPring-8外のスーパーコンピュータも利用できるようにしています」

データの管理や活用には高度なサービス・ソフトウェアが必要だ。海外施設では大規模な予算と人員で開発を進めている。SPring-8はどのように対応するのだろうか。「日本では文部科学省がデータ関連の研究開発の役割を整理し、各研究機関が提供するサービスを相互に活用するよう推奨しています。また、放射光データを解析できるデータ解析基盤を商用クラウド上で開発している企業も出てきました。そこで、われわれはこれらの高度なサービスをネットワーク上で有機的につなげたデータセンターを目指すことにしました」

SPring-8データセンター構想の概略図の画像

図1 SPring-8データセンター構想の概略図

SPring-8のビームラインにデータ圧縮専用計算機を設置する。圧縮されたデータはSPring-8内のデータセンターに保存される。また、「富岳」などのスーパーコンピュータにも学術情報ネットワーク「SINET6」を介して接続しており、実験中、実験後の高度な解析ができる。今後は大強度陽子加速器施設「J-PARC」の物質・生命科学実験施設「MLF」や仙台市に建設中の次世代放射光施設「NanoTerasu」との接続も予定されている。

難しい課題、X線データの圧縮へ

SPring-8で導入予定のCITIUS検出器のうち最大のシステムは、2,200万画素、データ帯域10Tbps(テラbps=1,000Gbps)、データ量が1年で6エキサバイト(=6,000,000テラバイト)と見込まれる。ネットワーク転送も保存も極めて困難な量だ。「10Tbpsのデータ処理をいかに実現するか、それが最も大きな課題でした。2018年に計算科学研究センター(R-CCS)の松岡 聡 センター長に相談したところ、圧縮をまず検討すべきだとの助言をいただき、データ圧縮にもう一度挑戦する覚悟を決めました。R-CCSの佐藤 賢斗 チームリーダー、佐野 健太郎 チームリーダー、庄司 文由 部門長らと共同で取り組んでいます」

高い圧縮率を実現するためにはデータの一部が失われる不可逆圧縮が必要となるが、データの有用性は保たれるのだろうか。「これまで放射光の分野では、不可逆圧縮は利用されてきませんでした。解析結果に影響が出ないことを論理的に示すことができなかったため、安心して圧縮できなかったのです。われわれが2013年から運用しているX線自由電子レーザー施設「SACLA(サクラ)」のデータセンターでもデータ圧縮を検討したものの、解析結果に対する影響を明らかにできず断念した経緯がありました」

そのような中、平木 俊幸 研究員、城地 保昌 チームリーダーと共に「光子統計」に注目した。ほぼ全ての放射光実験で、検出されたX線光子の数はカオス光としての「光子統計」を示す。このことから、検出されたX線光子の数のあいまいさを物理法則に基づいて見積もることができる。「データの性質をほとんど全て保持した圧縮方法を提案することができました。最初はせいぜい20~30分の1程度の圧縮効果だろうと思っていたのですが、実際に実験データに適用してみたところ、なんと1,000分の1以上の圧縮効果があり驚きました。演算加速ボードの開発にも成功し、実験中に圧縮できるようになりました。現在、順調に稼働中です」

一方で「光子統計」だけでは圧縮率が十分得られない実験もある。「例えばSPring-8のX線コンピュータトモグラフィー(X線CT)はナノメートルレベルで材料内部を可視化できるので、多くの研究で活用されていますが、「光子統計」を利用した圧縮では十分な圧縮率が得られません。これらについてはR-CCSの佐藤 チームリーダーが人工知能の利用を提案しており、現在共同で研究開発を行っています」

SPring-8は日本全体から見ても巨大な実験データを生み出す場所になりつつある。SPring-8はアップグレードを計画中で、完了するとデータの質・量ともに飛躍的に向上する。「データ圧縮は『SPring-8データセンター構想』の第一歩ですが、めどが立ちつつあると思います。データを軸に新たな知を社会課題の解決につなげたいですね」

初井 グループディレクターは、X線CTの人工知能解析も行っている。直近の目標は大規模データ解析によって高精細化を実現し、先端半導体の開発に貢献すること、と結んだ。

(取材・構成:山田 久美/撮影:大島 拓也/制作協力:サイテック・コミュニケーションズ)

この記事の評価を5段階でご回答ください

回答ありがとうございました。

Top