2015年6月2日
理化学研究所
国立大学法人東京医科歯科大学
バセドウ病の発症を予測するバイオマーカーを同定
-個別化医療の実現につながるビッグデータ解析技術を開発-
要旨
理化学研究所(理研)統合生命医科学研究センター統計解析研究チームの岡田随象客員研究員(東京医科歯科大学 大学院医歯学総合研究科 疾患多様性遺伝子学分野 テニュアトラック講師)らの共同研究グループ※は、移植や免疫反応に関わる遺伝子であるHLA遺伝子[1]の個人差をコンピューター上で高精度かつ網羅的に解析する「HLA imputation法」[2]を、日本人集団に適用するためのデータベースを開発しました。また、HLA imputation法を大規模ゲノムワイド関連解析(GWAS)[3]へ適用し、日本人のバセドウ病の発症に関わるHLA遺伝子配列の同定に成功しました。
HLA遺伝子は、免疫関連疾患や精神病など様々な疾患の発症に関与することが知られています。しかし、HLA遺伝子配列の構造は複雑で、遺伝子配列の解析に高いコストを要するため、解明が進んでいませんでした。今回、共同研究グループはHLA imputation法を日本人集団に対して実施可能としたことで、日本人集団におけるHLA遺伝子配列の網羅的なビッグデータ解析を実現可能にしました。さらに、高次元のビッグデータ情報を圧縮・可視化する遺伝統計解析手法[4]を開発し、複数のHLA遺伝子間における遺伝子配列の組み合わせ(ハプロタイプ情報)が人種によって異なること、特に日本人集団においては人種特異的なHLA遺伝子ハプロタイプが高い頻度で存在することを明らかにしました。
甲状腺機能の異常をもたらす自己免疫疾患であるバセドウ病を対象に、日本人集団のGWASデータにHLA imputation法を適用した結果、複数のHLA遺伝子(HLA-A、HLA-B、HLA-DRB1、HLA-DPB1)のアミノ配列の個人差によってバセドウ病の発症リスクが規定されていることが明らかになりました。同定されたHLA遺伝子配列はバセドウ病の発症リスクを予測する疾患バイオマーカー[5]としての活用が期待できます。また、今回開発したHLA imputation法を他の疾患に対しても適用することで、更なる疾患バイオマーカーの同定や疾患病態の解明、個別化医療[6]の実現に繋がるものと期待できます。
本研究で作成した日本人集団におけるHLA遺伝子配列データは、科学技術振興機構(JST)バイオサイエンスデータベースセンター(NBDC)を通じた公開を予定しています。
本研究は、オーダーメイド医療の実現プログラムと科学技術人材育成費補助金(テニュアトラック普及・定着事業)におけるスタートアップ研究費の支援のもと行われました。成果は、科学雑誌『Nature Genetics』オンライン版(6月1日付け:日本時間6月2日)に掲載されます。
※共同研究グループ
理化学研究所 統合生命医科学研究センター
副センター長 久保 充明(くぼ みちあき)
統計解析研究チーム
客員研究員 岡田 随象(おかだ ゆきのり)(東京医科歯科大学 大学院医歯学総合研究科 疾患多様性遺伝子学分野 テニュアトラック講師)
チームリーダー 鎌谷 洋一郎(かまたに よういちろう)
客員研究員 高橋 篤(たかはし あつし)
基盤技術開発研究チーム
チームリーダー 桃沢 幸秀(ももざわ ゆきひで)
テクニカルスタッフ 芦川 享大(あしかわ きょうた)
東京医科歯科大学 大学院医歯学総合研究科 疾患多様性遺伝子学分野
技術補佐員 金井 仁弘(かない まさひろ)
東京大学医科学研究所 ヒトゲノム解析センター シークエンス技術開発分野
准教授 松田 浩一(まつだ こういち)
背景
移植や免疫反応に関わるHLA遺伝子は、免疫関連疾患、感染症、精神疾患、悪性腫瘍といった多彩な疾患の発症リスクを持つことが知られています。しかし、HLA遺伝子配列の構造は複雑で、遺伝子配列決定に高いコストを要するため、解明が進んでいませんでした。HLA遺伝子配列の個人差をコンピューター上で高精度に予測する手法である「HLA imputation法」が開発され、HLA遺伝子配列の網羅的な発症率リスク解析が可能になりましたが、解析に必要となる学習用の参照ジェノタイプデータ[7]が日本人集団においては存在せず、日本人集団を解析できませんでした。また、複雑なHLA遺伝子配列構造を解釈するデータ解析手法が存在しないため、HLA遺伝子配列構造が日本人集団と他の人種集団とでどのように違っているのかも明らかになっていませんでした。
バセドウ病は、甲状腺ホルモンの産生臓器である甲状腺機能の異常をもたらす自己免疫疾患の1つで、青年期の女性に多く発症する疾患です。人口における罹患率が0.5%程度と比較的高い、いわゆる「ありふれた疾患」の1つです。甲状腺ホルモンは身体の新陳代謝を維持する機能があり、甲状腺機能の異常により動悸(どうき)や体重減少、疲労、甲状腺腫大や眼球突出などの症状が生じます。HLA遺伝子配列がバセドウ病の発症に関与することが以前より知られていましたが、具体的にHLA遺伝子配列のどの部分が関与するのかは解明されていませんでした。
研究手法と成果
共同研究グループは、日本人集団900名を対象に、HLA遺伝子配列や周辺の一塩基多型(SNP)[8]を含む主要な遺伝子配列のジェノタイプデータを網羅的に取得し、HLA imputation法に必要な学習用参照データを作成しました。これにより、日本人集団におけるHLA imputation法の実施およびHLA遺伝子配列の網羅的な疾患リスク解析が可能になりました。シミュレーション解析を通じて同手法におけるHLA遺伝子配列の推定精度を評価したところ、作成した日本人集団用の学習用参照データが、既存の他の人種集団に対する学習用参照データと比較して、日本人集団に対して高い推定精度を示すことが確認されました。
共同研究グループは、作成した日本人集団の学習用参照データを用いてHLA遺伝子配列構造の解明を試みました。遺伝子配列同士の結びつきの強さ(連鎖不平衡関係)を数値化する統計指標である、ε(イプシロン)を導入することにより、一部のHLA遺伝子配列同士の結びつきが他と比較して強いことが分かりました(図1左)。さらに、高次元ビッグデータを圧縮し、二次元画像情報として可視化する手法「Disentangler」を適用した結果、複数のHLA遺伝子における特定の遺伝子配列の組み合わせで構成されるHLA遺伝子ハプロタイプが高い頻度で存在することが判明しました(図1右)。このHLA遺伝子ハプロタイプは欧米人集団や他の東アジア人集団では認められず、日本人集団に特異的であることも明らかになりました。これらの成果により、複雑なHLA遺伝子構造の人種間における違いの全容解明に近づいたと考えられます。
さらに共同研究グループは、日本人集団9,000人で構成されたバセドウ病の大規模GWASデータに対してHLA imputation法を適用しました。その結果、複数のHLA遺伝子(HLA-A、HLA-B、HLA-DRB1、HLA-DPB1)のアミノ酸配列の個人差によってバセドウ病の発症リスクが規定されていることが明らかになりました(図2)。最も強いリスクを示したのはHLA-DPB1遺伝子の35番目のアミノ酸配列で、同部位のアミノ酸にロイシンを有する人が1.4倍程度、バセドウ病を発症しやすくなることが判明しました。
今後の期待
HLA遺伝子配列は多彩な疾患における発症に関わるだけでなく、SNPなどの一般的な遺伝子多型と比較して高い発症リスクを有するため、ヒトゲノム情報を医療に活用する個別化医療の実現にむけた第一候補として注目されています。
今回同定されたHLA遺伝子配列はバセドウ病の発症リスクを予測する疾患バイオマーカーとしての活用が期待されます。また、作成した学習用の参照データを用いて日本人集団における他の疾患に対してHLA imputation法を適用することで、更なる疾患バイオマーカーの同定や疾患病態の解明、個別化医療の実現に繋がるものと期待されます。
本研究で作成した日本人集団におけるHLA遺伝子配列データは、国立研究開発法人科学技術振興機構(JST)バイオサイエンスデータベースセンター(NBDC)を通じた公開を予定しています。
原論文情報
- Yukinori Okada, Yukihide Momozawa, Kyota Ashikawa, Masahiro Kanai, Koichi Matsuda, Yoichiro Kamatani, Atsushi Takahashi, Michiaki Kubo., "Construction of a population-specific HLA imputation reference panel and its application to Graves’ disease risk in Japanese", Nature Genetics, doi: 10.1038/ng.3310
発表者
理化学研究所
統合生命医科学研究センター 統計解析研究チーム
客員研究員 岡田 随象(おかだ ゆきのり)
(東京医科歯科大学 大学院医歯学総合研究科 疾患多様性遺伝子学分野 テニュアトラック講師)
報道担当
理化学研究所 広報室 報道担当
Tel: 048-467-9272 / Fax: 048-462-4715
東京医科歯科大学 広報部広報課
Tel: 03-5803-5833 / Fax: 03-5803-0272
kouhou.adm [at] tmd.ac.jp(※[at]は@に置き換えてください。)
補足説明
- 1.HLA遺伝子
ヒト白血球型抗原(Human Leukocyte Antigen; HLA)遺伝子の略称。膨大な種類がある白血球の血液型を決定する遺伝子群であり、複数種類のHLA遺伝子が存在する。HLA遺伝子は免疫応答反応を司り、多くの疾患の発症リスクを説明すると考えられている。各HLA遺伝子には数十~数百種類もの遺伝子配列が存在するなど個人差が著しく、かつ高額な検査がHLA遺伝子の配列決定に必要なため、網羅的な発症リスク解析が遅れていた。 - 2.HLA imputation法
HLA遺伝子配列の個人差を、コンピューター上で高精度に推測する手法。実施に際しては、数百人~数千人の健常人を対象に、 HLA遺伝子配列や近傍のSNPの遺伝子ジェノタイプデータを学習用の参照データとして予め決定しておく必要がある。解析対象となるゲノムデータにおける HLA遺伝子配列を学習用の参照データに基づきコンピューター上で統計学的に推定することにより、追加費用をかけずに HLA遺伝子の網羅的な発症リスク解析の実施が可能になる。2012年に米国ハーバード大学の研究者によって開発された注1)。
注1)Raychaudhuri S et al. Nature Genetics, 2012, doi:10.1038/ng1076 - 3.ゲノムワイド関連解析
Genome-Wide Association Study(GWAS)。疾患の感受性遺伝子を見つける代表的な方法。ヒトゲノムを網羅した数百万~1,000万の一塩基多型を対象に、対象サンプル群における疾患との因果関係を評価できる。2002年に世界で初めて理化学研究所で実施された手法であり注2)、以後世界中で精力的に実施されている。
注2)Ozaki K et al. Nature Genetics, 2002, doi:10.1038/ng1047 - 4.高次元のビッグデータ情報を圧縮・可視化する遺伝統計解析手法
ビッグデータに代表される巨大かつ複雑なデータ集合を理解するためには、データ容量を圧縮した上で視覚的に理解可能な2次元画像情報として提示することが重要になる。本研究では、集団中における遺伝子配列の頻度分布情報を正規化された情報量エントロピーとして数値化する統計指標であるe(イプシロン)と高次元ビッグデータを圧縮し二次元画像情報として可視化する手法である「Disentangler」注3)を、HLA遺伝子配列データに対して適用することにより、複数のHLA遺伝子が構成する複雑な遺伝子配列の組み合わせ状態が、人種によってどのように異なるかを明らかにした。
注3)Kumasaka K et al. The 61st Annual Meeting of the American Society of Human Genetics. 2011 - 5.バイオマーカー
疾患の発症や病態の進展の予測に貢献する生体由来の物質。血液中の代謝産物や特定の遺伝子配列が対象となる。 - 6.個別化医療
個人のゲノム情報に基づいて行われる医療。疾患のタイプや治療薬の効果、副作用の有無などを事前に見積もり、個人に合わせた適切な医療を行うことを目標とする。 - 7.ジェノタイプデータ
実際のサンプルから得られたヒトゲノム配列データの総称。個人間で異なるヒトゲノム配列部位を対象にデータ化されている。 - 8.一塩基多型(SNP)
ヒトゲノムの個人間の違いのうち、集団での頻度が1%以上のものを遺伝子多型と呼ぶ。代表的なものとして、ヒトゲノム塩基配列上の一カ所が変化して生じる一塩基多型(Single Nucleotide Polymorphism; SNP)がある。
図1 ビッグデータ解析によるHLA遺伝子配列構造の可視化
- 図左:遺伝子配列の頻度分布情報を情報量エントロピーに基づき数値化する統計指標であるε(イプシロン)を導入した結果、複数のHLA遺伝子間における遺伝子配列の組み合わせの結びつきの強さ(連鎖不平衡関係)の程度が明らかになった。特に、HLA-BとHLA-C、HLA-DRB1とHLA-DQB1、HLA-DPA1とHLA-DPB1の間に強い連鎖不平衡関係が認められた。
- 図右:高次元ビッグデータを圧縮・可視化する「Disentangler」を適用したところ、日本人集団に特異的なHLA遺伝子ハプロタイプが高い頻度で存在することが判明した。頻度1%および5%以上のHLA遺伝子ハプロタイプを水色および緑色で示した。
図2 バセドウ病の発症リスクを有するHLA遺伝子部位
日本人集団のバセドウ病のGWASデータに対してHLA imputation法を適用した結果、HLA-A、HLA-B、HLA-DRB1、HLA-DPB1遺伝子のアミノ酸配列がバセドウ病の発症リスクを有することが判明した。各HLA遺伝子の立体構造上におけるリスクアミノ酸配列部位を示した。最も強いリスクはHLA-DPB1遺伝子の35番目のアミノ酸配列に認められた。