要旨
理化学研究所(理研)統合生命医科学研究センターゲノムシーケンス解析研究チームの中川英刀チームリーダー、藤本明洋副チームリーダーらが参画する国際共同研究グループ※は、がんの全ゲノムシーケンス解析[1]における、世界の代表的ながんゲノム解析機関の解析手法の比較およびベンチマーク評価を行うことにより、解析の問題点を明らかにし、新たなガイドラインを作成しました。この研究は、国際がんゲノムコンソーシアム(ICGC)[2]のプロジェクトの一環として行われました。
現在、ICGCや世界のさまざまながん研究機関、がん専門病院では、次世代シーケンサー(NGS)[3]と情報解析技術を駆使して、全ゲノムシーケンス解析が多くのがん患者に対して行われています。今後、全ゲノムシーケンスが、研究の分野のみならず、「ゲノムの病気」とも言えるがんの診断や個別化医療の分野においても、標準的な解析手法になるものと予測されています。しかしながら、DNAシーケンスやその情報解析の手法によって、解析結果(変異の有無)が大きく異なる場合があり、解析方法の標準化が求められています。
今回、がんの全ゲノムシーケンス解析での情報解析の問題点を明らかにするために、2つのベンチマークであるNGSからの生データまたは実際の腫瘍のDNAに対して、理研を含む18カ所の代表的な世界のがんゲノム解析機関で全ゲノムシーケンス解析を行い、それらの変異同定の結果を比較しました。その結果、変異同定の解析アルゴリズムによって大きな違いが生じていることが分かりました。変異の種類やゲノムの部位、解析アルゴリズムの特徴に応じて、結果の差異が認められ、さらにNGSの前処理の方法によっても大きく結果が異なっていることが明らかになりました。
共同研究グル―プは、これらの解析のばらつきを解決するため、がんの全ゲノムシーケンス解析のためのガイドラインおよびベンチマークとなるデータセットを作成しました。これにより今後、がんの診断や治療選択に一般的に使われる可能性のある、がんの全ゲノムシーケンス解析の標準化が促進されることが期待できます。
本研究成果は、国際科学雑誌『Nature Communications』(12月9日付け:日本時間12月9日)に掲載されます。
背景
がんにおいては、遺伝子の設計図であるゲノムに変異が多数生じており、その結果、細胞内の正常な分子経路が破綻して無秩序な細胞増殖をきたすことから、がんは「ゲノムの病気」とも言われています。さらに特定のがんや病態では、特徴的なゲノム変異が認められ、そこを標的とした分子標的薬が開発され、さまざまながん種に対して使用されています。それぞれのがんにおいて、ゲノム変異がゲノムのどこで、どのようにして起きているかを網羅的に把握し、それらのゲノム変異をカタログ化することができれば、がんの治療法や診断法、予防法の研究分野に新たな手法をもたらす可能性があります。ICGCでは国際連携のもと、がんのゲノムデータベースの構築を行っており、これまでに14,767例のがんゲノムデータベースを公開しています(11月26日Data Release 20)。
近年の次世代シーケンサー(NGS)といったDNAシーケンス(塩基配列解読)技術の急速な進展に伴い、全ゲノムシーケンスが容易に行えるようになり、30億塩基からなるヒトの全ゲノムレベルでがんの変異同定が可能になっています。ICGCや世界のさまざまながん研究機関、がん専門病院では、現在、NGSと高度な情報解析技術を駆使して、全ゲノムシーケンス解析が多数の症例に対して行われています。全ゲノムシーケンス解析の手順は次の通りです。
- ①腫瘍および正常組織のDNAからNGS用の前処理を行う(ライブラリー作成)。
- ②NGSにて全ゲノムシークエケンスを腫瘍DNAおよび正常組織DNAについて行う。
- ③NGSから得られた合計200億塩基以上の情報を、スーパーコンピュータを用いて解析し、ヒトゲノム参照配列へのアライメント[4]、および腫瘍ゲノム配列と正常ゲノム配列を比較(変異コール)して、腫瘍ゲノムのみに生じている変異を同定する。
③は超大量の情報を扱うため、最も労力と時間を要し、高度な数学や統計学、遺伝学、情報工学の知識と技術が必要となります。この情報解析の方法によって、変異の結果が大きく異なる場合があり、解析の標準化が求められています。
研究手法と成果
本研究では、現在使用されているがんの全ゲノムシーケンス解析の解析手法の問題点を明らかにするため、ベンチマークである慢性リンパ性白血病および小児脳腫瘍の全ゲノムシーケンスの生データまたは実際の患者のDNAを、理研を含む18カ所の代表的な世界のがんゲノム解析機関で解析し、それらの変異同定結果を比較しました。また、それぞれのアルゴリズムによって同定された数千カ所の変異について、別の独立した方法で確認し、正解データとしました。
その結果、各施設の変異同定のアルゴリズムによって大きな違いが生じていることが分かりました。変異の種類やゲノムの部位、解析アルゴリズムの特性に応じて、結果の差異が認められ、さらにNGS前処理の方法ごとに結果が大きく異なっていることが明らかになりました。ベンチマークの腫瘍で確認された数千カ所の正解の一塩基変異(SNV)のうち、全ての施設の結果が一致したものは約40%でした。また、短い欠失・挿入(indel)の変異コールに関してはさらに問題があり、すべての施設のアルゴリズムで共通して同定できたものは、337個のindel変異のうち、わずか1個だけでした。
ICGCは今回の結果を踏まえて、シーケンスデータ解析のベンチマークとなりうる「参照がんゲノムセット」を作成し公開しました。そして、詳細に結果の精度を検証した上で、シーケンス解析のばらつきを解決するため、がんの全ゲノムシーケンス解析用のガイドラインを作成しました。ガイドラインの内容は下記の通りです。
- ①PCR(DNA増幅処理)なしでNGSのライブラリー作成(前処理)をする。
- ②腫瘍のシーケンス深度[5]は、100x以上を理想(通常は30x-50x)とする。
- ③正常コントロール(対照)のシーケンス深度は、腫瘍の深度の±10%とする。
- ④参照ヒトゲノム配列は、 hs37d5 またはGRCh38 (untested)とする。
- ⑤アライメントと変異同定アルゴリズムの適切な組み合わせが必要である。
- ⑥ゲノム上でシーケンスエラーが多いリピート配列周辺の変異は除外しない。
- ⑦アライメントの質やシーケンスの方向バイアス(偏り)、ゲノム上の部位のバイアス、部分的アライメントの有無などにフィルターをかけて、アライメントのエラーを最小限にする。
これにより、今後、本研究で提案したガイドラインに沿った形で、がんの全ゲノムシーケンス解析を行い、また、本研究で公開されたベンチマークとなるデータセットを用いて、それぞれの施設で情報解析の評価や改良が行われます。がんの診断や治療選択に一般的に使われる可能性のある、がんの全ゲノムシーケンス解析の標準化が促進されることが期待できます。
※国際共同研究グループ
ICGC Validation /verification working group
理研 統合生命医科学研究センター,日本
Centre Nacional d’Anàlisi Genòmica (CNAG-CRG), Spain
German Cancer Research Center (DKFZ), Germany
Heidelberg University, Germany
Ontario Institute for Cancer Research (OICR), Canada
University of Toronto, Canada
McGill University, Canada
Cancer Research UK Cambridge Institute, University of Cambridge, UK
Wellcome Trust Sanger Institute, UK
National Cancer Institute, USA
Human Genome Sequencing Center, Baylor College of Medicine, USA
Stanford University, USA
Knight Cancer Institute, Oregon Health & Science University, USA
The Genome Institute, Washington University, USA
Harvard Medical School, USA
MD Anderson Cancer Center, USA
DNAnexus, USA
BGI-Shenzhen, China
Synergie Lyon Cancer Foundation, Centre Léon Bérard, France
Queensland Centre for Medical Genomics, University of Queensland, Australia
The University of Melbourne, Australia
Institute for Cancer Research, Oslo University Hospital, Norway
原論文情報
- Tyler S. Alioto TS, Buchhalter I, Derdak S, Hutter B, Eldridge MD, Hovig E, Heisler LE, Beck TA, Simpson JT, Tonon J, Sertier S, Patch AS, Jäger N, Ginsbach P, Drews R, Paramasivam N, Kabbe R, Chotewutmontri S, Diessl N, Previti C, Schmidt S, Brors B, Feuerbach L, Heinold, Gröbner S, Korshunov A, Tarpey PS, Butler AP, Hinton J, Jones D, Menzies A, Raine K, Shepherd R, Stebbings L, Teague JW, Ribeca P, Giner FC, Beltran S, Raineri E, Dabad M, Heath SC, Gut M, Denroche RE, Harding NJ, Yamaguchi TN, Fujimoto A, Nakagawa H, Quesada V, Valdés-Mas R, Nakken S, Vodák D, Bower L, Lynch A, Anderson CL, Waddell N, Pearson JV, Grimmond SM, Peto M, Spellman P, He M, Kandoth C, Lee S, Zhang J, Létourneau L, Ma S, Seth S, Torrents D, Xi L, Wheeler DA, López-Otín C, Campo E, Campbell PJ, Boutros PC, Puente XS, Gerhard DS, Pfister SM, McPherson JD, Hudson TJ, Schlesner M, Lichter P, Eils P, Jones DTW, and Gut IG., "A comprehensive assessment of somatic mutation detection in cancer using whole genome sequencing.", Nature Communications, doi: 10.1038/ncomms10001
発表者
理化学研究所
統合生命医科学研究センター ゲノムシーケンス解析研究チーム
チームリーダー 中川 英刀(なかがわ ひでわき)
副チームリーダー 藤本 明洋(ふじもと あきひろ)
報道担当
理化学研究所 広報室 報道担当
Tel: 048-467-9272 / Fax: 048-462-4715
補足説明
- 1.全ゲノムシーケンス解析
次世代シーケンサー(NGS)とスーパ-コンピュータを使って、個人(約30億塩基)やがんの全ゲノム情報を解析し、それぞれの配列の違いや変化を同定するゲノム解析技術。全ゲノムシーケンス解析の場合、タンパク質をコードする1~2%の範囲のエクソンだけでなく、遺伝子の発現を制御するゲノム領域の変異やさまざまな構造異常(大きなゲノム配列異常)も検出可能で、究極のゲノム解析手法と言える。がんの全ゲノムシーケンス解析は、ICGC内において、現在、約3,000例のさまざまながんについて国際連携のもとに解析が行われている。 - 2.国際がんゲノムコンソーシアム(ICGC)
ICGCはInternational Cancer Genome Consortiumの略。2008年に発足した国際連携研究組織で、がんのゲノム変異の包括的なカタログの作成を目標としている。ICGCの各メンバーは、データ収集・解析に関するICGCの共通基準のもと、1種類のがんについて500症例を解析し、ICGCのデータベースに登録して世界中に公開している。2015年時点で、ヨーロッパや南北アメリカ、アジア、オーストラリアの16カ国およびEUの機関や組織が参画し、全体で500億円以上の資金供与のもとで、78種類のがんについての大規模ゲノム研究プロジェクトが進められている。これまで、約14,767例のがんのゲノム情報がICGCのポータルサイトで公開され、世界中のがん研究に活用されている。日本からは、理化学研究所と国立がん研究センターが中心となって参画している。 ICGC ホームページ - 3.次世代シーケンサー(NGS)
ヒトゲノムの全配列約30億塩基を1,000ドル以下のコストで解読すべく、欧米の政府や企業が技術開発を行った結果、より高速高精度の性能を持つシーケンサーが開発され、次世代シーケンサーと呼ばれている。従来の方法に比べ、超大量のDNAシーケンス反応を並列して行うことができる。現在、6日間で約1兆個(ヒトゲノム10人分)の塩基配列を解読できる。 - 4.アライメント
ヒトゲノムプロジェクトで作成された約30億塩基からなるヒトゲノム参照配列に対して、NGSより得られた100~150塩基の短い配列情報を当てはめる作業。全ゲノムシーケンス解析のさまざまな作業のうち、最大の計算資源を要する。 - 5.深度(depth)
標的のゲノム領域に対して何倍のシーケンスを行ったか(何回シーケンスをしたか)を意味する。この深度に応じて、解析の精度が上がる。全ゲノムシーケンスの場合、通常、全ゲノムに対して30x~50xの深度に達するシーケンスを、がんと正常のDNAについて行う。
図1 ベンチマークに使われた小児脳腫瘍のゲノム
ドイツ人の小児脳腫瘍の全ゲノムを、理研を含む8カ所の代表的な世界のゲノムセンターでシーケンス作業を共同で行い(300xの深度=合計約2兆塩基)、その結果をがんの全ゲノムシーケンス解析のためのベンチマークセットとした。図では、1番から22番染色体、X染色体、Y染色体を環状に並べて、全ゲノムレベルでの変異部位を象徴的に示している。
図2 全ゲノムシーケンス解析におけるコンピュータプログラム