1. Home
  2. 広報活動
  3. クローズアップ科学道
  4. クローズアップ科学道 2024

トピックス 2024年2月2日

データベースに潜む塩基配列エラーに警戒せよ

さまざまな生物のゲノム解析が進み、膨大な数の塩基配列が国際的なデータベースに登録されています。ところが、生命科学の基盤である配列情報の記載に大量の間違い(エラー)があることが分かってきました。それは研究者にとって危機的な問題です。三輪 佳宏 室長は、「配列探偵」の精鋭たちと共にエラーの発見と修正に努め、多くの研究者が気付かないうちに間違ったデータを使っていることに警鐘を鳴らします。

開発室室員の写真

バイオリソース研究センター 遺伝子材料開発室
(後列左二人目から)飯田 哲史(イイダ・テツシ)研究員、岸川 昭太郎(キシカワ・ショウタロウ)技師、三輪 佳宏(ミワ・ヨシヒロ)室長、(前列中央)野﨑 晋五(ノザキ・シンゴ)開発研究員らをはじめとする「配列探偵」たち

誰も気付かない間違いデータ

DNAは アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)という4種類の塩基で構成されている。塩基の配列を読み解く方法が開発された1977年以来、配列情報が次々に報告されてきた。大量のDNAの配列を一度に解析できる次世代シーケンサーが登場すると情報量はさらに膨らみ、その後も増加の一途を辿っている。1980年代には、解読された配列情報を登録する大規模な公共データバンクが日・米・欧に登場。国際的なネットワークに発展し、登録データは世界中で活用されている。

「大量のデータをデジタル空間で共有しながら研究するのが最近の生命科学の流れです。ところが、そこで困ったことが起きているのです」。岸川 技師が明かすのは、生命科学の公共財である塩基配列データベースに大量のエラーが含まれているという驚くべき事実だ。

世界中の研究者から寄託される遺伝子やDNAの保存と管理、配布を行ってきた遺伝子材料開発室の強みは、データと共にDNAサンプルの実物があることだ。品質管理の一環として検証したところ、高い頻度でエラーが見つかった。「多くの研究者は、実験がうまくいかなくても、その原因が配列データのエラーにあるとは思ってもみないでしょう」

公共の塩基配列データベースに大量のエラーが存在の図

図1 公共の塩基配列データベースに大量のエラーが存在

エラーが生じる原因はどこに?

「20世紀中に得られたデータのエラーの原因は、主に解読精度の低さです。実験技術が進んだ最近でも、精度が原因のエラーはあります。一方、人為的なミスも多く、さらに気がかりなのは、デジタルデータを"コピペ"する研究者が多いため、デジタル空間で猛烈な勢いでエラーが増加していることです」

データバンクでは、いったん登録されたデータは誤りが分かっても削除されることはない。修正情報は後から追加登録されるが、それを確認せずにエラーがある古いデータを使ってしまう研究者が少なくない。飯田 研究員は、エラーの怖さは予測できないところにあると指摘する。「いつ誰がエラーに引っかかってもおかしくない状態」なのだ。

エラーのせいで失敗する実験

配列エラーに気付かずに実験すると何が起きるか。野﨑 研究員が示す実例では、組み込もうとする遺伝子の運び屋(ベクター)のDNAにたった1個の塩基のエラーがあっても、細胞がつくるDNA量は正しい配列の場合に比べるとはるかに少なくなり、実験は失敗する(図2)。「さらに危険なのは、データベースからDNAを安価に化学合成するビジネスが広がっていることです。エラーが入ったDNAを使ってしまうと期待する成果が得られません」

1塩基のエラーによるDNA量の変化の図

図2 1塩基のエラーによるDNA量の変化

pBRベクターのGをAに替えて、より使いやすいpUCベクターが開発されたが、pUCベクターの一つであるpUC18ベクターでは、塩基配列が正しく登録されずpBR型のままである。そのため、データベース上の誤ったpUC18の塩基配列を使用すると、著しく低濃度のDNAしか得られない。写真はグラフの元になる電気泳動図。

こうした事態を避けるためには、まずエラーの存在を意識し、エラーデータをいたずらに増やさないことが肝心だ。地道な検証でエラーを探す三輪 室長ら「配列探偵」たちは、学会や講演など機会を捉えては研究者に理解と警戒を促す努力を続けている。

(取材・構成:古郡 悦子/撮影:古末 拓也/制作協力:サイテック・コミュニケーションズ)

この記事の評価を5段階でご回答ください

回答ありがとうございました。

Top