当サイトは、Javascriptを使用しています。Javascriptを無効にして閲覧した場合、コンテンツが正常に動作しないおそれやページが表示されない場合があります。当サイトをご利用の際には、Javascriptを有効にして閲覧下さい。

2015年4月21日

理化学研究所
(公社)日本将棋連盟

直観的な戦略決定を行う脳のメカニズムを解明

－棋士の戦略決定は帯状皮質ネットワークで行われる－

English Page

ポイント

動画テキストファイル

要旨

理化学研究所（理研）脳科学総合研究センター認知機能表現研究チームの田中啓治チームリーダーらの研究チーム^※は、将棋の棋士が次の手を決める際の脳の動きを機能的磁気共鳴画像法（fMRI法）^[1]で調べることで、ヒトの直観的な戦略決定が、大脳の帯状皮質^[2]と呼ばれる領域を中心とするネットワークによって行われていることを明らかにしました。

複雑な状況の中で応答を迫られたとき、人はまず大まかな応答の分類（戦略）を決め、次にその戦略のもとで細部にわたる具体的な応答を決めます。このような戦略決定は具体的応答の分析を行わずに行うので直観的と呼ぶことができます。しかし、直観的な戦略決定の脳メカニズムはまったく分かっていませんでした。

研究チームは、攻めの手と守りの手の区別がはっきりしている将棋の特徴を活用し、与えられた盤面の状況によって攻めるべきか守るべきかを決定する戦略決定の脳メカニズムをfMRI法で調べました。その結果、直観的な攻めと守りの戦略決定が、一手ごとの分析を行って具体的な手を決定する脳の領域とは独立した別の脳ネットワークで行われることを発見しました。また、与えられた盤面における攻めと守りの主観的価値は帯状皮質の後部と前部に分かれて表現され、これらの価値表現が前頭前野背外側部^[3]に伝えられて戦略決定がなされることが分かりました。今回の実験は将棋の攻めと守りについて行いましたが、その他の日常的な個人や集団による直観的な戦略決定にも、類似の脳ネットワークが使われている可能性があると考えられます。

本研究は、富士通株式会社及び株式会社富士通研究所と、公益社団法人日本将棋連盟の協力を得て実施しました。成果は、米国の科学雑誌『Nature Neuroscience』（5月1日号）に掲載されるのに先立ち、オンライン版（4月20日付け：日本時間4月21日）に掲載されます。

※研究チーム

理化学研究所
脳科学総合研究センター認知機能表現研究チーム
研究員万小紅（ワン・シャオホン）
副チームリーダー程康（チェン・カン）
チームリーダー田中啓治（たなかけいじ）

背景

人は複雑な状況の中で応答を迫られたとき、まず大まかな応答の分類（戦略）を決め、次にその戦略のもとで具体的な応答を決めます。この方が、最初から具体的応答を決めるよりも比較的短時間で良い応答を決めることができます。しかし、具体的な応答の優劣を検討することなしに、いったいどうやって戦略を決めることができるのか不思議です。具体的応答を分析せずに決めるこのような戦略決定は、直観的と言えます。複数の具体的応答の可能性から最適なものを選ぶ脳のメカニズムについては、この10年ほどでいろいろなことが分かってきましたが、直観的な戦略決定の脳メカニズムはこれまでまったく分かっていませんでした。

研究チームは、将棋の与えられた盤面で守るべきか攻めるべきかを決定する問題を使って、戦略決定の脳メカニズムを調べました。将棋の場合、特に対局の中盤では、攻めの手と守りの手の区別がはっきりしています。この要因の1つに「持ち駒」という将棋独特のルールがあります。奪った相手方の駒を持ち駒として保持し、盤面上の自分の駒を動かす代わりに持ち駒を任意の位置に「打つ」ことができるため、対局の終盤に向かっても盤面上の駒の数が減らず、ある程度の数の駒を自分の王将を守るため、または相手の王将の守りを崩すために、それぞれ専用で使うことができます。このため将棋、特に中盤では攻めの手と守りの手の区別が明確です。

研究チームは、このように攻めの手と守りの手の区別がはっきりしている将棋の特徴を活かして、与えられた盤面で守るべきか攻めるべきかを決定する戦略決定の脳メカニズムを調べました。

研究手法と成果

1.被験者が行った行動課題

脳活動測定実験は、アマチュア三段、四段の高段者17名（平均年齢33歳の男性）を被験者にして行いました。被験者には機能的磁気共鳴画像（fMRI）装置の中で戦略決定課題（直観的思考課題）および具体手決定課題（コントロール課題）に答えてもらい、両者を比較しました（図1）。課題の内容はプロ棋士である北浜健介七段(当時：現八段)に作成を依頼しました。

まず注視点を1秒提示し、続いて戦略決定課題か具体手決定課題かを1秒提示した後、盤面を4秒提示して回答を考えてもらいます。次に戦略決定課題の場合は攻め／守りの2つの選択肢、具体手決定課題の場合は4つの選択肢を提示し、2秒以内に回答してもらいます。さらに、約7秒の間に駒を1個ずつ提示し「金」が出たらボタンを押す課題を行ってもらいました。この「金」検出課題は、次の課題に取り組む前に、戦略決定または具体手決定に関する脳活動をストップするための課題です（妨害課題）。戦略決定課題と具体手決定課題の問題は1回ごとに異なり、同じ問題は1人の被験者には1度だけ用いました。全体として120問の問題を作りランダムに2群に分けたので、１人につき60問、2群の問題の間で平均的難易度は同じです。2つの課題を出す順番はランダムにしました。

被験者の戦略決定での正答率は具体手決定での正答率よりも高く、戦略決定での平均反応時間は具体手決定での平均反応時間よりも短い傾向がありました（図2上）。

また、盤面提示と同時に2つ選択肢を提示（具体手決定課題の場合の選択肢も2つに減らした）していつでも回答できるようにした実験（MRIの外で6名のアマチュア高段者を被験者にして行った）を行いました。その結果、前述の実験と同じ傾向となりました（図2下）。これらの結果は、戦略決定が個々の具体手の精査を経ずして直観的に行われたことを示唆します。

2.攻め／守りの戦略決定に関わる脳ネットワーク

戦略決定に関わる脳ネットワークを抽出するために、まずは戦略決定課題で具体手決定課題よりも強く活動する脳部位をfMRIで探しました。その結果、前帯状皮質吻側部（ぜんたいじょうひしつふんそくぶ;rACC）、後帯状皮質（PCC）、前頭前野背外側部（DLPFC）が浮かび上がりました。

次に、これらの領野の活動が攻めや守りの価値判断とどのように関係しているか調べました。コンピューター将棋プログラムの1つである「激指」は個々の具体手の価値を18手先まで読み、その時点での状況の価値を評価して元の手の価値を決めます。激指が示した各盤面における上位3つの価値を持つ攻めの3手の平均価値と守りの3手の平均価値が、被験者の攻め／守りの戦略決定の傾向を最もよく再現しました。ただし、攻め／守りの戦略決定における攻めの価値と守りの価値の評価には個人差があります。例えば、激指が算出した攻めの価値10と守りの価値20を、ある被験者が同等の価値であると評価したとして、他の被験者が同じように評価するとは限りません。この個人の主観による差を調整するための係数を掛けた攻めの価値と守りの価値を、それぞれの被験者における「攻めの主観的価値^[4]」と「守りの主観的価値^[4]」と呼ぶことにします。

実験の結果、rACCの活動は守りの主観的価値に、PCCの活動は攻めの主観的価値に、DLPFCの活動は選択した戦略の主観的価値から選択しなかった戦略の主観的価値を引いた値にそれぞれ強く正に相関しました（図3）。

一方、rACCやDLPFCよりも後ろに位置する前頭前野背外側部後部（pDLPFC）、運動前野背側部（dPMA）や前補足運動野（preSMA）、また頭頂葉楔前部（とうちょうようけつぜんぶ;Precuneus）などの領野は、具体手決定課題において活動が高まりましたが、これらの領野は戦略決定課題においても具体手決定課題においても攻めと守りの主観的価値を表すことはありませんでした（図4）。

これらの結果は、直観的な攻め／守りの戦略決定が、具体的な手の精査とは無関係に、与えられた盤面における攻めと守りの価値評価をもとにして行われていることを示唆します。また、攻めと守りの価値は帯状皮質の後部と前部に分かれて表現され、これらの価値表現が前頭前野背外側部に伝えられた後、選択された戦略の価値から選択されなかった戦略の価値を引いた値が表現され、その差によって攻めるか守るかの戦略を決定していると考えられます（図5）。

3.アマチュア高段者の攻めバイアス

本実験の被験者であるアマチュア高段者では、攻めの価値と守りの価値の主観的評価が被験者ごとに大きく異なり、多くの人は攻めの価値を高く評価する傾向（攻めのバイアス^[5]）がありました（図6左黒点）。比較のために6名のプロ棋士に同じ戦略決定課題を行ってもらったところ、プロ棋士ではそのような傾向はありませんでした（図6左赤点）。そして、アマチュア高段者の攻めのバイアスはその被験者の守りの価値を表すrACCの活動の大きさに負に相関し（図6中）、攻めの価値を表すPCCの活動の大きさに正に相関していました（図6右）。これらの結果は、帯状皮質における戦略価値の表現の強さの個体差がそれぞれの被験者の反応バイアスを決めていたことを示し、帯状皮質に表現されるそれぞれの盤面における攻めと守りの主観的価値が棋士の戦略決定のもとになっているという結論を補強する結果です。

今後の期待

帯状皮質は海馬などの記憶系および扁桃体などの情動系との結合が強く、大脳皮質の中でも進化的に比較的古い部分であり、動機づけとの関連も指摘されてきました。客観的な状況判断と動機づけが出会って主観的価値が形成される場所として機能している可能性があります。

今回の実験は将棋の攻め／守りについて行いましたが、個人や集団の戦略決定に類似の脳ネットワークが使われている可能性があります。経営科学の分野では、企業などの戦略決定は状況を好機または危機に分類することにより大きく左右されることを示してきました。具体的な対応策の精査とは独立に、状況の特徴の認識により攻めるべき状況と守るべき状況を決定するのではないかと考えられます。攻めるべき状況と結びついた特徴および守るべき状況と結びついた特徴は、過去の多くの状況での経験から学習されて長期記憶として記憶され、これらの特徴の知覚が無意識のうち、すなわち直観的に戦略決定に結びつくものと思われます。

今回の実験ではコンピューター将棋プログラムの「激指」を使って個々の具体手を評価し、その局面における攻めと守りの価値を計算しましたが、状況の特徴から直接に攻めと守りの価値を計算するコンピュータープログラムが開発されれば、組織やグループの戦略決定の訓練の参考になると期待できます。

原論文情報

Xiaohong Wan, Kang Cheng, Keiji Tanaka, "Neural encoding of opposing strategy values in anterior and posterior cingulate cortex", Nature Neuroscience

発表者

理化学研究所
脳科学総合研究センター認知機能表現研究チーム
チームリーダー田中啓治（たなかけいじ）

報道担当

理化学研究所広報室報道担当
Tel: 048-467-9272 / Fax: 048-462-4715

日本将棋連盟普及免状部学校教育課
Tel: 03-3408-6234
fukyu [at] shogi.or.jp（※[at]は@に置き換えてください。）

補足説明

1.機能的磁気共鳴画像法（fMRI法）
神経細胞の活動が局所的に高まると、反射によって局所的に血流量が増え、毛細血管中の還元ヘモグロビンの量が減少する。還元状態のヘモグロビンは、磁化してまわりの水分子の水素原子核（プロトン）の磁気共鳴の減衰を早める作用を持つので、還元ヘモグロビン量の減少は、プロトンの磁気共鳴信号の減衰を遅らせて、磁気共鳴信号を増加させる。このように神経細胞活動の高まりを局所血流量の増加を通じて、最終的にはプロトンの磁気共鳴信号の増加で測定するのが機能的磁気共鳴画像法である。理研脳科学総合研究センターでは、通常の核磁気共鳴装置の2.5倍の4T（テスラ）の超電導磁石を用いることで、より高感度の測定を可能としている。
2.帯状皮質
大脳半球内側の正中に面した部分に広がる大脳領域。帯状溝と脳梁の間を占め、前後に長く伸びる。進化的に古い大脳領域であり、海馬、扁桃体、海馬傍回などとともに大脳辺縁系とも呼ばれる。
3.前頭前野背外側部
前頭葉の前方外側にある大脳領域。進化的に新しく、霊長類でよく発達している。一時的な記憶であるワーキングメモリーに重要であり、行動実行の規則や抽象的な意味が記憶され表現されている。
4.攻めの主観的価値、守りの主観的価値
攻めおよび守りの主観的価値の計算手法を示す。コンピューター将棋プログラム「激指」を用いてその盤面（問題）における攻めの具体手と守りの具体手の価値をすべて計算し、最強から3個の攻めの手の平均価値でその盤面の攻めの客観的価値（ASV）を決め、最強から3個の守りの手の平均価値で守りの客観的価値（DSV）を決めた。次に、60問の問題での各被験者の攻め／守りの戦略選択を式1と式2により最もよくフィットするa₁、a₂、a₃を被験者ごとに選んだ。

S_ASV-S_DSV＝a₁ASV-a₂DSV+a₃（式1）
攻めを選ぶ確率＝1/(1+exp^{(-(S_ASV-S_DSV))})（式2）

攻めおよび守りの客観的価値にそれぞれの被験者ごとに異なる係数a₁とa₂をそれぞれ掛けたa₁ASVが攻めの主観的価値、a₂DSVが守りの主観的価値である。
最強から3個の具体手の平均価値が被験者の選択を最もよくフィットしたので用いた。
5.反応バイアス
反応バイアスの計算方法を示す。
攻めへの反応バイアス = z(攻めの正答率) - z(守りの正答率)（式3）
反応感度 = z(攻めの正答率) + z(守りの正答率)（式4）
ただし、攻めの正答率は攻めが正しい問題で攻めを選ぶ確率、守りの正答率は守りが正しい問題で守りを選ぶ確率、zは標準正規累積分布の逆関数である。

図1　戦略決定課題と具体手決定課題

注視点の1秒提示に続いて、戦略決定課題か具体手決定課題であるかの指示を提示し、次に盤面を4秒提示した。続いて、戦略決定課題の場合は攻め／守りの2個、具体手決定問題の場合は4個の選択枝を提示し、被験者は2秒以内に1つを選択した。その後、約7秒の間は「金」が出たらボタンを押す妨害課題を行った。1試行の時間は15秒である。戦略決定課題と具体手決定課題の順番はランダムにした。

図2　戦略決定課題と具体手決定課題における正答率と反応時間

具体手決定課題の選択肢は上図の実験では4個、下図の実験では2個。選択枝は上図の実験では盤面提示後に示し、下図の実験では盤面提示と同時に示した。反応時間は、上図では選択肢提示開始からボタン押しまで、下図では盤面と選択肢提示開始からボタン押しまでを計測した。

図3　攻め／守りの主観的価値と各脳部位との関係

前帯状皮質唯側部（rACC）の活動は守りの主観的価値(S_DSV)に、後帯状皮質（PCC）の活動は攻めの主観的価値(S_ASV)に、前頭前野背外側部（DLPFC）の活動は選択した戦略の価値から選択しなかった戦略の価値を引いた値(S_chosen – S_unchosen)にそれぞれ強く正に相関した。***, P < 0.001; **, P < 0.01, *, P < 0.05; ns, P > 0.05.

図4　具体手決定課題で活動する脳ネットワーク

前頭前野背外側部後部（pDLPFC）、運動前野背側部（dPMA）、前補足運動野（preSMA）は、具体手決定課題では活動が高まるが、戦略決定課題、具体手決定課題の両方において攻めと守りの主観的価値の計算や表現に関わらない。

図5　攻め／守りの戦略決定に関わる脳ネットワーク

与えられた盤面での攻めの主観的価値が後帯状皮質（PCC）に、守りの主観的価値が前帯状皮質唯側部（rACC）にそれぞれ表現され、前頭前野背外側部（DLPFC）に伝えられてその差によって攻めるか守るかの戦略が決定される。

図6　反応バイアスと脳活動の相関

左：アマチュア高段者では反応バイアスに大きな個人差があり（黒点）、多くの被験者は強い攻めへのバイアスを示した。プロ棋士では反応バイアスがほとんどなかった（赤点）。
中：アマチュア高段者では、個々の被験者の攻めへの反応バイアスは、守りの価値を表す前帯状皮質唯側部（rACC）の活動の強さに負相関した。
右：アマチュア高段者では、個々の被験者の守りへの反応バイアスは、攻めの価値を表す後帯状皮質（PCC）の活動の強さに正相関した。