Entries

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/909-2725d87e

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

ジョージ・エインズリー『誘惑される意志』


意志の弱さについて。後々の影響を考えれば明らかに行わないほうが良いのに、なぜ目先の誘惑に負けて行ってしまうのか。そうした誘惑に負けない仕組みとしての「意志」とは何か。意志を持つことの進化的意味合いは何か。意志が強いことは本当に良いことづくめなのか。本書はこうした話題に、双曲線割引という単純な論点を基にして、実に広範囲な議論を展開する。

議論が広範囲に渡ることもあり、経済学、社会学、行動心理学、生物学等に及ぶ広い範囲の基礎知識が読者にも要求される。しかも比喩や事例などによる説明があまりうまくないので、とても読みにくい本になっている。訳者も言うように、本書がもっと上手く書かれていたらとっくに現代の古典として普及していたであろう内容。訳者解説がとてもうまく書けているので、そちらを先に読んで、ときおり再読しつつ、本文を読み進めるのがよい。

人間に限らず生物の意思決定においては、時間的に後の事柄はその価値が割り引かれる。普通の理論では、この割引率は一定と仮定される。したがって時間を横軸、価値を縦軸とすると、その割引曲線は指数関数のグラフとなる。意思決定は最大の満足を達成するように行われるという効用理論、あらかじめ持っている欲望の優先順位に従って認知的に判断がされるという認知理論という二つの大きな伝統的理論の双方において、指数関数的な価値割引が前提とされている。そして、これら二つの理論では非合理的で自己破壊的な行動は十分に説明されていない(p.44)。ちなみに、この価値割引は生物に限らず、強化学習でも報酬は一定の割引率で将来に渡って割り引かれる。

著者はこの指数的割引に代わって、双曲線関数による双曲的割引を主張している。これが本書のすべての鍵となる。双曲線関数による割引は、単にそうすると理論的に説明がつくということではない。人間やハト、ラットなどを使った実際の実験結果に基づいての主張だ(p.50-55)。

そもそも非合理的で自己破壊的な行動は、典型的には中毒症状。また、ダイエットなども典型例。行為がもたらす客観的価値については、行為Aのほうが行為Bよりも大きいことが分かっていながら、行為Bの実現機会が極端に近いと、行為Bのほうがもたらす価値が大きいように扱われる。指数的割引では、行為Aと行為Bはいつの時点で比較しても、それらの値は本来それら行為がもたらす客観的価値に比例している。指数的割引では一定の割引率で将来に渡って割り引かれているため(すなわち指数関数の微分は常に一定)。したがって価値の逆転は起こらない。いま、時点tにおける行為Aの割引後の価値をVa(t)と書こう。行為Aの実現時点をtaと書けば、行為Aの客観的価値はVa(ta)。指数的割引では、行為Aと行為Bの価値はどの時点で比較しても、客観的価値に比例する。現時点t0において行為Aのほうが行為Bよりも価値が大きい、すなわちVa(t0) > Vb(t0)であれば、任意の時点tにおいてVa(t) > Vb(t)となる。グラフで言うと、Vaのグラフは常にVbよりも上に来ており、どこかの時点で逆転することはない。

一方で双曲的割引では事情が異なる。双曲線関数のグラフは指数関数のグラフよりも下にしなっている(と著者は書いているが、そうなるように双曲線関数(x^2/a^2 - y^2/b^2 = 1)のパラメーターa, bを設定するということ)。ゆえに現時点t0において行為Aのほうが行為Bよりも価値が大きい、Va(t0) > Vb(t0)と評価されていても、双曲線では傾きが急増するために、tbに近い時点tb'ではVa(tb') < Vb(tb')となりうる。したがって、客観的価値としてVa(ta) > Vb(tb)と行為Aのほうが大きな価値をもたらすと評価しつつ、かつ、割り引かれた現時点での価値でもVa(t0) > Vb(t0)と行為Aのほうが大きいと評価しつつ、なおも、行為Bの実現機会が近づくといきなり行為Bのほうがもたらす価値が大きいVa(tb') < Vb(tb')と判断されるというモデルが作れる(p.51)。これこそ、誘惑に負けた非合理的な自己破壊的行為のモデルであり、しかも多くの実験で支持される。指数割引を前提とする理論では自己破壊的行為を説明するために、副次的な選択要因を数々持ち出してくるが、双曲割引で作り出される短期の報酬を認めさえすれば、そんな必要はない(p.103)。

こうした割引後の価値の逆転に抗して、客観的価値に基づいて意思決定を行おうとする時に、意志が登場する。意思決定の場に上る様々な選択肢は、意識の関心を巡って奪い合いをしていると考えることができる。すなわち、自らを実現すべくリソースを奪い合う。効用理論のように単に最大の利益が選ばれるだけなら、たしかに自我、意志などいらないだろう。自我、意志とは中心に位置するものではなく、利益同士の協力を仲介するブローカーのような役割を果たす。自己は単一の機関ではなく、反復的囚人のジレンマにある暗黙の協力関係を寄せ集めたものだ(p.146-149)。ちなみにここでこの選択肢には、良いもの・快楽だけでなく痛みなど不快なものも含められている。報酬と快楽は異なるものだ。報酬とは意識の関心を他のよりも強く引いたとき、他より報酬が多かったと考えられる。したがって痛みは他の思考や感情よりも意識の関心を強く引く限りで、報酬が大きい。痛みも意識の関心を巡って他と競合している(p.90-94)。痛みから開放されるという利益をもたらす。

意志というのは、客観的価値の高い選択肢が、現時点だけ価値が高く割り引かれている短期的な選択肢に対抗する戦略だ。すなわち、意志とは異時点間の交渉状況である。その内実は、ある行動を一連の類似行動の前例としてグループ化・分類することだ。選択を束ねることで双曲線は指数関数に近づき、直近の利益に左右されない我慢強さが達成される(p.150-154)。「ここで誘惑に負けたら、これからもそうなる」といった具合に、行為の一般化を行うことにより、直近でのみ価値の高い行為を排除する。逆に、直近でのみ価値の高い行為での誘惑はいつも、「いまだけは特別、一回だけ」となる。何らかの理由をつけて、いま一回だけは行為が許されるとする。ダイエットで言うと、「今日は特に頑張ったからOKとする」とか「明日から本気出す」とか。ここで問題となっているのは、自分への信頼性である。意志とは、信頼性が力となるような交渉状況のことだ。意志した行為をしなかったら、自分の意図の信頼性が下がり、その後に自分が意図できることが少なくなってしまう(p.191f)。この自分への信頼性を確保するために、実に多くの戦略が取られる。他の人に意図を宣言するとか、神頼みとか。

自分への信頼性は、将来におけるフィードバックループをなしている。誘惑に負けた自己破壊的な行為を、意志を働かせて防いだとする。これは成功体験となる。後の時点で、あのときはできたという体験に基づいて意思決定のプロセスが変化する。決断を行うことと気まぐれに従うのを分けるのは、そこに懸けられている自己参照的な結果に対する配慮、つまり将来の報酬に対する自分の期待である。選択は再帰的に作用するので、その都度の選択が後にどう作用するかは事前には分からない。つまり、カオス理論のようなフィードバックが働く。このことは、意思決定したことが行為されるという決定論と、どのような意思決定がされるかは分からないという自由意志の問題を両立させる(p.196-200)。

本書の大きな特徴として、意志があることの問題点を挙げていることがある。通常、意志が強いことは良いこととされる。短期的な利益に振り回されず、合理的な意思決定が可能となると。著者は意志力が強すぎることの副作用として4つを挙げる(p.218-238)。(1)感情的な即時性の喪失。つねに合理的な判断がされるようになったら、いまここでの体験を味わう能力は低下してしまうし、選択肢も狭まってしまう。(2)行動の特定部分のコントロール放棄。もし意志による自制に失敗すると、それが前例となってしまう。将来似たような状況で自制できるという自分への期待は下がってしまう。これは再帰的、というより自己実現的に働き、実際に自制できる能力を下げてしまう。(3)自分の動機に対する盲目性。失敗が将来に渡って意志力を低下させる大きな問題となってしまうので、失敗をそもそも認めないインセンティブが働く。自分の行動に対する認知ギャップが生まれてしまう。(4)細かい報酬への応答力の低下。意志力による自制の戦略は行為をグループ化することだった。したがって細かな個々の報酬に対して、杓子定規的な一律の基準で評価される。それだけならいいが、ひどくなると強迫観念じみてくる。ダメなものはダメ、と。

すなわち「最終的には、意志というのは将来報酬の双曲割引が創り出す衝動性に対する限定的な解決策でしかない」(p.300)。著者が見るところ、現代社会は意志がもたらす問題をあまり認識していない。短期的な利益、衝動、誘惑に惑わされることなく、長期的で合理的な利益を実現することを奨励しているし、そのための様々な手段を提供している。しかし、衝動だけでなく意志力も人間を脅かすのだ。甘いものや脂っこいものを食べる誘惑に負けて、肥満となるのは問題だ。しかし肥満になるまいとする意志による自制があまりにも強すぎ、過度なダイエットや拒食症に至るのもまた問題だ(p.230)。意志は完璧ではないのだ。

また、ここに意志の重大なパラドクスがある。意志によって、短期的な衝動や誘惑に振り回れることなく、客観的に見て最大の報酬を得ることができる。しかし意志が報酬獲得に上達すればするほど、最終的に獲得できる報酬は減ってしまうことになる。なぜなら、意志が形成されるのは規則的なステップを持つ作業に対してだけであり、そうした作業は充足が容易に予測されてしまうからだ(p.261)。つまり強い意志による合理的な意思決定は、単純に言ってつまらない。そうした人生には驚きがないし、結局のところすべてが予測可能になって満足も少ない。

双曲的割引の進化的意味合いはおそらく、この意志のパラドクスにあるだろう。双曲的割引は一見して奇妙だ。ほとんどの人は指数割引の合理的な価値構造を信じている(p.166)。実際、双曲割引曲線は多くの効用理論が前提とする指数関数よりも不利で不合理となる。なぜなら劣った早期の選択肢が、直前になると優位に見えてしまうのだから。双曲的割引が進化的に生き残ってきた意味を著者は、(1)個体を犠牲にして遺伝子を保存するに役立ったこと、(2)環境を大幅に変更してしまう人間のような存在が登場するまでは無害だったこと、という二つの仮説を提示している(p.69-73)。すなわち、利益は基本的に個体の利益で考えられているので、あまりに合理的に意思決定されると逆に種の利益を損なう。訳者が解説しているように、合理的には結婚や育児はとても割に合うものではないので、子孫を残す人はいなくなり種は滅びる。そこで目先の誘惑に負けて異性を押し倒してしまったほうが、子孫を残しやすい(p.317)。また二つ目の仮説は、先に書いた現代文明の問題になる。科学技術の発展によって環境の制御力が飛躍的に高まったため、意志が強いことの問題が浮かび上がってきた。

しかしおそらく、これはイノベーション理論や強化学習で言われる、探求explorationと活用exploitationの問題だろう。著者もそれに触れている。指数割引でなく双曲割引が用いられるいうことは、外部刺激で完全にコントロールされる機械的な報酬ではなく、感情的報酬の機会を価値あるものとしていることだ。獲得が上手になると、鮮烈な報酬でも習慣化して感動が薄れてしまう。これに対して、双曲割引ではその都度の感情を重視することになる。これは、新たな環境を探求し続けるような動機を生み出してきたのかもしれない(p.254f)。

まさにその通り。双曲割引によって直近の衝動や誘惑に負けることは、環境の新たな探索を可能にする。いままでの経験から構築した最良の行動パターン(政策policy)ではなく、たまには冒険してみることが大事。そうすると新たなものが見つかるかもしれない。双曲割引はこうした冒険を可能にしている。したがって進化的には極めて重要な意味があるだろう。それは個体と種の対立を超えている。冒険して新たな経験を得ること、新しい世界を知ることは、何より個体にとって楽しい(人生が豊かになる)。でも、合理性を推し進める科学技術って、もともとはこうした好奇心を出発点として来たものではなかったか。。。合理性の追求には非合理的要素が必要だということか。

探求と活用のバランスでいうと、強化学習では報酬は指数関数的に割り引いたまま、例えば確率的に探求と活用を振り分けるε-greedy法がある。それによって広い状態空間の探索を可能にしている。けれども本書のように、報酬の割引を双曲線関数にしたらどうなるんだろう。
スポンサーサイト
この記事にトラックバックする(FC2ブログユーザー)
http://exphenomenologist.blog100.fc2.com/tb.php/909-2725d87e

トラックバック

コメント

コメントの投稿

コメントの投稿
管理者にだけ表示を許可する

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。