#8's notebook

適当めも

機会を逃すことのコスト、不利な機会であっても回避したくないときもある

'Subjective costs drive overly patient foraging strategies in rats on an intertemporal foraging task' Wikenheiser AM et al., PNAS 2013

 

ラットが円形の回廊型チャンバーを同じ方向に回りながら、目の前のオプションを消費するか通過するか意思決定していく。オプションはShort, medium, longの3種類で、それぞれペレット(2粒)が出てくるまでの遅延時間が異なる。セッション内では各オプションのdelayは同じだが、どれも長めのセッション、どれも短めのセッションもあり、どれも短いときは得られる報酬の最大値も大きくなる(環境がRichである)。

一定のセッション時間内で得られるペレットを最大化するには、ラットはShortだけ消費して他は全部スルーするべきなのだが、実際の行動をみるとmediumもかなりの割合で消費し、longですらそこそこ受け入れている。これは得られる報酬を最大化するRate maximization戦略では説明不可能な結果であった。ではラットはどのような理論に基づいた戦略をとっていたのか?

この行動結果、既存のmatching lawやhyperbolic model (temporal discounting)では説明できない。なので、稼いだペレットの量そのものだけで行動の理由を説明するのは難しそう。

そこで、Rate maxmization戦略に加えて、目の前のオプションを消費せず通過するリジェクトコストを考え、リジェクト回避傾向を示す係数'A'を含む項を導入したところ、Aを0より大きくすることで実際の行動を説明可能となった。つまり、いくら待ち時間の長い不利なオプションといえ、通過してしまうのはためらわれるという気持ちがあり(A>0)、それなりにアクセプトしてしまうのだ。

これは恐らく、自然界的な逐次選択課題だからこそ強く起こることである。目の前のオプションは不利なものだけど、さっきもスルーしちゃったし…という気持ちになるからである。頼み事をされて、あまり乗り気じゃなくても、何度も断るのは悪いと思って引き受ける心理も似ているかもしれない。

この、リジェクト回避係数Aは、機会コストと正の相関を示す。すなわち、環境がRichであるとき(オプションが全部短めで、得られるペレットの最大値が大きいとき)には、リジェクトが少なく、不利なオプションも消費する確率が高い(=獲得する報酬量の獲得可能な報酬の最大値に対する割合Rは低い)。遅延が短いオプションばかりのセッションで、ゆとりがあると判断すると、ラットは不利なオプションも消費する。これは、経済的に余裕のある人は遊び心があり、余裕のない人がカツカツしていることにも通じるのかもしれない。余裕のない人はとりあえず必要最低限を満たす必要があるため、経済的に不合理なオプションはガンガン拒否し、Rate maximizationにより近づくとも言える。

環境のRichnessがリジェクト回避傾向に影響するというのは、その環境(セッション)における経験、すなわち行動と報酬獲得の履歴が、リジェクト回避傾向に影響しているとも言えそうだ。ぽんぽんと順調にペレットを獲得しているときはリジェクト回避せず、長い遅延を待ってやっとペレットを得るということを繰り返すとリジェクト回避するようになる。つらみが蓄積してもういやだという感じになるようでもあるし、貧乏人が細かい時間や時給を気にするのにも似てる。ともかく、環境はリジェクト回避傾向に影響するのは確かなようだ。先に挙げた例のように、環境というのを、貧乏or金持ちのような状態stateと考えても良いのかもしれない。

逐次的な選択で不利な選択を行うということでいうと、サンクコスト効果なども関連があるかもしれない。不利な投資とわかっていても、リジェクト回避傾向Aが十分に大きいと、投資を行ってしまう。

環境がAに影響することはわかったが、どのようなformulationでAが計算されるかは不明だ。先に挙げたように、行動および報酬獲得の履歴がどのようにAに影響するのか。

 

まとまらない。この話は、たぶんいろいろと考えるべきことがある。

例えば、同じ装置を使って、各オプションをギャンブルオプションにしたら、どうなるだろう。確実なオプション以外はスルーすべきように設定しても、やはりラットはリスキーなオプションにもトライするかもしれない。そもそも、リスキーであるということは、たとえば10%のオプションであれば、100%のオプションと比べれば、10倍の時間をかけてやっと1つ報酬を得られるわけだから、報酬遅延時間と同様のスキームで考えてもよいかもしれない。となれば、このリジェクト回避傾向Aはリスク選択の傾向とも関連があるかもしれない。ゆとりがある人はちょっとリスキーであってもやってみるし、カツカツな人はリスクを避ける。これは別の記事で話題にした社会経済の論文の内容とも合致する。