利用基于部分可观马尔可夫决策过程的策略搜索模型,提出了一种具有优化行为的策略搜索算法,并推导出满足匹配律的策略算法.被试可通过调整策略参数,最大化目标值函数的期望值,并根据已往的经验调整策略参数.假定被试所处的环境具有马尔可夫性,通过计算值函数期望值的梯度可求得优化行为的策略搜索算法.理论分析与仿真结果表明,如果策略参数与值函数的期望值仅受当前经验的影响,则可由获得优化行为的策略算法推导出符合匹配律的策略算法.研究结果揭示了匹配行为与优化策略搜索算法之间的关系,表明满足匹配律的决策行为是一类达到次优的决策行为.