我们对一类再制造系统的策略优化问题研究表明,虽然马氏决策过程(MDP)模型在理论上有完善的体系,在应用中却存在着一些局限性,如状态空间和策略空间大小的指数爆炸,导致经典的策略迭代和值迭代无法使用,其核心困难策略本身复杂度过高,既无法实现,也无法对策略空间进行搜索。尽管现有方法从不同角度推进了大规模MDP问题的近似和简化求解研究,但都以寻求最优策略为目标,必然遇到共同困难除非在很特殊条件下,一般无法保证所给问题的最优策略具有简单结构(低的描述复杂性)。这就限制了以寻求最优策略为目标的各种算法的适用范围。经过三年的研究,本项目从新角度,即明确将策略的描述复杂性作为约束条件来,结合序优化方法,给出大规模DEDS的策略序优化的系统性方法。这种思路优点在于1)保证求出的策略具有相对简单的结构,一定能够在工程上实现;2)解的最优性在概率意义下可评价。本项目成果已用于解决再制造系统、无线传感器网络、建筑节能控制、网络化水资源调度等多个实际问题,为系统性解决工程中大规模策略优化问题作出了贡献。
英文主题词Policy optimization; ordinal optimization; descriptive complexity; remanufacturing system; Markov decision process