东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于增强学习的平行机调度研究

ISSN号：1006-5911
期刊名称：《计算机集成制造系统》
时间：0
分类：O223[理学—运筹学与控制论;理学—数学]
作者机构：[1]清华大学工业工程系,北京100084, [2]南佛罗里达大学工业与管理系统工程系,美国佛罗里达坦帕33620
相关基金：国家自然科学基金资助项目（50375082）.

关键词：调度, 平行机, 增强学习, 马尔可夫决策过程, scheduling, parallel machines, reinforcement learning, Markov decision process

中文摘要：

尝试运用增强学习方法来研究平行机调度问题，通过定义系统状态、行为和报酬函数，把调度问题转化为平均报酬型半马尔可夫决策过程，并使用结合函数泛化器的R—Learning算法来解决。提出排名算法，并利用它和两种常用的调度规则（最短期望加工时间规则和先进先出规则）来定义增强学习的行为。实验结果表明，R-Learning算法通过仿真实验学习较优的调度策略，在不同的决策状态下选择最优或次优的行为，对每个测试问题的效果都优于以上任何一条调度规则。

英文摘要：

A Reinforcement Learning （RL） method, R-Learning, was used to study parallel machines scheduling problems which was aimed to minimize mean flow time of jobs. The scheduling problem was converted into Semi-Markov Decision Process（SMDP） by defining system state, actions and reward function. It was solved by R- Learning functions. A heuristic, Ranking Algorithm （RA） was proposed and defined as RL as well as two commonly used dispatching rules： Shortest Expected Processing Time （SEPT） and First In First Out （FIFO）. Experiment results demonstrated that R-Learning could learn a near-optimal scheduling policy through simulation, i.e. to select optimal or sub-optimal actions at different states. The conclusion was that R-Learning was superior to the above heuristic rules in all test problems.

同期刊论文项目

基于模糊层次分析方法的多代理调度/控制系统

期刊论文 9 会议论文 5

同项目期刊论文

"Single-station performance ev

基于增强学习的动态平行机调度研

Dynamic parallel machine sched

Capacity planning with reconfi

基于增强学习的半导体测试调度研究

制造系统研究的挑战和前沿

蚁群算法在调机运用计划中的应用

半导体测试调度研究

期刊信息

《计算机集成制造系统》
北大核心期刊（2011版）

主管单位:中国兵器工业集团公司
主办单位:中国兵器工业第210研究所
主编：杨海成
地址：北京市海淀区车道沟10号北京2413信箱34分箱
邮编：100089
邮箱：986127464@qq.com
电话：010-68962468

国际标准刊号：ISSN：1006-5911
国内统一刊号：ISSN：11-5946/TP
邮发代号:82-289

获奖情况:
全国中文核心期刊,中国科技论文统计与分析文献来源期刊,中国科学引文数据库来源期刊,中国期刊方阵“双效”期刊

国内外数据库收录:
俄罗斯文摘杂志,波兰哥白尼索引,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,英国科学文摘数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:25379