动态交叉销售是电子商务中的一种个性化营销手段,其决策目标是要既满足客户个性化需求又能使电子商务零售企业获得最大收益;计算复杂性和决策实时性是问题的难点。对此,课题提出利用Q学习技术,这一模拟仿真环境下的随机优化技术,来实现动态交叉销售的实时决策。课题首先研究基于状态转移的客户在线行为模拟方法,在此基础上构建用于学习训练的仿真环境。其次,针对在巨空间里Q学习过程无法在可接受的时间里收敛的问题,课题采用两种方法来提高Q学习算法的计算效率一个方法是用状态聚集算法对状态空间进行约简;另一种方法是利用前期知识来指导Q学习过程,使接受训练的智能代理避免模拟测试那些根本没有希望成为最优解的决策选项,从而加快学习速度。由于与决策相关的知识种类很多,课题将研究出一种基于多知识融合的Q学习算法,从而为动态交叉销售的实时决策提供可行的理论方法。