为弥补传统最优潮流计算中缺少对电力网络的碳排放优化控制,文中利用基于潮流计算结果的碳流模型,提出了一种基于半马尔可夫决策过程的Q(λ)学习算法,把潮流问题中的约束、可控变量转换成算法的状态和动作,并以线性加权方式把碳流损耗、网损和电压稳定分量转化为奖励函数,通过不断试错与迭代来动态寻找最优动作策略。将该算法在IEEE 57节点标准算例中进行了验证,取得了良好效果,为解决电网多目标最优碳流问题提供了一种可行、有效的方法。