位置:成果数据库 > 期刊 > 期刊详情页
基于随机游走模型的查询日志中命名实体挖掘
  • 期刊名称:智能计算机与应用
  • 时间:2012.8.8
  • 页码:22-30
  • 分类:TP391.3[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]哈尔滨工业大学计算机科学与技术学院,哈尔滨150001
  • 相关基金:国家自然科学基金面上项目(61073129),国家自然科学基金面上项目(61073126); 国家863重大项目(2011AA01A207)
  • 相关项目:多任务一体化统计复述生成技术研究
作者: 伍大勇|刘挺|
中文摘要:

提出了一种弱指导的方法从搜索引擎查询日志中挖掘命名实体。该方法中采用人工选择的少量命名实体名称作为种子,使用随机游走模型从查询日志中获得大量的命名实体。其中采用了查询日志中的实体上下文模板,用户点击URL和候选命名实体构建三分图,根据在该图上的随机游走计算候选命名实体属于指定目标实体类别的概率,从而在查询日志中获取该类别的命名实体。在真实的查询日志上对7个实体类别进行的实验,实验结果显示本文方法在各个类别上均获得较好的命名实体挖掘效果。

英文摘要:

This paper proposes a novel weakly-supervised approach to mining named entities (NEs) from the query log of search engine. In the approach, a random walk model is adopted to obtain a great amount of NEs from a query log, in which only a few seed NEs manually selected are required. Specifically, the context patterns of NEs in queries, clicked URLs and candidate NEs extracted from a query log arc used to construct a tri-partite graph. The random Walk on the tri-partite graph can assign each candidate NE a probability of belonging to a given target NE category, so that the candidate NEs belonging to the category in query log can be obtained. The paper experiments the ap- proach on a real-world query log within 7 NE categories and experimental results show that the approach achieves good performance in NE mining on each NE category.

同期刊论文项目
期刊论文 10 会议论文 16
期刊论文 9 会议论文 5
同项目期刊论文