位置:成果数据库 > 期刊 > 期刊详情页
基于术语抽取技术的新闻新词发现方法研究
  • ISSN号:1008-5475
  • 期刊名称:《苏州市职业大学学报》
  • 时间:0
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]山西大学计算机与信息技术学院,山西太原030006
  • 相关基金:国家自然科学基金(61403238,61100138);山西省自然科学基金(20140210221,20110110162);山西省回国留学人员科研资助项目(2013~022)
中文摘要:

主题检测近年来在文本挖掘和自然语言处理领域得到了广泛的应用,对主题进行结构建模是主题检测的基础.为了对文本流中的多粒度主题进行建模,提出一种基于语义层次树的主题结构模型.该模型利用领域本体的特点,将主题同本体作一一映射,结合概率理论,将概念集里的概念用主题树的叶子节点表示,每一层中的节点均是下一层节点的多项分布,使之更适合描述文本流中多粒度的主题结构.为了便于构建主题的空间结构,提出主题的相似度和事件相关度计算方法.该文结尾设计了实验构造真实新闻文本流数据上的主题树.实验结果表明,该结构模型能够体现主题丰富的多粒度空间语义特征.

英文摘要:

Topic Detection has been widely used in text mining and NLP, while the basis of which is topic structure modeling. In this paper, we propose a semantic hierarchical topic structure model to describe multi-granularity topic structure. This model utilizes the characteristics of domain ontology, with each concept in the ontology mapped to a topic. The concepts in concept list are respresented as topic-tree leaf nodes, and nodes in each layer can be treated as multinomial mixture distribution on the lower layer nodes. This delicate structure is easily adapted to multi-granularity topic structure in real world text stream. Experiment showed that the structure model reflect rich multi-granularity semantic feature of topic.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《苏州市职业大学学报》
  • 主管单位:苏州市人民政府
  • 主办单位:苏州市职业大学
  • 主编:姜左
  • 地址:苏州市吴中大道1158号国际教育园
  • 邮编:215104
  • 邮箱:sxs@jssvc.edu.cn
  • 电话:0512-66503561
  • 国际标准刊号:ISSN:1008-5475
  • 国内统一刊号:ISSN:32-1524/G4
  • 邮发代号:
  • 获奖情况:
  • 全国高职高专学报综合评比优秀学报二等奖
  • 国内外数据库收录:
  • 中国国家哲学社会科学学术期刊数据库
  • 被引量:2389