东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于LDA模型的文本分割

ISSN号：0254-4164
期刊名称：《计算机学报》
时间：0
分类：TP301[自动化与计算机技术—计算机系统结构;自动化与计算机技术—计算机科学与技术]
作者机构：[1]长春工业大学计算机科学与工程学院,长春130012, [2]辽宁师范大学功能材料化学研究所,辽宁大连116029, [3]中国科学院软件研究所人机交互技术与智能信息处理实验室,北京100190
相关基金：本课题得到国家“九七三”重点基础研究发展规划项目基金（2002CB312103）、国家自然科学基金（60503054）和中国科学院软件研究所创新工程重大项目资助.致谢本文在研究中用到一些基础性的工作,包括电子常识知识库《知网》,汉语词法分析系统ICTCLAS,《人民日报》手工标注语料库以及文本分类语料库.所有这些资源可以网上下载,限于研究使用.基于这样一些宝贵的资源,我的研究得以进行与开展,因此在这里对开发、设计、整理者表示由衷的感谢!

关键词：文本分割, LDA模型, 相似性度量, 边界识别, text segmentation, model Latent Dirichlet Allocation （LDA）, similarity metric, boundaries discovering

中文摘要：

文本分割在信息提取、文摘自动生成、语言建模、首语消解等诸多领域都有极为重要的应用.基于LDA模型的文本分割以LDA为语料库及文本建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,获取词汇的概率分布,使隐藏于片段内的不同主题与文本表面的字词建立联系.实验以汉语的整句作为基本块,尝试多种相似性度量手段及边界估计策略,其最佳结果表明二者的恰当结合可以使片段边界的识别错误率远远低于其它同类算法.

英文摘要：

Text segmentation is very important for many fields including information retrieval, summarization, language modeling, anaphora resolution and so on. Text segmentation based on LDA models corpora and texts with LDA. Parameters are estimated with Gibbs sampling of MCMC and the word probability is represented. Different latent topics are associated with observable words. In the experiments, Chinese whole sentences are taken as elementary blocks. Variety of similarity metrics and several approaches of discovering boundaries are tried. The best results show the right combination of them can make the error rate far lower than other algorithms of text segmentation.

同期刊论文项目

Post-WIMP用户界面模型和支撑技术研究

期刊论文 25 会议论文 10 著作 1

同项目期刊论文

在线双向适应的笔手势界面框架研究

笔式几何学习系统的设计与实现

基于模板匹配和SVM的草图符号自适应识别方法

协作笔式用户界面开发工具研究

一种笔式用户界面软件领域模型及其应用

以交互为中心的Post-WIMP界面模型

面向协作交互任务的资源模型

基于多通道融合的连续手写识别纠错方法

基于感知的多方向在线手写笔迹文本行提取

基于笔交互的表格制作研究

以活动为中心的个人信息管理

自适应笔式用户界面开发的概念框架

UPIM：以用户为中心的笔式交互系统设计

文本分割综述

意义性笔手势的分类及其实验评估

基于小世界模型的中文文本主题分析

基于拓展LIMD 算法的智能动态几何软件设计

基于拓展LIMD算法的智能动态几何软件设计

笔式界面软件资源管理模型及其实现

基于笔交互的表格制作

基于笔的电子表单设计工具

期刊信息

《计算机学报》
北大核心期刊（2011版）

主管单位:中国科学院
主办单位:中国计算机学会中国科学院计算技术研究所
主编：孙凝晖
地址：北京中关村科学院南路6号
邮编：100190
邮箱：cjc@ict.ac.cn
电话：010-62620695

国际标准刊号：ISSN：0254-4164
国内统一刊号：ISSN：11-1826/TP
邮发代号:2-833

获奖情况:
中国期刊方阵“双效”期刊

国内外数据库收录:
美国数学评论（网络版）,荷兰文摘与引文数据库,美国工程索引,美国剑桥科学文摘,日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:48433