东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于条件随机场方法的开放领域新词发现

ISSN号：1000-9825
期刊名称：软件学报
时间：2013.5.5
页码：1051-1060
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]智能技术与系统国家重点实验室(清华大学),北京100084, [2]清华大学清华信息科学与技术国家实验室(清华大学)(筹),北京100084, [3]清华大学计算机科学与技术系,北京100084
相关基金：国家自然科学基金（60903107, 61073071）; 国家高技术研究发展计划（863）（2011AA01A205）
相关项目：网络信息检索用户行为可靠性分析关键技术研究

关键词：新词发现, CONDITION, RANDOM, field(CRF), 中文分词, new word detection , conditional random field , Chinese word segmentation

中文摘要：

开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场（condition random field,简称CRF）可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题.在对海量规模中文互联网语料进行分析挖掘的基础上,提出了一系列区分新词边界的统计特征,并采用CRF方法综合这些特征实现了开放领域新词发现的算法,同时比较了K-Means 聚类、等频率、基于信息增益这3 种离散化方法对新词发现结果的影响.通过在SogouT 大规模中文语料库上的新词发现实验,验证了所提出的方法有较好的效果.

英文摘要：

Open domain new word detection is vital for Chinese natural language processing research. This paper proposes a novel detection algorithm based condition random field （CRF）, which treats the new word detection problem as a classification problem. In this algorithm, the study tries to separate boundaries of new words from existing words with both the CRF method and a serial of statistical features extracted from large scale corpus. The effectiveness of three different discretization strategies are also compared including K-means, equal-frequency, and information gain. Experimental results on a large-scale Web corpus named SogouT show the effectiveness of the proposed algorithms.

同期刊论文项目

基于网络用户行为分析的垃圾网页识别方法研究

期刊论文 49 会议论文 19 获奖 1 著作 1

网络信息检索用户行为可靠性分析关键技术研究

期刊论文 30 会议论文 35 专利 10

同项目期刊论文

基于HITS算法的查询结果多样化方法

搜索引擎用户查询的广告点击意图分析

基于网络资源与用户行为信息的领域术语提取

网页作弊与反作弊技术综述

基于群体智慧的Web访问日志会话主题识别研究

面向搜索引擎竞价排名的关键词商业价值分析

基于用户行为的竞价广告效果分析

网页质量评价体系的研究

基于日志分析的中文输入法用户行为研究

问答社区中回答质量的评价方法研究

中文搜索引擎用户行为的演化分析

面向排序学习的特征分析的研究

网络检索用户行为可靠性分析

基于日志挖掘的搜索引擎用户行为分析

面向用户互联网访问日志的异常点击分析

一种基于文档相似度的检索结果重排序方法

低频查询的用户行为分析和类别研究

Incorporating web browsing activities into anchor texts for web search

锚文本检索有效性分析

面向浏览推荐的网页关键词提取

基于查询聚类的排序学习算法

基于浏览器收藏夹的用户行为研究

构建查询需求形式分类体系

面向排序的基于查询需求的查询聚类模型

基于用户行为的长查询用户满意度分析

文本情感分类中生成式情感模型的发展

基于微博内容的新词发现方法

微博中用户标签的研究

量子程序设计语言NDQJava-2

搜索引擎索引网页集合选取方法研究

基于HITS算法的查询结果多样化方法

搜索引擎用户查询的广告点击意图分析

基于网络资源与用户行为信息的领域术语提取

THUIR-DB: A large-scale, highly-efficient index, fast-access key-value store

Unfocused search: web search behaviors without clear intents

Lexicon-based Chinese opinion analysis on online product reviews

基于用户行为的色情网站识别