基于词语相似关系的统计数据平滑研究-东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：立项数据库 > 立项详情页

基于词语相似关系的统计数据平滑研究

项目名称：基于词语相似关系的统计数据平滑研究
项目类别：面上项目
批准号：60572159
申请代码：F010406
项目来源：国家自然科学基金
研究期限：2006-01-01-2008-12-31

项目负责人：宋柔
负责人职称：教授
依托单位：北京语言大学
批准年度：2005

中文摘要：

语料库统计方法是支持下一代网络自然语言处理功能的关键技术，但这一方法有许多基础性问题尚无深入研究，以致相关应用系统的性能提高受到很大局限，其中尤以数据稀疏问题为甚。缓解数据稀疏问题的平滑方法中，常用的插值方法不适合估计低频词预测问题，阶次回退法存在本质的矛盾，词类平滑方法过于粗糙。本课题深入分析了语料库统计方法的需求和汉语的实际，创性地利用词语相似关系进行平滑，并采用线性邻接属性计算相似度，需要研究相似度计算、同形异质词认定与排歧以及利用相似度的平滑算法。这些方法将集成到本项目组已经取得的关于线性文法的成果中去，改善语料库统计方法的性能，支持下一代网络的文本信息处理功能。

中文主题词：语料库;数据稀疏;相似关系;

成果综合统计

期刊论文
会议论文
专利
获奖
著作

29
6
0
0
3

信息检索自然语言查询问句处理框架

基于SLM的二叉树在语音停顿预测中的应用

基于标点信息和统计模型的语音停顿预测

基于最大熵模型的汉语短语间停顿识别

汉语语音韵律边界的声学特征及停顿等级识别

一种面向构型计算的汉字字形形式化描述方法

基于多特征的自适应新词识别

现代汉语跨标点句句法关系的性质研究

否定词跨标点句管辖的判断

汉字的笔段网格字形描述及字形比对算法

字音转换策略介绍及性能代价评估

基于GDI_路径技术的汉字笔顺和部件自动绘制

信息检索需求描述中的词语区域凸显

汉字字形计算及其在校对系统中的应用

采用术语定义模式和多特征的新术语及其定义识别方法

基于分类回归树CART的韵律短语边界识别

现代汉语通用分词系统中歧义切分技术

人物资料提取系统

留学生错字数据库

汉字字形形式化描述方法研究

基于标点信息和统计语言模型的语音停顿预测

中国EFL学习者自动作文评分探索

藏族人名汉译名识别研究

自动作文评分研究综述

基于分类回归树CART的汉语韵律短语边界识别

文本聚类在大学英语作文自动评分中应用

基于GDI＋路径技术的汉字笔顺和部件自动绘制

会议论文

“把”字句核心动词的计算机辅助发现及合法性判断研究

Syntactic Relation Between P-Clauses in Modern Chinese and Annotated Corpus

基於大規模語料庫的漢語書面語詞語特徵統計分析

自然语言处理中语言知识的基础性地位

A Research on the Stroke-Segment-Mesh (SSM) Glyph Depiction Method of Chinese Character

基于结构描述的汉字字形相似度计算

著作

对外汉语教学中的信息资源和信息处理

跨标点句的否定辖域

标点句标注研究

相关项目

基于甲骨文语料库的计算机辅助考释技术研究

期刊论文 26 会议论文 16 获奖 2

面向机器翻译的双语组块研究

期刊论文 7 会议论文 1

蒙古文自动校对研究

期刊论文 1 会议论文 3

旋转结构件模型试验的动力学相似理论及其应用研究

期刊论文 34 会议论文 13 专利 1

互联网藏文文本资源挖掘及语料抽取关键技术研究

期刊论文 10 会议论文 15 著作 1

藏文字符信息熵研究

期刊论文 27 会议论文 9

面向查询的XML文本自动文摘研究

期刊论文 21 会议论文 15

多语言智能文本处理中基于主题语义空间的文本表示研究

期刊论文 10 会议论文 20 获奖 2

宋柔的项目

现代汉语通用分词系统研究

基于广义话题的汉语篇章结构研究

期刊论文 15 会议论文 9

面向语言信息智能接口的线性文法研究

期刊论文 2 会议论文 6

线性文法及其在智能信息处理中的应用

期刊论文 15

汉语跨标点句句法分析方法研究

期刊论文 10 会议论文 8