东篱科研大数据发现系统（DRDS）

位置：成果数据库 > 期刊 > 期刊详情页

基于句子的文本表示及中文文本分类研究

ISSN号：1000-0135
期刊名称：《情报学报》
时间：0
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术] H146.3[语言文字—汉语]
作者机构：[1]大连理工大学管理学院,大连116024
相关基金：国家自然科学重点基金资助项目（70431001）.

关键词：信息资源管理, 句子包, 文本表示, 文本分类, information resources management, bag of sentences, text representation, text categorization

中文摘要：

文本挖掘技术是信息资源管理的一项关键技术。向量空间模型是文本挖掘中成熟的文本表示模型,通常以词语或短语作为特征项,但这些特征项只能提供较少的语义信息。为实现基于内容的文本挖掘,本文将文本切分粒度从词语或短语提高到句子,用句子包表示文本,使用句子相似度定义文本相似度,用KNN算法进行中文文本分类,验证模型的可行性。实验证明,基于句子包的KNN算法的平均精度（92.12%）和召回率（92.01%）是比较理想的。

英文摘要：

Text mining is a key technology in information resources management. Vector space model is a mature model of text representation in text mining. Words and phrases are commonly used as feature items, but little semantic information is provided by these items. To carry out text mining based on the content, the segmentation granularity is increased from feature items to sentence. Text is represented by a bag of sentences and text similarity is defined by sentence similarity. In order to validate this representation, a Chinese text classifier has been built by KNN algorithm and good average precision （92.12%） and recall （92.01% ） have been achieved in the experiments.

同期刊论文项目

企业（组织）知识管理若干基础科学问题研究

期刊论文 65

同项目期刊论文

专业知识交流及其可视化支持工具研究

应急决策知识发现的推理方法研究

国际能源技术前沿热点领域演进的可视化

基于ICA的时间序列聚类方法及其在股票数据分析中的应用

基于PCA的复杂网络社区结构分析方法

一种改进的禁忌搜索算法及其在选址问题中的应用

具有无尺度拓扑与小世界效应的Sierpinski网络

科研领域关联网络的社团结构分析

基于变分不等式的网络广告资源分配的超网络模型

纳米技术研究前沿及其演化的可视化分析

基础研究项目分类的新方法

用信息可视化方法分析科研领域发展状况

国际科学技术政策关键节点文献演进的可视化分析

美国专利商标局10个高被引专利的计量分析

我国大学科学学的学科建设和人才培养

基于扩展邻居的协同过滤算法

基于概念相关性度量的语义Web服务匹配：模型及匹配器原型

基于本体的急救知识移动问答研究

一种基于加权超网络模型的组织知识搜索定位方法

基于潜在语义索引的SVM文本分类模型

一种基于范畴论的应急决策概念建模方法

基于信息可视化的组织行为领域前沿演进分析

基于规则与统计的本体概念自动获取方法研究

基于主题地图的文献组织方法研究

文本分类中粗分类数据噪声修正的网络算法

基于加权超网络模型的组织知识存量表示方法

基于词序方法的文本相似度计算模型

中国专利研究现状的计量分析

国际专利研究现状分析

现代工程前沿图谱与中国自主创新策略

发明者合作网络中心性对科研绩效的影响

模拟植物生长算法与知识创新的几点思考

一种设计层次支持向量机多类分类器的新方法

基于改进线图分析算法的浅层汉语句法分析器的设计与实现

无词典中文特征词自动抽取的桥接模式滤除算法

基于本体的项目和领域专家匹配原型系统

客户知识管理——概念与量表开发

Q-测度法在合作网络性别研究中的应用

三螺旋接口组织与创新机制

基于共被引率分析的期刊分类研究

企业内部知识传播的系统动力学模型研究

技术转移中隐性知识转化的影响因素研究

转型企业技术能力再造的路径分析与战略选择

国际工程伦理的知识聚类及其前沿演进研究

谁在关注中国？——SSCI、A＆HCI中国主题文献计量分析

三螺旋创新模式下的全球学术界专利竞争

国际氢能研究的文献计量学分析

基于产品技术链的发展中国家企业技术追赶研究

系统集成创新与知识的集成和生成

基于文本聚类的客户知识获取和应用研究

新巴斯德象限：高科技政策的新范式

元决策：支持决策科学化与民主化的手段

基于加权知识网络的个人知识存量表示与度量方法

超网络初探

企业隐性知识导航方法研究

基于实践论的隐性知识获取模型研究

国际科技政策研究高产国家与机构合作网络

BA演化模型的一种扩展

基于模糊核聚类的SVM多类分类方法

一种支持向量集合的精简算法

基于知识图谱的国际生物科学与工程前沿计量研究

文本粗分类数据中噪声的快速修正算法

TOWARD COLLECTIVE INTELLIGENCE OF ONLINE COMMUNITIES： A PRIMITIVE CONCEPTUAL MODEL

创建知识系统工程学科

期刊信息

《情报学报》
北大核心期刊（2011版）

主管单位:中国科学技术协会
主办单位:中国科学技术情报学会中国科学技术信息研究所
主编：戴国强
地址：北京复兴路15号
邮编：100038
邮箱：qbxb@istic.ac.cn
电话：010-68598273

国际标准刊号：ISSN：1000-0135
国内统一刊号：ISSN：11-2257/G3
邮发代号:82-153

获奖情况:
1992年全国优秀科技期刊评比二等奖,1997年中国科协优秀科技期刊三等奖,被国外4种检索工具录用

国内外数据库收录:
俄罗斯文摘杂志,美国剑桥科学文摘,英国科学文摘数据库,日本日本科学技术振兴机构数据库,中国中国人文社科核心期刊,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:19778