东篱科研大数据发现系统（DRDS）

欢迎您！东篱公司退出

申报数据库
1. 申报指南
立项数据库
成果数据库
1. 期刊论文
2. 会议论文
3. 著作
4. 专利
项目获奖数据库

位置：成果数据库 > 期刊 > 期刊详情页

网络维吾尔文判别及其文本长度下界的探讨

ISSN号：1003-0077
期刊名称：中文信息学报
时间：2012.11.11
页码：109-115
分类：TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
作者机构：[1]中国科学院计算技术研究所,北京100190, [2]中国科学院研究生院,北京100049, [3]解放军外国语学院,河南洛阳471003
相关基金：国家自然科学基金资助项目（60903139,60873243）;自然基金重点资助项目（60933005）;国家863计划重点资助项目（2010AA012502,2010AA012503）.
相关项目：Web搜索与挖掘的新理论和新方法—支持舆情监控的Web搜索与挖掘的理论与方法研究

作者：倪耀群|曹鹏|许洪波|唐慧丰|程学旗|

关键词：老维文, 语种识别, 最大公共子串, Arabic-Script Uyghur, language detection, longest common substring

中文摘要：

将维吾尔文从阿拉伯文、哈萨克文、柯尔克孜文等以阿拉伯字母为基础书写的类似文字中识别出来，是维文信息处理的基础。作者对维吾尔字符的编码优化后使用N元语法模型实现了维吾尔文的快速语种判别，准确率超过98％。经过错误分析，发现错误判别的文本主要集中在论坛和微博客中，这些文本有效字符数太少，语言特征不充分。最后作者计算了四种语言真实网络文本中的所有公共子串，并对文种判别所需要的最短字符串长度进行了分析。

英文摘要：

Distinguishing Uyghur language from similar Arabic script languages such as Arabic, Kazakh, Kirgiz, etc. is an indispensable issue in Uyghur information processing. The paper builts a n-gram based Uyghur language discrimination model over an optimized Uyghur character encoding schema for an accuracy over 98%. The analysis reveals the misestimated texts are centered around the forum posts and microblogs because of their extremely short length （often only a few words）. Thus, the paper examines all common sub-strings among tokens appeared in web texts of the four languages and probes into the minimum string length required to determine its language.

同期刊论文项目

Web搜索与挖掘的新理论和新方法—支持舆情监控的Web搜索与挖掘的理论与方法研究

期刊论文 113 会议论文 114 获奖 6 专利 39

支持Ad Hoc无线网络中异构资源面向服务适应性协同的关键技术

期刊论文 17 会议论文 12

面向Web话题的多文档文摘研究

期刊论文 17 会议论文 21 获奖 2

同项目期刊论文

一种基于相似性聚类的社会网络合作模式发现方法

文本分类算法研究

一种基于Chord的物联网信息服务方法

NaEPASC: a novel and efficient public auditing scheme for cloud data

基于中文维基百科链接结构与分类体系的语义相关度计算

Construction of unsupervised sentiment classifier on idioms resources

基于社会性标注的本体学习方法

第三届中文倾向性分析评测(COAE2011)语料的构建与分析

一种基于内存的高效在线数据处理服务框架

面向智能搜索的动态知识网络建模

基于传播模拟的消息流行度预测

基于开放网络知识的信息检索与数据挖掘

网民重要度建模方法研究

复杂网络的社区结构

图索引技术研究综述

网络舆情信息源影响力的评估研究

Twitter数据采集方案研究

基于逐点互信息的查询结构分析

一种抵抗链接作弊的PageRank改进算法

大规模短文本的不完全聚类

面向网络论坛的高质量主题发现

一种基于语料特性的聚类算法

基于随机游走模型的跨领域倾向性分析研究

一种基于空间映射及尺度变换的聚类框架

微博中基于统计特征与双向投票的垃圾用户发现

基于带权图的层次式化社区并行计算方法

A two-stage framework for cross-domain sentiment classification,

Adapting centroid classifier for document categorization

Uncovering the community structure associated with the diffusion dynamics on networks

Spectral methods for the detection of network community structure: a comparative analysis

Comprehensive Quantitative Analysis for Privacy Leak Software Behavior

Bridgeness: a local index on edge significance in maintaining global connectivity,

Contextual Correlation Based Thread Detection in Short Text Message Streams

跨领域倾向性分析相关技术研究

基于多视角特征融合的中文垃圾微博过滤

网络大数据:现状与展望

Design of an Evaluation System for Large Scale Network Attack Based on Emulab

a sampling method for mining user's preference

Detecting Hidden Anomalies Using Sketch for High-speed Network Data Stream Monitoring

Topic Diffusion Behavior Tracking in Online Social Network

基于密度估计的社会网络特征簇挖掘方法

Detecting Spammers in Microblogs

Cross-language Opinion Lexicon Extraction using Mutual-reinforcement Label Propagation.

Modelling and Analysis of an Integrated Scheduling Scheme with Heterogeneous LRD and SRD Traffic

Modelling priority queuing systems with varying service capacity

Degree-strength correlation reveals anomalous trading behavior.

Quality-of-Service Analysis of Queuing Systems with Long-Range-Dependent Network Traffic and Variabl

Providing Hierarchical Lookup Service for P2P-VoD Systems

Auto-sampling of feature words on imbalanced data

基于多维熵值分类的骨干网上异常检测研究

一种新型的层次化动态社区并行计算方法

短文本信息流的无监督会话抽取技术

一种基于LDA的在线主题演化挖掘模型

微博中基于多关系网络的话题层次影响力分析

基于二部图半监督方法的查询日志实体挖掘

面向分面导航的层次概念格模型及挖掘算法

基于半监督话题模型的用户查询日志命名实体挖掘

基于查询意图的长尾查询推荐

排序学习中数据噪音敏感度分析

一种基于社会性标注的网页排序算法

Analytical Modelling and Optimization of Congestion Control for Prioritized Multi-Class Self-Similar

基于情感关键句抽取的情感分类研究

基于随机博弈模型的网络攻防量化分析方法

Modeling the clustering in citation networks

Stochastic Game Net and Applications in Security Analysis for Enterprise Network

Mining Topical Influencers Based on the Multi-Relational Network in Micro-Blogging Sites

A dimensionality reduction framework for detection of multiscale structure in heterogeneous networks

基于热传导模型的更新摘要算法

Improving Text Categorization with Semantic Knowledge in Wikipedia

Covariance, correlation matrix, and the multiscale community structure of networks,

一种相关话题微博信息的筛选规则学习算法

开放式环境下一种基于信任度的RBAC模型

基于吸收态随机行走的两阶段效用性查询推荐方法

大规模层次分类中的候选类别搜索

一种基于情感符号的在线突发事件检测方法

基于词向量的开放文本领域概念识别方法

网络信息安全测试平台设计与实现

大规模层次分类问题研究及其进展

对等点播系统中节点搜索机制研究

基于带权图的层次化社区并行计算方法

Symbolic representation based on trend features for knowledge discovery in long time series

网民重要度建模方法研究

基于逐点互信息的查询结构分析

一种抵抗链接作弊的PageRank改进算法

Virtual node based adaptive routing in wireless ad hoc networks

Flexible Architecture based Approach for Dynamic Service Composition

Classifying rendezvous tasks of arbitrary dimension

Discovering AODV‐based multipath routes in wirelessad hoc networks

服务化跨组织协同模型

Binary Almost-Perfect Sequence Sets

资源受限Web服务

基于二部图半监督方法的查询日志实体挖掘

基于半监督话题模型的用户查询日志命名实体挖掘

排序学习中数据噪音敏感度分析

一种相关话题微博信息的筛选规则学习算法

CPU和GPU的协同工作

基于联合概率矩阵分解的上下文广告推荐算法

Twitter中近似重复消息的判定方法研究

网民重要度建模方法研究

基于逐点互信息的查询结构分析

一种抵抗链接作弊的PageRank改进算法

大规模短文本的不完全聚类

面向网络论坛的高质量主题发现

基于二部图半监督方法的查询日志实体挖掘

基于半监督话题模型的用户查询日志命名实体挖掘

排序学习中数据噪音敏感度分析

基于热传导模型的更新摘要算法

一种相关话题微博信息的筛选规则学习算法

开放式环境下一种基于信任度的RBAC模型

期刊信息

《中文信息学报》
北大核心期刊（2011版）

主管单位:中国科学技术协会
主办单位:中国中文信息学会中国科学院软件研究所
主编：孙茂松
地址：北京海淀中关村南四街4号中科院软件所
邮编：100190
邮箱：jcip@iscas.ac.cn
电话：010-62562916

国际标准刊号：ISSN：1003-0077
国内统一刊号：ISSN：11-2325/N
邮发代号:

获奖情况:

国内外数据库收录:
日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊（2004版）,中国北大核心期刊（2008版）,中国北大核心期刊（2011版）,中国北大核心期刊（2014版）,中国北大核心期刊（2000版）

被引量:9136