位置:成果数据库 > 期刊 > 期刊详情页
基于文本聚类的语言韵律和节奏风格特征挖掘
  • ISSN号:1003-0077
  • 期刊名称:中文信息学报
  • 时间:2014
  • 页码:194-200&207
  • 分类:TP391[自动化与计算机技术—计算机应用技术;自动化与计算机技术—计算机科学与技术]
  • 作者机构:[1]清华大学人文学院中国语言文学系,北京100084
  • 相关基金:国家自然科学基金(61171114);教育部自主科研项目(20111081010)
  • 相关项目:基于语用信息的交互行为与语言特征的建模研究
中文摘要:

该文以朱自清、汪曾祺和刘亮程的散文作品为语料,旨在从文本的韵律和节奏出发,采用文本聚类的方法来挖掘出新的能够代表作品风格的特征.实验表明,以句末用字韵母的n元组合、分句句长的n元组合、标点符号和整句句长作为风格特征,能成功地将这三位作家的作品区分开来.其中刘亮程句尾韵的舌位高于汪、朱二人,朱自清对韵脚的选择不如刘、汪二人丰富.汪曾祺的分句长最短,且最为讲究句式长短的对齐;刘亮程兼顾长短句的交错,节奏更富于变化;朱自清的句长变化最为平稳.

英文摘要:

We selected literary proses written by Ziqing Zhu, Zengqi Wang and Liangcheng Liu as corpora. Text clustering is used to mine new stylistic features from the perspective of rhythm and tempo. The experimental results show that n-grams based on the vowels of the last character of thesentence, n-grams based on the length of clauses, punctuations and length of sentences, all can successfully distinguish from the articles of the three authors. Specific- ally, Liangcheng Liu preferred to utilize the vowels of higher tongue position. Ziqing Zhu focused on some specific rhymes, but the rhymes used by Liu and Wang are more plentiful than those of Zhu. Wang's Clauses are the shor- test, and he paid more attention to the order of sentence patterns. Long sentences and short sentences are alterna- tively used by Liu, and the tempos used by Liu are changeful. The sentence lengths used bv Zhu are less changeful.

同期刊论文项目
同项目期刊论文
期刊信息
  • 《中文信息学报》
  • 北大核心期刊(2011版)
  • 主管单位:中国科学技术协会
  • 主办单位:中国中文信息学会 中国科学院软件研究所
  • 主编:孙茂松
  • 地址:北京海淀中关村南四街4号中科院软件所
  • 邮编:100190
  • 邮箱:jcip@iscas.ac.cn
  • 电话:010-62562916
  • 国际标准刊号:ISSN:1003-0077
  • 国内统一刊号:ISSN:11-2325/N
  • 邮发代号:
  • 获奖情况:
  • 国内外数据库收录:
  • 日本日本科学技术振兴机构数据库,中国中国科技核心期刊,中国北大核心期刊(2004版),中国北大核心期刊(2008版),中国北大核心期刊(2011版),中国北大核心期刊(2014版),中国北大核心期刊(2000版)
  • 被引量:9136