本文摘要:摘要:HSK是一项国际汉语能力标准化考试。新HSK大纲中附表所列650个默认词多依据专家知识人工列举式的扩充。该文在《现代汉语词典》《现代汉语语法信息词典》等资源的基础上,利用知识工程的方法,迭代使用减字默认、组合默认等词汇等级类推规则,力争实现类
摘要:HSK是一项国际汉语能力标准化考试。新HSK大纲中附表所列650个“默认词”多依据专家知识人工列举式的扩充。该文在《现代汉语词典》《现代汉语语法信息词典》等资源的基础上,利用知识工程的方法,迭代使用减字默认、组合默认等词汇等级类推规则,力争实现类推过程中隐性知识的显性化、分散知识的系统化,使得词汇等级类推的每一个环节都有章可循、有据可依,完成了基于新HSK大纲词汇等级的系统类推工作。接着,结合所构建的汉语词法知识库对类推结果进行了筛选•最终得到了23762个词语的类推等级。最后•通过对类推结果的统计分析,表明该文的研究工作可以更好地发挥新HSK词汇大纲在汉语词汇定级、文本难度分级中的指导作用,也可为其他领域教学词汇大纲的制定提供一定的借鉴。
关键词:新HSK大纲;等级类推;词法知识库;相对爛
汉语教学论文投稿刊物:《国际汉语教学研究》以推进汉语国际教育研究与事业发展为宗旨,以汉语教学研究为核心,依托海内外汉语国际教育领域的专家、学者、教师、研究人员的学识与实践,搭建学术研究成果的交流平台,构筑学科人才与优秀教师的发展园地。
o引言
HSK是一项国际汉语能力标准化考试。目前,HSK已成为留学中国的通行证、申请来华留学奖学金的必备条件和学校教学评估的重要手段•并被越来越多国家的政府部门和跨国企业作为员工招聘、提薪和晋升的重要依据。为使汉语水平考试(HSK)更好地服务于汉语学习者,国家汉办组织中外汉语教学、语言学、心理学和教育测量学等领域的专家,在充分调查、了解海外汉语教学实际情况的基础上.吸收原有HSK的优点,借鉴近年来国际语言测试研究最新成果,推出新汉语水平考试(HSK)[I\新HSK词汇大纲由于收词规模的限制,对于许多类型的词汇只是象征性的收词.从而导致本应收入大纲的词汇没有收入进来。例如,大纲只收了“星期、星期一、星期日”,而没有收录“星期二”至“星期六”等词语;收录了“月、正月、八月”,而没有收录其他月份词语;收录了“春、夏、秋、冬”,而没有收录“春天、夏天、秋天、冬天”。
类似地,像“这个、很多、这么、人们、每天、这些、那儿、一天、那个、每个、上学、老人、大熊猫、打开、外国、男人、春节……”这些常用词语都没有收录。但如果把这些词都算作超纲词,显然是不合理的。这些词汇对应的大纲等级信息缺失,将给教材编写、水平测评等一系列应用问题带来巨大的障碍。本文旨在探索词汇等级的类推机制,力争实现类推过程中隐性知识的显性化及分散知识的系统化.使得词汇等级类推的每一个环节都有章可循,有据可依,从而更好地发挥新HSK词汇大纲在汉语词汇定级、文本难度分级中的指导作用,夯实其在本领域的基础资源地位。同时,也可为其他领域教学词汇大纲的制定提供一定的借鉴。
1资源基础
1.1词汇大纲资源
1.1.1新HSK词汇大纲
新HSK词汇大纲采用2015年9月人民教育出版社岀版的《HSK考试大纲》最新版本皿。大纲收录了国际汉语教学中常用的基础词汇,并对这些词汇按照一至六级进行了等级划分。另外,在每一级词表之后举例式地给出了若干个类推词汇,共计650个。
1.1.2《通用大纲》《国际汉语教学通用课程大纲》⑵(以下简称《通用大纲》)中,汉字部分分为六级,共计2500个汉字;词汇部分基本沿用《HSK考试大纲》。
1.1.3《音节大纲》词汇《汉语国际教育用音节汉字词汇等级划分》⑷(以下简称《音节大纲》),是面向全球汉语国际教育的国家标准,是一种标准化、系统化、规范化的等级水平划分。《音节大纲》词汇三个等级共收词11092个。
1.2汉语词典资源
1.2.1现代汉语词典
《现代汉语词典》(以下简称《现汉》)⑷是我国第一部规范性的语文词典,以规范性、科学性和实用性为主要特点,在汉语语言教学理论研究界具有较强的权威性。作为一部全面收录现代汉语中基本词、常用词等的综合性词典.在汉语普及、推广普通话、汉语规范等方面发挥着重要作用可。
1.2.2现代汉语语法信息词典
《现代汉语语法信息词典》(以下简称《GKB》)是为计算机实现汉语句子的自动分析与生成而由北京大学研制的一部面向中文信息处理领域的电子词典。其收词从包括《现代汉语词典》《现代汉语频率词典》《信息处理用现代汉语五千词表》在内的多部词典中选出,经过时间和实践检验证明能够有效服务于中文信息处理领域.适合作为中文信息处理用基本单位。
1.3词法标注资源
1.3.1现代汉语构词结构模式
对于汉语的构词,研究者们很早就注意到词汇的构词结构与句法结构具有相似性。赵元任⑷认为在词语的构词成分之间存在着类似于句子之间的关系。根据词语内语素与语素之间的关系,朱德熙®也有过类似的论述。苑春法等指出,复合词的基本结构基本上和词组、短语、句子的结构一样,也存在着主谓、偏正、联合、述宾、述补等结构。基于构词结构的这种思想,郭冬冬等⑴切设计了一套描述构词结构的符号集.用来描述词素之间的组合关系,在此基础上构建了包含672条词汇构词结构模式的现代汉语构词模式知识库。
2基于规则的新HSK词汇等级类推
索绪尔〔⑷把凡是不属于语音性质的词的外形变化,都看作是类推引起的,而类推必须有一个模型及对此模型的有规则的模仿。类推形式就是以一个或几个其他形式为模型,按照一定规则构成的形式。在汉语领域,姜同绚指出,类推变化在汉语词语中表现得非常充分,不仅表现在词语的构成、语音的演变上,还表现在词义发展上。类推作用于构词,一方面跟语义有关,另一方面与人们总是善于由已知知识去推知和掌握未知知识的认知规律相一致。
类推机制在新词语结构生成中的作用主要可以从音节的增减、附加法构词能力、词族现象和外来词语的借用及类推影响等方面分析考虑。本研究将《现汉》收录词语删除非Unicode编码词语后,共得词形65831个;与GKB收录词形取并集,共得92091个,作为词汇等级类推的候选集。另外,由于单音节词汇等级的类推相对更不稳定,故直接将《通用大纲》收录而新HSK大纲没有收录的1579个单音节词汇及其等级纳入进来。
2.1基于减字类推规则的词汇等级类推
所谓的减字类推规则,指的是一个多音节词语通过减去部分音节的方法而得到新的词语,并且新得到词语的等级由原多音节词语的等级确定。即:由一个词语减字默认词的等级与原词的等级相同。例如,电子邮件3=>邮件3;日用品5=〉用品5;知足常乐6=>知足6;等等。如果对于同一个词语的等级,可由多个不同的多音节词语通过减字默认的方式得到,并且所得出的等级不同,则取最低的类推等级。例如:“服务员2=>服务2;服务区4=>服务4”,则“服务”的减字默认级别为“2”。总的来说,减字默认类推规则可概括为,“类推等级同原词汇等级”、“就低不就高”。类推算法流程如图2所示。通过减字类推共得到207个双音节词汇及其等级。
2.2基于词义合成方式知识库的词汇等级筛选
类推是否合理不仅与构词结构方式有关,还与类推词汇的意指方式有着密切的联系。例如,天1,书1=>天书1;冷l,n2=>冷门2;白2,脸3=>白脸3;发3,毛4=>发毛4;白2,领5=>白领5;用I6,熬6=〉煎熬6o上述这些例子中类推得到的词汇大多发生了转义,无法很好地根据类推前词汇的等级来类推这些词汇的等级。在前面几节中通过类推得到了25229个词语及其等级。利用所构建的词义合成方式知识库对该部分进行筛选过滤.过滤掉词义合成方式为惯指部分以外的1467个词语,最终剩余23762个词语及其类推等级.将此词汇集合称为“HSK类推扩充集”。
3实验结果数据分析
3.1八套国家汉办主干教材词汇覆盖对比分析
本文采用国家汉办8套主干教材课文文本作为实验对象,分别以新HSK词汇大纲和类推词汇集对八套教材进行词汇覆盖情况的统计。8套教材为:《新实用汉语》《快乐汉语》《长城汉语》《跟我学汉语》《汉语教学直通车》《当代中文》《汉语乐园》《中文听说读写》。从人工标注好的8套教材语料"⑷统计得到词形6191个、词次111929个,去除其中的人名、地名、机构名、数字等非通用词汇之后•剩余词形5888个词、词次108532个。类推前后词汇集对教材语料的覆盖情况对比如表12所示。从计算所得到的相邻级别之间相对爛来看,对于初、中难度级别的文本类推前后的区分度比较接近,说明HSK类推集的词汇等级基本符合原大纲的难度定级标准。而对于较高难度级别的文本,原大纲由于收词过少,直接用其作标准进行文本难度级别判断,明显存在区分度偏低的问题;而基于HSK类推扩充集统计高难度语料的词汇等级分布,不同级别之间相对爛有明显的提升,这说明类推工作对于原大纲的补足作用是明显的。
4结语
本文利用知识工程的方法,迭代使用减字默认、组合默认等词汇等级类推规则.力争实现类推过程中隐性知识的显性化、分散知识的系统化,使得词汇等级类推的每一个环节都有章可循,有据可依,完成了基于新HSK大纲词汇等级的系统类推工作,并结合所构建的汉语词法知识库对类推结果进行了筛选。最后,通过对类推结果的统计分析.表明本文的研究工作可以更好地发挥新HSK词汇大纲在汉语词汇定级、文本难度分级中的指导作用.也可为其他领域教学词汇大纲的制定提供一定的借鉴。
参考文献
[1]孔子学院总部/国家汉办.HSK考试大纲(一级〜六级)[M1北京:人民教育出版社,2015.
[2]孔子学院总部/国家汉办.国际汉语教学通用课程大纲[M].北京:北京语言大学出版社,2014.
转载请注明来自发表学术论文网:http://www.fbxslw.com/jylw/22033.html