学科分类
/ 25
500 个结果
  • 简介:汉语自动分词中的歧义问题侯敏,孙建军引言随着中文信息处理研究的不断深入,出现了多种多样的自动分词方法。评定一种切分方法或一个分词系统的标准不外两条:一是速度,二是精度,而第二条尤为重要。要想提高切分精度,除了要建立一部(或几部)较完备的词典外,最重要...

  • 标签: 汉语自动分词 歧义字段 确定法 歧义切分 歧义现象 句子歧义
  • 简介:汉语句法分析等后续处理的观点来看,分词错误所造成的不良影响必须予以重视。首先,分词错误,无论是在不该切的地方切了,还是在该切的地方没有切,都将引发后续处理的困难。因此,自动分词不是一个单纯的切分过程,而应当是“分”中有“合”,“合”中有“分”。其次,分词错误暴露出来的“不合法性”实际上反映了汉语词语构成规律的“不合法性”。因此,有必要开展分词错误的研究。基于以上认识,作者认为一个好的分词系统不能只依靠一个貌似完备的词表,而应当同时引入多部功能各异的词典

  • 标签: 汉语分词 分词系统 《现代汉语词典》 不合法性 规定型 汉语分析
  • 简介:为扩展分词知识库,提高自动分词能力,本文提出了一种基于自学习机制的汉语自动分词系统。该系统通过对逐词匹配法进行改进,结合分词规则来实现自动分词,并采用统计提取等自学习机制来完善和丰富分词知识库。模拟结果表明该系统能有效获取知识,获得较高的字段切分正确率。

  • 标签: 自动分词 自学习 分词规则 逐词匹配算法 分词知识库
  • 简介:汉语是否应该分词连写?许多专家学者对汉语分词连写的利与弊进行了分析和阐释,但是最终没有一个定论。本文将讨论的范围缩小,对对外汉语教材是否需要分词连写进行分析和阐释。本文首先总结了以往对于汉语分词连写的研究成果,再从对外汉语教材进行分词连写的必要性和可能性两个方面进行分析,并对比日语学习教材,提出笔者的一些编写建议和解决分词连写问题的方案,希望能够对对外汉语教材的编写有所帮助。

  • 标签: 对外汉语 教材 分词连写
  • 简介:汉语分词是中文信息处理的一项基础性工作。为避免人工阅读或机器处理时的分词歧义和未登录词难以识别的问题,有专家建议写作时在汉语词之间添加空格。文章从语言学本体研究、语言使用以及语言工程等不同角度对传统观念下的汉语分词存在的困难进行探讨,指出汉语分词在词的定义、群众语感以及分词规范、词表确定及工程应用等方面都存在不确定及不一致等因素。近年汉语自动分词处理不纠缠于词的确切定义,以字组词,针对标注语料和网络上带有丰富结构信息的海量文本,利用机器学习方法对汉语“切分单位”的标注取得了较好的进展。针对基础性的汉语分词规范,从语言规划的政策性、科学性及引导性角度提出建议,最后指出结合语言学指导和数据驱动的机器学习策略,可望为实现汉语自动分词的准确性和适应性提升服务。

  • 标签: 汉语分词 词间空格 分词标准 中文信息处理 语言规划
  • 简介:分词系统要处理的第二个关键问题是文本中歧义切分字段的判别,汉语分词是由计算机自动识别文本中的词边界的过程,我们的简体/繁体转换系统运用分词模块切分词

  • 标签: 中文软件 中的广泛应用 分词中文
  • 简介:摘要土地是人类赖以生存的要素资料,各类生产活动和日常生活都要在土地上进行,因此现实中涉及土地的纠纷众多,而随着移动互联网以及微博、微信等各种移动媒体和自媒体的兴起,网络上关于土地的舆情信息也纷繁杂乱,针对土地的纠纷、投诉以及信访内容更是国土管理部门关注的重点。本文提出一种基于分布式网络爬虫的国土舆情自动分词方法,利用网络爬虫技术自动获取跟国土相关的网络舆情,然后对舆情信息进行分词,为后续的国土舆情自动分类提供基础,提高国土管理部门信息的获取和处理效率。实验表明,该方法的分词效率高,分词精度高达94.7%。

  • 标签: 国土 自动分词 浅析
  • 简介:本文通过实验的方法,考察中级水平留学生汉语阅读中的分词偏误现象,由此探讨留学生词界切分和语义提取的策略,归纳分词偏误的基本类型,分析产生偏误的原因,并提出提高学生分词能力的可行的教学建议。

  • 标签: 汉语阅读 分词 偏误
  • 简介:分词是英语语法中的重点和难点,也是常见的考点。究竟选用现在分词还是过去分词,是学生遇到的最棘手的问题。下面详细介绍分词的常见考点以及如何正确运用现在分词和过去分词

  • 标签: 过去分词 现在分词 英语语法 考点 学生
  • 简介:本文结合藏文各类形态特征,首次提出了一种基于格助词和接续特征(BCCF,BasedonCase-auxiliarywordandContinuousFeature)的书面藏文自动分词方案.其总体技术特点是:在格助词、接续特征、字性知识库以及词典支持下,进行逐级定位的确定性分词.初步测试表明:这一方案在发现和消除切分歧义、解决未登录词问题,进而在提高藏文分词精度方面具有很高的实用价值.

  • 标签: 格助词 接续特征 藏文分词
  • 简介:分词是理解自然语言的第一步,在此基础上才能划分短语、抽取概念以及分析主题,以至自然语言理解,最终实现智能化。通过对85万字节藏语语料的统计分析和藏语词的分布特点、语法功能的研究,设计开发了基于词典库的班智达藏文自动分词系统。系统的研制为藏文输入法研究、藏文电子词典建设、藏文字词频统计、搜索引擎的设计和实现、机器翻译系统的开发、网络信息安全、藏文语料库建设以及藏语语义分析研究奠定了基础。

  • 标签: 中文信息处理 分块 格助词 藏文分词
  • 简介:学英语的人都知道,过去分词与现在分词被动式的区别是英语学习的难点,也是各级各类考试的考点。因此准确理解和使用过去分词和现在分词被动式是教学的重点和关键点。为此笔者根据多年的教学实践和感受,就该语言点作些浅析。

  • 标签: 过去分词 现在分词 被动式 英语 语法
  • 简介:

  • 标签:
  • 简介:英语中分词包括现在分词(V—ing)和过去分词(V-ed)两种,属于一种非谓语形式,是英语语法中的重点及难点之一。尽管有难度,但掌握一定规律后是不难解决的。

  • 标签: 过去分词 英语语法 非谓语形式 现在分词