简介:汉语分词是中文信息处理的一项基础性工作。为避免人工阅读或机器处理时的分词歧义和未登录词难以识别的问题,有专家建议写作时在汉语词之间添加空格。文章从语言学本体研究、语言使用以及语言工程等不同角度对传统观念下的汉语分词存在的困难进行探讨,指出汉语分词在词的定义、群众语感以及分词规范、词表确定及工程应用等方面都存在不确定及不一致等因素。近年汉语自动分词处理不纠缠于词的确切定义,以字组词,针对标注语料和网络上带有丰富结构信息的海量文本,利用机器学习方法对汉语“切分单位”的标注取得了较好的进展。针对基础性的汉语分词规范,从语言规划的政策性、科学性及引导性角度提出建议,最后指出结合语言学指导和数据驱动的机器学习策略,可望为实现汉语自动分词的准确性和适应性提升服务。
简介:尽管学界在查尔斯·S·皮尔斯符号学理论研究方面有了长足的进展,但皮尔斯学者以及符号学理论研究者们依然面对着来自多重领域的挑战。比如,虽然有许多研究致力于皮尔斯与索绪尔这两位符号学创始人的差异研究,但探究二位理论的相同点的研究则罕见。许多学者讨论皮尔斯有关"解释项"的观点,但如何进一步理清这一关键概念,显然还有更多的事情要做;符号的三元观念也同样面临这样的问题。此外,本文特别关注皮尔斯有关信息的概念,并且讨论皮尔斯是如何利用它们来解释符号过程的。最后,本研究还要对皮尔斯符号学的第三个分支,即形式修辞学(或普遍修辞学)进讨论。本文试图说明的是,以皮尔斯现存的大量散乱的研究材料为支撑,为其理论提供一个可能的、连贯的解释,这将有助于推进皮尔斯研究以及符号学理论研究,并会为其带来丰富的研究成果。