raksmart活动促销

分享

写回答

发帖

浅谈分词的算法

互联网出海创业 互联网出海创业 1235 人阅读 | 0 人回复

发表于 2014-7-15 10:50:14 | 显示全部楼层 |阅读模式

一、 基于理解
在总控部门的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。 这种分词方法是通过让较量争论机模拟人对句子的理解,达到识别词的下场。其根基思想就是在分词的同时进行句法、语义分析,行使句法信息和语义信息来措置歧义现象。这种分词方法需要使用大量的语言常识和信息。因为汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,是以目前基于理解的分词系统还处在试验阶段。它凡是搜罗三个部分分词子系统、句法语义子系统、总控部门。
二、 基于字符串匹配
按照扫描标的目的的不合,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情形,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相连络,又可以分为纯真分词方法和分词与标注相结合的一体化方法。 这种方法又叫做机械分词方法,它是按照必定的策略将待剖析的汉字串与一个“充实大的”机械辞书中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。
三、 基于统计
从形式上看,词是不变的字的组合,因此在上下文中,相邻的字同时呈现的次数越多,就越有可能构成一个词。实际采用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既阐扬匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消弭歧义的利益。(文章最后由http://www.xgzrc.com/qiye/858189.html整理)
您需要登录后才可以回帖 登录 | 注册

本版积分规则