浅谈分词的算法

wyz456 · 发表于 2014-7-15 10:50:14

一、基于理解
在总控部门的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法是通过让较量争论机模拟人对句子的理解，达到识别词的下场。其根基思想就是在分词的同时进行句法、语义分析，行使句法信息和语义信息来措置歧义现象。这种分词方法需要使用大量的语言常识和信息。因为汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，是以目前基于理解的分词系统还处在试验阶段。它凡是搜罗三个部分分词子系统、句法语义子系统、总控部门。
二、基于字符串匹配
按照扫描标的目的的不合，串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情形，可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相连络，又可以分为纯真分词方法和分词与标注相结合的一体化方法。这种方法又叫做机械分词方法，它是按照必定的策略将待剖析的汉字串与一个“充实大的”机械辞书中的词条进行配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。
三、基于统计
从形式上看，词是不变的字的组合，因此在上下文中，相邻的字同时呈现的次数越多，就越有可能构成一个词。实际采用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既阐扬匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消弭歧义的利益。（文章最后由http://www.xgzrc.com/qiye/858189.html整理）

浅谈分词的算法

浏览过的版块