seo如何做好分词技术?如何分词满足搜索引擎?百度分词是什么?SEO有没有接触过一些分词组件?从百度分词不难看出,分词是根据词义、词语、词频来决定搜索引擎对词语的捕捉。
中文分词一般为:字符串匹配、统计分词、词义分词。
第一:字符串匹配分词
这种分词技术又称机械分词方法。直截了当地说,它是扫描字符串,查询页面中字符串的子串和单词相同,这被视为匹配。这些分词通常添加启发性规则,如积极/反向最大化匹配、长字优化等。
优点:匹配速度快,实现过程简单
缺点:歧义词难以区分,匹配不精准
案例:煮丁解牛分词器是基于字符串匹配的分词
例:北京网络推广公司
“北京,北京网,推广,公司”“北京,推广网,公司”
正最大值匹配:从左到右匹配关键字
逆向最大值匹配:从右到左匹配关键字
最短路径分词法:搜索引擎提取文本中词数最小值
二是统计分词
基于人工标注的词性和统计特征,对中文进行建模,即根据观测到的数据(标注好的语料)估计模型参数,即训练。 在分词阶段,通过模型计算各种分词的概率,以最大概率的分词结果为最终结果。 在分词阶段,通过模型计算各种分词的概率,以最大概率的分词结果为最终结果。常见的序列标记模型HMM和CRF。
优点:很好处理歧义和未登录词问题,效果比基于字符串匹配效果好
缺点:需要大量的人工标记数据,分词速度较慢
同时出现相邻单词的次数越多,构成单词的可能性就越大。因此,单词相邻共现的频率或概率可以更好地反映成词的可信度。
可以统计语料中相邻共现的单词组合的频率,计算它们的互现信息。定义两个字的互现信息,计算两个字X、Y相邻共现概率。互现信息反映了汉字结合的紧密性。
三是词义分词
词义分词法:机器语音判断的分词法主要用于处理歧义。
我要优化(加QQ客服第一时间和你对接)
已有 1826 企业通过我们找到了合作项目