一起学习网,一个一起免费的网络建站教程资源共享和seo教程、黑帽教程学习交流的学习网站,www.17xuexiwang.com,一起学习,共同进步!

关键词如何分词,SEO关键词分词技术

时间:2017-09-23 11:16   文章来源:一起学习网   访问次数:
  大家都知道,中文是很博大精深的,有很多字都是多音字,然后每个字组合之后又会有不同的意思,字词之间不同的语境去读都不一样,变化多端。中文的一句话要想分开他的词,要用人类的思维来分词的话很简单,但是搜索引擎是怎么分词的,我们本节课就来讲一下,关键词分词。会从搜索引擎开发的原理,来讲解。前面讲了关键词难易度分析本节课会讲到分词的概念,分词的方式,然后讲一些案例。
关键词分词
 
  分词的概念,中文分词,指的是将一个较长的汉语,词语切分成一个一个单独的词语,按照一定规则从新组合成一定词序的过程,也被中文的切词,举一个例子,深圳搬家公司,我们可以怎么来分呢,可能我们心里就会想,这里有三个词,深圳一个词,搬家一个词,公司一个词,其实这个是我们平时的一个了解,但是搜索引擎不认为他这里只有三个词。那么搜索引擎会认为他有几个词呢?我们来看一下,深圳搬家公司,深圳,搬家,公司,搜索引擎还认为,深圳搬家他是一个词,搬家公司他是一个词,深圳公司他是一个词,然后深圳搬家公司,他会认为这是七个词,搜索引擎会有一个词库,在这里切词。既然搜索引擎会这么认为的话,他会不会认为这个圳搬或者家公是一个次呢?他是不会认为是一个词的,因为他的词库里没有这个词,到底是怎么切词的。
关键词库
 
  我们下面了解一下他的分词方式,会有几种。第一种是基于字典的匹配去分词,就像刚才说到的,百度他会有一个库,这个库有非常多的词、字、语去拆分。第二个是基于统计的匹配方法,基于统计的可能大家现在比较的难理解一点。第三种是理解匹配,就是赋予搜索引擎一个思考的能力,让他去想,这些词是这样匹配吗,比如说深圳搬,那深圳搬是词吗?能出现吗?他就会去思考。基于字典匹配是根据词和字典中已有的词去匹配处理。我们去读一段话的时候,他会分为正向匹配和逆向匹配,根据扫描的方向不同会正向的去匹配这个词和逆向匹配这个词,等下我们再详细讲解一下。按照扫描方向可以分为正向最大匹配和逆向最大匹配的。还有一个是混合匹配。可能大家听到这里的时候会有一头雾水的感觉,感觉这个好像比较难理解,接下来会有一些演示。
 
  正向匹配和逆向匹配的案例,我们和服务员工作在一起,正常人的思维,一看就能看出这个句子的意思是什么,那我们来看下搜索引擎是怎么读的,他会从左向右读,正向匹配,我们、和服、务员(不是一个词,务单独),务、员工、作、在一起。然后他会在逆向匹配一次,看用户最终需要的是哪一种结果。再看下最大正向和最大逆向的原理,一寸光阴一寸金。还有一个混合匹配,深圳蚂蚁搬家公司,虽然包含了深圳搬家,他会把深圳、搬家、公司拆分出来,在看下基于统计是指分析大量的数据样本扫描计算出字、词、句出现的统计概率,几个字相邻出现越多,就越能形成一个词,同样的可以形成句。我们看下最新苹果价格,我们思考下,这个怎么理解,是搜索苹果装个水果呢,还是苹果这个手机呢,他会有一个水果或者手机,这个时候搜索引擎就会去思考,回去根据之前抓的那些数据做一个统计,去统计一下,搜索最新苹果价格的,这个人的人群,如果有90%都是搜手机的话,那么可能第一页显示的都是手机,如果70%以上这个词都是搜水果的话,那么第一页或者大部分结果都会出现水果的词。如果我们加一个苹果4,毫无疑问最后的结果都是手机。
搜索引擎
 
  由于汉语的博大精深,目前的搜索引擎还是很难做到记忆理解的,所以搜索引擎目前也在不断的去进化,去理解去模仿人的思维。

  本文原创作者:陈厚强  版权归原作者所有 未经同意不得转载

上一篇:关键词难易度分析
下一篇:网站的TDK标签优化

标签:

今日话题更多>

  • 武汉大学信息门户是什么 武汉大学信息门户是什么 武汉大学信息门户是武汉大学官方网站的入口,它为武汉大学师生员工提供信息服务和网络应用入口。信息门户网址为:ehall.whu.edu.cn。 信息门户包含以下主要功能: 1. 统一身份……
  • 壹米滴答物流单号查询方法 壹米滴答物流单号查询方法 壹米滴答物流单号查询可通过以下方式进行: 1. 登录壹米滴答官网 登录www.yimidida.com网址,点击页面右上角的登录按钮,输入用户名和密码进行登录。登录成功后,在用户中心可……
  • 壹米滴答物流是什么平台 壹米滴答物流是什么平台 壹米滴答是一家中国国际物流快递公司,提供国内外物流配送服务。 1. 公司简介 壹米滴答成立于2013年,由深圳市壹米滴答供应链管理有限公司运营。现已开通200多个国家和地区的……

黑帽学习 更多 >>