排名规则在百度中是很繁琐的一个环节,繁琐的算法才能保证给用户最好的信息。但是数据的处理往往占用了很大的计算资源,所以百度不断完善排名的相关规则。在 17 年 7 月会上线的全新计算规则将会大大降低计算的部分,而是通过简单的规则判断给予排名。流程如下:
数据预处理 - 检索处理 - 索引处理 - 系数处理 - 数据包处理 - 行为处理
一.数据预处理
前面的要通过站内更新和站外链接实现,在现在的环境中,百度对站内看的比较重,在爬虫爬取的同时,就会对当前页面给予一个基础分值,低于基础分值的,不收录。只有过了基础分值的才会建立词库索引。关于百度对网站判定,在不同时期有不同的参数参与其中。
数据预处理中,百度会根据不同时期的网站执行不同的预处理手段,当然会比整理的详细复杂的多,但是元素都包含进去了。绿萝算法中提到网站文章的排版问题,还是通过代码和爱思码来的。
检索处理和索引处理,为核心的东西,原理倒是都公开的,实际计算也不难,完全靠数据说话的。这两样处理只是为了给倒排索引列表服务,对排名没有任何干涉。其中有新增加的词库匹配,会在下一批算法中过来,作用暂时不详。检索不只是包含了词库,还有时间,格式等等,是为高级索引服务的。索引过程中,有个站内索引,是为职业搜索服务的,带来的体验分值是想当的高。
二.系数处理(初始值 R、推荐度、信任值)
1.预处理中的系数,涉及到初始值,这个每个网站都一样,只是在后面的减分中会产生差距。所以,前 45 天的认真程度,会很长时间关系到这个网站在百度中的好坏。
2.百度是有权重的,分值为 20 个档。0-19,只是这个权重不参与排名计算。这个权重值影响其他系数的变动。推荐值,信任值。比如,权重 19 的网站信任值积累速度肯定比权重 18 的快。赋予的信任值衰减度也肯定低一些。百度考虑放出权重值供大家查询,应该在七月份之后。
3. 推荐度: 推荐度的理解,就是以前老版本的权重。换链接的时候,都会考虑这个链接会不会传递权重,其实这个东西就是推荐度。具体数值为 1,2,3,具体数值代表的意义不详,只知道是类别的区分。公式为周期衰减型的微积分公式,简单的表格统计几次计算(单位传递值 1000,只统计小数点后四位):
为了计算方便,传递值默认为一千,实际每次传递值默认数值都不一样,和权重有最直接的关系,最高和最低相差悬殊几百倍都有可能,公式为著名的金字塔模型公式(也叫能量金字塔)。我就不去计算了,百度没有做任何修改,或者有修改没公开出来。
所以,根据滞留算法中相关所得,做外链,做第二层级的外链性价比最高。一个外链,最多传递五个层级下去,当然,这里计算的是每个层级中的网站,都只有一个对外链接,就是说,第二层级,只有一个第三层级的链接。如果有五个,那么推荐值要平均除以 5 的。
第二周期大致为第一周期的百分之三十,第三周期大致为第一周期的百分之五。
周期为两种(自然天数四十五天,就是说,第一周期 45 天结束之后,自动进入第二周
期)
前一周期推荐值溢出,自动进入第二周期。具体推荐值多少溢出,和网站权重有关,权重越高,推荐值上限越高,就跟游戏等级的当前经验值。只不过,推荐度满了不会升级。推荐值溢出之后剩余多少进入下个周期计算,和信任度有关
前一周期结束,当前积累的推荐值计算之后,会并入第二周期中计算。这个公式有五个,太难算,且没有实际应用价值,就没有去算。这个每次并非递减,而是递增了。
推荐度激活:也叫外链激活,百度识别链接之后,在统计处理(统计当前网站和链接网
站相关)之后,会自动激活推荐度的传递,激活之后,蜘蛛每爬取一次,都会传递一次,一个链接,最多传递 199 次。或者用户通过百度进入当前页面点击这个链接,也会激活推荐度。这个一般在当前链接已经失去传递推荐度之后,可以这样激活一次,重新进入传递的过程。(百度认为,你发的外链没人点,那就是浪费。会在今后的更新中,识别这种点击行为,并统计到推荐度传递值中。暂时没有生效。)
4.传递值和推荐度的关系:两者实际没有直接的换算关系,推荐度的数值,1,2,3 只是类型的分类,而推荐值是具体的分值,是加分制和衰减制的,和推荐度的 1,2 还是 3,都没有最直接的关系,今后会有相关的更新,暂时没有消息。
5.推荐传递的规则:类聚和群集,并非所有链接都会产生推荐值传递行为。
6.推荐值对排名的影响:网站吸收过来的被推荐值数值是变动的,这个数值并不会因为有链接的导出而减少。导出多少和这个推荐值没有任何关系。变动的被推荐数值在预处理中占有很大的比重。但是在系数处理中,推荐值所能体现的作用很小,被缩小的十倍左右(公式中体现,百度使用了重力系数 g=9.8)
7.推荐度的生效时间,约 18 天左右。也就是说,一个有推荐度的链接,给别人的推荐值虽然传递过去了,但是对方要生效,并进入计算,计算后并调整结果,需要 18 时间。这之间主要是过滤垃圾链接,百度过滤链接的算法不是一直执行的,是周期性执行。
8.推荐值溢出时,会给网站增加一个单位的信任值。和推荐值不同,信任值得数值都很小,一天增加个 0.1 就算一个很大的数值了。推荐度能一定程度上提升网站信任度的信任值的变化,在以前,几乎是一比一的关系,到了第三代算法环境时候,百度就大大降低了这个变化。
9.信任值:信任值更多的是绿萝算法给予的判定标准,主要是网站质量。信任值本身不参与排名计算,但是会最直接的影响网站的稳定和观察停滞最大时间。网站降权了,有信任值的也不会恢复,需要有状态爬虫的访问,才能解除降权。信任值网站能提高状态爬虫的访问周期(不然半年一次)降权的最后审核,也是这个爬虫的作用。简单的理解为数值前面加个负号。
10.信任值怎么来:和收录量,收录衰减率两者有关系。
11.收录量,site 值为准,site 没有的,不代表没有收录,收录了没有放出来,为啥没有放出来呢,是因为当前页面存在异常,一般都是关键词异常,页面打开异常。信任值高的时候,会直接放出来,以后发现问题,会删掉。信任值不高,就会等过滤完,符合就放,不符合就不放。这里有很多过滤机制,严重的会永远不放,但是不会影响网站其他页面,也只是对当前页面生效。同样的,放出一个页面,也对排名没啥变化,只能提升一下信任值。信任值的增加和这两个参数没有具体的公式,只有一个简单的范围规则:见下表
好了,今天无锡seo http://www.wxztseo.com/ 就分享这么多知识点了,希望大家喜欢这篇文章!
数据预处理 - 检索处理 - 索引处理 - 系数处理 - 数据包处理 - 行为处理
一.数据预处理
前面的要通过站内更新和站外链接实现,在现在的环境中,百度对站内看的比较重,在爬虫爬取的同时,就会对当前页面给予一个基础分值,低于基础分值的,不收录。只有过了基础分值的才会建立词库索引。关于百度对网站判定,在不同时期有不同的参数参与其中。
数据预处理中,百度会根据不同时期的网站执行不同的预处理手段,当然会比整理的详细复杂的多,但是元素都包含进去了。绿萝算法中提到网站文章的排版问题,还是通过代码和爱思码来的。
检索处理和索引处理,为核心的东西,原理倒是都公开的,实际计算也不难,完全靠数据说话的。这两样处理只是为了给倒排索引列表服务,对排名没有任何干涉。其中有新增加的词库匹配,会在下一批算法中过来,作用暂时不详。检索不只是包含了词库,还有时间,格式等等,是为高级索引服务的。索引过程中,有个站内索引,是为职业搜索服务的,带来的体验分值是想当的高。
二.系数处理(初始值 R、推荐度、信任值)
1.预处理中的系数,涉及到初始值,这个每个网站都一样,只是在后面的减分中会产生差距。所以,前 45 天的认真程度,会很长时间关系到这个网站在百度中的好坏。
2.百度是有权重的,分值为 20 个档。0-19,只是这个权重不参与排名计算。这个权重值影响其他系数的变动。推荐值,信任值。比如,权重 19 的网站信任值积累速度肯定比权重 18 的快。赋予的信任值衰减度也肯定低一些。百度考虑放出权重值供大家查询,应该在七月份之后。
3. 推荐度: 推荐度的理解,就是以前老版本的权重。换链接的时候,都会考虑这个链接会不会传递权重,其实这个东西就是推荐度。具体数值为 1,2,3,具体数值代表的意义不详,只知道是类别的区分。公式为周期衰减型的微积分公式,简单的表格统计几次计算(单位传递值 1000,只统计小数点后四位):
默认为第一 | 第一次传递 | 第二次传递 | 第三次传递 | 第四次传递 | 第五次传递 |
周期 | |||||
第一层级 | 1000 | 812.6346 | 656.3659 | 421.8284 | 250.1924 |
第二层级 | 971.8478 | 528.4953 | 593.1643 | 532.4725 | 461.2718 |
第三层级 | 571.4172 | 342.4583 | 380.1594 | 220.2625 | 181.4575 |
第四层级 | 332.1684 | 252.2173 | 231.4254 | 238.2546 | 109.1571 |
第五层级 | 1.0000 | 1.0000 | 1.0000 | 1.0000 | 1.0000 |
为了计算方便,传递值默认为一千,实际每次传递值默认数值都不一样,和权重有最直接的关系,最高和最低相差悬殊几百倍都有可能,公式为著名的金字塔模型公式(也叫能量金字塔)。我就不去计算了,百度没有做任何修改,或者有修改没公开出来。
所以,根据滞留算法中相关所得,做外链,做第二层级的外链性价比最高。一个外链,最多传递五个层级下去,当然,这里计算的是每个层级中的网站,都只有一个对外链接,就是说,第二层级,只有一个第三层级的链接。如果有五个,那么推荐值要平均除以 5 的。
第二周期大致为第一周期的百分之三十,第三周期大致为第一周期的百分之五。
周期为两种(自然天数四十五天,就是说,第一周期 45 天结束之后,自动进入第二周
期)
前一周期推荐值溢出,自动进入第二周期。具体推荐值多少溢出,和网站权重有关,权重越高,推荐值上限越高,就跟游戏等级的当前经验值。只不过,推荐度满了不会升级。推荐值溢出之后剩余多少进入下个周期计算,和信任度有关
前一周期结束,当前积累的推荐值计算之后,会并入第二周期中计算。这个公式有五个,太难算,且没有实际应用价值,就没有去算。这个每次并非递减,而是递增了。
推荐度激活:也叫外链激活,百度识别链接之后,在统计处理(统计当前网站和链接网
站相关)之后,会自动激活推荐度的传递,激活之后,蜘蛛每爬取一次,都会传递一次,一个链接,最多传递 199 次。或者用户通过百度进入当前页面点击这个链接,也会激活推荐度。这个一般在当前链接已经失去传递推荐度之后,可以这样激活一次,重新进入传递的过程。(百度认为,你发的外链没人点,那就是浪费。会在今后的更新中,识别这种点击行为,并统计到推荐度传递值中。暂时没有生效。)
4.传递值和推荐度的关系:两者实际没有直接的换算关系,推荐度的数值,1,2,3 只是类型的分类,而推荐值是具体的分值,是加分制和衰减制的,和推荐度的 1,2 还是 3,都没有最直接的关系,今后会有相关的更新,暂时没有消息。
5.推荐传递的规则:类聚和群集,并非所有链接都会产生推荐值传递行为。
6.推荐值对排名的影响:网站吸收过来的被推荐值数值是变动的,这个数值并不会因为有链接的导出而减少。导出多少和这个推荐值没有任何关系。变动的被推荐数值在预处理中占有很大的比重。但是在系数处理中,推荐值所能体现的作用很小,被缩小的十倍左右(公式中体现,百度使用了重力系数 g=9.8)
7.推荐度的生效时间,约 18 天左右。也就是说,一个有推荐度的链接,给别人的推荐值虽然传递过去了,但是对方要生效,并进入计算,计算后并调整结果,需要 18 时间。这之间主要是过滤垃圾链接,百度过滤链接的算法不是一直执行的,是周期性执行。
8.推荐值溢出时,会给网站增加一个单位的信任值。和推荐值不同,信任值得数值都很小,一天增加个 0.1 就算一个很大的数值了。推荐度能一定程度上提升网站信任度的信任值的变化,在以前,几乎是一比一的关系,到了第三代算法环境时候,百度就大大降低了这个变化。
9.信任值:信任值更多的是绿萝算法给予的判定标准,主要是网站质量。信任值本身不参与排名计算,但是会最直接的影响网站的稳定和观察停滞最大时间。网站降权了,有信任值的也不会恢复,需要有状态爬虫的访问,才能解除降权。信任值网站能提高状态爬虫的访问周期(不然半年一次)降权的最后审核,也是这个爬虫的作用。简单的理解为数值前面加个负号。
10.信任值怎么来:和收录量,收录衰减率两者有关系。
11.收录量,site 值为准,site 没有的,不代表没有收录,收录了没有放出来,为啥没有放出来呢,是因为当前页面存在异常,一般都是关键词异常,页面打开异常。信任值高的时候,会直接放出来,以后发现问题,会删掉。信任值不高,就会等过滤完,符合就放,不符合就不放。这里有很多过滤机制,严重的会永远不放,但是不会影响网站其他页面,也只是对当前页面生效。同样的,放出一个页面,也对排名没啥变化,只能提升一下信任值。信任值的增加和这两个参数没有具体的公式,只有一个简单的范围规则:见下表
好了,今天无锡seo http://www.wxztseo.com/ 就分享这么多知识点了,希望大家喜欢这篇文章!