百度搜索引擎技术原理
-
百度搜索引擎工作原理番外篇-绿萝算法1.0&2.0
百度质量团队2013年2月19日发布公告推出绿萝算法,针对买卖链接行为再 次强调:买卖链接行为一方面影响用户体验,干扰搜索引擎算法;另一方面让投机建站者得利、超链中介者得利,真正勤…
-
百度搜索引擎工作原理番外篇-外链的作用
曾经,“内容为王超链为皇”的说法流行了很多年,通过超链计算得分来体现网页的相关性和重要性,的确曾经是搜索引擎用来评估网页的重要参考因素之一,会直接参与搜索结果排序计算。但随着该技术…
-
百度搜索引擎工作原理番外篇-石榴算法
我们理解网站生存发展需要资金支持,从来不反对网站添加各种合法广告,不要再问我们“我们网站加了XX联盟的广告会不会被处罚”这类问题。有些站点好不容易在百度有了比较好的排位,却在页面上…
-
百度搜索引擎工作原理番外篇-影响搜索结果排序的因素
用户输入关键词进行检索,百度搜索引擎在排序环节要做两方面的事情,第一是把相关的网页从索引库中提取出来,第二是把提取出来的网页按照不同维度的得分进行综合排序。“不同维度”包括: …
-
百度搜索引擎工作原理-第十章倒排引索的重要过程-入库写库
索引系统在建立倒排索引的最后还需要有一个入库写库的过程,而为了提高效率这个过程还需要将全部term以及偏移量保存在文件头部,并且对数据进行压缩,这涉及到的过于技术化在此就不多提了。…
-
百度搜索引擎工作原理-第九章搜索引擎引索系统概述
众所周知,搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。上一章我们主要介绍了部分抓取存储环节中的内容,此章简要介绍一下索引系统。 在以亿为单位的网页库…
-
百度搜索引擎工作原理系列-第八章哪些网页无法建入引索库
上一篇(第七章百度优先建重要库的原则)优质网页进了索引库,那其实互联网上大部分网站根本没有被百度收录。并非是百度没有发现他们,而是在建库前的筛选环节被过滤掉了。那怎样的网页在最初环…
-
百度搜索引擎工作原理系列-第七章百度优先建重要库的原则
Baiduspider抓了多少页面并不是最重要的,重要的是有多少页面被建索引库,即我们常说的“建库”。众所周知,搜索引擎的索引库是分层级的,优质的网页会被分配到重要索引库,普通网页…
-
百度搜索引擎工作原理系列-第六章新链接重要程度判断
好啦,上面我们说了影响Baiduspider正常抓取的原因,下面就要说说Baiduspider的一些判断原则了。在建库环节前,Baiduspider会对页面进行初步内容分析和链接分…
-
百度搜索引擎工作原理系列-第五章造成Baiduspider抓取异常的原因
有一些网页,内容优质,用户也可以正常访问,但是Baiduspider却 无法正常访问并抓取,造成搜索结果覆盖率缺失,对百度搜索引擎对站点都是一种损失,百度把这种情况叫“抓取异常”。…