搜索引擎基础知识和工作原理

作者:杰作网络 发布日期:2013/6/22 9:03:00阅读次数:

 搜索引擎的发展史

  如今互联网的发展速度,网络上的资源远远的超出了人类的想想和掌控,如果没有搜索引擎我们根本就找不到我们想要的东西!尤其是社交网络的发展,比如facebook,twitter,微博等,移动应用的火爆增长,无论是从使用人数,网站的流量看?还是社会的影响力远远的超过了雅虎,谷歌等曾经的这些互联网巨头!那说这些和SEO有什么关系呢?只要有网络的地方就有搜索,有搜索的地方就从在SEO!

  那么搜索引擎的发展史是什么样的?对我们做网站优化有什么需求和帮助呢?难道我们不了解搜索引擎的发展史就无法做好SEO吗?其实不是这样的,了解搜索引擎的发展史对我们做好网站优化会有更大的帮助!  搜索引擎的发展史我在这里就不会详细的去讲解了,如果感兴趣的同学可以去搜索引擎直通车这个网站上学习一下!

  下面就来看一下搜索引擎增长所带来的价值:

  这些数据能说明一下几个问题:

  (1),搜索市场还在如日中天的火速发着!对于做SEO的从在很大的机会和金矿

  (2)通过搜索引擎的增长,搜索引擎公司很大一部分收入都是来自于网络广告,其中SEM占的比例还很高,SEO是自然搜索排名。不需要话费很多钱就可以实现同样的价值;

  (3) 其他的搜索也越来越亲近用户,SEO施展才华的地方多了起来!

  (4)通过不同平台的竞争,社会的关注,体质不断的健全,对今后做SEO的企业也是一个很好的福音!

  总结:

  通过搜索引擎的发展速度我们可以很容易的判断出SEO在未来的重要性!了解搜索引擎的发展历史有助于SEO优化人员能更深刻的理解SEM的发展和变革!这样也有利于我们能够很好的把握住未来的方向!只有与时代同步了,我们才能不断的进步!搜索引擎的发展速度之快。对SEO来说是好事,只要搜索的地方就会有排名,有排名就会用到SEO技术!我们要做的就是不断的去关注这些动态变化,以便能更好的发挥SEO的长处!

  大家都知道,互联网的发展速度不是一般的快!随着互联网的发展,搜索引擎的价值在不断的飙升着。你们为什么会用到这种搜索技术呢?是如何出现的呢?举个例子来说:我们的图书馆是藏书的宝地,当图书馆里面的书籍和文件随着时间不断增多的时候,就必然会出现一个问题,查找困难,管理也很困难,这时候该怎么办呢?通过目录管理,我们就可以对图书馆的所以文件实现规律性的管理,其实,我们的搜索引擎原理就是起源于这种传统的文件检索技术!那么搜索引擎真正的原理又是怎么一回事儿呢?我们继续往下看:

  第三部分:搜索引擎的工作原理:

  搜索引擎的工作原理大体上可以分为三个阶段:

  (1) 爬行和抓取:  就是搜索引擎蜘蛛通过跟踪链接地址访问网站页面,把获取到的网站页面html代码放入到自己的数据库当中。  爬行和抓取是搜索引擎工作的第一步,主要是完成数据的收集任务;  解释几个关键词:  1,蜘蛛:  (1) 定义:我把他它叫做抓取网页数据时的执行者,其实它就是一个计算机程序,因为这个工作过程与现实中的蜘蛛很相像,专业内就称它为搜索引擎蜘蛛!

  (2) 工作过程:蜘蛛程序向网站页面发出访问请求,服务器就会返回HTML代码,蜘蛛程序把收到的代码存入原始页面的数据库当中。蜘蛛访问任何一个网站时,都会最先访问网站根目录下的robots.txt文件!如果robots.txt文件禁止搜索引擎抓取某些文件或者目录,蜘蛛将会遵守这些禁止协议,不抓取那些被禁止的网址。  (3) 常见的搜索引擎蜘蛛名称:  百度蜘蛛、雅虎中国蜘蛛、Google蜘蛛、微软Bing蜘蛛、搜狗蜘蛛、搜搜蜘蛛、有道蜘蛛等等!  2,跟踪链接  大家都知道整个互联网是由相连接的网站页面组合成的!页面和页面之间是靠链接来联系的,搜索引擎能为了更快速的收集网站数据,就是通过搜索引擎蜘蛛去跟踪网站页面上的链接,从一个页面抓取到下一个页面!这个过程和蜘蛛在蜘蛛网上爬行一样!就这样蜘蛛可以快速的可以爬完整个互联网上的网站页面!  根据网站链接结构的不同我们可以把蜘蛛的爬行路线分为两种:深度爬行和广度爬行  A:深度爬行:蜘蛛沿着发现的页面链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另为一个链接再一直向前爬行!  B:广度爬行:蜘蛛在一个页面上发现多个链接时,不顺着一个链接一直往前爬行,而是把页面上所有的第一层链接都爬行一遍,然后再继续沿着第二层页面上发现的链接爬向第三层页面!一直这样进行下去……  所以,我们在做网站的时候,对网站的结构一定要有这两种布局,优化网站页面的时候也一定要做到两种链接布局!这样的结构是搜索引擎蜘蛛组喜欢的!  3,定向优化技术勾引蜘蛛  A:过读网站和页面的权重进行优化提高蜘蛛的来访次数。  B:做好页面的跟新频率和内容的质量  C:增加导入链接  D:距离首页的点击距离;距离首页点击距离越近,页面权重越高,蜘蛛爬行的机会越大  4,地址库,  搜索引擎会建立一个存放页面的地址库,目的就是为了避免搜索引擎蜘蛛重复爬行和抓取网址,这个地址库里面有已经被抓取的页面,也有被发现后还没有被抓取的页面!  这个地址库中的URL一定是蜘蛛抓取来的吗?答案是No  有人工录入的种子网站地址,也有站长通过搜索引擎网页提交表格提交进去的网址!  另为需要注意的是:网址提交了,也不一定就能被收录,这看你提交页面的权重如何了!不过搜索引擎蜘蛛还是跟喜欢自己沿着链接去抓去页面!自己得来的更好吃!  5,文件存储  搜索引擎蜘蛛抓取来的页面就存放在这个原始页面数据库中!其中每个URL都有一个独特的文件编号!  6,对复制内容的检测  有很多站长曾经碰到过这样的问题:在网站页面中发现了蜘蛛来爬行过,但是页面没有被收录过,不知道什么回事!其实很简单,很有可能是蜘蛛在爬行你网页的时候发现了很多权重比较低的内容,比如:转载或者伪原创的内容是,蜘蛛就会离开!你的网页也就没有被收录!蜘蛛在爬行抓取页面内容的时候也会对其进行一定程度的复制内容检测!

TAG:本文地址:http://www.jiezuo.org/seojichu/155.html