搜狐媒体平台-搜狐网站>IT

他一出家就成中国最帅和尚

眼眸深邃、轮廓分明、身材颀长,活生生的一幅画。

大学副教授与在押服刑女结婚

这在监狱民警看来,那么令人不可思议。

四川seo浅析搜索引擎工作原理

声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。举报

  这一节分享搜索引擎工作原理,这节课不会讲特别深的知识,会用大家听得懂的语言来说搜索引擎是怎么工作的,以后我们学习搜索引擎优化首先要知道搜索引擎工作流程,我们才好针对性的优化,这样大家才明白为什么这样优化!

  常用搜索引擎:

  百度、谷歌、搜搜、搜狗、微软等,搜索引擎工作原理,工作流程:第一步爬行抓取、第二步预处理、第三步服务输出;

  爬行抓取:

  批量收集:对互联网上存在链接的网页收集一遍,这种一篇需要耗时几周时间,针对互联网上的所有的url均收集一遍,这种不好就是收集过的还收集一次.

  增量收集:在原有基础上收集新增加的网页,更新上次收集完后有改变的页面,删除收集重复和不存在的网页;假如有十个网页,新增加了十个,就只需要收录增加的十个,如原有的网页有三个更新的就再收集上来。

  自己提交:自己主动向搜索引擎提交网站,不建议这种方法,因为比较慢.(注:本站长提醒:现在用提交是最快的了)

  上面方式就是把链接做好利于蜘蛛爬行.这一块就需要我们seo优化好蜘蛛来时一下就能找到我们的网页.

  用什么爬行抓取,搜索引擎蜘蛛

  搜索引擎蜘蛛是搜索引擎的一个自动程序,它的作用就是用来访问互联网上的网页,图片,视频内容;

  Spide+url:所以URL是搜索引擎的痕迹,看搜索引擎是否爬取过你的网站,就看服务器端日志是否有该url;

  搜索引擎蜘蛛主要是通过爬行页面上的链接来收集新的页面,不停的十字交叉爬行下去便形成一张蜘蛛网,分广度优先爬行和深度优化爬行.

  比如下图

  

  A为第一层、BCD为第二层,efg是第三层,h是第四层,如果是深度优先爬行,首先是爬行A-B-E、A-c-f-h、a-d-g-h,广度爬行是a、b,C,D,E,F,G,H,为了提高效率,可能会设计深度的层次,如果设为三层,那么h就会不会被收录,所以有时会发现很多网站不会被收录,可能其中一个原因就是深度太深了,所以网站结构的扁平化很重要.

  搜索引擎蜘蛛如何避免重复收集?

  造成重复收集的原因:

  蜘蛛没有记录访问过的URL

  一个网页由多个域名指向导致

  解决办法:搜索引擎建立两个表:

  已访问表和未访问表

  搜索引擎蜘蛛是如何断网页重不重要的

  1、网页目录越小越好用户看着体验好;所以做站每天得有新的内容更新

  2、原创性内容多的,好的,重要性越高越好;不建议伪原创等方法:伪原创就是把采集来的内容进行同义词替换等方法

  3、更新度:一个高价值的网站每天都会有更新,用户天天来看,来玩;

  4、高质量相关链接导入:一个权重高的,高质量的网页愿意外链接到你的网站,那证明你的网站质量也很好;如你的站的内容质量高好123会主动收录你的站,肯定就是高质量的导链接导入.

  预处理:比如我们搜索网络营销这个词,他会马上显示搜索结果;为什么我们搜索一个词一秒内就回复搜索结果,就是因为进行了预处理。

  预处理分为下面七步:关键词提取、去除停用词、进行分词、消除噪声、建立关键词库、链接关系计算、特殊文件处理;

  关键词提取:搜索引擎蜘蛛抓取到的像大量的html代码,java,css,div标签等,要去除,搜索引擎完全能识别的还是文字内容,所以关键词提取是把没有用的标签去掉,把文字留下来.

  去除停用词:反复出现的像“得”“的”“地”“啊”“呀”“再”等这些无用的词称为停用词,去除停用词

  分词:基于统计的分词方法,分词词典和收录的网络流行词语是搜索引擎的依据,如我要睡觉了,其他神马都是是浮云;就可能分为 我、要、睡觉、了、其他、神马、都是、浮云

  消除噪声:把网页上各种广告文字,广告图片,版权信息,登陆框等这些信息去除掉

  建立关键词库:提取完关键词后,把页面转换为一个关键词的组合,记录每一个关键词在页面上的出现频率,出现次数,格式,位置;一个网页如果关键词出现的词数多,如网站权重不错,然后就会把这个词推向用户(站长注:不能关键词垒加堆砌)

  链接关系计算:搜索引擎事先要计算出页面上有哪些链接指向哪些其他页面,每个页面由哪些导入链接,链接使用了什么锚文本等等;

  特殊文件处理:对Flash,视频,图片等无法直接读懂的进行处理.

  前面就是搜索引擎的基础了解、下一节课讲解搜索引擎一些指令和常用工具等

  来源https://www.cnzqseo.com/seo/seo695.html

mt.sohu.com true 齐优化记 https://mt.sohu.com/20150725/n417502340.shtml report 2274 这一节分享搜索引擎工作原理,这节课不会讲特别深的知识,会用大家听得懂的语言来说搜索引擎是怎么工作的,以后我们学习搜索引擎优化首先要知道搜索引擎工作流程,我们才好
阅读(0) 举报
欢迎举报抄袭、转载、暴力色情及含有欺诈和虚假信息的不良文章。

相关新闻

热门关注

搜生活

搜生活+关注

搜狐公众平台官方账号

MAGIC杨梦晶

MAGIC杨梦晶+关注

生活时尚&搭配博主 /生活时尚自媒体 /时尚类书籍作者

搜狐教育

搜狐教育+关注

搜狐网教育频道官方账号

星吧GEO

星吧GEO+关注

全球最大华文占星网站-专业研究星座命理及测算服务机构

热门图片

  • 热点视频
  • 影视剧
  • 综艺
  • 原创
锦绣缘

同步热播-锦绣缘

主演:黄晓明/陈乔恩/乔任梁/谢君豪/吕佳容/戚迹
神雕侠侣

大结局-神雕侠侣

主演:陈晓/陈妍希/张馨予/杨明娜/毛晓彤/孙耀琦
封神英雄榜

同步热播-封神英雄榜

主演:陈键锋/李依晓/张迪/郑亦桐/张明明/何彦霓

六颗子弹

主演:尚格·云顿/乔·弗拉尼甘/Bianca Bree
龙虎少年队2

龙虎少年队2

主演:艾斯·库珀/ 查宁·塔图姆/ 乔纳·希尔

《奔跑吧兄弟》

baby14岁写真曝光

《我看你有戏》

李冰冰向成龙撒娇争宠

《明星同乐会》

李湘遭闺蜜曝光旧爱

《非你莫属》

美女模特教老板走秀

《一站到底》

曝搬砖男神奇葩择偶观

搜狐视频娱乐播报

柳岩被迫成赚钱工具

大鹏嘚吧嘚

大屁小P虐心恋

匆匆那年第16集

匆匆那年大结局

隐秘而伟大第二季

乔杉遭粉丝骚扰

The Kelly Show

男闺蜜的尴尬初夜

我来说两句排行榜

客服热线:86-10-58511234

客服邮箱:kf@vip.sohu.com