百度爬虫抓取优化一例

更新时间:2019-11-04 18:24:34 来源:青锋建站 作者:青锋建站

  搜索引擎爬虫是搜索引擎用于抓取网页的程序,对网页的相关度,主要内容进行判断,是网站收录的基础,以下是青锋建站给大家分享的百度爬虫抓取优化一例。

网站未对爬虫优化前的状况

  网站主体内容都是js生成,针对用户访问,没有做优化;虽然网站特针对爬虫抓取做了优化,将图片二进制内容放到了html中,然而由于图片的问题导致页面长度过长,发现内容影响到了百度收录。页面质量很好,还特意针对爬虫做了优化,为什么内容反而不收录了呢?

百度工程师分析

1、网站针对爬虫爬取做的优化,直接将图片二进制内容放到了html中导致页面长度过长,网站页面长度达164k;
2、网站优化后将主体内容放于最后,图片却放于前面;
3、爬虫抓取内容后,页面内容过长被截断,已抓取部分无法识别到主体内容,最终导致页面被认定为空短而不收录。

百度工程师建议

1、不建议站点使用js生成主体内容,如js渲染出错,很可能导致页面内容读取错误,页面无法抓取
2、如站点针对爬虫爬取做优化,建议页面长度在128k之内,不要过长
3、针对爬虫爬取做优化,请将主体内容放于前方,避免抓取截断造成的内容抓取不全
  因此在进行百度爬虫进行优化时应该保持页面不要太长,如果放置图片尽量把图片旋置在内容后面。爬虫优化是提高收录的方法之一,当然如何使我们的文章被百度快速收录呢,这里面还有其他一些技巧。以下是青锋建站给大家分享的百度爬虫抓取优化一例,青锋建站,提供专业的高品质网站制作服务,包括专业网站建设,SEO,网络营销,PHP开发,网站建设知名品牌,全国接单,为企业构建强有力的营销平台。

转载请注明来源网址:青锋建站-http://www.sjzphp.com/zixun/spiderseo.html

电话 15632335515 | 邮箱 943703539@qq.com | QQ 943703539 | 微信 qingfengjianzhan

Copyright © 2016-2026 青锋建站 版权所有