搜索引擎爬虫是搜索引擎用于抓取网页的程序,对网页的相关度,主要内容进行判断,是网站收录的基础,以下是青锋建站给大家分享的百度爬虫抓取优化一例。
网站未对爬虫优化前的状况
网站主体内容都是js生成,针对用户访问,没有做优化;虽然网站特针对爬虫抓取做了优化,将图片二进制内容放到了html中,然而由于图片的问题导致页面长度过长,发现内容影响到了百度收录。页面质量很好,还特意针对爬虫做了优化,为什么内容反而不收录了呢?百度工程师分析
1、网站针对爬虫爬取做的优化,直接将图片二进制内容放到了html中导致页面长度过长,网站页面长度达164k;2、网站优化后将主体内容放于最后,图片却放于前面;
3、爬虫抓取内容后,页面内容过长被截断,已抓取部分无法识别到主体内容,最终导致页面被认定为空短而不收录。
百度工程师建议
1、不建议站点使用js生成主体内容,如js渲染出错,很可能导致页面内容读取错误,页面无法抓取2、如站点针对爬虫爬取做优化,建议页面长度在128k之内,不要过长
3、针对爬虫爬取做优化,请将主体内容放于前方,避免抓取截断造成的内容抓取不全
因此在进行百度爬虫进行优化时应该保持页面不要太长,如果放置图片尽量把图片旋置在内容后面。爬虫优化是提高收录的方法之一,当然如何使我们的文章被百度快速收录呢,这里面还有其他一些技巧。以下是青锋建站给大家分享的百度爬虫抓取优化一例,青锋建站,提供专业的高品质网站制作服务,包括专业网站建设,SEO,网络营销,PHP开发,网站建设知名品牌,全国接单,为企业构建强有力的营销平台。
转载请注明来源网址:青锋建站-http://www.sjzphp.com/zixun/spiderseo.html