桥梁

蜘蛛抓取但是收录不放出来

2020-09-22 16:48:59

1.爬取和收录的关系:

爬取和收录并不是包含关系,他们两个是搜索引擎工作的环节,蜘蛛爬取页面后放入临时数据库,等内容通过审查后背放出就形成了收录。所以seo优化公司小编介绍这两个环节是前后关系,但是没有必然的联系。

2.蜘蛛抓取页面的过程:

第一阶段:大小通吃

搜索引擎蜘蛛过来抓取时,就需要对网站的URL进行一个统一的抓取,也就是站长常说的“大小通吃”的情况。搜索引擎蜘蛛对网页中出现地链接,都会逐一加入到待抓取URL中,机械性的将新抓取的网页中的URL提取出来。这对于很多的站点来说,是比较好的情况。搜索引擎蜘蛛过来抓取时,站长可以通过网站日志有一个清楚的记录。站长可以通过网站日志分析网站优化的基本情况,这仅仅是第一阶段。

第二阶段:网页评级

搜索引擎蜘蛛对网站的页面进行抓取以后,就需要对网站的页面进行评级。PageRank是一种著名的链接分析算法,可以用来衡量网页的重要性,很自然的,站长可以用PageRank的思路来对URL进行排序。搜索引擎蜘蛛抓取页面后,会对网站的页面进行下载。但PageRank是个全局性算法,也就是当所有网页有下载完成后,其计算结果才是可靠的。seo优化公司小编介绍对于中小网站来讲,服务器如果质量不好,如果在抓取过程中,只看到部分内容,在抓取阶段是无法获得可靠的PageRank得分。

3.蜘蛛爬取成功却不放出来的原因:

蜘蛛爬取后会将页面放入到临时数据库,搜索引擎再对临时数据库中的内容进行审查,将优质的内容放出并建立索引。所以并不是说爬取就会被收录,还需要内容质量过关才能被放出来并建立索引。不同的蜘蛛抓取的页面评测也不一样,有的是低权重的蜘蛛,有的是高权重的蜘蛛和抓取待定的蜘蛛,这个可以百度搜下各种蜘蛛的情况,来做出各种应对情况

正常情况下网站提交后次日,spider会放出一个网站主页的快照。再接下来的时间内,会不断的收录索引内容页,并持续的放出。这个过程维护一月、二月、或者是三月,时间不等。如果网站已经有首页放出,说明百度蜘蛛已经有来抓取过,只是内容还没有放出来,多等待些时间即可。如果在等待收录放出的时间阶段不要做任何大的发动。比如说修改title标题、修改url等。否则会延长放出的时间,周期也会变长。

seo

网站快速被蜘蛛抓取方法

1.网站及页面权重。

这个肯定是首要的了,权重高、资格老、有权威的网站蜘蛛是肯定特殊对待的,这样的网站抓取的频率非常高,而且大家知道搜索引擎蜘蛛为了保证高效,对于网站不是所有页面都会抓取的,而网站权重越高被爬行的深度也会比较高,相应能被抓取的页面也会变多,这样能被收录的页面也会变多。

2.网站服务器。

网站服务器是网站的基石,网站服务器如果长时间打不开,那么这相当与你闭门谢客,蜘蛛想来也来不了。百度蜘蛛也是网站的一个访客,如果你服务器不稳定或是比较卡,蜘蛛每次来抓取都比较艰难,并且有的时候一个页面只能抓取到一部分,这样久而久之,百度蜘蛛的体验越来越差,对你网站的评分也会越来越低,自然会影响对你网站的抓取,所以选择空间服务器一定要舍得,没有一个好的地基,再好的房子也会跨。

3.网站的更新频率。

蜘蛛每次爬行都会把页面数据存储起来。如果第二次爬行发现页面与第一次收录的完全一样,说明页面没有更新,蜘蛛也就没有必要经常抓取了。页面内容经常更新,蜘蛛就会更加频繁的访问页面,但是蜘蛛不是你一个人的,不可能就在这蹲着等你更新,所以我们要主动向蜘蛛示好,有规律的进行文章更新,这样蜘蛛就会根据你的规律有效的过来抓取,不仅让你的更新文章能更快的抓取到,而且也不会造成蜘蛛经常性的白跑一趟。

4.文章的原创性。

优质的原创内容对于百度蜘蛛的诱惑力是非常巨大的,蜘蛛存在的目的就是寻找新东西,所以网站更新的文章不要采集、也不要每天都是转载,我们需要给蜘蛛真正有价值的原创内容,蜘蛛能得到喜欢的,自然会对你的网站产生好感,经常性的过来觅食。

5.扁平化网站结构。

蜘蛛抓取也是有自己的线路的,在之前你就给他铺好路,网站结构不要过于复杂,链接层次不要太深,如果链接层次太深,后面的页面很难被蜘蛛抓取到。

6.网站程序。

在网站程序之中,有很多程序可以制造出大量的重复页面,这个页面一般都是通过参数来实现的,当一个页面对应了很多URL的时候,就会造成网站内容重复,可能造成网站被降权,这样就会严重影响到蜘蛛的抓取,所以程序上一定要保证一个页面只有一个URL,如果已经产生,尽量通过301重定向、Canonical标签或者robots进行处理,保证只有一个标准URL被蜘蛛抓取。

7.外链建设

大家都知道,外链可以为网站引来蜘蛛,特别是在新站的时候,网站不是很成熟,蜘蛛来访较少,外链可以增加网站页面在蜘蛛面前的曝光度,防止蜘蛛找不到页面。在外链建设过程中需要注意外链的质量,别为了省事做一些没用的东西,百度现在对于外链的管理相信大家都知道,我就不多说了,不要好心办坏事了。

8.内链建设。

蜘蛛的爬行是跟着链接走的,所以内链的合理优化可以要蜘蛛抓取到更多的页面,促进网站的收录。内链建设过程中要给用户合理推荐,除了在文章中增加锚文本之外,可以设置相关推荐,热门文章,更多喜欢之类的栏目,这是很多网站都在利用的,可以让蜘蛛抓取更大范围的页面。

9.首页推荐。

首页是蜘蛛来访次数多的页面,也是网站权重高的页面,可以在首页设置更新版块,这样不仅能让首页更新起来,促进蜘蛛的来访频率,而且可以促进更新页的抓取收录。同理在栏目页也可以进行此操作。

10.建设网站地图。

搜索引擎蜘蛛非常喜欢网站地图,网站地图是一个网站所有链接的容器。很多网站的链接层次比较深,蜘蛛很难抓取到,网站地图可以方便搜索引擎蜘蛛抓取网站页面,通过抓取网站页面,清晰了解网站的架构,所以建设一个网站地图不仅提高抓取率还能获得蜘蛛好感。

11.主动提交

每次更新完页面,主动把内容向搜索引擎提交一下也是一个不错的办法,只不过不要没收录就一直去提交,提交一次就够了,收不收录是搜索引擎的事,提交不代表就要收录。

联系我们contact us

联系人:王经理 手机:18563790735

电话:400-094-0531  0531-67883910

邮箱:kefu@tgeye.cn

地址:济南市历下区泉城路268号永安大厦708室

Copyright © 山东嵊灿网络科技有限公司 All rights reserved 备案号:鲁ICP备13029154号 主要从事于济南网站建设,seo,外贸推广, 欢迎来电咨询! 服务支持:嵊灿科技