蜘蛛爬

时间:2024-03-26 21:33:28编辑:探索君

1、深度优先(策略):一直往前爬,直到没有链接,再返回第一层爬向下一个入口

2、广度优先(策略):先把这一层所有入口爬完,再爬下一层。

3、吸引蜘蛛:1)搜索引擎认为重要的页面爬行深度高,会有更多页面被收录 2)页面更新度,有规律3)、导入链接数量0(导入到自己网站页面的链接)4)、与首页点击距离5)、c结构(链接比较好)4、地址库:为了避免重复查询或抓取网址,搜索引擎会建立一个地址库记录已经被发现、但还没被抓取的页面,以及被抓取的页面。1)来源、人工录入的种子网站。2)、蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址库中的数据库相比,如果是地址库中没有的网址,就存入待访问的的地址库。3)、站长通过搜索引擎页面提交表格提交进来的网址4)、站长通过XML网站地图、站长平台提交的网址

上一篇:临于泉上者的临

下一篇:中山大学面积