随着瀑布流网站、AJAX 网页等技术和网站表现形式大行其道,技术架构和网页结构都与以往传统的网站有所区别,图片展现形式表现的更加的灵活。有些企业或个人出于营销研究或者收藏的需求,需要对这类型网站进行网页数据采集。本文介绍遇到这类型网站时,我们要如何使用八爪鱼采集器来快速收集数据。
经典风景图片示例网址:huaban/explore/huatong/
观察示例网址,发现如下特征:1、页面上的图片不是一次加载完成,需要滚动多次才会滚动到底部。这类型的网站属于瀑布流网站(新浪微博也是此种情况)。2、详情页不能通过点击标题进入,而需要点击图片才能进入。
相关采集教程加减法的意义:
新浪微博数据采集 |
58同城信息采集 |
搜狗文章采集 |
波的衍射步骤1:创建采集任务 错误的反义词
1、进入主界面,选择自定义模式
胃绞痛的原因批量采集下载瀑布流网站图片-图1
2、将要采集的网址,复制粘贴到网站输入框中,点击“保存网址”
批量采集下载瀑布流网站图片-图2
步骤2:建立采集规则
1、系统自动打开网页。这是一个瀑布流的网页,涉及AJAX技术,需要设置 AJAX 网页加载,以便确保数据采集的时候不会遗漏。勾选“页面加载完成向下滚动”,设置滚动次数为“2次”,时间为“2秒”,滚动方式为“直接滚动到底部”;最后点击确定
批量采集下载瀑布流网站图片-图3
注意:示例网站,没有翻页按钮,滚动次数会影响数据采集数量,可按需设置
2、由于我们采集时需要点击图片才能进入到产品详情页,在建立元素循环列表的时候,需要将图片链接设置为列表项。点击页面内的第一张图片,再点击“A标签”,系统会选中图片的链接并发现同类链接。选择“选中全部”,再选择“循环点击每个链接”
批量采集下载瀑布流网站图片-图4:点击“A标签”
批量采集下载瀑布流网站图片-图5:选择“选中全部”
发布评论