爬取网站:
1.打开软件注册账号
2.登录账号
3.进入主界面
4.点击新建-->自定义任务
5.输入网址à点击保存设置(保存设置后会自动进入指定网站页面)
6.设置自动翻页:下拉至网页底部-->点击下一页à在右上角的窗口中选择“循环点击下一页”
可以在弹出的页面中设置间隔时间(默认为1秒)
7.移动页面至顶端,找到需要要爬取的第一个元素并选中(注:需要选中整个元素块而不是单个元素)-->选好元素后在右边的窗口中点击“选择全部子元素”
8.继续点击“选中全部相似组”
点击后在下面的数据预览框中会出现本页所有的数据
9.在右上角窗口中点击“元素中的数据内容”
等待数据预览框刷新完成(显示的数据会变成白色)
10.删除无关字段
鼠标移动到要删除的字段上点击字段右边的“三个点”在弹出的列表中可以选择对字段进行复制、删除等操作。(注:也可以点击整条数据右边的删除图标删除整条数据)。
12.重命名字段
鼠标双击字段名称可以对字段进行重命名。
13.采集数据
点击右上角的采集按钮
在弹出的窗口中选择本地采集(普通模式)
等待采集完成(可以随时停止或暂停)
14.导出数据
采集完成(或停止采集)后点击导出数据
有可能出现如下情况
可以按需求选择导出所有数据或者去重数据。
选择导出文件类型并点击确定。
设置保存路径及文件名称
15.导出完成
16.打开文件查看数据