1、获取浏览器UserAgent标识
以火狐为例:
1)右键检查/快捷键fn+F12
2)进入后点击网络,随意选择一条方法,即可查看火狐浏览器的UserAgent
2、新建Excel,点击数据——自网站——高级
1)表格数据网址(以全国城市房价为例)
1处输入读取数据的网址,2处设置相应时间(伪装成用户访问),3处复制步骤1中的UserAgent,(如果没有UserAgent,直接键入)
注意:爬取的数据应该为文本或者二进制信息,无法爬取图片或者pdf中的文本信息。
3、可以将数据导入到Power Query进行处理
总结:
此方法只支持对简单的文本数据网站进行爬取,简单的入门,同时如果网站设置了反爬,同样无效。比如某宝、某东等购物网站。还需进一步学习python的数据爬取方法,学习爬取图片中的文本信息、数据可视化处理。