爬虫
Pointer-faker
宝藏男孩一枚,关注收藏,技术栈持续更新
展开
-
python——网络爬虫快速入门【数据提取篇】
3. 数据提取方法3.1数据提取的概念和数据的分类在爬虫爬取的数据中有很多不同类型的数据,我们需要了解数据的不同类型来又规律的提取和解析数据.结构化数据:json,xml等 【前后端分离】处理方式:直接转化为python类型非结构化数据:HTML 【前后端不分离】处理方式:正则表达式、xpath3.2 快速辨别数据类型数据类型判别,看第一条发出的请求的响应,这条由我们向浏览器发出的请求是最干净的,其他的数据请求都是由浏览器帮我们发出的。第一条请求的视图,数据已经原创 2020-08-16 11:34:46 · 1104 阅读 · 0 评论 -
python——网络爬虫快速入门【reuqests篇】
2.3 pip的使用和虚拟环境的介绍pip 是一个现代的,通用的 Python 包管理工具。提供了对 Python 包的查找、下载、安装、卸载的功能。官方提供的pip 示例$ pip install requests$ pip search xml$ pip show beautifulsoup4$ pip uninstall requestspip 换源pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/si原创 2020-08-16 13:40:41 · 8268 阅读 · 0 评论 -
python——网络爬虫快速入门【基础知识篇】
1.什么是网络爬虫?网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。万维网WWW是World Wide Web的简称,也称为Web、3W等。WWW是基于客户机/服务器方式的信息发现技术和超文本技术的综合。WWW服务器通过超文本标记语言(HTML)把信息组织成为图文并茂的超文本,利用链接从一个站点跳到另个站点。1.1 为什么要学习爬虫?如今,人工智能,大数据离我们越来越近,很多公司在开展相关的业务,但是人工智原创 2020-08-16 13:34:44 · 1080 阅读 · 0 评论