爬虫
文章平均质量分 77
墙缝里的草
这个作者很懒,什么都没留下…
展开
-
Urllib库函数、代理、爬取案例
Urllib库函数、代理、爬取案例urllib库-urlopen函数用法from urllib import requestresp=request.urlopen('http://www.baidu.com')print(resp.read())部分结果b'<!DOCTYPE html><!--STATUS OK-->\n\n\n <html><head><meta http-equiv="Content-Type" conten原创 2021-07-04 16:33:32 · 252 阅读 · 0 评论 -
爬虫---数据解析
数据解析数据解析网页数据和结构网页数据格式网页结构数据解析技术正则表达式XPath与lxml解析库Beautiful SoupJSONPath与json模块json模块介绍数据解析网页数据和结构网页数据格式网页结构数据解析技术Python 支持网页解析技术:正则表达式、XPath、Beautiful Soup、JSONPath(1)针对文本的解析,正则表达式(2)针对HTML/XML的解析,XPath、Beautiful Soup、正则表达式(3)针对JSON的解析,JSONPath网页原创 2021-05-30 18:38:10 · 515 阅读 · 0 评论 -
爬虫基础笔记--爬取网页数据
爬虫基础笔记--爬取网页数据使用urllib实现数据传输URL编码转换处理GET请求处理POST请求添加特定的Headers---请求伪装代理服务器简单的自定义opener常见的网络异常URLError异常和捕获HttpError异常和捕获requests库requests 库发送请求返回请求使用urllib实现数据传输传递数据的方式主要分为两种GET和POST。GET:直接使用 URL访问,在URL中包含了所有的参数POST:不会在URL中显示所有参数URL编码转换需要使用urllib.par原创 2021-05-16 16:08:43 · 936 阅读 · 0 评论