python爬虫
琉璃糖糖糖
这个作者很懒,什么都没留下…
展开
-
python爬虫——requests库爬取当当网图书信息
requests库 配合 正则表达式 爬取当当网五星榜图书信息import requestsimport reimport timeimport jsondef main(page): url = 'http://bang.dangdang.com/books/fivestars/1-' + str(page) # 获取不同页数的url html = request...原创 2019-09-03 08:48:52 · 1254 阅读 · 0 评论 -
python爬虫——urllib库模拟登陆“逼乎”
urllib库模拟登陆“逼乎”from urllib import request, parseimport ssl # 用于处理https协议# 使用ssl未经验证的上下文context = ssl._create_unverified_context()# 定义请求url和headerurl = 'https://biihu.cc/account/ajax/login_proc...原创 2019-09-03 08:48:35 · 276 阅读 · 0 评论 -
python爬虫——正则表达式基本使用
正则表达式基本使用import re# .*?匹配任意的字符,除了\n \rcontent1 = 'wuluoxiang has 100 apples'content2 = '''wuluoxiang has 200 apples'''content3 = '''wuluoxiang has 100 appleswuluoxiang has 200 appleswuluoxia...原创 2019-09-03 08:48:03 · 112 阅读 · 0 评论