网页抓取
文章平均质量分 72
Arthur54271
人生苦短,我用Python
展开
-
Python3-urllib库--网页抓取
#urllib库的基本使用'''1、网页抓取就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。python2:urllib2python3:urllib.request'''#1、引入模块from urllib import request#2、操作#(1)定义目标urlbase_url="http://www.baidu.com"#(2)发起请求(GE...原创 2018-04-09 22:51:39 · 213 阅读 · 0 评论 -
Python3-爬虫登录开心网的账号,并且爬取个人主页内容
#爬虫登录开心网的账号,并且爬取个人主页内容from urllib import request,parsefrom http import cookiejarimport ssl#取消SSL验证ssl._create_default_https_context=ssl._create_unverified_context#定义请求管理器#url.request.urlopen...原创 2018-04-13 15:45:17 · 1718 阅读 · 0 评论 -
Python3-网页爬取-SSL验证
'''SSL--校验网站证书----针对https,不针对http一、什么是SSL证书'''from urllib import requestimport ssl#ssl免验证#创建一个不需要验证的上下文ssl._create_default_https_context=ssl._create_unverified_context#而不是ssl._create_unverif...原创 2018-04-13 11:43:44 · 2470 阅读 · 0 评论 -
Python3-网页爬取-post方式实现百度翻译
#请求方式 postfrom urllib import request,parseimport jsondef fanyi(content): data={ 'kw':content } data=parse.urlencode(data) # print(len(data)) base_url = 'http://fanyi....原创 2018-04-12 17:01:38 · 1232 阅读 · 0 评论 -
Python3-网页爬取-批量爬取贴吧页面数据
# 批量爬取贴吧页面数据# 网页抓取汉字转码、多个参数拼接# 第1页: https://tieba.baidu.com/f?kw=%E6%97%85%E8%A1%8C%E9%9D%92%E8%9B%99&ie=utf-8&pn=0# 第2页:https://tieba.baidu.com/f?kw=%E6%97%85%E8%A1%8C%E9%9D%92%E8%9B%99&a...原创 2018-04-12 14:22:02 · 1769 阅读 · 0 评论 -
Python3-网页爬取-网页抓取汉字转码、多个参数拼接
#网页抓取汉字转码、多个参数拼接from urllib import request#将汉字转成unicode码from urllib import parse# base_url='http://www.baidu.com/s?wd='base_url='http://www.baidu.com/s?wd='content=input('请输入你要搜索的内容:')# base...原创 2018-04-12 12:02:02 · 1298 阅读 · 0 评论 -
Python3-抓取某翻译网页 获取js数据
#抓取有道翻译网页 获取js数据#找接口,至少尝试三次以上from urllib import parse,requestimport time,randomimport hashlibimport json#md5加密def getMd5(str): md5 = hashlib.md5() md5.update(bytes(str, encoding='utf...原创 2018-04-17 21:54:17 · 1067 阅读 · 0 评论 -
Python3-网页爬取-判断user-agent,判断是否是正常浏览器访问
'''判断user-agent,判断是否是正常浏览器访问'''from urllib import requestbase_url = "http://www.langlang2017.com"headers = { "connnction":"keep-alive", "USer_Agent":"mozilla/5.0 (Windows nt 6.1; WOW64...原创 2018-04-12 11:08:45 · 2874 阅读 · 0 评论 -
Python3-网页爬取-假装浏览访问,假装不同的浏览器访问。
'''假装浏览访问,假装不同的浏览器访问。从user_agent_list.txt文件中,读取user_agent数据,用来封装成一个带headers的request对象,进行网站页面的爬取。'''from urllib import requestimport randombase_url = "http://www.baidu.com"#1.读取文件内容text = ""w...原创 2018-04-12 11:07:30 · 686 阅读 · 0 评论 -
Python3-豆瓣电影影片差评和影片封面照片的爬取
#实现豆瓣电影影片差评和影片封面照片的爬取from urllib import requestimport jsonimport sslssl._create_default_https_context=ssl._create_unverified_context#接口列表url_list=[]for i in range(3): base_url = "https://...原创 2018-05-03 16:17:37 · 803 阅读 · 0 评论