自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 python爬取大众点评(破解加密--css加密)

1.分析接下来再看一种加密,css加密,以大众点评为例。访问网址https://www.dianping.com/,搜索关键词比如洗浴,得到如下:这里的url复制出来之后是这样的:https://www.dianping.com/search/keyword/166/0_%E6%B4%97%E6%B5%B4其实url中存在中文的话需要url编码和解密,所以需要模拟url编码from urllib.parse import quote,unquotewd = "洗浴"print(quote(

2020-10-13 14:33:35 2644 3

原创 python爬取有道翻译(破解加密--js加密)

1.分析有的数据是通过加密解密得到的。加密:把明文变成密文解密:把密文变成明文常见的加密方式:js加密css加密base64加密尝试一下:import requests# url = "http://www.httpbin.org/post"url = "http://fanyi.youdao.com/translate_o?smartresult=dict&smartresult=rule"headers = { 'X-Requested-With': 'XM

2020-10-12 09:14:49 1590

原创 python爬虫爬取百度翻译(post请求)

1.需求爬取网址:https://fanyi.baidu.com二、代码实现import requestsurl = "https://fanyi.baidu.com/sug"data = { "kw":input(">")}headers = { "user-agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/

2020-10-12 08:39:12 2932 1

原创 Python爬取斗鱼直播信息

一、需求爬取斗鱼直播网站信息,如直播名字、主播名字、热度、图片和房间网址,将这些数据保存到csv文件中,并单独创建文件夹保存图片。斗鱼直播网址:https://www.douyu.com/g_LOL二、分析url先单击【直播】,然后单击分页,发现分页的时候url没发生变化,基本可以确定是通过异步加载的。现在找到了异步url。此时,可以直接向url发送请求后去数据,还可以使用selenium获取加载之后的网页总数据,提取。三、数据提取有两种办法可以选择:(1)如果使用ajax异步url,

2020-10-11 09:08:35 3803 1

原创 Python爬虫 爬取古诗词

一、需求爬取网址:https://www.gushiwen.org/需求:(1)获取侧边栏【类型】信息;(2)获取每个类型中古诗文详情页信息;(3)提取详情页数据:古诗文名、作者、朝代、类型、内容、译文及注释;(4)将数据保存到 csv 文件;二、代码实现```pythonimport requestsimport csvfrom lxml import etreestart_url = "https://so.gushiwen.cn/shiwen/"base_url = "h

2020-10-10 09:04:23 3462

原创 Python爬取豆瓣电影

一、分析url单击分类信息,跳转到分类电影列表。这个页面是有多页数据加载的,当用户向下滚动右侧的滚动,加载数据,这个经过分析是ajax加载的数据,需要找到ajax请求的网址。先找到分类,提取分类的名字和类型编号,然后再爬分类下的电影数据。二、提取数据的方法ajax返回的数据是json,response.json()得到的是字典,用字典操作就可以了,当然肯定可以用正则。其实专门操作json的有一个模块叫jsonpath。三、代码实现import requestsimport reimp

2020-10-09 11:02:39 3385 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除