爬虫
Sound_of_ Silence
读几本书,手有余香,世间诸事,去他个娘
展开
-
爬取JD格力空调的各种信息
又做了一回爬JD信息的爬虫,但是这次爬取的内容更多更全,其实写代码本身不难,主要费时间的就是找相关信息的url,详细代码如下:import requestsimport reimport timeimport jsonimport osimport tracebackfrom lxml import etreefrom collections import OrderedDict...原创 2019-11-26 09:35:53 · 577 阅读 · 0 评论 -
Python Challenge第19关挑战
由于工作紧张的原因很久没更新博客,实在对不住,说声抱歉大家了!!!之前立了个flag说要闯一下pythonchallenge看能到哪,后面几关真是越来越摸不着头脑了,好久才搞定了第20关,记录如下:首先是查看源代码,发现里面有超长的一段注释,且告诉了我们使用base64编码,是一个wav文件,因此,首先我们拿到注释,代码中的get_comment函数;接着将其写入wav文件,parse_dat...原创 2019-11-25 11:15:53 · 679 阅读 · 1 评论 -
Scrapy 爬取京东所有图书信息
先记录代码吧,回头再写文字:# -*- coding: utf-8 -*-import scrapyimport jsonimport urllibimport pprintfrom copy import deepcopyclass JdSpider(scrapy.Spider): name = 'jd' allowed_domains = ['jd.com',...原创 2019-08-20 22:36:37 · 636 阅读 · 0 评论 -
Python Scrapy批量爬取CSDN博客内容
今天忽然想着爬一下之前写的所有博客的内容,也是巩固练习一下scrapy,目标定位,爬取标题,url与内容:采用 scrapy genspider -t crawl 命令创建爬虫,之后在爬虫文件中进行修改,主代码很简单:# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtractorfro...原创 2019-08-25 21:28:21 · 478 阅读 · 0 评论 -
Python request爬取华为P30手机京东评论
最近准备把多年的手机升级,瞅准了华为p30系列,于是就想瞅瞅评论看看,以下为源码:import requestsimport jsonimport reimport timecount = 0for i in range(30): count += 1 url = 'https://sclub.jd.com/comment/productPageComments.ac...原创 2019-08-21 20:37:55 · 499 阅读 · 0 评论 -
Python challenge 第18关 can you tell the difference?
第18关,http://www.pythonchallenge.com/pc/return/balloons.html图上是除了亮度其他都一样的话,标题为can you tell the difference? 网页源代码中有‘it is more obvious that what you might think’ 连起来就是,你能说出这里的不同点吗?非常明显。那么自然就是亮度的区别,输入...原创 2019-08-26 21:57:14 · 425 阅读 · 0 评论 -
Python 爬取pexels上无版权美图
工作需要找一些无版权图,因此就干脆写了个代码爬取,吃个饭的功夫,一切都搞定~~import requestsimport reimport osimport timeimport randomdef get_text(url): #请求函数 try: text = requests.get(url, headers=headers) text...原创 2019-09-03 19:56:38 · 1071 阅读 · 1 评论 -
Python多进程爬取豆瓣Top250数据
以前电脑死活跑不了多进程,重装了一下系统,居然啥都解决了,于是乎就跑了一下:#!/usr/bin/env python# -*- encoding: utf-8 -*-"""@File : jianshu.py.py@Time : 2019/9/1 20:42@Author : Sound_of_Silence"""import requestsimport tim...原创 2019-09-09 17:14:02 · 264 阅读 · 0 评论 -
Python爬取网页并存储为pdf
起因是最近准备学习TensorFlow,找了个网页教程,质量感觉挺好,但是页面广告巨多,不小心就能中雷,就想用爬虫爬下来,净化一下,一开始是拒绝的,因为爬虫下来的话,格式跟网页就不一定一样了,说不定会乱七八糟,直到后来发现了pdfkit这个工具,(需要安装whtmltopdf)。然后就一发不可收拾了:遇到的障碍就是图片一开始无法加载,索性一不做二不休在存储源码的时候直接改位置,让其按照我的心意存...原创 2019-09-15 13:48:12 · 4618 阅读 · 0 评论 -
Python多手段爬取百度图片Request+scrapy分别爬取,百度图片地址解密
好长一段时间没怎么碰爬虫,我估计得熟悉一下,要不然上手就遇到问题,直接拿大厂图片来试试,翻车分分钟?目标是:1.常规手段,request2.框架 scrapy网页分析:这里我以风景图为关键词,输入后获得地址为‘https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&...原创 2019-09-18 09:46:53 · 1286 阅读 · 3 评论 -
Handout博客爬虫JS逆向
"""- base64 处理字符串- JS加密逆向"""import base64import requestsimport handoutimport timeimport jsonfrom hashlib import md5"""获取真实的url地址"""doc = handout.Handout('/handout')string = 'aHR0cDovL3d...原创 2019-09-24 20:57:10 · 173 阅读 · 0 评论 -
爬取某服务网,ajax异步加载,post 携带json字典
今天第一次遇到requests的Formdata是字典形式的,这个是在CSDN论坛有个网友求助,我就也练了一下,其Formdata是这样的:{"token":"","pn":10,"rn":10,"sdt":"","edt":"","wd":"","inc_wd":"","exc_wd":"","fields":"title","cnum":"001","sort":"{\"webdate\"...原创 2019-09-26 22:38:41 · 312 阅读 · 0 评论 -
Python Matplotlib 柱状图加数值
Python Matplotlib 柱状图加数值柱状图加数值也是一项常规操作,这里采用的函数是text,主要获取加入text的位置与数值即可,因此,详细代码如下:这里写了auto_label与auto_text,两个都可以用,本人更喜欢用auto_textimport matplotlibimport matplotlib.pyplot as pltimport numpy as n...原创 2019-10-02 20:26:35 · 28562 阅读 · 3 评论 -
Python 爬取无版权美图
这里还是为了温习,这里照例为了放水,涉及网址的地方,采取了url加密,一是scrapy,二是requests,首先是requests方法:import requestsimport reimport osimport base64from lxml import etreefrom urllib.parse import urljoindef get_text(url): ...原创 2019-10-04 22:13:35 · 223 阅读 · 0 评论 -
Python爬取ps笔刷素材--大文件下载
python 爬取Photoshop素材代码,url还是加密防水了~~import requestsimport reimport osimport randomimport timefrom lxml import etreedef get_text(url): global headers headers = {'User-Agent': ...原创 2019-10-06 10:55:04 · 278 阅读 · 1 评论 -
存一下
import requestsimport reimport randomfrom faker import Fakerfrom lxml import etreedef get_text(url):try:headers = {‘User-Agent’: random.choice(ls)}response = requests.get(url, headers=headers...原创 2019-10-06 22:57:34 · 89 阅读 · 0 评论 -
Python之免费代理ip的抓取与使用
Python之免费代理ip的抓取与使用使用爬虫不可避免的就会遇到网站的各种封ip操作,因此就需要我们找寻代理,通过代理进行操作,屏蔽自己真实ip。本文直接从网站中抓取代理ip地址,进行测试,并将测试的结果直接输出到xls文件中,这里并没有构造翻页请求,因为这一页上的可用ip有1400个,怎么都够用了核心字段在于html = requests.get(url=url, headers=he...原创 2019-08-12 09:25:25 · 7423 阅读 · 0 评论 -
Scrapy 爬取80s电影网高评分电影详细信息(Scrapy)
看到一个帖子说用scrapy爬取不了https://blog.csdn.net/qq_15065903/article/details/99778873,我就想试试看看:用了一下链接提取器:movie.py 里面的内容:# -*- coding: utf-8 -*-import scrapyimport reimport pprintfrom scrapy.linkextractor...原创 2019-08-24 19:01:31 · 4600 阅读 · 0 评论 -
Python request+BeautifulSoup爬取云南省统计局xls文件
之前写了一个,但是效率较低,为了温习及加强爬虫基础,又重写了一遍,同时换成lxml解析器。另外,学习了PEP8,发现跟之前自己习惯居然差不多,偷笑~~~import requestsimport refrom bs4 import BeautifulSoupdef get_text(url): headers = { 'User-Agent': 'Mo...原创 2019-07-16 13:35:18 · 246 阅读 · 0 评论 -
Python 爬取糗百, 分别采用re正则表达式,beautifulsoup 及 lxml做对比
三种方法爬取,数据清洗到列表里,下一步可以直接写入到excel等文件,这里就没写了。代码如下:import requestsimport reimport timeimport randomfrom bs4 import BeautifulSoupfrom lxml import etreedef get_text(url, code): try: ...原创 2019-07-24 13:27:44 · 176 阅读 · 0 评论 -
HTTP的基本接入认证--urllib 与 request
url = ‘http://www.pythonchallenge.com/pc/return/evil4.jpg’以前总搞不定这种,因为不知道如何提交表单,最近才看到一本很老的书上,写的这是在发明cookie以前,处理网站登陆的一种基本接入认证-----HTTP基本接入认证(HTTP basic access authentication),在一些安全性较高的网站上仍会存在,以及一些API上...原创 2019-07-19 20:33:37 · 686 阅读 · 0 评论 -
Python challenge - mission 10 第十关
http://www.pythonchallenge.com/pc/return/bull.htmllen(a[30]) = ?这是源代码:<html><head> <title>what are you looking at?</title> <link rel="stylesheet" type="text/css" h...原创 2019-07-05 08:37:45 · 1348 阅读 · 0 评论 -
【学习日记】安装scrapy时遇到的问题及解决方法
Win10系统,64位, Python 3.7首先直接在cmd中输pip install scrapy,强烈报错,几十上百行错误 :一脸懵逼,安装失败,仔细看错误提示,有一行:error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: https://visual...原创 2019-07-29 17:47:50 · 151 阅读 · 0 评论 -
Python 爬取JD商品,requests + lxml,并用xlwt直接写入xls文件。
前面写的爬虫,进行了优化,加强了一下体验,会提示进度。需要自定义地方:start_url 与 length以及cookie。cookie可用chrome浏览器的检查功能抓取,每个人不一样。切勿泄露。这里用省略号代替。只放代码,详细过程见我另一博客: https://blog.csdn.net/weixin_44521703/article/details/96447206import req...原创 2019-07-20 13:28:50 · 236 阅读 · 0 评论 -
一图流查遍python爬虫相关使用知识 正则表达式,requests BeautifulSoup lxml Selenium Scrapy MongoDB,多进程等等。。
最近搞爬虫走火入魔了,查了许多资料,也写了许多爬虫,有些发blog有些没发,有时候想找的资料怎么都找不到,于是萌生一想法,自己搞。用xmind搞了个思维导图,不知道能不能看,今天刚开始,陆续会补充与更新新的知识框架,力争一图流搞定相关主要知识点。废话不多说,先上图,不知道效果怎么样,导出图片时候是选的最大分辨率,但是不知道CSDN会不会压缩。立贴,搞完加鸡腿!...原创 2019-07-20 19:47:28 · 161 阅读 · 0 评论 -
爬取糗百,lxml/re/BeautifulSoup 分别对比
增加了时间统计,另外直接写入excel,还有些问题需要解决:xpath爬取时发现,作者中有些位于span下,有些位于a下,不知道如何才能将两者组合在一起,发帖求问~~~import requestsimport reimport timeimport randomimport xlwtfrom bs4 import BeautifulSoupfrom lxml impo...原创 2019-07-25 11:04:10 · 172 阅读 · 0 评论 -
Python scrapy学习之爬取2k唯美壁纸详细过程笔记及讲解
Scrapy 学习爬取图片Scrapy 爬取图片时候绕了很多圈子,才明白了走了很大的弯路,幸亏绕出来了(大话可能说得有点早~),赶紧记录一下心得体会:创建爬虫时的参数选择:一是普通创建爬虫法: scrapy genspider xxx xx.com, 这种创建的爬虫是基本爬虫,作为新手锻炼理解页面结构很有必要,但是比较基础;二是规则爬虫(自己取的,大神别笑): scrapy g...原创 2019-08-02 21:55:43 · 277 阅读 · 0 评论 -
Python challenge第14关挑战
http://www.pythonchallenge.com/pc/return/italy.html图就不放了,反正就是那个页面,标题是 walk around,那我们就到处逛一逛哈,面包,一个色板(估计要查一查它的像素信息)<html><head> <title>walk around</title> <link rel="...原创 2019-07-21 19:30:54 · 493 阅读 · 2 评论 -
多线程爬取妹子图网图片,request+lxml
#!/usr/bin/env python# -*- encoding: utf-8 -*-"""@File : Crawl_meizitu.py.py@Time : 2019/7/25 13:24@Author : Sound_of_ Silence"""import requestsimport reimport timeimport randomimp...原创 2019-07-25 20:57:26 · 541 阅读 · 1 评论 -
多线程爬取妹子图网图片 Python
#!/usr/bin/env python# -*- encoding: utf-8 -*-"""@File : Crawl_meizitu.py.py@Time : 2019/7/25 13:24@Author : Sound_of_Silence"""import requestsimport reimport timeimport randomimpo...原创 2019-07-25 22:42:45 · 263 阅读 · 0 评论 -
Python Scrapy 第一爬,爬取某平台热线信息
首先是安装scrapy, windows下安装略坑,直接pip install scrapy会报错,因为scrapy基于twisted, 需要我们手动安装twisted,见我的上一篇博客好了~~~开始建立爬虫工程:scrapy startproject yangguang2再进入爬虫:cd yangguang2生成爬虫:scrapy genspider ygspider url记下来是主程...原创 2019-08-01 14:41:53 · 187 阅读 · 0 评论 -
python 中re/beautiful/lxml/css爬取效率对比。
主要是为了复习bs与学习css,发现一段时间不用,bs基本忘了差不多了,主要也是lxml相对好用太多了,且scrapy默认支持xpath与css也是原因之一。上代码:#!/usr/bin/env python# -*- encoding: utf-8 -*-"""@File : test.py.py@Time : 2019/8/24 13:41@Author : Soun...原创 2019-08-24 14:19:19 · 606 阅读 · 1 评论 -
Python Challenge -mission13 第13关 call him
http://www.pythonchallenge.com/pc/return/disproportional.html首先找有用信息:(1)图片:拨号键盘,看起来没什么玄机;下方有个 “phone that evil”, 上一关有个'Bert is evil'没用上,是不是要给Bert打电话?先记下(2)源代码:<html><head> ...原创 2019-07-12 18:50:41 · 195 阅读 · 0 评论