Python
Sound_of_ Silence
读几本书,手有余香,世间诸事,去他个娘
展开
-
Python challenge 挑战1-19关总结
刚学python(今年五月份左右)时候朋友推荐了pythonchallenge这个网站,当时就给自己立下个目标,看看不在网上搜索答案,靠自己想及与朋友讨论,看看能闯到第几关,现在是到了第19关,20关卡得也是很厉害,越到后面脑洞是越来越大了,老阿姨不服老真是不行。做一个阶段性的总结,暂时告一段落,年末肯定是没有时间搞了,将自己的作业做一个传送门放上来:Mission 1:https://bl...原创 2019-12-07 08:36:52 · 660 阅读 · 0 评论 -
爬取JD格力空调的各种信息
又做了一回爬JD信息的爬虫,但是这次爬取的内容更多更全,其实写代码本身不难,主要费时间的就是找相关信息的url,详细代码如下:import requestsimport reimport timeimport jsonimport osimport tracebackfrom lxml import etreefrom collections import OrderedDict...原创 2019-11-26 09:35:53 · 636 阅读 · 0 评论 -
Python Challenge第19关挑战
由于工作紧张的原因很久没更新博客,实在对不住,说声抱歉大家了!!!之前立了个flag说要闯一下pythonchallenge看能到哪,后面几关真是越来越摸不着头脑了,好久才搞定了第20关,记录如下:首先是查看源代码,发现里面有超长的一段注释,且告诉了我们使用base64编码,是一个wav文件,因此,首先我们拿到注释,代码中的get_comment函数;接着将其写入wav文件,parse_dat...原创 2019-11-25 11:15:53 · 719 阅读 · 1 评论 -
批量自动安装第三方库配置Python环境
经常到一个新机上配置python,一个一个pip 第三方库实在是不厌其烦,所以干脆写了一个代码自动安装,与大家共享:注意:有多线程版与单线程版,电脑配置如果非常差,还是用单线程的吧,把多线程代码注释掉。libs中写入自己想要安装的第三方库的名字即可import osimport threading# 安装单个第三方库def install(lib): try: ...原创 2019-11-06 16:14:11 · 525 阅读 · 0 评论 -
Python request+BeautifulSoup爬取云南省统计局xls文件
之前写了一个,但是效率较低,为了温习及加强爬虫基础,又重写了一遍,同时换成lxml解析器。另外,学习了PEP8,发现跟之前自己习惯居然差不多,偷笑~~~import requestsimport refrom bs4 import BeautifulSoupdef get_text(url): headers = { 'User-Agent': 'Mo...原创 2019-07-16 13:35:18 · 266 阅读 · 0 评论 -
多线程爬取妹子图网图片,request+lxml
#!/usr/bin/env python# -*- encoding: utf-8 -*-"""@File : Crawl_meizitu.py.py@Time : 2019/7/25 13:24@Author : Sound_of_ Silence"""import requestsimport reimport timeimport randomimp...原创 2019-07-25 20:57:26 · 570 阅读 · 1 评论 -
多线程爬取妹子图网图片 Python
#!/usr/bin/env python# -*- encoding: utf-8 -*-"""@File : Crawl_meizitu.py.py@Time : 2019/7/25 13:24@Author : Sound_of_Silence"""import requestsimport reimport timeimport randomimpo...原创 2019-07-25 22:42:45 · 291 阅读 · 0 评论 -
Python之matplotlib之折线图学习笔记汇总
Python之matplotlib学习笔记为什么要学习matplotlib,这个就不细说了,主要是实用啊,而且本人的工作也能经常用得上,因此将学习过程中遇到的方方面面记录一下,方便大家,以后自己查也方便,争取能弄的比较全乎。不知不觉又立了个flag,呵呵首先是安装: pip install matplotlib 这没什么好说的,超级简单了然后就是使用了, 常用的有折线图,柱状图...原创 2019-08-05 13:42:03 · 482 阅读 · 0 评论 -
Python Scrapy 第一爬,爬取某平台热线信息
首先是安装scrapy, windows下安装略坑,直接pip install scrapy会报错,因为scrapy基于twisted, 需要我们手动安装twisted,见我的上一篇博客好了~~~开始建立爬虫工程:scrapy startproject yangguang2再进入爬虫:cd yangguang2生成爬虫:scrapy genspider ygspider url记下来是主程...原创 2019-08-01 14:41:53 · 213 阅读 · 0 评论 -
Python之matplotlib之柱状图学习笔记汇总
matplotlib柱状图学习笔记柱状图也是大家常用的一个绘图方式,使用频率十分的高,由于其形象直观,非常适合作为各种高大上的展示,而且matplotlib中柱状图功能也很成熟,随着画图顺序我一点点的记录:首先仍然是from matplotlib import pyplot as plt,导入matplotlib然后传入x,y的坐标;坐标可以直接在代码中给出,也可以读取文件,推荐用pand...原创 2019-08-06 18:55:19 · 1575 阅读 · 0 评论 -
Python 别再造假数据了,来试试 Faker 这个库吧![转载]
在做程序开发的时候,我们经常会用到一些测试数据,相信大多数同学是这么来造测试数据的:test1test01test02测试1测试2测试数据1这是一段测试文本这是一段很长很长很长的测试文本...中枪的请举手。不仅要自己手动敲这些测试数据,还敲的这么假。那有啥办法呢?难不成有什么东西能自动给我造点以假乱真的数据啊?你别说,还真有!在 Python 中有个神库,叫做 Faker,...转载 2019-08-07 12:00:39 · 757 阅读 · 0 评论 -
Python之matplotlib之柱状图、折线图综合利用之实战(1)
Python之matplotlib之柱状图、折线图综合利用之实战毕竟学习不是目的,学以致用才是目的,我们日常工作接触到的图都是这样的,图例中算是特别简单的一种了。我也是一边学习一边写blog,这样才能更好的follow 思路,here we go!其特点是(1)数据量与维度较多,(2)通常有N个子图(n>=2,最多见过 5*5 ,也就是max=25),所以学习任务就拆分为两部分:一...原创 2019-08-09 12:21:52 · 5145 阅读 · 0 评论 -
Python Challenge 第16关,mission16 - Let me get this straight
写在前面:最近一直在研究爬虫,一直忘了这个东东了,所以很久没去玩这个,抓紧刷一刷,立的flag可不能轻易倒。网址:http://www.pythonchallenge.com/pc/return/mozart.html标题: Let me get this straight,相当于 Let me figure it out. 搞清楚什么呢?图片是一团雪花点,源码毫无内容,也就是有价值的就...原创 2019-08-03 08:36:00 · 318 阅读 · 0 评论 -
Python challenge第14关挑战
http://www.pythonchallenge.com/pc/return/italy.html图就不放了,反正就是那个页面,标题是 walk around,那我们就到处逛一逛哈,面包,一个色板(估计要查一查它的像素信息)<html><head> <title>walk around</title> <link rel="...原创 2019-07-21 19:30:54 · 506 阅读 · 2 评论 -
Python 用 request+lxml 爬取某东页面商品信息
详细记录一下程序过程吧。首先是url的构建,最近比较关心行车记录仪,因此就以此进行关键词搜索吧,输入后url栏显示为:https://search.jd.com/Search?keyword=行车记录仪&enc=utf-8&wq=行车记录仪&pvid=1ca……为个人信息,每人不一样的,然后看看哪些是不需要的信息,经砍,发现https://search.jd.co...原创 2019-07-18 19:42:20 · 493 阅读 · 0 评论 -
Python 爬取糗百, 分别采用re正则表达式,beautifulsoup 及 lxml做对比
三种方法爬取,数据清洗到列表里,下一步可以直接写入到excel等文件,这里就没写了。代码如下:import requestsimport reimport timeimport randomfrom bs4 import BeautifulSoupfrom lxml import etreedef get_text(url, code): try: ...原创 2019-07-24 13:27:44 · 187 阅读 · 0 评论 -
HTTP的基本接入认证--urllib 与 request
url = ‘http://www.pythonchallenge.com/pc/return/evil4.jpg’以前总搞不定这种,因为不知道如何提交表单,最近才看到一本很老的书上,写的这是在发明cookie以前,处理网站登陆的一种基本接入认证-----HTTP基本接入认证(HTTP basic access authentication),在一些安全性较高的网站上仍会存在,以及一些API上...原创 2019-07-19 20:33:37 · 714 阅读 · 0 评论 -
Python challenge 第15关 whom?
http://www.pythonchallenge.com/pc/return/uzi.html照例图片源码:标题是whom?是谁?找个人名字吗?<html><head> <title>whom?</title> <link rel="stylesheet" type="text/css" href="../style.cs...原创 2019-07-24 17:19:36 · 356 阅读 · 0 评论 -
【学习日记】安装scrapy时遇到的问题及解决方法
Win10系统,64位, Python 3.7首先直接在cmd中输pip install scrapy,强烈报错,几十上百行错误 :一脸懵逼,安装失败,仔细看错误提示,有一行:error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: https://visual...原创 2019-07-29 17:47:50 · 177 阅读 · 0 评论 -
Python 爬取JD商品,requests + lxml,并用xlwt直接写入xls文件。
前面写的爬虫,进行了优化,加强了一下体验,会提示进度。需要自定义地方:start_url 与 length以及cookie。cookie可用chrome浏览器的检查功能抓取,每个人不一样。切勿泄露。这里用省略号代替。只放代码,详细过程见我另一博客: https://blog.csdn.net/weixin_44521703/article/details/96447206import req...原创 2019-07-20 13:28:50 · 249 阅读 · 0 评论 -
一图流查遍python爬虫相关使用知识 正则表达式,requests BeautifulSoup lxml Selenium Scrapy MongoDB,多进程等等。。
最近搞爬虫走火入魔了,查了许多资料,也写了许多爬虫,有些发blog有些没发,有时候想找的资料怎么都找不到,于是萌生一想法,自己搞。用xmind搞了个思维导图,不知道能不能看,今天刚开始,陆续会补充与更新新的知识框架,力争一图流搞定相关主要知识点。废话不多说,先上图,不知道效果怎么样,导出图片时候是选的最大分辨率,但是不知道CSDN会不会压缩。立贴,搞完加鸡腿!...原创 2019-07-20 19:47:28 · 174 阅读 · 0 评论 -
爬取糗百,lxml/re/BeautifulSoup 分别对比
增加了时间统计,另外直接写入excel,还有些问题需要解决:xpath爬取时发现,作者中有些位于span下,有些位于a下,不知道如何才能将两者组合在一起,发帖求问~~~import requestsimport reimport timeimport randomimport xlwtfrom bs4 import BeautifulSoupfrom lxml impo...原创 2019-07-25 11:04:10 · 184 阅读 · 0 评论 -
Python scrapy学习之爬取2k唯美壁纸详细过程笔记及讲解
Scrapy 学习爬取图片Scrapy 爬取图片时候绕了很多圈子,才明白了走了很大的弯路,幸亏绕出来了(大话可能说得有点早~),赶紧记录一下心得体会:创建爬虫时的参数选择:一是普通创建爬虫法: scrapy genspider xxx xx.com, 这种创建的爬虫是基本爬虫,作为新手锻炼理解页面结构很有必要,但是比较基础;二是规则爬虫(自己取的,大神别笑): scrapy g...原创 2019-08-02 21:55:43 · 305 阅读 · 0 评论 -
Python之matplotlib之饼状图学习笔记汇总
Python之matplotlib之饼状图学习笔记汇总饼状图学习笔记饼状图也是我们日常常用的一种图例方式,因此,十分有必要对其进行学习;首先,我们进行一些基本设定,代码如:from matplotlib import pyplot as pltfrom faker import Fakerimport randomplt.style.use('fivethirtyeight...原创 2019-08-07 12:51:51 · 751 阅读 · 0 评论 -
python 中re/beautiful/lxml/css爬取效率对比。
主要是为了复习bs与学习css,发现一段时间不用,bs基本忘了差不多了,主要也是lxml相对好用太多了,且scrapy默认支持xpath与css也是原因之一。上代码:#!/usr/bin/env python# -*- encoding: utf-8 -*-"""@File : test.py.py@Time : 2019/8/24 13:41@Author : Soun...原创 2019-08-24 14:19:19 · 668 阅读 · 1 评论 -
Scrapy 爬取80s电影网高评分电影详细信息(Scrapy)
看到一个帖子说用scrapy爬取不了https://blog.csdn.net/qq_15065903/article/details/99778873,我就想试试看看:用了一下链接提取器:movie.py 里面的内容:# -*- coding: utf-8 -*-import scrapyimport reimport pprintfrom scrapy.linkextractor...原创 2019-08-24 19:01:31 · 4634 阅读 · 0 评论 -
爬取某服务网,ajax异步加载,post 携带json字典
今天第一次遇到requests的Formdata是字典形式的,这个是在CSDN论坛有个网友求助,我就也练了一下,其Formdata是这样的:{"token":"","pn":10,"rn":10,"sdt":"","edt":"","wd":"","inc_wd":"","exc_wd":"","fields":"title","cnum":"001","sort":"{\"webdate\"...原创 2019-09-26 22:38:41 · 326 阅读 · 0 评论 -
matplotlib 柱状图之渐变色设置
matplotlib 柱状图之渐变色设置matplotlib中,在用bar或者barh绘制柱状图时,发现加入cmap是不管用的,不支持这个关键字,而且网上找了许久,也没有发现有类似功能,因此,干脆自己写一个试试,说来就来!!渐变色的设置,其主要就是获取边界,然后向边界内部填充颜色就好啦,因此函数需要获取绘制的ax对象,获取边界,获取渐变色的cmap,以及cmap中的取值范围,以及一些其...翻译 2019-09-30 12:37:02 · 10081 阅读 · 1 评论 -
matplotlib之堆积柱状图及百分比柱状图
matplotlib之堆积柱状图及百分比柱状图在博主日常的绘图过程,有一种图也是什么常见的绘图工作,就是堆积的柱状图,其实很简单,就注意几个参数即可。 Here we go!首先是引入数据库:import matplotlib.pyplot as pltimport numpy as npimport pandas as pd然后我创建了一个csv文件,这里随机填写了一些数据,详细如...原创 2019-10-01 13:42:51 · 27788 阅读 · 2 评论 -
python中matplotlib设置字体
python中设置字体常用有两种方式,一种是导入fontmanager,一种是直接写fontdict,个人喜欢第二种,比较方便,但对中文支持不好,如需中文,最好是第一种,废话不多说,详细代码如下,第一种代码详见第2/16/49行,第二种详见第18/41/42行, excel中我随意写了一些数据:from matplotlib import pyplot as pltimport matplot...原创 2019-10-02 20:58:52 · 2918 阅读 · 0 评论 -
Python 爬取无版权美图
这里还是为了温习,这里照例为了放水,涉及网址的地方,采取了url加密,一是scrapy,二是requests,首先是requests方法:import requestsimport reimport osimport base64from lxml import etreefrom urllib.parse import urljoindef get_text(url): ...原创 2019-10-04 22:13:35 · 246 阅读 · 0 评论 -
Python爬取ps笔刷素材--大文件下载
python 爬取Photoshop素材代码,url还是加密防水了~~import requestsimport reimport osimport randomimport timefrom lxml import etreedef get_text(url): global headers headers = {'User-Agent': ...原创 2019-10-06 10:55:04 · 296 阅读 · 1 评论 -
存一下
import requestsimport reimport randomfrom faker import Fakerfrom lxml import etreedef get_text(url):try:headers = {‘User-Agent’: random.choice(ls)}response = requests.get(url, headers=headers...原创 2019-10-06 22:57:34 · 122 阅读 · 0 评论 -
matplotlib 中关键字记录
2019年10月8日更新legend关键字:Legend(parent, handles, labels, loc=None, numpoints=None, markerscale=None, markerfirst=True, scatterpoints=None, scatteryoffsets=None, prop=None, fontsize=...原创 2019-10-08 16:24:46 · 242 阅读 · 0 评论 -
Handout博客爬虫JS逆向
"""- base64 处理字符串- JS加密逆向"""import base64import requestsimport handoutimport timeimport jsonfrom hashlib import md5"""获取真实的url地址"""doc = handout.Handout('/handout')string = 'aHR0cDovL3d...原创 2019-09-24 20:57:10 · 179 阅读 · 0 评论 -
Python多手段爬取百度图片Request+scrapy分别爬取,百度图片地址解密
好长一段时间没怎么碰爬虫,我估计得熟悉一下,要不然上手就遇到问题,直接拿大厂图片来试试,翻车分分钟?目标是:1.常规手段,request2.框架 scrapy网页分析:这里我以风景图为关键词,输入后获得地址为‘https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&...原创 2019-09-18 09:46:53 · 1327 阅读 · 3 评论 -
Python爬取网页并存储为pdf
起因是最近准备学习TensorFlow,找了个网页教程,质量感觉挺好,但是页面广告巨多,不小心就能中雷,就想用爬虫爬下来,净化一下,一开始是拒绝的,因为爬虫下来的话,格式跟网页就不一定一样了,说不定会乱七八糟,直到后来发现了pdfkit这个工具,(需要安装whtmltopdf)。然后就一发不可收拾了:遇到的障碍就是图片一开始无法加载,索性一不做二不休在存储源码的时候直接改位置,让其按照我的心意存...原创 2019-09-15 13:48:12 · 4723 阅读 · 1 评论 -
Python challeng 第17关挑战 eat?
Python challeng 第17关挑战16到17关隔得时间有点长,一是有点顾不上,二是这关实在是有点变态,主要是想不到,串联了以前好多关的隐藏东西,可能是以后解题都得看看之前的信息了。地址是: http://www.pythonchallenge.com/pc/return/romance.html照例 ‘huge’ 'file’进入源代码没有任何有用信息,只有个图片,主图为饼,附...原创 2019-08-24 21:41:29 · 492 阅读 · 1 评论 -
Scrapy 爬取京东所有图书信息
先记录代码吧,回头再写文字:# -*- coding: utf-8 -*-import scrapyimport jsonimport urllibimport pprintfrom copy import deepcopyclass JdSpider(scrapy.Spider): name = 'jd' allowed_domains = ['jd.com',...原创 2019-08-20 22:36:37 · 662 阅读 · 0 评论 -
Python Scrapy批量爬取CSDN博客内容
今天忽然想着爬一下之前写的所有博客的内容,也是巩固练习一下scrapy,目标定位,爬取标题,url与内容:采用 scrapy genspider -t crawl 命令创建爬虫,之后在爬虫文件中进行修改,主代码很简单:# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtractorfro...原创 2019-08-25 21:28:21 · 510 阅读 · 0 评论