request
Sound_of_ Silence
读几本书,手有余香,世间诸事,去他个娘
展开
-
爬取JD格力空调的各种信息
又做了一回爬JD信息的爬虫,但是这次爬取的内容更多更全,其实写代码本身不难,主要费时间的就是找相关信息的url,详细代码如下:import requestsimport reimport timeimport jsonimport osimport tracebackfrom lxml import etreefrom collections import OrderedDict...原创 2019-11-26 09:35:53 · 608 阅读 · 0 评论 -
存一下
import requestsimport reimport randomfrom faker import Fakerfrom lxml import etreedef get_text(url):try:headers = {‘User-Agent’: random.choice(ls)}response = requests.get(url, headers=headers...原创 2019-10-06 22:57:34 · 97 阅读 · 0 评论 -
Python爬取ps笔刷素材--大文件下载
python 爬取Photoshop素材代码,url还是加密防水了~~import requestsimport reimport osimport randomimport timefrom lxml import etreedef get_text(url): global headers headers = {'User-Agent': ...原创 2019-10-06 10:55:04 · 288 阅读 · 1 评论 -
Python 爬取无版权美图
这里还是为了温习,这里照例为了放水,涉及网址的地方,采取了url加密,一是scrapy,二是requests,首先是requests方法:import requestsimport reimport osimport base64from lxml import etreefrom urllib.parse import urljoindef get_text(url): ...原创 2019-10-04 22:13:35 · 236 阅读 · 0 评论 -
爬取某服务网,ajax异步加载,post 携带json字典
今天第一次遇到requests的Formdata是字典形式的,这个是在CSDN论坛有个网友求助,我就也练了一下,其Formdata是这样的:{"token":"","pn":10,"rn":10,"sdt":"","edt":"","wd":"","inc_wd":"","exc_wd":"","fields":"title","cnum":"001","sort":"{\"webdate\"...原创 2019-09-26 22:38:41 · 323 阅读 · 0 评论 -
Python多进程爬取豆瓣Top250数据
以前电脑死活跑不了多进程,重装了一下系统,居然啥都解决了,于是乎就跑了一下:#!/usr/bin/env python# -*- encoding: utf-8 -*-"""@File : jianshu.py.py@Time : 2019/9/1 20:42@Author : Sound_of_Silence"""import requestsimport tim...原创 2019-09-09 17:14:02 · 278 阅读 · 0 评论 -
Python scrapy爬取图片管道重温之爬取唯美壁纸
重温了一下爬取图片的管道,同时发现了-t crawl格式的新用法,特意记录下来,爬取网站是 enterdesk。说道新用法,主要是rules的用法,之前一直以为rule只能管理当前页,不能提取下级下下级的链接,还是 too young, sometimes naive, 嘿嘿。rules是可以支持下级页面的爬取的,但是建议将主页面放在最下,次级页面次之,最下级页面最上,也就是反过来排序,如下面...原创 2019-09-05 10:21:33 · 217 阅读 · 0 评论 -
Python 爬取pexels上无版权美图
工作需要找一些无版权图,因此就干脆写了个代码爬取,吃个饭的功夫,一切都搞定~~import requestsimport reimport osimport timeimport randomdef get_text(url): #请求函数 try: text = requests.get(url, headers=headers) text...原创 2019-09-03 19:56:38 · 1094 阅读 · 1 评论 -
Python challenge 第18关 can you tell the difference?
第18关,http://www.pythonchallenge.com/pc/return/balloons.html图上是除了亮度其他都一样的话,标题为can you tell the difference? 网页源代码中有‘it is more obvious that what you might think’ 连起来就是,你能说出这里的不同点吗?非常明显。那么自然就是亮度的区别,输入...原创 2019-08-26 21:57:14 · 434 阅读 · 0 评论 -
Python request爬取华为P30手机京东评论
最近准备把多年的手机升级,瞅准了华为p30系列,于是就想瞅瞅评论看看,以下为源码:import requestsimport jsonimport reimport timecount = 0for i in range(30): count += 1 url = 'https://sclub.jd.com/comment/productPageComments.ac...原创 2019-08-21 20:37:55 · 546 阅读 · 0 评论 -
Scrapy 爬取京东所有图书信息
先记录代码吧,回头再写文字:# -*- coding: utf-8 -*-import scrapyimport jsonimport urllibimport pprintfrom copy import deepcopyclass JdSpider(scrapy.Spider): name = 'jd' allowed_domains = ['jd.com',...原创 2019-08-20 22:36:37 · 658 阅读 · 0 评论 -
Python之免费代理ip的抓取与使用
Python之免费代理ip的抓取与使用使用爬虫不可避免的就会遇到网站的各种封ip操作,因此就需要我们找寻代理,通过代理进行操作,屏蔽自己真实ip。本文直接从网站中抓取代理ip地址,进行测试,并将测试的结果直接输出到xls文件中,这里并没有构造翻页请求,因为这一页上的可用ip有1400个,怎么都够用了核心字段在于html = requests.get(url=url, headers=he...原创 2019-08-12 09:25:25 · 7457 阅读 · 0 评论 -
python 中re/beautiful/lxml/css爬取效率对比。
主要是为了复习bs与学习css,发现一段时间不用,bs基本忘了差不多了,主要也是lxml相对好用太多了,且scrapy默认支持xpath与css也是原因之一。上代码:#!/usr/bin/env python# -*- encoding: utf-8 -*-"""@File : test.py.py@Time : 2019/8/24 13:41@Author : Soun...原创 2019-08-24 14:19:19 · 638 阅读 · 1 评论 -
多线程爬取妹子图网图片 Python
#!/usr/bin/env python# -*- encoding: utf-8 -*-"""@File : Crawl_meizitu.py.py@Time : 2019/7/25 13:24@Author : Sound_of_Silence"""import requestsimport reimport timeimport randomimpo...原创 2019-07-25 22:42:45 · 268 阅读 · 0 评论 -
爬取糗百,lxml/re/BeautifulSoup 分别对比
增加了时间统计,另外直接写入excel,还有些问题需要解决:xpath爬取时发现,作者中有些位于span下,有些位于a下,不知道如何才能将两者组合在一起,发帖求问~~~import requestsimport reimport timeimport randomimport xlwtfrom bs4 import BeautifulSoupfrom lxml impo...原创 2019-07-25 11:04:10 · 178 阅读 · 0 评论 -
Python 爬取糗百, 分别采用re正则表达式,beautifulsoup 及 lxml做对比
三种方法爬取,数据清洗到列表里,下一步可以直接写入到excel等文件,这里就没写了。代码如下:import requestsimport reimport timeimport randomfrom bs4 import BeautifulSoupfrom lxml import etreedef get_text(url, code): try: ...原创 2019-07-24 13:27:44 · 181 阅读 · 0 评论