
爬虫教程
文章平均质量分 78
幸福清风
专注python语言
展开
-
利用Python下载王者荣耀的全部英雄高清海报【普通皮肤海报】
前几天,有人让我帮他下载王者荣耀英雄海报,便想着利用Python写个程序,要不然一个个下载太麻烦,也不是咱的作风。原创 2023-08-18 09:49:38 · 408 阅读 · 0 评论 -
利用Python爬取网易上证所有股票数据(代码
import urllib.requestimport re##def downback(a,b,c):## ''''## a:已经下载的数据块## b:数据块的大小## c:远程文件的大小## '''## per = 100.0 * a * b / c## if per > 100 :## per = 100##...原创 2018-04-14 17:30:11 · 10165 阅读 · 4 评论 -
爬虫Scrapy框架基本流程图入门:以东莞阳光网为例
Scrapy简单介绍Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬原创 2017-11-05 17:55:55 · 5697 阅读 · 2 评论 -
爬虫最基本的工作流程:内涵社区网站为例
网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。只要是浏览器能做的事情,原则上,爬虫都能够做先来看一下最简单的网络爬虫百度Logo图片提取:import requestsr = requests.get("https://www.baidu.com/img/bd_logo1.png")wi原创 2017-11-05 11:02:31 · 6850 阅读 · 0 评论 -
爬虫技巧:在pycharm 下 调试 scrapy项目
(1) 用pycharm导入scrapy项目(2)选择自己编写的scrapy,run一下(3)点击菜单栏的run ,选择Edit Configurations。(4)选择运行的spider文件(5)在右侧script 输入你的cmdline.py 的地址,本人是/home/python/.vir原创 2017-11-03 21:45:20 · 829 阅读 · 0 评论 -
爬虫工具:虚拟机Selenium和PhantomJS,ChromeDriver 镜像安装教程
虚拟机Ubuntu 16.04中安装:1.安装Selenium命令:pip install Selenium2.安装PhantomJS命令:sudo apt install PhantomJS3.找到Ubuntu中谷歌所对应的的版本号:看到网上基本没有最新的chromedriver与chrome的对应关系表,便兴起整理了一份如下,希望原创 2017-11-02 21:11:28 · 2380 阅读 · 0 评论 -
爬虫——多线程糗事百科案例
案例要求参考上一个糗事百科单进程案例Queue(队列对象)Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式python下多线程的思考对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是not thread safe的。而Queue,是线程安全的,因此在满足使用条件下,建议使用队列初始化原创 2017-11-03 00:04:04 · 461 阅读 · 0 评论 -
XPath和lxml类库
XPath,我们可以先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。什么是XMLXML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记语言,很类似 HTMLXML 的设计宗旨是传输数据,而非显示数据XML 的标签需要我们自行定义。XML 被设计为具有自我描述性。XML 是 W3C 的推荐标准W3Sc原创 2017-10-31 19:21:46 · 586 阅读 · 0 评论 -
爬虫必须学会的正则表达式
为什么要学正则表达式实际上爬虫一共就四个主要步骤:明确目标 (要知道你准备在哪个范围或者网站去搜索)爬 (将所有的网站的内容全部爬下来)取 (去掉对我们没用处的数据)处理数据(按照我们想要的方式存储和使用)我们在昨天的案例里实际上省略了第3步,也就是"取"的步骤。因为我们down下了的数据是全部的网页,这些数据很庞大并且很混乱,大部分的东西使我们不关心的,因此我们需要将之按我们的需原创 2017-10-31 19:17:44 · 19007 阅读 · 1 评论 -
Crontab定时任务访问url实例
以下操作均是在ubuntu 下操作的:1、进入crontab文件的编写状态:crontab -e 2、第一次进入编写crontab文件的界面,系统会提示选择相应的编辑器,一般我们选择vi编辑器就可以了:选择/usr/bin/vim.tiny12345Select an editor. To change later,原创 2017-11-08 21:15:03 · 8083 阅读 · 0 评论 -
Redis-Scrapy分布式爬虫:当当网图书为例
Scrapy-Redis分布式策略:Scrapy_redis在scrapy的基础上实现了更多,更强大的功能,具体体现在:reqeust去重,爬虫持久化,和轻松实现分布式假设有四台电脑:Windows 10、Mac OS X、Ubuntu 16.04、CentOS 7.2,任意一台电脑都可以作为 Master端 或 Slaver端,比如:Master端(核原创 2017-11-08 20:54:07 · 1749 阅读 · 0 评论 -
爬虫案列:京东商城长裤信息获取
1、创建Scrapy项目使用全局命令startproject创建项目,创建新文件夹并且使用命令进入文件夹,创建一个名为jingdong的Scrapy项目。[python] view plain copyscrapy startproject jingdong 2.使用项目命令genspid原创 2017-11-08 19:50:40 · 851 阅读 · 0 评论 -
Requests: 让 HTTP 服务人类
Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。Requests的文档非常完备,中文文档也相当不错。Requests能完全满足当前网络的需求,支持Python 2.6—3.5,而且能在PyPy下完美运行。开源地址:https://github.com/kennethrei原创 2017-10-30 19:16:50 · 929 阅读 · 0 评论 -
HTTP和HTTPS的请求和响应
HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层。SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传原创 2017-10-29 19:47:36 · 22036 阅读 · 1 评论