网络爬虫
文章平均质量分 69
主要介绍最基本的网络爬虫技巧及案列
幸福清风
专注python语言
展开
-
python 识别省市、区县并组建三级信息数据库
根据这段源码可看出,在选择 省级的后,网页会调用selectJson接口进行一个post请求,上图可以看到请求的body和header等信息。检查网页源码可以发现: 所有省级信息全部在javaScript下的json中,会在页面加载时加载json数据,填充到页面的option中。注意:部分省有特殊的“直辖县级行政单位”或“自治区直辖县级行政单位”代码执行成功后就可以查到中国所有省市区啦!原创 2024-09-18 14:29:32 · 1038 阅读 · 0 评论 -
爬虫小案例:基于Bing关键词批量下载图片(第二版)
一、需求:基于Bing网站,输入关键词,批量下载图片保存到本地二、代码展示:import requestsfrom lxml import etreeimport osfrom multiprocessing.dummy import Poolimport jsonfrom time import time# 作用:按关键字、图片数量爬取必应图片,存放到指定路径。# 使用方法:只需运行一条命令 BingImagesSpider('美女壁纸', 200, 'E:\images'原创 2021-03-29 14:37:36 · 1099 阅读 · 0 评论 -
爬虫小案例:基于Bing关键词批量下载图片
一、需求:基于Bing网站,输入关键词,批量下载图片保存到本地二、演示:三、直接上代码import osimport urllib.requestimport urllib.parsefrom bs4 import BeautifulSoupimport reimport time# 设置请求头header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KH原创 2021-03-17 16:13:08 · 801 阅读 · 1 评论 -
最炫国漫《雾山五行》用 Python 了解一下到底有多优秀
看动漫的小伙伴应该知道最近出了一部神漫《雾山五行》:1、极具特色的水墨画风和超燃的打斗场面广受好评2、首集播出不到 24 小时登顶 B 站热搜第一,豆瓣开分 9.5,火爆程度可见一斑,就打斗场面而言,说是最炫动漫也不为过,当然唯一有一点不足之处就是集数有点少,只有 3 集。下面放几张动图,一起欣赏一下。看过动图之后,是不是觉得我所说的最炫动漫,并非虚言,接下来我们爬取一些评论,了解一下大家对这部动漫的看法,这里我们选取 B 站来爬取数据。我们先来爬取原创 2020-08-06 11:03:38 · 540 阅读 · 0 评论 -
HTTP和HTTPS的请求和响应
HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层。SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传原创 2017-10-29 19:47:36 · 22036 阅读 · 1 评论 -
Requests: 让 HTTP 服务人类
Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码,支持国际化的 URL 和 POST 数据自动编码。Requests的文档非常完备,中文文档也相当不错。Requests能完全满足当前网络的需求,支持Python 2.6—3.5,而且能在PyPy下完美运行。开源地址:https://github.com/kennethrei原创 2017-10-30 19:16:50 · 929 阅读 · 0 评论 -
爬虫必须学会的正则表达式
为什么要学正则表达式实际上爬虫一共就四个主要步骤:明确目标 (要知道你准备在哪个范围或者网站去搜索)爬 (将所有的网站的内容全部爬下来)取 (去掉对我们没用处的数据)处理数据(按照我们想要的方式存储和使用)我们在昨天的案例里实际上省略了第3步,也就是"取"的步骤。因为我们down下了的数据是全部的网页,这些数据很庞大并且很混乱,大部分的东西使我们不关心的,因此我们需要将之按我们的需原创 2017-10-31 19:17:44 · 19007 阅读 · 1 评论 -
XPath和lxml类库
XPath,我们可以先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。什么是XMLXML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记语言,很类似 HTMLXML 的设计宗旨是传输数据,而非显示数据XML 的标签需要我们自行定义。XML 被设计为具有自我描述性。XML 是 W3C 的推荐标准W3Sc原创 2017-10-31 19:21:46 · 586 阅读 · 0 评论 -
爬虫工具:虚拟机Selenium和PhantomJS,ChromeDriver 镜像安装教程
虚拟机Ubuntu 16.04中安装:1.安装Selenium命令:pip install Selenium2.安装PhantomJS命令:sudo apt install PhantomJS3.找到Ubuntu中谷歌所对应的的版本号:看到网上基本没有最新的chromedriver与chrome的对应关系表,便兴起整理了一份如下,希望原创 2017-11-02 21:11:28 · 2380 阅读 · 0 评论 -
爬虫——多线程糗事百科案例
案例要求参考上一个糗事百科单进程案例Queue(队列对象)Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式python下多线程的思考对于资源,加锁是个重要的环节。因为python原生的list,dict等,都是not thread safe的。而Queue,是线程安全的,因此在满足使用条件下,建议使用队列初始化原创 2017-11-03 00:04:04 · 461 阅读 · 0 评论 -
爬虫技巧:在pycharm 下 调试 scrapy项目
(1) 用pycharm导入scrapy项目(2)选择自己编写的scrapy,run一下(3)点击菜单栏的run ,选择Edit Configurations。(4)选择运行的spider文件(5)在右侧script 输入你的cmdline.py 的地址,本人是/home/python/.vir原创 2017-11-03 21:45:20 · 829 阅读 · 0 评论 -
爬虫最基本的工作流程:内涵社区网站为例
网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。只要是浏览器能做的事情,原则上,爬虫都能够做先来看一下最简单的网络爬虫百度Logo图片提取:import requestsr = requests.get("https://www.baidu.com/img/bd_logo1.png")wi原创 2017-11-05 11:02:31 · 6850 阅读 · 0 评论 -
爬虫Scrapy框架基本流程图入门:以东莞阳光网为例
Scrapy简单介绍Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到爬原创 2017-11-05 17:55:55 · 5697 阅读 · 2 评论 -
爬虫案列:京东商城长裤信息获取
1、创建Scrapy项目使用全局命令startproject创建项目,创建新文件夹并且使用命令进入文件夹,创建一个名为jingdong的Scrapy项目。[python] view plain copyscrapy startproject jingdong 2.使用项目命令genspid原创 2017-11-08 19:50:40 · 851 阅读 · 0 评论 -
Redis-Scrapy分布式爬虫:当当网图书为例
Scrapy-Redis分布式策略:Scrapy_redis在scrapy的基础上实现了更多,更强大的功能,具体体现在:reqeust去重,爬虫持久化,和轻松实现分布式假设有四台电脑:Windows 10、Mac OS X、Ubuntu 16.04、CentOS 7.2,任意一台电脑都可以作为 Master端 或 Slaver端,比如:Master端(核原创 2017-11-08 20:54:07 · 1749 阅读 · 0 评论 -
Crontab定时任务访问url实例
以下操作均是在ubuntu 下操作的:1、进入crontab文件的编写状态:crontab -e 2、第一次进入编写crontab文件的界面,系统会提示选择相应的编辑器,一般我们选择vi编辑器就可以了:选择/usr/bin/vim.tiny12345Select an editor. To change later,原创 2017-11-08 21:15:03 · 8083 阅读 · 0 评论 -
利用Python爬取网易上证所有股票数据(代码
import urllib.requestimport re##def downback(a,b,c):## ''''## a:已经下载的数据块## b:数据块的大小## c:远程文件的大小## '''## per = 100.0 * a * b / c## if per > 100 :## per = 100##...原创 2018-04-14 17:30:11 · 10165 阅读 · 4 评论