Python爬虫
文章平均质量分 93
魔都飘雪
魔都,一座稍不努力就会把你打回原形的城池!
展开
-
分享一个数据可视化项目,能够将历史数据排名转化为动态柱状图图表
网址:https://github.com/Jannchie/Historical-ranking-data-visualization-based-on-d3.js这是一个数据可视化项目,基于D3.js。能够将历史数据排名转化为动态柱状图图表。这个项目旨在降低此类视频的使用门槛与提高生产效率,使得没有编程经验的用户也能无痛制作排名可视化动画。...原创 2019-10-17 21:34:07 · 2601 阅读 · 0 评论 -
周杰伦的歌里都有些啥?
周董的夕阳红粉丝团“被迫营业”,把蔡徐坤拉下了盘踞许久的微博超话人气榜第一,还一举破了亿。当然,等我知道的时候,都战局已定了……作为当年会唱前三张专辑里所有歌曲的老粉,不想就这么躺赢,我今天也来给周杰伦做一把数据:这是我们从酷我音乐上获取了周杰伦32张专辑,共189首歌曲(去除重复)的歌词,对其中的歌词进行了分词统计,得到了歌词中频率最高的词汇。具体的前十名数据:...原创 2019-10-15 22:05:16 · 901 阅读 · 0 评论 -
用Python对微信好友进行分析
用了微信几年了,微信号有也不少了,但是真正了解自己的好友吗?好友最多的城市是哪个?好友男女比例是多少?好友签名都是什么?今天我们来充分了解自己的微信好友。运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome浏览器1、准备工作1.1 库介绍1.2 wxpy库安装1.3 登录微信2、微信好友男女比例2.1 数据统计2.2 数据...转载 2018-04-22 14:30:09 · 317 阅读 · 0 评论 -
3款Python 开源爬虫软件工具
Python爬虫1.QuickReconQuickRecon是一个简单的信息收集工具,它可以帮助你查找子域名名称、perform zone transfe、收集电子邮件地址和使用microformats寻找人际关系等。QuickRecon使用python编写,支持linux和 windows操作系统。授权协议: GPLv3开发语言: Python操作系统: Windows Linux特点:具有查找...原创 2018-04-22 14:54:26 · 8293 阅读 · 0 评论 -
爬取了陈奕迅新歌《我们》10万条评论数据发现:原来,有些人只适合遇见
来源:菜鸟分析 链接:https://zhuanlan.zhihu.com/p/35667053这首歌是《后来的我们》中的主题曲,网易云音乐上线当天便席卷千万+播放量,现如今光是网易云上面的评论就马上突破了10万条。于是今天恋习Python来抓取一下歌曲的热门评论。并做成图表、词云来展示,看看相对于这首歌最让人有感受的评论内容是什么。一、抓数据要想做成词云图表,首先得有数据才行。于是需要一点点...转载 2018-04-22 15:52:24 · 408 阅读 · 1 评论 -
干货 | 史上最全的 Python 爬虫工具列表大全
这个列表包含与网页抓取和数据处理的Python库。网络通用urllib -网络库(stdlib)。requests -网络库。grab – 网络库(基于pycurl)。pycurl – 网络库(绑定libcurl)。urllib3 – Python HTTP库,安全连接池、支持文件post、可用性高。httplib2 – 网络库。RoboBrowser – 一个简单的、极具Python风格的Pyt...转载 2018-04-23 22:12:25 · 581 阅读 · 0 评论 -
50行Python代码教你爬取猫眼电影TOP100榜所有信息
来源: https://zhuanlan.zhihu.com/c_149865214对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,恋习Python的手把手系列,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫架构中的HTML下载器、HTML解析器、数据存储器三大模块:HTML下载器:利用requests模块下载HTML网页...转载 2018-04-23 22:21:41 · 1853 阅读 · 0 评论 -
Scrapy爬取二手房信息+可视化数据分析
本篇介绍一个scrapy的实战爬虫项目,并对爬取信息进行简单的数据分析。目标是北京二手房信息,下面开始分析。网页结构分析采用安居客网页信息作为二手房的信息来源,直接点击进入二手房信息的页面。每页的住房信息:点开链接后的详细信息:博主并没有采用分区域进行爬取,博主是直接进行全部爬取,然后循环下一页完成的。步骤很简单,如下:先把每一页的所有二手住房详细链接爬取到请求每一个爬取到的详细链接,解析住房信息...转载 2018-04-23 22:36:11 · 5631 阅读 · 2 评论 -
Python拉勾网数据采集与可视化
全文简介本文是先采集拉勾网上面的数据,采集的是Python岗位的数据,然后用Python进行可视化。主要涉及的是爬虫&数据可视化的知识。爬虫部分先用Python来抓取拉勾网上面的数据,采用的是简单好用的requests模块。主要注意的地方是,拉勾网属于动态网页,所以会用到浏览器的F12开发者工具进行抓包。抓包以后会发现,其实网页是一个POST的形式,所以要提交数据,提交的数据如下图:真实网...转载 2018-05-08 22:17:00 · 1119 阅读 · 0 评论 -
Python爬虫抓取智联招聘(基础版)
对于每个上班族来说,总要经历几次换工作,如何在网上挑到心仪的工作?如何提前为心仪工作的面试做准备?今天我们来抓取智联招聘的招聘信息,助你换工作成功!运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome浏览器1、网页分析1.1 分析请求地址以北京海淀区的python工程师为例进行网页分析。打开智联招聘首页,选择北京...转载 2018-04-24 21:15:49 · 580 阅读 · 0 评论 -
12行Python暴力爬《黑豹》豆瓣短评
作者:黄嘉锋来源:https://www.jianshu.com/p/ea0b56e3bd86今天,本文将带领小伙伴们通过12行简单的Python代码,初窥爬虫的秘境。爬虫目标本文采用requests + Xpath,爬取豆瓣电影《黑豹》部分短评内容。话不多说,代码先上:import requests; from lxml import etree; import pandas as pd; im...转载 2018-04-25 20:19:33 · 344 阅读 · 0 评论 -
用 python 爬虫抓站的一些技巧总结
来自: observer http://obmem.info/?p=476学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本的,结果有了强大的gmbox,也就不用写了。这些脚本有一个共性,都是和web相关的,总要用到...转载 2018-04-25 20:26:28 · 280 阅读 · 0 评论 -
Python爬虫爬取智联招聘(进阶版)
运行平台: Windows Python版本: Python3.6 IDE: Sublime Text 其他工具: Chrome浏览器0、写在前面的话本文是基于基础版上做的修改,如果没有阅读基础版,请移步 Python爬虫抓取智联招聘(基础版)在基础版中,构造url时使用了urllib库的urlencode函数: url = 'https://sou.zhaopin.com/jobs/s...转载 2018-04-25 20:34:37 · 2238 阅读 · 0 评论 -
关于Python爬虫的一条高效的学习路径
数据是创造和决策的原材料,高质量的数据都价值不菲。而利用爬虫,我们可以获取大量的价值数据,经分析可以发挥巨大的价值,比如:豆瓣、知乎:爬取优质答案,筛选出各话题下热门内容,探索用户的舆论导向。淘宝、京东:抓取商品、评论及销量数据,对各种商品及用户的消费场景进行分析。搜房、链家:抓取房产买卖及租售信息,分析房价变化趋势、做不同区域的房价分析。拉勾、智联:爬取各类职位信息,分析各行业人才需求情况及薪资...转载 2018-04-26 21:36:05 · 5214 阅读 · 2 评论 -
Scrapy框架的使用之Scrapy对接Splash
之前我们实现了Scrapy对接Selenium抓取淘宝商品的过程,这是一种抓取JavaScript动态渲染页面的方式。除了Selenium,Splash也可以实现同样的功能。本节我们来了解Scrapy对接Splash来进行页面抓取的方式。一、准备工作请确保Splash已经正确安装并正常运行,同时安装好Scrapy-Splash库。二、新建项目首先新建一个项目,名为scrapysplashtest,...转载 2018-05-19 21:42:10 · 10749 阅读 · 4 评论 -
Scrapy框架的使用之Scrapy通用爬虫
通过Scrapy,我们可以轻松地完成一个站点爬虫的编写。但如果抓取的站点量非常大,比如爬取各大媒体的新闻信息,多个Spider则可能包含很多重复代码。如果我们将各个站点的Spider的公共部分保留下来,不同的部分提取出来作为单独的配置,如爬取规则、页面解析方式等抽离出来做成一个配置文件,那么我们在新增一个爬虫的时候,只需要实现这些网站的爬取规则和提取规则即可。本节我们就来探究一下Scrapy通用爬...转载 2018-05-21 20:35:12 · 2811 阅读 · 1 评论 -
分布式爬虫原理之分布式爬虫原理
我们在前面已经实现了Scrapy微博爬虫,虽然爬虫是异步加多线程的,但是我们只能在一台主机上运行,所以爬取效率还是有限的,分布式爬虫则是将多台主机组合起来,共同完成一个爬取任务,这将大大提高爬取的效率。一、分布式爬虫架构在了解分布式爬虫架构之前,首先回顾一下Scrapy的架构,如下图所示。Scrapy单机爬虫中有一个本地爬取队列Queue,这个队列是利用deque模块实现的。如果新的Request...转载 2018-05-25 22:08:07 · 30864 阅读 · 6 评论 -
Scrapy框架的使用之Scrapy对接Selenium
Scrapy抓取页面的方式和requests库类似,都是直接模拟HTTP请求,而Scrapy也不能抓取JavaScript动态渲染的页面。抓取JavaScript渲染的页面有两种方式。一种是分析Ajax请求,找到其对应的接口抓取,Scrapy同样可以用此种方式抓取。另一种是直接用Selenium或Splash模拟浏览器进行抓取,我们不需要关心页面后台发生的请求,也不需要分析渲染过程,只需要关心页面...转载 2018-05-16 20:48:23 · 33696 阅读 · 15 评论 -
Python数据可视化词云展示周董的歌
准备工作环境:Windows + Python3.6IDE:根据个人喜好,自行选择模块:Matplotlib是一个 Python 的 2D数学绘图库pip install matplotlibimport matplotlib.pyplot as pltjieba中文分词库pip install jiebaimport jiebawordcloud词云库pip install wordcloudf...转载 2018-06-12 15:15:25 · 444 阅读 · 0 评论 -
谈谈如何抓取ajax动态网站
什么是ajax呢,简单来说,就是加载一个网页完毕之后,有些信息你你还是看不到,需要你点击某个按钮才能看到数据,或者有些网页是有很多页数据的,而你在点击下一页的时候,网页的url地址没有变化,但是内容变了,这些都可以说是ajax。如果还听不懂,我给你看看百度百科的解释吧,下面就是。Ajax 即“Asynchronous Javascript And XML”(异步 JavaScript 和 XML)...转载 2018-06-10 17:13:26 · 11604 阅读 · 0 评论 -
从零开始的 Python 爬虫速成指南
序本文主要内容:以最短的时间写一个最简单的爬虫,可以抓取论坛的帖子标题和帖子内容。本文受众:没写过爬虫的萌新。入门0.准备工作需要准备的东西: Python、scrapy、一个IDE或者随便什么文本编辑工具。1.技术部已经研究决定了,你来写爬虫。随便建一个工作目录,然后用命令行建立一个工程,工程名为miao,可以替换为你喜欢的名字。scrapy startproject miao随后你会得到如下的...转载 2018-06-10 18:23:27 · 667 阅读 · 0 评论 -
抓取得到App音频数据
以前都是在网页上抓取数据,很少在手机App中抓取数据,那如何在抓取手机App中的数据呢?一般我们都是使用抓包工具来抓取数据.常用的抓包工具有Fiddles与Charles,以及其它今天我这里主要说说Charles使用,相比于Fiddles,Charles功能更强大,而且更容易使用. 所以一般抓包我推荐使用Charles下载与安装Charles下载并安装Charles 再去破解Charles,这里附...转载 2018-06-10 21:41:38 · 18243 阅读 · 7 评论 -
爬虫中复杂点的ajax请求该如何破?
本次需要用到的工具是charles工具进行抓包。这个工具大家自行百度下载,不会用的话也可以百度下,本篇文章就不对这个工具多说了。用这个工具是它有强大的搜索功能,可以一键搜索出我想要的网络请求。 这次网站是这个http://drugs.dxy.cn/ 需求是获取所有药品的详细信息,第一眼看上去是觉得不难的,点了进去你才知道是有坑的。 比如上面这个,需...转载 2018-08-10 22:28:05 · 5031 阅读 · 0 评论 -
高效率爬虫框架之 pyspider
在项目实战过程中,我们往往会采用爬虫框架来实现抓取,这样可提升开发效率、节省开发时间。而 pyspider 就是一个非常优秀的爬从框架,它的操作便捷、功能强大、利用它我们可以快速方便地完成爬虫的开发。pyspider 框架介绍pyspider 是由国人 binux 编写的强大的网络爬从系统,它带有强大的 WebUI、脚本编辑器、任务监控器、项目管理以及结果处理器,它支持多种数据库后端、...转载 2018-08-12 20:10:51 · 1527 阅读 · 0 评论 -
pyspider 实战项目之爬取去哪儿
现在我们用一个实战项目,来进一步掌握 pyspider 框架的使用。此次的项目爬取的目标是「去哪儿网」,我要将所有攻略的作者、标题、出发日期、人均费用、攻略正文等保存下来,存储到 MongoDB 中。1 准备工作请确保已经安装了 pyspider 和 PhantomJS,安装好了 MongoDB 并正常运行服务,还需要安装 PyMongo 库。这些教程网上都有详细资料,大家自行搜索。2...转载 2018-08-12 20:27:25 · 1236 阅读 · 1 评论 -
[数据可视化]哪年高考最难?哪里高考最难?
找了下历年的高考数据,并使用 pyechats 库做了一点简单的可视化处理:最直接反映高考难度的,自然是录取率。因为难易是相对的,就算试卷很难,但大家都有学上,那也算不上难考。数据来源:新东方在线 http://news.koolearn.com/20180606/1152629.html代码:import numpy as npfrom pyecharts import ...转载 2018-08-13 19:26:08 · 1973 阅读 · 0 评论 -
python爬取百度美女壁纸
给代码 给代码 好东西 必须分享 大家一起享受!# !/usr/bin/env python# -*- coding:utf-8 -*-import requestsimport json# 定义一个请求函数,接收页面参数def get_page(page): # 把页面参数添加在url的字符串当中 url = 'https://image.baidu.com/s...转载 2018-08-13 19:25:43 · 557 阅读 · 0 评论 -
一个爬取网站的小技巧
有时候,我们很想爬取一个网站的数据。如果 PC 端的网页的反爬机制太强,我们可以换个思路。现在很多网站为了满足手机浏览器能正常访问的需求,都会推出手机版的网页。PC 端抓取数据有难度,我们可以从手机端入手。你也许听说过,抓取手机 App 端数据就需要搭建手机抓包环境。那么我们就要屁颠屁颠去抓包搭建?哈哈,显然不用。我给大家分享一个小技巧,可以节省搭建环境的时间。我们的抓取目标是 Web 手...转载 2018-08-13 21:45:30 · 6438 阅读 · 0 评论 -
用Python代码来下载任意指定网易云歌曲
前两天教了大家如何在控制台上找到真实的mp3播放地址,但是不可以下载付费的,因为只能下载可播放的歌曲。至于怎样下载付费网易云音乐,还是开个会员吧,要知道免费是最贵的的这个道理。 有粉丝看了前两天文章想用代码来装逼,我就为了满足他,特意去折腾了两天,终于写出来了,迫不及待与大家分享一把。不得不说,这里面坑很大,遇到几个大坑在那里折腾了几个小时,分享出来让大家想装逼的少踩点坑。废话不多说,开始...转载 2018-09-01 11:56:57 · 2139 阅读 · 1 评论 -
Web自动化selenium技术快速实现爬虫
selenium是大家众所周知的web自动化测试框架,主要用来完成web网站项目的自动化测试,但其实如果要实现一个web爬虫,去某些网站爬取数据,其实用selenium来实现也很方便。比如,我们现在要实现一个这样的需求:打开百度--》输入拉钩--》找到拉钩链接,点击进入拉钩--》选择“全国”站--》输入岗位“自动化测试工程师”--》搜索--》爬取所有的自动化测试岗位信息用selenium怎...转载 2018-09-17 21:12:05 · 1375 阅读 · 0 评论 -
Python爬虫学习之Scrapy-Redis实战京东图书
什么是scrapy-redis?redis-based components for scrapyscrapy-Redis就是结合了分布式数据库redis,重写了scrapy一些比较关键的代码,将scrapy变成一个可以在多个主机上同时运行的分布式爬虫。scrapy-redis是github上的一个开源项目,可以直接下载到他的源代码:https://github.com/r...转载 2018-09-17 21:44:57 · 998 阅读 · 0 评论 -
[Python爬虫]通过分析胸罩销售记录 发现了惊人的秘密
通过爬虫去爬取京东的用户评价,通过分析爬取的数据能得到很多结果,比如,哪一种颜色的胸罩最受女性欢迎,以及中国女性的平均size(仅供参考哦~) 打开开发者工具-network,在用户评价页面我们发现浏览器有这样一个请求 通过分析我们发现主要用的参数有三个productId,page,pageSize。后两个为分页参数,productId是每个商品的id,通过这个id去获取...转载 2018-09-17 21:58:45 · 1497 阅读 · 0 评论 -
Python爬虫万金油,使用工具goose快速提取网页内容
爬虫抓取数据有两个头疼的点,写过爬虫的小伙伴们一定都深有体会: 网站的防抓取机制。你要尽可能将自己伪装成“一个人”,骗过对方的服务器反爬验证。 网站的内容提取。每个网站都需要你做不同的处理,而且网站一旦改版,你的代码也得跟着更新。 第一点没什么捷径可走,套路见得多了,也就有经验了。关于第二点,今天咱们就来介绍一个小工具,在某些需求场景下,或许可以给你省不少事。Goose...转载 2018-10-18 21:03:05 · 4071 阅读 · 3 评论 -
如何用Python抓抖音上的小姐姐
爬虫的案例我们已讲得太多。不过几乎都是网页爬虫。即使有些手机才能访问的网站,我们也可以通过 Chrome 开发者工具的手机模拟功能来访问,以便于分析请求并抓取。但有些 App 根本就没有提供网页端,比如今年火得不行的抖音。(网上有些教程也是用网页手机模拟的方法,但此法现已失效。)对于这种情况,我们能不能抓取?要怎么抓取?今天就来分享一下。手机抓包本文的重点就在于如何获取手机 App...转载 2018-10-18 21:16:20 · 1797 阅读 · 0 评论 -
爬虫必备工具,掌握它就解决了一半的问题
网上爬虫的教程实在太多了,去知乎上搜一下,估计能找到不下一百篇。大家乐此不疲地从互联网上抓取着一个又一个网站。但只要对方网站一更新,很可能文章里的方法就不再有效了。 每个网站抓取的代码各不相同,不过背后的原理是相通的。对于绝大部分网站来说,抓取的套路就那么一些。今天这篇文章不谈任何具体网站的抓取,只来说一个共性的东西: 如何通过 Chrome 开发者工具寻找一个网站上特定数据的抓取...转载 2018-10-18 21:34:38 · 422 阅读 · 0 评论 -
听说你好不容易写了个爬虫,结果没抓几个就被封了?
近来知乎上如雨后春笋般冒出了大把大把的爬虫教程。这是好事,学了 Python 基础的同学们可以很轻松地搜出许多练手的例子。不过我不是针对谁,我是说网上绝大多数的爬虫教程,其实都缺乏可操作性。是的,也包括我自己写过的。主要原因有两点: 教程是死的,网站是活的。页面会改版,接口会更新。一个爬虫教程的案例三个月之后还能有效已经是万幸了。比如我自己教程里的查天气案例,接口改动过很多次,数...转载 2018-10-18 21:47:00 · 2225 阅读 · 0 评论 -
用Python分析北京二手房房价
数据初探 首先导入要使用的科学计算包numpy,pandas,可视化matplotlib,seaborn,以及机器学习包sklearn。 import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib as mplimport matplotlib.pyplot as pltfro...转载 2018-10-20 11:34:21 · 2326 阅读 · 1 评论 -
用Python爬取东方财富网上市公司财务报表
摘要: 现在很多网页都采取JavaScript进行动态渲染,其中包括Ajax技术。有的网页虽然也用Ajax技术,但接口参数可能是加密的无法直接获得,比如淘宝;有的动态网页也采用JavaScript,但不是Ajax技术,比如Echarts官网。所以,当遇到这两类网页时,需要新的采取新的方法,这其中包括干脆、直接、好用的的Selenium大法。东方财富网的财务报表网页也是通过JavaScript动态加...转载 2018-10-20 12:26:06 · 32058 阅读 · 9 评论 -
网易云音乐歌曲评论爬虫(附python源码)
♚转载:作者:志颖 ,一个狂热的python爬虫热爱者GitHub:github.com/zyingzhou用过网易云音乐听歌的朋友都知道,网易云音乐每首歌曲后面都有很多评论,热门歌曲的评论更是接近百万或者是超过百万条.现在我就来分享一下如何爬取网易云音乐歌曲的全部评论,由于网易云音乐的评论都做了混淆加密处理,因此我们需要深入了解它的加密过程之后才能爬取到网易云音乐歌曲的全部评论....转载 2018-10-20 15:37:36 · 3076 阅读 · 2 评论 -
Python分布式爬虫详解(一)
当项目上升到一定境界时候,需要同时抓取几百个甚至上千个网站,这个时候,单个的爬虫已经满足不了需求。比如我们日常用的百度,它每天都会爬取大量的网站,一台服务器肯定是不够用的。所以需要各个地方的服务器一起协同工作。本章知识点:a.scrapy-redis简介b.开始项目前的准备一、Scrapy-Redis 简介scrapy-redis是一个基于redis数据库的scrapy组件,它...转载 2018-10-20 16:03:39 · 4359 阅读 · 0 评论