![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
Jasonzhiying
www.zhouzying.cn
展开
-
解决使用selenium库出现的“Message: 'chromedriver' executable may have wrong permissions”问题
在ubuntu 上使用python 第三方库selenium写抓取动态网页的爬虫时会出现这样的问题这是因为没有给chrome 的驱动chromedriver赋予可执行权限。解决办法:找到驱动文件,右键----属性----权限----允许作为程序执行文件。注:驱动文件chromedriver的路径应添加进环境变量,chrome浏览器才能被python第三方库selenium调用。...原创 2018-04-18 15:06:55 · 23890 阅读 · 1 评论 -
利用python第三方selenium库爬取QS大学排名
众所周知QS全球大学排名是全球最具权威性,和影响力的大学排名榜之一。今天我就来分享一下用Python爬取QS大学排名的过程。首先看一下要爬取的QS大学排名的网址:url = "https://www.topuniversities.com/university-rankings/world-university-rankings/2018"如果用requests库爬取的话,获取的源代码是不完整的。...原创 2018-04-30 20:15:14 · 1880 阅读 · 0 评论 -
通过分析Ajax接口用Python爬取QS全球大学排名
经过我的分析发现QS全球大学排名网页是通过Ajax进行加载的。首先介绍一下Ajax:AJAX = 异步 JavaScript 和 XML。AJAX 是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换,AJAX 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。Ajax 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术,它并不是新...原创 2018-05-01 11:19:03 · 1316 阅读 · 0 评论 -
利用python爬虫爬取京东商城商品图片
笔者曾经用python第三方库requests来爬取京东商城的商品页内容,经过解析之后发现只爬到了商品页一半的图片。(这篇文章我们以爬取智能手机图片为例)当鼠标没有向下滑时,此时查看源代码的话,就会看到上图的内容,只有三十个 li 标签(一个li标签中有一个图片地址)。但是鼠标滑至底部后再查看源代码的话就会看到六十个 li 标签,这才是我们真正需要爬取的内容。下图是鼠标滑至底部时的源代码。为什么会...原创 2018-04-19 21:27:35 · 14678 阅读 · 2 评论 -
爬取猫眼电影TOP100榜
由于猫眼TOP100榜网页是静态网页,用requests库就可以获取到完整的网页源代码,然后用BeautifulSoup4库进行解析。首先分析网页的url:通过分析便可以得到网址为:# i的值为0,10,20,... 对应的分别是第1页,第2页,第3页,...url = "http://maoyan.com/board/4?offset=" + str(i)使用一个迭代便可以构造全部网页的url...原创 2018-04-20 10:54:46 · 845 阅读 · 0 评论 -
用Python爬取网易云音乐全部歌手信息(歌手id和歌手名字)
本文介绍用Python爬取网易云音乐全部歌手信息,歌手的id和歌手的名字。这里我们来看一下歌手周杰伦的id号:通过浏览器的检查元素,我们可以查看周杰伦的id号为6452。要想爬取这些数据,就必须在使用requests库时设置好请求的头部(headers)特别是cookie。接下来开始分析:首先是找到网易云音乐歌手网页:在左侧我们可以看到歌手的分类,每个分类都对应一个...原创 2018-05-27 12:18:45 · 15850 阅读 · 2 评论 -
解决Yusi1.0主题使用中存在的问题
欲思主题是一款非常不错的主题,我也是使用的这款主题。但由于PHP版本的更新等,导致Yusi1.0这款主题安装之后不能正常显示和有些工具不能使用等问题,下面我就遇到的问题,提出自己的解决办法,希望能帮助到大家.一.解决安装好主题后,页面显示不正常的问题(只显示大标题)这是因为在主题文件header.php中第43行ereg_replace()函数在php7中不再受支持了,已在PHP5中被弃用...转载 2018-09-13 17:06:15 · 2129 阅读 · 0 评论 -
网易云音乐评论爬虫
用Python爬取网易云音乐全部歌曲的全部评论.我把它分为三步:第一步获取全部歌手的信息及其id号.第二步通过第一步获取到的歌手id号来获取全部歌手的全部热门歌曲及其id号.第三步根据获取到的歌曲id号来获取对应歌曲的全部评论.第一步,获取全部歌手的信息及其id号具体请参考这篇文章: 用Python爬取网易云音乐全部歌手信息(歌手id和歌手名字)代码下载第二步,获取全部歌手的全部热...原创 2018-10-07 19:32:36 · 2898 阅读 · 0 评论