爬虫
爬虫笔记
老司机开代码
这个作者很懒,什么都没留下…
展开
-
Python制作刺激战场枪支雷达图进行枪支性能对比
针对最近很火的吃鸡,来写一个枪支性能对比!!学习娱乐两不误。这次选了AKM-M16A4性能对比效果图如下:在这里就可以轻松地比较出两只枪的性能,比较优劣。代码呈上:import requestsimport jsonpathimport pygalurl = "http://pg.qq.com/zlkdatasys/data_zlk_zlzx.json"resp...原创 2019-04-01 20:40:56 · 1508 阅读 · 0 评论 -
解决爬虫存储csv格式打开后乱码问题
最近一直在学习爬虫,总会遇到存储数据的需要。但是以csv格式存的时候总是会乱码。这里有两种解决方法:法一:将文件以记事本的方式打开然后另存为然后下面的编码设置为 UTF-8这种方法很简单,但是每次都要点,很麻烦。法二:需要导入codecs模块,提前以“ab+”的方式打开文件:具体代码如下:import codecswith open("F:/豆瓣图书_2.csv","ab+...原创 2019-03-08 20:11:45 · 5006 阅读 · 1 评论 -
Chromedriver安装和配置
首先安装Chromedriver,下载网址:http://npm.taobao.org/mirrors/chromedriver/找到与你chrome浏览器对应版本的下载:上面只是一部分,如果没有的可以上百度查一下。然后指定路径进行安装。这里我安装的路径是D:\chromedriver。安装后复制路径,代开我的电脑的属性,点击高级设置,点击环境变量点击下面的path,然后点击编辑,...原创 2019-03-03 14:21:43 · 22359 阅读 · 0 评论 -
selenium模拟登陆拉勾网
初学selenium,尝试了一下模拟登录拉勾网,感觉还挺好玩的就剩下最后的验证码不会处理了。。。思路就是在网页代码中找到对应的框的属性进行查询,然后点击、输入就进行了。之后就会看到Chrome弹出来自动完成一系列动作,感觉很有意思:开代码:from selenium import webdriverurl = "https://www.lagou.com/"#拉勾网首页urld...原创 2019-03-04 22:02:23 · 1227 阅读 · 0 评论 -
Requests库的7个方法(学习Requests库随笔)
Requests库的7个主要方法方法说明requests.request()构造一个请求,支撑以下各方法的基础方法requests.get()获取HTML网页的主要方法,对应于HTTP的GETrequests.post()向HTML网页提交POST请求的方法,对应于HTTP的POSTrequests.head()获取HTML网页头信息的方法,对应于H...原创 2019-02-01 23:54:38 · 848 阅读 · 0 评论 -
Scrapy框架实例(爬取刺猬实习职位信息)
点击查看刺猬实习网站这次用的是scrapy框架爬取,爬的内容是左边分类里面的每一个分类第一页的求职信息求职信息如图:这次爬的有职位,薪水,学历,天数,地理位置思路:首先在自己创建的小蜘蛛里设置一个函数,处理开始的页面抓到所有的分类链接,然后用callback回调处理页面函数,再将提取信息传入pipelines保存。代码呈上:首先是items部分:# -*...原创 2019-03-24 17:32:38 · 357 阅读 · 0 评论 -
Scrapy框架实例-2(沪江网网课信息)
今天以一个框架来结束今天的爬虫学习,准备去整高数了。本次的实例是沪江网校的信息,和实例1一样都是爬取各种分类。不再过多展示页面信息了,直接开代码!!items:# -*- coding: utf-8 -*-# Define here the models for your scraped items## See documentation in:# https://...原创 2019-03-24 20:25:15 · 349 阅读 · 0 评论 -
回顾Xpath(爬取时光网电影TOP100)
import requestsfrom lxml import etree#爬取时光电影网TOP100headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36',}...原创 2019-03-15 21:07:40 · 1168 阅读 · 0 评论 -
selenium 模拟登陆去哪网,处理验证码
诶,这两天一直在搞验证码搞得我头皮发麻,昨天晚上做梦都是在搞验证码,好在最后终于搞出来了!!!开始的思路是用requests库去get验证码的url,然后解析,但是发现做不到,解析的验证码跟登录时的不一样,可能是没有保持同一个会话。后来换了一个思路轻轻松松的就解决了(当然这也是付出了很多时间去探索的)现在说一下登陆的思路:输入账号密码什么的都是基本操作,重点是验证码的获取,这里我...原创 2019-03-19 18:46:16 · 467 阅读 · 0 评论 -
爬取猫眼电影TOP100(回顾正则表达式)
回头来复习一下正则表达式,选了猫眼电影来练练手import requestsimport reimport csvimport codecsimport timeheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome...原创 2019-03-10 18:58:54 · 447 阅读 · 0 评论 -
爬取QQ音乐巅峰榜
今天爬了第二个动态网页,晚上赶紧来回顾一下。一共4页。100首歌曲。同样的方法还是在network中抓包,获取真正的url,然后通过分析得出url的翻页规律。此处的url:https://c.y.qq.com/v8/fcg-bin/fcg_v8_toplist_cp.fcg?tpl=3&page=detail&date=2019-03-01&topid=4&am...原创 2019-03-01 22:59:54 · 4163 阅读 · 0 评论 -
LOL峡谷之巅前500爬取
第一次爬取动态网页,晚上再来重新整理一下思路。动态网页不同于静态网页,本次网页表面的url:http://lol.qq.com/act/a20170704super/ranking.shtml但是在翻页时url并没有改变。可以说这是一个虚假的url。而真正的url需要我们自己去寻找。首先,我们要寻找真正的url第一步先查看网页代码,点开network,选择JS在我们点击翻页时会发现这...原创 2019-02-28 21:51:46 · 653 阅读 · 0 评论 -
酷狗音乐TOP500爬虫
学习的产物总是充实和快乐的,下面就来看一下今天的酷狗音乐排行榜的爬取吧!!!首先我们通过观看酷狗网页的源代码可以看到: 红色记号画出来的就是我们这次爬取需要的信息,我们通过观察可以找到他们位于哪些标签之中,最后通过select方法提取出来就行了。下面呈上代码:import requestsfrom bs4 import BeautifulSoupimport tim...原创 2019-02-19 15:19:40 · 1949 阅读 · 6 评论 -
爬取斗罗大小说全文
相信很多小伙伴都非常喜欢唐家三少写的斗罗大陆,今天就带来一个用reuquests和Beautifulsoup编写的爬虫爬取斗罗大陆第一部的案例!!!通过下图我们可以发现:文章的标题存在于标签<div class =“yuedu_index” … >的字标签 中(第四十九章 七怪战皇斗 (下)),而文章的内容存在于的字标签中,我们可以用BeautifulSoup库中的selec...原创 2019-02-19 14:18:26 · 853 阅读 · 1 评论 -
沪江网考研词汇爬取
这个呢是寒假小任务的一部分,在寒假的最后一天才完成一部分也是有点失败。。。这个的思路和上一篇爬取图片的思路大致一样都是先从大页面获取小页面的链接,然后再进行信息获取,不过这次遇到了一个小坑点。首先还是先分析页面的源代码找到每个单词的链接,如图:标签a href=" "中的内容就是我们点开每一个单词的链接。我们要用正则表达式获取他。然后进入单词的链接,获取我们需要的信息。如图:现在我...原创 2019-02-22 20:48:55 · 940 阅读 · 0 评论