老司机开代码的博客

人生苦短,我用Python

对map函数的思考

今天在用到map函数的时候产生了一些问题,发现自己对于map函数的理解还是不够深刻,于是又查阅了相关的资料来学习和了解其功能,学习后写出自己的理解和看法,最主要的是它的返回值类型。 map是python中一个内置的函数,map函数的使用格式一般为: map(函数名, 序列名) 可以将一个或多个指定...

2019-07-08 17:36:59

阅读数 26

评论数 2

Python制作刺激战场枪支雷达图进行枪支性能对比

针对最近很火的吃鸡,来写一个枪支性能对比!!学习娱乐两不误。 这次选了AKM-M16A4性能对比 效果图如下: 在这里就可以轻松地比较出两只枪的性能,比较优劣。 代码呈上: import requests import jsonpath import pygal url = &q...

2019-04-01 20:40:56

阅读数 223

评论数 0

Scrapy框架实例-2(沪江网网课信息)

今天以一个框架来结束今天的爬虫学习,准备去整高数了。 本次的实例是沪江网校的信息,和实例1一样都是爬取各种分类。 不再过多展示页面信息了,直接开代码!! items: # -*- coding: utf-8 -*- # Define here the models for your...

2019-03-24 20:25:15

阅读数 75

评论数 0

Scrapy框架实例(爬取刺猬实习职位信息)

点击查看刺猬实习网站 这次用的是scrapy框架爬取,爬的内容是左边分类里面的每一个分类第一页的求职信息 求职信息如图: 这次爬的有职位,薪水,学历,天数,地理位置 思路: 首先在自己创建的小蜘蛛里设置一个函数,处理开始的页面抓到所有的分类链接,然后用callback回调处理页面...

2019-03-24 17:32:38

阅读数 101

评论数 0

selenium 模拟登陆去哪网,处理验证码

诶,这两天一直在搞验证码搞得我头皮发麻,昨天晚上做梦都是在搞验证码,好在最后终于搞出来了!!! 开始的思路是用requests库去get验证码的url,然后解析,但是发现做不到,解析的验证码跟登录时的不一样,可能是没有保持同一个会话。后来换了一个思路轻轻松松的就解决了(当然这也是付出了很多时间去...

2019-03-19 18:46:16

阅读数 106

评论数 0

回顾Xpath(爬取时光网电影TOP100)

import requests from lxml import etree #爬取时光电影网TOP100 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, li...

2019-03-15 21:07:40

阅读数 179

评论数 0

爬取猫眼电影TOP100(回顾正则表达式)

回头来复习一下正则表达式,选了猫眼电影来练练手 import requests import re import csv import codecs import time headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; W...

2019-03-10 18:58:54

阅读数 101

评论数 0

C语言实现学生信息管理系统

C语言课程设计: #include<stdio.h> #include<stdlib.h> #include<string.h> typedef struct ...

2019-03-08 20:15:14

阅读数 360

评论数 0

解决爬虫存储csv格式打开后乱码问题

最近一直在学习爬虫,总会遇到存储数据的需要。但是以csv格式存的时候总是会乱码。这里有两种解决方法: 法一: 将文件以记事本的方式打开然后另存为 然后下面的编码设置为 UTF-8 这种方法很简单,但是每次都要点,很麻烦。 法二: 需要导入codecs模块,提前以“ab+”的方式打开文件: 具体...

2019-03-08 20:11:45

阅读数 335

评论数 0

selenium模拟登陆拉勾网

初学selenium,尝试了一下模拟登录拉勾网,感觉还挺好玩的 就剩下最后的验证码不会处理了。。。 思路就是在网页代码中找到对应的框的属性进行查询,然后点击、输入就进行了。 之后就会看到Chrome弹出来自动完成一系列动作,感觉很有意思: 开代码: from selenium import we...

2019-03-04 22:02:23

阅读数 431

评论数 0

Chromedriver安装和配置

首先安装Chromedriver,下载网址:http://npm.taobao.org/mirrors/chromedriver/ 找到与你chrome浏览器对应版本的下载: 上面只是一部分,如果没有的可以上百度查一下。然后指定路径进行安装。这里我安装的路径是D:\chromedriver。安装...

2019-03-03 14:21:43

阅读数 1106

评论数 0

爬取QQ音乐巅峰榜

今天爬了第二个动态网页,晚上赶紧来回顾一下。 一共4页。100首歌曲。 同样的方法还是在network中抓包, 获取真正的url,然后通过分析得出url的翻页规律。 此处的url:https://c.y.qq.com/v8/fcg-bin/fcg_v8_toplist_cp.fcg?tpl=3...

2019-03-01 22:59:54

阅读数 571

评论数 0

LOL峡谷之巅前500爬取

第一次爬取动态网页,晚上再来重新整理一下思路。 动态网页不同于静态网页,本次网页表面的url:http://lol.qq.com/act/a20170704super/ranking.shtml 但是在翻页时url并没有改变。可以说这是一个虚假的url。 而真正的url需要我们自己去寻找。 ...

2019-02-28 21:51:46

阅读数 117

评论数 0

沪江网考研词汇爬取

这个呢是寒假小任务的一部分,在寒假的最后一天才完成一部分也是有点失败。。。 这个的思路和上一篇爬取图片的思路大致一样都是先从大页面获取小页面的链接,然后再进行信息获取,不过这次遇到了一个小坑点。 首先还是先分析页面的源代码找到每个单词的链接,如图: 标签a href=&quo...

2019-02-22 20:48:55

阅读数 412

评论数 0

批量爬取妹子图集

这两天刚刚学了正则表达式现在来练练手啦!!(大佬们请飞过) 思路: 首先观察网址链接每翻页的规律,获取每一页(这里叫他总页面)。 总页面上有很多图集, 然后我们要通过总页面获取每一个图集的第一页链接,如图: 上面就是我们看到总页面的每一个图集的第一个页面的链接,我们要想办法用正则表达式先提取出来...

2019-02-21 17:41:28

阅读数 165

评论数 0

酷狗音乐TOP500爬虫

学习的产物总是充实和快乐的,下面就来看一下今天的酷狗音乐排行榜的爬取吧!!! 首先我们通过观看酷狗网页的源代码可以看到:     红色记号画出来的就是我们这次爬取需要的信息,我们通过观察可以找到他们位于哪些标签之中,最后通过select方法提取出来就行了。 下面呈上代码: impor...

2019-02-19 15:19:40

阅读数 291

评论数 6

爬取斗罗大小说全文

相信很多小伙伴都非常喜欢唐家三少写的斗罗大陆,今天就带来一个用reuquests和Beautifulsoup编写的爬虫爬取斗罗大陆第一部的案例!!! 通过下图我们可以发现:文章的标题存在于标签<div class =“yuedu_index” … &...

2019-02-19 14:18:26

阅读数 109

评论数 1

Pygame的安装

今天安装了一个pygame废了好大力气,也遇到了很多问题,包括pip升级失败,cmd的运行… 下载Pygame Pygame的下载网址:http://www.lfd.uci.edu/~gohlke/pythonlibs/#pygame 找到此图片的位置,安装与你运行的Python ...

2019-02-12 00:06:52

阅读数 90

评论数 0

Requests库的7个方法(学习Requests库随笔)

Requests库的7个主要方法 方法 说明 requests.request() 构造一个请求,支撑以下各方法的基础方法 requests.get() 获取HTML网页的主要方法,对应于HTTP的GET requests.post()...

2019-02-01 23:54:38

阅读数 54

评论数 0

古风排版(PAT)

  古风排版(20 分) 中国的古人写文字,是从右向左竖向排版的。本题就请你编写程序,把一段文字按古风排版。 输入格式: 输入在第一行给出一个正整数N(<100),是每一列的字符数。第二行给出一个长度不超过1000的非空字符串,以回车结束。 输出格式: 按古风格式...

2019-01-27 23:11:56

阅读数 171

评论数 2

提示
确定要删除当前文章?
取消 删除