基础
Sound_of_ Silence
读几本书,手有余香,世间诸事,去他个娘
展开
-
一图流查遍python爬虫相关使用知识 正则表达式,requests BeautifulSoup lxml Selenium Scrapy MongoDB,多进程等等。。
最近搞爬虫走火入魔了,查了许多资料,也写了许多爬虫,有些发blog有些没发,有时候想找的资料怎么都找不到,于是萌生一想法,自己搞。用xmind搞了个思维导图,不知道能不能看,今天刚开始,陆续会补充与更新新的知识框架,力争一图流搞定相关主要知识点。废话不多说,先上图,不知道效果怎么样,导出图片时候是选的最大分辨率,但是不知道CSDN会不会压缩。立贴,搞完加鸡腿!...原创 2019-07-20 19:47:28 · 169 阅读 · 0 评论 -
Python 生成器与迭代器学习日记,杨辉三角应用(两种更新解法)
生成器:generator,主要是处理无限大的序列,但不希望采用传统的生成再存储的方式,因为这样极度占用内存与存储空间,因此可以看做是个懒人函数,需要的时候再调用,未调用时可以说只存储一个生成的表达式。如s = (x*x for x in range(10))print(s)这里执行结果并不是所期望得到的列表,而是 <generator object <genexpr&...原创 2019-06-19 19:04:43 · 469 阅读 · 2 评论 -
Python之matplotlib之折线图学习笔记汇总
Python之matplotlib学习笔记为什么要学习matplotlib,这个就不细说了,主要是实用啊,而且本人的工作也能经常用得上,因此将学习过程中遇到的方方面面记录一下,方便大家,以后自己查也方便,争取能弄的比较全乎。不知不觉又立了个flag,呵呵首先是安装: pip install matplotlib 这没什么好说的,超级简单了然后就是使用了, 常用的有折线图,柱状图...原创 2019-08-05 13:42:03 · 460 阅读 · 0 评论 -
Python之matplotlib之柱状图学习笔记汇总
matplotlib柱状图学习笔记柱状图也是大家常用的一个绘图方式,使用频率十分的高,由于其形象直观,非常适合作为各种高大上的展示,而且matplotlib中柱状图功能也很成熟,随着画图顺序我一点点的记录:首先仍然是from matplotlib import pyplot as plt,导入matplotlib然后传入x,y的坐标;坐标可以直接在代码中给出,也可以读取文件,推荐用pand...原创 2019-08-06 18:55:19 · 1554 阅读 · 0 评论 -
Python 123 获取系统的递归深度、当前执行文件路径、系统最大UNICODE编码值等3个信息
#!/usr/bin/python 3# -*- coding: UTF-8 -*-_Author_ = '麦地吃大米'import sysdef maxcode(): OK = False n = 100 while not OK: try: s = chr(n) n = n+1 ...原创 2019-06-10 19:29:31 · 12326 阅读 · 4 评论 -
python 中re/beautiful/lxml/css爬取效率对比。
主要是为了复习bs与学习css,发现一段时间不用,bs基本忘了差不多了,主要也是lxml相对好用太多了,且scrapy默认支持xpath与css也是原因之一。上代码:#!/usr/bin/env python# -*- encoding: utf-8 -*-"""@File : test.py.py@Time : 2019/8/24 13:41@Author : Soun...原创 2019-08-24 14:19:19 · 638 阅读 · 1 评论 -
Python challeng 第17关挑战 eat?
Python challeng 第17关挑战16到17关隔得时间有点长,一是有点顾不上,二是这关实在是有点变态,主要是想不到,串联了以前好多关的隐藏东西,可能是以后解题都得看看之前的信息了。地址是: http://www.pythonchallenge.com/pc/return/romance.html照例 ‘huge’ 'file’进入源代码没有任何有用信息,只有个图片,主图为饼,附...原创 2019-08-24 21:41:29 · 456 阅读 · 1 评论 -
Python Scrapy批量爬取CSDN博客内容
今天忽然想着爬一下之前写的所有博客的内容,也是巩固练习一下scrapy,目标定位,爬取标题,url与内容:采用 scrapy genspider -t crawl 命令创建爬虫,之后在爬虫文件中进行修改,主代码很简单:# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtractorfro...原创 2019-08-25 21:28:21 · 489 阅读 · 0 评论 -
Python多进程爬取豆瓣Top250数据
以前电脑死活跑不了多进程,重装了一下系统,居然啥都解决了,于是乎就跑了一下:#!/usr/bin/env python# -*- encoding: utf-8 -*-"""@File : jianshu.py.py@Time : 2019/9/1 20:42@Author : Sound_of_Silence"""import requestsimport tim...原创 2019-09-09 17:14:02 · 278 阅读 · 0 评论