![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
z_xiaochuan
这个作者很懒,什么都没留下…
展开
-
快速掌握多进程,循序渐进解析多进程,生动讲解多进程的原理以及使用
多进程(process) 怎么理解进程? 在电脑中,启动一个软件,系统就会分配一个进程 在代码中,写好的代码没有运行之前称之为程序,运行的时候就是一个进程 以前写的代码都只有一个主进程,需要通过主进程来创建其他的子进程 进程创建 ...原创 2018-11-05 20:31:30 · 186 阅读 · 0 评论 -
python爬取天猫评论并制作词云, 用Scrapy+ selenium实现
前一段时间爬取了天猫某些商品的评论数据并进行轻度处理,今天就跟大家聊聊见解吧!话不多说直接开始:大家都知道淘宝天猫作为国内最大的电商平台之一, 它对网站的加工是极好的,网站的配置也是非常完美的,其中就包括了反爬虫的设计. 淘宝的登录页面是可以检测selenium操作的,所以用selenium模拟登录是不可行的,只要你用selenium模拟登录不管怎么样都是失败的.但是我们可以带cookie...原创 2018-12-06 18:45:07 · 1238 阅读 · 0 评论 -
selenium爬取魔方公寓, 利用鼠标中轴滚动动态拿到魔方公寓评论数据
最近看到有兄弟们爬取魔方公寓受阻了,虽然能爬取房源信息但是爬取不到评论信息,而且接口是加密的, 用selenium的模拟滚动条滚动也不能让评论下翻,最后只能拿到十几条数据,读者最后试了几遍, 用了很多方法都没法实现,但是最后还是被小编攻破了, 一起来看一下吧! 首先我是按照常规写法, 模拟滚动条滚动,但是最后得到的却是主页面的滚动而评论页纹丝不动, 后来发现评论页原来整体是...原创 2018-12-06 11:13:02 · 326 阅读 · 0 评论 -
多线程爬取爱上租公寓数据
现在大家都喜欢用Scrapy框架爬取网站,因为Scrapy框架集成了很多功能,而且底层用了twisted 非阻塞异步框架,提供了多线程爬虫功能,那么我们如何实现不用框架也能快速高效的爬取网站呢? 那么今天我就跟大家分享一个办法吧!今天给大家分享的是采用 多线程 + 生产者消费者模式来构建的爬虫代码,不过为的是给大家分享,便于理解我给大家简单用面向过程写的代码,如果有朋友想要面向对象的代码可以在...原创 2018-12-07 16:56:59 · 329 阅读 · 1 评论 -
UDP/TCP总结大全
使用udp发送/接收数据步骤: 1. 创建客户端套接字 2. 发送/接收数据 3. 关闭套接字编码的转换 str --> bytes: encode() 编码 bytes --> str: decode() 编码UDP绑定端口号 1. 创建socket套接字 2. 绑定端口号 3. 接收/发...原创 2018-12-02 17:36:22 · 456 阅读 · 0 评论 -
进程总结, 快速理解进程,进程池
进程: 程序运行在操作系统上的一个实例, 就称之为进程.进程需要相应的系统资源:内存,时间片,pid. 创建进程: 1. 首先要导入multiprocessing中的Process; 2. 创建一个Process对象 3. 创建Process对象时, 可以传递参数;4. 使用start()启动进程;5. 结束进程. Process语法结构:...原创 2018-12-02 16:19:35 · 226 阅读 · 0 评论 -
Python中进程 线程 协程 锁 的各种问题大揭秘,12个问题大总结...
任何计算机语言都离不开进程线程以及协程的话题,那么今天我们来聊聊Python的进程,线程以及协程是怎么样运行的,以及锁结构的各种类型,还有最重要的是解密各种遇到的问题!!! 那么下面咱们就直入正题吧! 1. 谈谈对多进程多线程以及协程的理解 进程: 一个运行的程序(代码)就是一个进程,没有运行的代码叫程序,进程是系统资源分配的最小单位,进程拥有自己...原创 2018-11-24 20:40:17 · 784 阅读 · 1 评论 -
二分查找法详解,解析二分查找法
作者最近突然想到了二分查找法,今天进拿出来跟大家分享一下二分查找法顾名思义就是把列表分成两份进行查找,即先定义个最小下标start=0和一个最大下标end = len(list),然后通过相加对2求余或者除以2在转换为int类型转换为整数,这个随心而定,即center=(start+end)//2或者center=int((start+end)/2)然后得到list[center]的值,判断它...原创 2018-11-17 21:04:29 · 2310 阅读 · 1 评论 -
Python四大流行排序算法详解--快速排序-冒泡排序-选择排序-插入排序。
就作者而言使用Python经常用到的排序算法就是快速排序、冒泡排序、选择排序以及插入排序 就时间复杂度而言,快速排序是高级排序,查找快速,时间复杂度为nlgn 而冒泡排序、选择排序、插入排序则是比较低级的查找算法,时间复杂度为n**2 下面我们来看快速排序:快速排序的思想是:首先任意选取一个数据(通常选用数组的第一个数)作为关键数据,然后将所有比它小的数...原创 2018-11-17 20:41:54 · 2005 阅读 · 0 评论 -
python 内存管理机制和调优手段详解
今天和大家探讨一下Python内存管理机制和调优手段.话不多说,直接上干货:那么Python的内存管理机制都有什么呢? 1 . 引用计数 2 . 垃圾回收 3 . 内存池调优手段也都三大金刚: 1. 手动垃圾回收 2. 调...原创 2018-11-23 21:22:34 · 467 阅读 · 1 评论 -
朴素贝叶斯就是这么简单
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。1. 贝叶斯原理1 分类问题综述 对于分类问题,其实谁都不会陌生,日常生活中我们每天都进行着分类过程。例如,当你看到一个人,你的脑子下意识判断他是学生还是社会上的人;你可能经常会走在路上对身旁的朋友说“这个人一看就很有钱”之类的话...原创 2018-11-21 14:19:09 · 325 阅读 · 0 评论 -
pandas库汇总,pandas各种函数的运用,快速掌握pandas
最近用到了pandas库和numpy库,于是进在这里简单汇总一下吧!#创建一个默认索引从0开始的Seriess = pd.Series([1,2,3,4,5,6])#创建一个自定义索引的数组,索引由index指定,和前面数组依次对应s = pd.Series([1,2,3,4,5,6],index=['a','b','c','d','e','f'])#使用字典创建一个Data...原创 2018-11-08 22:29:46 · 741 阅读 · 0 评论 -
机器学习之余弦相识度初解(基础)
余弦相似度:计算向量之间的角度值:创建向量import numpy as npx = np.array([3, 5])y = np.array([4, 2])计算两个向量的长度lx = np.sqrt(x.dot(x)) (x.dot(x)是点乘,计算平方和)ly = np.sqrt(y.dot(y))计算余弦值,即cos值cos = x.dot(y)/(lx*ly) (向...原创 2018-11-05 20:48:09 · 451 阅读 · 0 评论 -
线程是什么?线程和进程的区别,怎么最好的理解使用和快熟掌握多线程?多线程的各种坑以及多线程锁的简介和使用
多线程(thread) 如何理解线程? 比如在qq里面,可以同时语音和视频,在word里面,可以同时打字、拼写检查 这些同时执行的就可以理解为线程 多任务-多进程、多线程 进程和线程的区别 (1)线程属于进程,一个线程只能属于一个进程,一个进...原创 2018-11-05 20:42:26 · 208 阅读 · 0 评论 -
asyncio 协程笔记
event loop就是一个普通的Python对象,可以通过asyncio.new_event_loop()创建无数个event loop对象。不过,loop.run_xxx()家族的函数都是阻塞的,比如run_until_complete()会等到给定的coroutine完成再结束,而run_forever()则会永远阻塞当前线程, 知道有人停止了该event loop为止。所以在同一个线程里,...原创 2019-08-13 18:24:54 · 207 阅读 · 0 评论