Python爬虫
文章平均质量分 51
前方的灯
这个作者很懒,什么都没留下…
展开
-
Python生产者消费者多线程爬虫
Pipeline技术架构常用语法1.导入类库import queue2.创建Queue对象q = queue.Queue()3.添加元素q.put(item)4.获取元素item = q.get()5.查询状态#查看元素的状态q.qsize()#判断是否为空q.empty()# 判断是否已满q.full()#生产者消费者爬虫架构#多线程数据通信queue.Queue#代码实现生产者消费者爬虫...原创 2022-02-10 14:48:04 · 778 阅读 · 1 评论 -
Python之MySQL_第01步
安装MySQL模块要实现Python与MYSQL进行交互,需要安装mysql模块,使用pip3 install mysql下载该模块即可。在IDLE中输入import MySQLdb,如果没有错误提示符表示安装成功。连接MySQL连接mysql需要调用MySQLdb模块的connect()方法配置mysql信息。connect(connect(host='127.0.0.1',user='root',passwd='123',db='test')hsot 连接的主机的ip,127.0.0.1为原创 2022-01-11 15:10:49 · 183 阅读 · 0 评论 -
Python之多线程01_简介
Python速度比C/C++/Java慢据统计Python比C++慢200倍,导致现在大部分大型企业依旧使用C/C++或Java速度慢原因原因1:Python是动态类型语言,边执行边解释原因2:存在GIL,无法使用多核CPU并发并行执行GILGIL(Global Interpreter Lock,全局解释器锁)是计算机程序语言解释器用于同步线程的一种机制,它使得任何时刻仅有一个线程在执行(无法使用多核并发)。为什么需要GILGIL是为了解决多线程之前数据完整性和状态同步问题。原创 2022-01-03 18:00:17 · 558 阅读 · 0 评论 -
Python爬虫之SQL数据库写入
这次以爬取小说《斗破苍穹》的章节名和章节url依次写入数据库,借用某狗平台爬取相关信息。爬取思路主要先使用xpath分别爬取chapters_xpath章节名称和url_xpath章节url,由于爬取的url是超链接需要进行url拼接才能成为完整网址。数据库:在数据库内创建fiction表其下有name和url属性。通过循环依次将爬取的结果导入数据库fiction表内。import reimport requestsfrom lxml import etreeimport MySQLdb#原创 2021-12-17 17:41:34 · 2006 阅读 · 0 评论 -
Python的CSV读取与写入
CSV文件是纯文本形式存储表格数据。读取CSV文件需要在当前目录下编写一个csv_read.csv文件:name,account,password小明,账号1,123慢慢,账号2,123丽丽,账号3,123调用csv的reader()方法对csv文件读取:import csvwith open('csv_read.csv','r') as fp: reader = csv.reader(fp) titles = next(reader) #剪切reader第一行的值返回原创 2021-12-04 17:29:40 · 1873 阅读 · 0 评论