python爬虫
文章平均质量分 79
对网站进行分析源码,提取想要的数据,对数据进行过滤筛选
蓝色的胖猫
这个作者很懒,什么都没留下…
展开
-
MySQL 索引优化分析:为啥你的SQL慢?为啥你建的索引常失效?
MySQL 索引优化分析:为啥你的SQL慢?为啥你建的索引常失效?案例分析场景一:订单导入,通过交易号避免重复导单场景二,订单管理页面,通过订单级别和订单录入时间排序索引简介性能分析总结案例分析场景一:订单导入,通过交易号避免重复导单业务逻辑:订单导入时,为了避免重复导单,一般会通过交易号去数据库中查询,判断该订单是否已经存在。最基础的sql语句mysql> select * from itdragon_order_list where transaction_id = "81X97310V原创 2020-12-30 11:16:52 · 154 阅读 · 0 评论 -
关于newspaper的使用
1、Newspaper框架是Python爬虫框架中在GitHub上点赞排名第三的爬虫框架,适合抓取新闻网页。它的操作非常简单易学,即使对完全没了解过爬虫的初学者也非常的友好,简单学习就能轻易上手,因为使用它不需要考虑header、IP代理,也不需要考虑网页解析,网页源代码架构等问题。这个是它的优点,但也是它的缺点,不考虑这些会导致它访问网页时会有被直接拒绝的可能。 总得来说,Newspaper框架并不适用于实际工程类新闻信息爬取工作,框架不稳定,爬取过程中会有各种bug,例如获取不到url、新闻信息等,原创 2020-08-28 17:50:48 · 1956 阅读 · 0 评论 -
使用requests模块完成自定义get/post/代理/cookie
一、背景说明http请求的难易对一门语言来说是很重要的而且是越来越重要,但对于python一是urllib一些写法不太符合人的思维习惯文档也相当难看,二是在python2.x和python3.x中写法还有差别。实在是太难用,开始差点由于这个原因想放弃python,直到看urllib.request文档时看到下边这句话,认识了requests。总的而言requests配得上“HTTP for Humans”的口号。1.1 适用版本适用于python2.6、python2.7、python3.4及以上版转载 2020-08-18 21:43:07 · 209 阅读 · 0 评论