![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 51
小羊儿放羊儿
你也喜欢放羊吗
展开
-
使用urllib爬取数据,lxml、bs4、正则解析数据合集,pymysql存储数据
根据输入的类别和页数来爬取糗事百科,基于练习,分别使用xpath匹配段子模块、正则匹配视频模块、bs4 匹配热图模块。# 连接数据库类class SQL_connect: conn = "" cur = "" def __init__(self): self.conn = pymysql.connect( host='localhost', port=3306, user='root',原创 2021-03-08 00:23:37 · 241 阅读 · 2 评论 -
scrapy-单线程爬取并存入mwsql
scrapy基本结构、爬取流程、定义随机请求头、抓取异步网页请参考:scrapy框架–基础结构加爬取异步加载数据的网址项目完整实例items.pyclass BooksItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() book_name = scrapy.Field() # 图书名 book_star = scrapy.Field() #原创 2021-03-05 15:39:22 · 556 阅读 · 1 评论 -
scrapy框架–基础结构加爬取异步加载数据的网址项目完整实例
scrapy框架–基础加实例为了提取网站数据,提取结构型数据而编写的应用框架,使用twisted高效异步网络框架来处理网络通信。Twisted 是用python实现的 基于事件驱动的网络引擎框架诞生于2000年初,网络游戏开发者发现无论用什么语言都有 可兼容 扩展性 及 跨平台 的网络库,支持常见的传输和应用层协议,兼容这些协议Ssl /tls、tcp udp http imap……和Python一样 具有内置电池,所支持的协议都带有客户端和服务器端实现(client-sever)目录scr原创 2021-03-05 14:37:05 · 893 阅读 · 8 评论