爬虫
文章平均质量分 63
ZSYi666
这个作者很懒,什么都没留下…
展开
-
爬虫小项目4
注:更改aweme_id,可以 得到想要获取的视频的评论(aweme_id可在请求网址内获取)1.requeset模块:python中原生的一款基于。的模块,功能强大,简单便捷,且高效。2.作用:模拟浏览器发送请求。原创 2023-08-11 21:00:03 · 466 阅读 · 0 评论 -
爬虫小项目3
json.loads()和json.load()的区别同上类似,加上s的方法是用来处理字符串类型的,而不加s是用来处理文件类型的。json.dump() 是把python对象转换成json对象生成一个fp的文件流,和文件相关。json.dumps() 是把python对象转换成json对象的一个过程,生成的是字符串。json模块只有四个方法dump()、load()、dumps()、loads()。json.dumps()和json.dump()的区别。原创 2023-08-09 16:59:48 · 408 阅读 · 0 评论 -
爬虫小项目2
在代码中添加一行,指定requests对象encoding的值为“gb2312”即可。在浏览器中,在待爬取网页上右键单击,选择“查看页面源代码”可以通过指定的encoding基本解决问题。(字符集)charset=gb2312。原创 2023-08-08 13:54:47 · 452 阅读 · 0 评论 -
爬虫小项目1
【代码】爬虫小项目1。原创 2023-08-08 09:21:49 · 343 阅读 · 0 评论 -
爬虫学习规划复盘
开始复盘python的基础知识,以及爬虫相关知识,最后两周侧重实践,为暑期项目实现作准备。完成暑期项目(三个小项目,一个大项目)在基本了解爬虫知识后,进行实操演练。原创 2023-07-30 18:39:46 · 481 阅读 · 0 评论 -
爬虫视频学习之异步爬虫
coroutine:协程对象,我们可以将协程对象注册到事件循环中,它会被事件循环调用。even_loop:事件循环,相当于一个无限循环,我们可以把一些函数注册到这个事件循环上,当满足某些条件的时候,函数就会被循环执行。好处:可以降低系统对进程或线程创建和销毁的一个频率,从而很好地降低系统的开销。future:代表将来执行或还没有执行的任务,实际上和task没有本质区别。好处:可以为相关阻塞的操作单独开启线程或进程,阻塞操作可以异步执行。task:任务,它是对协程对象的进一步封装,包含了任务的各个状态。原创 2023-07-30 18:05:12 · 472 阅读 · 0 评论 -
爬虫视频学习之scrapy模块
首先引擎向爬虫请求第一个url,爬虫将url提交给引擎,引擎将url地址交给调度器,调度器将url排序入队列,并将处理好的队列返回给引擎,引擎将有序的数据提交给下载器,下载器下载完成后将数据返回给引擎,引擎将接受的数据通过爬虫中间件发送给爬虫进行文件处理,爬虫处理后将获得item数据和url,并发送给引擎,引擎将item数据交给数据管道进行数据持久化处理,将url交给调度器继续入队列。数据管道(pipeline):负责对爬取到的数据进行处理,例如验证数据、清洗数据、存储数据。原创 2023-07-30 14:19:51 · 606 阅读 · 0 评论 -
爬虫视频学习之selenium
selenium是一个用于web应用程序测试的工具selenium测试直接运行在浏览器中,就像真正的用户操作一样支持通过各种driver,驱动真实浏览器完成测试支持无界面浏览器操作。原创 2023-07-30 08:30:40 · 526 阅读 · 0 评论 -
爬虫视频学习之数据解析
1.进行指定标签的定位2.标签或标签对应属性中存储的数据值进行提取注:解析的局部的文本内容都会在标签之间或者标签对应的属性中进行储存。原创 2023-07-26 11:02:06 · 567 阅读 · 0 评论 -
爬虫视频学习1-4
1.含义:通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程2.价值:实际应用和就业python爬虫程序可用于收集数据。爬虫程序使获取大量数据变得非常简单和快速。由于99%以上的网站是基于模板开发的,使用模板可以快速生成大量布局相同、内容不同的页面。因此,只要为一个页面开发了爬虫程序,爬虫程序也可以对基于同一模板生成的不同页面进行爬取内容。如果你使用爬虫来抓取公司网站上所有产品的销售情况,那么你就可以计算出公司的实际总销售额。原创 2023-07-21 12:55:35 · 1161 阅读 · 0 评论