Python爬虫学习
文章平均质量分 60
自用,个人的python爬虫学习记录,方便后续回顾
Lucky_云佳
这个作者很懒,什么都没留下…
展开
-
【自用】Python爬虫学习(一):爬虫基础与四个简单案例
可以看到,已经获取到预览中看到的所有数据,但略显杂乱,后续只需要对该部分内容进行感兴趣提取就行,显然这是python基础,与爬虫无关了,毕竟已经获取到了数据。如下所示,页面中含有“美丽人生”,但右键查看页面源代码,使用Ctrl+F搜索却没有该文本,说明该网页应该就属于第2种类型,即客户端渲染。依次点击左侧红色方框中的条目内容,查看右侧预览信息,发现第二个就应该是我们需要的内容,其中就有“美丽人生”的文本。对于一个网页,浏览器右键可以查看页面源代码,但是这与使用开发者工具的检查看到的结果不一定相同。原创 2024-08-13 18:54:10 · 1156 阅读 · 0 评论 -
【自用】Python爬虫学习(二):网页解析的三种方式(re、bs4、xpath)
【代码】【自用】Python爬虫学习(二):网页解析的三种方式(re、bs4、xpath)原创 2024-08-13 18:54:58 · 387 阅读 · 0 评论 -
【自用】Python爬虫学习(三):图片下载、使用代理、防盗链视频下载、多线程与多进程
思路:从主页获取每张图片对应的子页面的链接地址,在子页面找到对应的高清图片下载地址然后下载。查找使用BeautifulSoup,直接从主页拿到的图片下载链接为缩略图,这里想要下载的是高清的图片。目的:对某网站的某个专栏页面的图片进行下载得到高清图。根据某视频文章页面的网页链接下载文章对应的视频。请求时传入一个proxies参数。防盗链,添加一个参数。原创 2024-08-13 18:55:23 · 471 阅读 · 0 评论 -
【自用】Python爬虫学习(四):线程池,蔬菜价格等信息多个页面同时抓取
一次性开辟一些线程。用户直接给线程池提交任务,线程任务的调度交给线程池来完成。原创 2024-08-13 18:56:22 · 354 阅读 · 0 评论 -
【自用】Python爬虫学习(五):协程asyncio、aiohttp下载多幅图片与小说
【代码】【自用】Python爬虫学习(五):协程asyncio、aiohttp下载多幅图片与小说。原创 2024-08-13 19:23:20 · 231 阅读 · 0 评论 -
【自用】Python爬虫学习(六):通过m3u8文件下载ts文件并合并为.mp4文件
视频网站用户上传->转码(把视频做处理,2K,1080,标清)->切片处理(把单个的文件进行拆分,形成众多的.ts文件)需要一个文件记录:1.视频播放顺序,2.视频存放的路径,这个文件就是m3um3u以utf-8编码存储就是m3u8文件,本质就是一个文本文件。原创 2024-08-13 20:25:37 · 725 阅读 · 0 评论 -
【自用】Python爬虫学习(七):selenium网页自动化操作
selenium是一个广泛使用的开源自动化测试框架,主要用于Web应用程序的功能测试。selenium可以很好地处理动态加载的Web内容,包括AJAX和JavaScript生成的元素,覆盖面更广。原创 2024-08-14 11:05:13 · 457 阅读 · 0 评论