python
文章平均质量分 91
the丶only
个人博客网站(运维笔记) ywbj.cc
展开
-
python爬虫之Scrapy框架,基本介绍使用以及用框架下载图片案例
Scrapy是:由Python语言开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据,只需要实现少量的代码,就能够快速的抓取。Scrapy使用了Twisted异步网络框架来处理网络通信,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活地实现各种需求。Scrapy可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中,其最初是为页面抓取(更确切地说是网络抓取)而设计的,也可以应用于获取API所返回的数据(例如Amazon A原创 2022-10-31 16:45:35 · 6767 阅读 · 1 评论 -
Python爬虫伪装,请求头User-Agent池,和代理IP池搭建使用
在使用爬虫的时候,很多网站都有一定的反爬措施,甚至在爬取大量的数据或者频繁地访问该网站多次时还可能面临ip被禁,所以这个时候我们通常就可以找一些代理ip,和不用的浏览器来继续爬虫测试。下面就开始来简单地介绍一下User-Agent池和免费代理ip池。原创 2022-10-25 11:24:16 · 9631 阅读 · 0 评论 -
python爬虫之多线程threading、多进程multiprocessing、协程aiohttp 批量下载图片
对于多任务爬虫来说,多线程、多进程、协程这几种方式处理效率的排序为:aiohttp协程 > 多线程 > 多进程。但是aiohttp协程难度有点复杂,需要了解,而且本人目前没有解决协程下载大尺寸图片不完整的情况,还需要后续继续学习。原创 2022-10-21 12:38:46 · 13520 阅读 · 2 评论 -
python爬虫之selenium+BeautifulSoup库,爬取搜索内容并保存excel
前面文章已经介绍了selenium库使用,及浏览器提取信息相关方法。python爬虫之selenium库现在目标要求,用爬虫通过浏览器,搜索关键词,将搜索到的视频信息存储在excel表中。里面有button_next 为跳转下一页的功能,之所有不用By.CLASS_NAME定位。看html代码可知 下一页 ="原创 2022-10-14 08:59:07 · 1962 阅读 · 1 评论 -
python爬虫之selenium库,浏览器访问搜索页面并提取信息,及隐藏浏览器运行
如果链接简单,爬虫可以通过链接用requests库提取页面信息,如爬取豆瓣top250影片信息,链接简单易懂。爬取豆瓣top250影片信息但如果遇到一些搜索之类的,基于js动态加载的网页,以上就不适合,如爬虫b站,搜索“爬虫”页面,第一页链接如下,第二页又是很长没规律的链接。很难用requests库提取页面。针对以上情况,我们可以通过浏览器直接访问每个页面,然后提取页面。当然是让爬虫自己打开浏览器,输入内容访问,然后提取页面元素。这个过程就要用到 selenium 库。原创 2022-10-12 17:55:31 · 9533 阅读 · 1 评论 -
python爬虫练习之requests+BeautifulSoup库,提取影片信息,并保存至excel
目标:使用 BeautifulSoup + Reuqests,爬取豆瓣上评分最高的250部电影,并保存到excel表格中。python爬虫之reuqests库python爬虫之Beautiful Soup库。原创 2022-10-05 15:47:45 · 1234 阅读 · 0 评论 -
python爬虫之Beautiful Soup库,基本使用以及提取页面信息
Python 爬虫正则表达式和re库在爬虫过程中,可以利用正则表达式去提取信息,但是有些人觉得比较麻烦。因为花大量时间分析正则表达式。这时候可以用高效的网页解析库Beautiful Soup。Beautiful Soup 是一个HTML/XML 的解析器,主要用于解析和提取 HTML/XML 数据。原创 2022-10-04 16:12:09 · 5451 阅读 · 0 评论 -
python爬虫之reuqests库,及基本使用
Python 爬虫之urllib库Requests是用python语言基于urllib编写的,该模块主要用来发 送 HTTP 请求,requests 模块比 urllib 模块更简洁,是学习 python 爬虫的较好的http请求模块。不是 python 的内置库,如果没有安装,可以安装先。原创 2022-10-03 13:25:20 · 845 阅读 · 0 评论 -
Python 爬虫正则表达式和re库,及re库的基本使用,提取单个页面信息
正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下,正则表达式在所有编程里通用,所以不仅仅是python使用。2:第二个信息,电影名称,有很多地方,但是我们选个唯一明显不重复的,alt= 后面是标签里唯一的,整个标签里面就一个信息,所以这里比较简单,这时正则表达式为。re.findall()在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果有多个匹配模式,则返回元组列表,如果没有找到匹配的,则返回空列表。em是唯一的,比较简单。原创 2022-10-01 11:35:38 · 2113 阅读 · 0 评论 -
Python 爬虫之urllib库,及urllib库的4个模块基本使用和了解
Python urllib 库用于操作网页 URL,并对网页的内容进行抓取处理。Python3 的 urllib。需要用的就是每个模块的内置方法和函数。原创 2022-09-19 16:43:23 · 3358 阅读 · 0 评论 -
Python初级练习小实例(21-50例),1个实例多个例子相互参考
以下所有测试实例来自于菜鸟教程:https://www.runoob.com/python3/python3-examples.html最大公约数,也称最大公因数、最大公因子,指两个或多个整数共有约数中最大的一个。执行结果菜鸟教程参考代码执行以上代码输出结果为:其他人参考代码可按以下思路减少循环次数:当最小值为最大公约数时,直接返回;当最小值不为最大公约数时,最大公约数不会大于最小值的1/2;求最大公约数理应从大到小循环递减求最大。更简洁快速22、Python 最小公倍数算法最小公倍数两个原创 2022-08-30 16:23:36 · 333 阅读 · 0 评论 -
Python初级练习小实例(1-20例),1个实例多个例子相互参考
设三角形ABC三个角A、B、C的对边分别为a、b、c,三角形ABC的面积为S,则S=“p(p-a)(p-b)(p-c)的算术平方根”。斐波那契数列指的是这样一个数列 0, 1, 1, 2, 3, 5, 8, 13,特别指出:第0项是0,第1项是第一个1。一个大于1的自然数,除了1和它本身外,不能被其他自然数(质数)整除(2, 3, 5, 7等),换句话说就是该数除了1和它本身以外不再有其他的因数。注意点:range 是包含左边,不包含右边,如:range(1,5)范围为: 1,2,3,4。原创 2022-08-20 18:06:10 · 1386 阅读 · 0 评论