爬虫
文章平均质量分 64
爬虫基础
光头小白
这个作者很懒,什么都没留下…
展开
-
6.第一个Python爬虫程序
使用 Python 内置的 urllib 库获取网页的 html 信息。注意,urllib 库属于 Python 的标准库模块,无须单独安装,它是 Python 爬虫的常用模块。原创 2024-01-23 16:32:08 · 744 阅读 · 0 评论 -
5.Python爬虫前的准备工作
Python 爬虫作为 Python 编程的进阶知识,要求具备较好的 Python 编程基础了解 Python 语言的多进程与多线程,并熟悉正则表达式语法,也有助于编写爬虫程序。原创 2024-01-22 19:34:05 · 996 阅读 · 1 评论 -
4.审查网页元素
在动手编写爬虫程序前,必须要对网页元素进行审查浏览器都自带检查元素的功能,不同的浏览器对该功能的叫法不同, 谷歌(Chrome)浏览器称为“检查”,而 Firefox 则称“查看元素”原创 2024-01-19 16:47:34 · 628 阅读 · 0 评论 -
3.静态网页和动态网页
静态网页是标准的 HTML 文件,通过 GET 请求方法可以直接获取,文件的扩展名是.html.htm等,网面中可以包含文本、图像、声音、FLASH 动画、客户端脚本和其他插件程序等。静态网页是网站建设的基础,早期的网站一般都是由静态网页制作的。静态并非静止不动,它也包含一些动画效果,这一点不要误解当网站信息量较大的时,网页的生成速度会降低,由于静态网页的内容相对固定,且不需要连接后台数据库,因此响应速度非常快。但静态网页更新比较麻烦,每次更新都需要重新加载整个网页。原创 2024-01-18 11:11:28 · 361 阅读 · 0 评论 -
2.网页构成
爬虫程序之所以可以抓取数据,是因为爬虫能够对网页进行分析,并在网页中提取出想要的数据网页一般由三部分组成,分别是 HTML(超文本标记语言)、CSS(层叠样式表)和 JavaScript(简称“JS”动态脚本语言)原创 2024-01-18 10:32:54 · 372 阅读 · 0 评论 -
1.网络爬虫
网络爬虫又称网络蜘蛛、网络机器人,它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本网络爬虫能够自动请求网页,并将所需要的数据抓取下来。通过对抓取的数据进行处理,从而提取出有价值的信息。原创 2024-01-18 10:05:40 · 1808 阅读 · 0 评论