网络爬虫
文章平均质量分 91
以百词斩-夜曲编程-网络爬虫课程为顺序,整理学习内容
迪帝lookats
这个作者很懒,什么都没留下…
展开
-
L5&L6&L7 电影词云图-豆瓣
L5& L6& L7 电影词云图-豆瓣从豆瓣上爬取数据,完成电影词云图,共以下5步:向网页发送请求,获取网页源代码;解析源代码,提取想要的数据;使用 jieba 模块将语句切分成词;运用字典的知识进行词频统计;将词语生成词云图。1. 向网页发送请求,获取网页源代码;1-1 查看目标文本所在位置在 Google Chrome浏览器中复制粘贴下面的链接,先去看看网页内容https://movie.douban.com/subject/2129039/comments?so原创 2021-06-16 21:25:52 · 1403 阅读 · 0 评论 -
L3&L4 第一个爬虫项目
L3&L4 第一个爬虫项目1 爬虫的基本步骤向服务器发送请求-解析网页中源代码-提取数据-保存数据向网页发送请求,获取网页源代码;导入新的模块,解析网页源代码;查看网页中的数据节点;解析内容,提取节点的数据;学习查找节点的方法,提取节点中的内容。2 获取网页源代码想要获取网页中的数据,首先要获取网页 HTML 代码,再把数据从中提取出来。我们要向网页的服务器发送请求,服务器返回的响应就是网页 HTML 代码。# TODO 使用import导入requests模块impor原创 2021-06-14 19:29:16 · 171 阅读 · 0 评论 -
L1&L2 网络爬虫
L1 & L2 爬虫基础知识1 网页爬虫1-1 网络爬虫网络爬虫(Web Crawler):按照一定规则自动爬取网页信息的程序。爬虫相当于网页上爬行的蜘蛛,每爬到一个节点就能够访问该网页的信息,又称网络蜘蛛(Web Spider)。1-2 网络爬虫的原理源代码(Source Code):人类能够看得懂的计算机语言指令,被翻译成计算机可执行的代码。日常浏览的网页中,既有图片、文字,还有精致的排版,这都是依靠源代码的功劳。源代码会定义每个标题、段落、图片等排版,浏览器通过解析源代码,呈现原创 2021-06-06 20:33:20 · 314 阅读 · 0 评论