迪帝lookats-CSDN博客

原创 L5&L6&L7 电影词云图-豆瓣

L5& L6& L7 电影词云图-豆瓣从豆瓣上爬取数据，完成电影词云图，共以下5步：向网页发送请求，获取网页源代码;解析源代码，提取想要的数据；使用 jieba 模块将语句切分成词；运用字典的知识进行词频统计；将词语生成词云图。1. 向网页发送请求，获取网页源代码;1-1 查看目标文本所在位置在 Google Chrome浏览器中复制粘贴下面的链接，先去看看网页内容https://movie.douban.com/subject/2129039/comments?so

2021-06-16 21:25:52 1453

原创 L3&L4 第一个爬虫项目

L3&L4 第一个爬虫项目1 爬虫的基本步骤向服务器发送请求-解析网页中源代码-提取数据-保存数据向网页发送请求，获取网页源代码；导入新的模块，解析网页源代码；查看网页中的数据节点；解析内容，提取节点的数据；学习查找节点的方法，提取节点中的内容。2 获取网页源代码想要获取网页中的数据，首先要获取网页 HTML 代码，再把数据从中提取出来。我们要向网页的服务器发送请求，服务器返回的响应就是网页 HTML 代码。# TODO 使用import导入requests模块impor

2021-06-14 19:29:16 184

原创 L1&L2 网络爬虫

L1 & L2 爬虫基础知识1 网页爬虫1-1 网络爬虫网络爬虫（Web Crawler）：按照一定规则自动爬取网页信息的程序。爬虫相当于网页上爬行的蜘蛛，每爬到一个节点就能够访问该网页的信息，又称网络蜘蛛（Web Spider）。1-2 网络爬虫的原理源代码（Source Code）：人类能够看得懂的计算机语言指令，被翻译成计算机可执行的代码。日常浏览的网页中，既有图片、文字，还有精致的排版，这都是依靠源代码的功劳。源代码会定义每个标题、段落、图片等排版，浏览器通过解析源代码，呈现

2021-06-06 20:33:20 329

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人