自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 L5&L6&L7 电影词云图-豆瓣

L5& L6& L7 电影词云图-豆瓣从豆瓣上爬取数据,完成电影词云图,共以下5步:向网页发送请求,获取网页源代码;解析源代码,提取想要的数据;使用 jieba 模块将语句切分成词;运用字典的知识进行词频统计;将词语生成词云图。1. 向网页发送请求,获取网页源代码;1-1 查看目标文本所在位置在 Google Chrome浏览器中复制粘贴下面的链接,先去看看网页内容https://movie.douban.com/subject/2129039/comments?so

2021-06-16 21:25:52 1453

原创 L3&L4 第一个爬虫项目

L3&L4 第一个爬虫项目1 爬虫的基本步骤向服务器发送请求-解析网页中源代码-提取数据-保存数据向网页发送请求,获取网页源代码;导入新的模块,解析网页源代码;查看网页中的数据节点;解析内容,提取节点的数据;学习查找节点的方法,提取节点中的内容。2 获取网页源代码想要获取网页中的数据,首先要获取网页 HTML 代码,再把数据从中提取出来。我们要向网页的服务器发送请求,服务器返回的响应就是网页 HTML 代码。# TODO 使用import导入requests模块impor

2021-06-14 19:29:16 184

原创 L1&L2 网络爬虫

L1 & L2 爬虫基础知识1 网页爬虫1-1 网络爬虫网络爬虫(Web Crawler):按照一定规则自动爬取网页信息的程序。爬虫相当于网页上爬行的蜘蛛,每爬到一个节点就能够访问该网页的信息,又称网络蜘蛛(Web Spider)。1-2 网络爬虫的原理源代码(Source Code):人类能够看得懂的计算机语言指令,被翻译成计算机可执行的代码。日常浏览的网页中,既有图片、文字,还有精致的排版,这都是依靠源代码的功劳。源代码会定义每个标题、段落、图片等排版,浏览器通过解析源代码,呈现

2021-06-06 20:33:20 329

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除