- 博客(4)
- 收藏
- 关注
原创 Python网络爬虫入门篇!(超详细)
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析“标签树”等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
2024-09-14 17:35:17 6879 1
原创 通过Python爬取网页数据!
因此考虑可能该元素是动态的,细心的同学可能会发现,当在网页内,向下滑动鼠标滚轮,图片是动态刷新出来的,也就是说,该网页并不是一次加载出全部资源,而是动态加载资源。发现我们需要的图片src是在img标签下的,于是先试着用 Python 的 requests提取该组件,进而获取img的src然后使用 urllib.request.urlretrieve逐个下载图片,从而达到批量获取资料的目的,思路好了,下面应该告诉程序要爬取的url为http://pic.sogou.com/pics/recommend?
2024-09-14 16:52:51 881
原创 Python基础语法体系(详细)!
and | 布尔“与” | 如果x为False,x and y返回False,否则它返回y的计算值。x == y返回True。---------------分割线------------------------以下是Python的基本语法---------------------------------------------------------| or | 布尔“或” | 如果x是True,它返回True,否则它返回y的计算值。| > | 大于 | 返回x是否大于y | 5 > 3返回True。
2024-09-13 17:27:42 950
原创 Python入门基础(强烈建议观看)
序列是具有先后关系的一组元素~序列是一个基类类型(基本数据类型)~序列类型分为字符串、列表、元组类型jieba库提供三种分词模式,最简单只需要掌握一个函数;jieba是优秀的中文分词第三方库,需额外安装jieba库的安装方法jieba分词的三种模式精确模式:把文本精确切分,不存冗余单词\>>> word1 = jieba.lcut("python无所不能!除了生不出孩子,我们应该学习使用它!")\['python', '无所不能', '!
2024-09-13 16:24:32 1423
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人