- 博客(13)
- 收藏
- 关注
原创 爬虫之数据解析
案例:抓取微博图片,url:http://blog.sina.com.cn/lm/pic/,将页面中某一组系列详情页的图片进行抓取保存,比如三里屯时尚女郎:http://blog.sina.com.cn/s/blog_01ebcb8a0102zi2o.html?1.在解析图片地址的时候,定位src的属性值,返回的内容和开发工具Element中看到的不一样,通过network查看网页源码发现需要解析real_src的值。概念:可以将爬取到的数据中的指定想要的数据进行单独提取。作用:可以实现聚焦爬虫。
2023-10-30 20:59:05
1264
1
原创 requests基础
什么是爬虫就是通过编写程序,“模拟”浏览器上网,然后让其在互联网中“抓取”数据的过程。还没有一个共同定义的概念模拟:浏览器本身就是一个纯天然的爬虫工具。爬虫相关的操作都是模拟/基于浏览器为基础开发实现出来的。抓取:一种是抓取一张页面中所有的数据一种是抓取页面中局部的数据提问:如果日后你的爬虫程序没有爬取到你想要的数据,why?你的程序模拟浏览器的力度不够!爬虫在应用场景的分类通用爬虫:将一整张页面源码数据进行爬取。聚焦爬虫:将一张页面中局部/指定的数据进行抓取。
2023-10-30 20:34:53
656
1
原创 前端知识之Web和HTML
HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于服务器与本地浏览器之间传输超文本的传送协议。超文本:超文本就是指“含有指向其他资源链接”内容的文本。大概就是,不仅仅是文字,还有多媒体:视频、图片、动画等。协议:HTTP协议就是服务器(Server)和客户端(Client)之间进行数据交互(相互传输数据)的一种形式。我们可以将Server和Client进行拟人化,那么该协议就是Server和Client这两兄弟间指定的一种交互沟通方式。
2023-10-30 19:01:06
176
1
原创 包和常见模块
函数——>工具;模块——>工具箱;包——>工具库。在工具箱里放到是类似的工具,工具库里放着各种工具箱。函数和模块的关系:模块是用来管理函数的。模块和包的关系:包是用来管理模块的。如何制作模块?如何创建包?函数的本质:是可以调用的内置或自定义的程序;模块的本质:是py文件;包的本质是:文件夹。在计算机程序的开发过程中,随着程序代码越写越多,在一个文件里代码就会越来越长,越来越不容易维护。
2023-10-30 17:06:12
47
1
原创 文件操作及练习
write()动作可以多次重复进行,其实都是在内存中的操作,并不会立刻写回硬盘,直到执行close()方法后,才会将所有的写入操作反映到硬盘上。使用open()方法操作文件就像把大象塞进冰箱一样,可以分三步走,一是打开文件,二是操作文件,三是关闭文件。这种方法,通常是读一行,处理一行,并且不能回头,只能前进,读过的行不能再读了。如果文件存在则报错,如果不存在就新建文件,然后写入内容,比w模式更安全,不会清空已经存在的文件的内容。fp.read() # 调用读取操作的方法,对打开的文件进行读取操作。
2023-10-30 13:51:40
53
1
原创 函数及其参数
前面在讲解Python数据类型的时候,我们已经接触过函数了。我们说,所谓的函数其实就是Python语言中的一种工具,基于该工具可以完成不同的具体操作。案例:当你在野外露营的时候,如果想生火,如果你身上恰好带了打火机,则可以直接使用该工具自行完成生火操作,否则,你也可以自己利用现有环境下的资源自行制作取火工具。
2023-10-30 11:03:31
35
1
转载 如何使用Markdown编辑器
你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:撤销:Ctrl/Command + Z重做:Ctrl/Command + Y加粗:Ctrl/Command + B斜体:Ctrl/Command + I标题:Ctrl/Command + S
2023-10-30 10:17:02
31
1
原创 重要数据类型
还是有用的,有些数据一旦创建之后就不允许修改了,这些数据就适合用元组来创建,比如主机地址和端口(ip,port),("192.168.1.1", 80),两者捆绑在一起,不允许修改。Python的字典数据类型是基于hash散列算法实现的,采用键值对(key:value)的形式,根据key的值计算value的地址,具有非常快的查取和插入速度。在学完列表后,在使用元素我们会发现元组由于是一个不可变序列,则很多操作会受到限制,这不能,那不能,要你何用,我直接用列表不行吗?元组可以看作是不可变的列表。
2023-10-29 21:49:51
23
原创 基本数据类型
但是对于很大或很小的浮点数,一般用科学计数法表示,把10用e替代,1.23x10^9就是1.23e9,或者12.3e8,0.000012可以写成1.2e-5,等等。数字类型是不可变类型。对于数学计算,除了前面提到过的简单的加减乘除等等,更多的科学计算需要导入math这个库,它包含了绝大多数我们可能需要的科学计算函数,如下表。字符串属于序列类型,所谓序列,指的是一块可存放多个值的连续内存空间,这些值按一定顺序排列,可通过每个值所在位置的编号(称为索引)访问它们。例如:1,100,-8080,0,等等。
2023-10-29 19:22:57
42
原创 extend和append的异同
extend()和append()是Python列表对象的两种方法,用于在列表中添加元素。它们之间的主要区别在于添加元素的方式和结果。
2023-10-29 18:11:41
223
原创 PyCharm中配置Python解释器
终端系统中查看到已安装的库(模块),在pycharm中导入的时候却报错,显示没有这个模块。原因是在pycharm中配置解释器的时候,是有两个选项的。电脑搜索-cmd-pip list-回车。pycharm终端输入:pip list-回车。在终端操作安装的所有的第三方库,都在本地环境(本地解释器)里。新建python环境时,在pycharm中配置解释器时有两个选项。在pycharm中新建项目-Python解释器-*使用此工具新建环境(New environment using)*
2023-09-17 23:44:59
8832
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人