python
文章平均质量分 92
天*天
这个作者很懒,什么都没留下…
展开
-
requests高级
cookie的本质就是一组数据(键值对的形式存在)原创 2023-10-30 21:29:32 · 1067 阅读 · 1 评论 -
爬虫之数据解析
案例:抓取微博图片,url:http://blog.sina.com.cn/lm/pic/,将页面中某一组系列详情页的图片进行抓取保存,比如三里屯时尚女郎:http://blog.sina.com.cn/s/blog_01ebcb8a0102zi2o.html?1.在解析图片地址的时候,定位src的属性值,返回的内容和开发工具Element中看到的不一样,通过network查看网页源码发现需要解析real_src的值。概念:可以将爬取到的数据中的指定想要的数据进行单独提取。作用:可以实现聚焦爬虫。原创 2023-10-30 20:59:05 · 1270 阅读 · 1 评论 -
requests基础
什么是爬虫就是通过编写程序,“模拟”浏览器上网,然后让其在互联网中“抓取”数据的过程。还没有一个共同定义的概念模拟:浏览器本身就是一个纯天然的爬虫工具。爬虫相关的操作都是模拟/基于浏览器为基础开发实现出来的。抓取:一种是抓取一张页面中所有的数据一种是抓取页面中局部的数据提问:如果日后你的爬虫程序没有爬取到你想要的数据,why?你的程序模拟浏览器的力度不够!爬虫在应用场景的分类通用爬虫:将一整张页面源码数据进行爬取。聚焦爬虫:将一张页面中局部/指定的数据进行抓取。原创 2023-10-30 20:34:53 · 667 阅读 · 1 评论 -
包和常见模块
函数——>工具;模块——>工具箱;包——>工具库。在工具箱里放到是类似的工具,工具库里放着各种工具箱。函数和模块的关系:模块是用来管理函数的。模块和包的关系:包是用来管理模块的。如何制作模块?如何创建包?函数的本质:是可以调用的内置或自定义的程序;模块的本质:是py文件;包的本质是:文件夹。在计算机程序的开发过程中,随着程序代码越写越多,在一个文件里代码就会越来越长,越来越不容易维护。原创 2023-10-30 17:06:12 · 57 阅读 · 1 评论 -
流程控制语句
顺序结构的程序虽然能解决计算、输出等问题,但不能做判断再选择。对于要先做判断再选择的问题就要使用分支结构。原创 2023-10-29 23:17:03 · 58 阅读 · 1 评论