关于爬虫的流程和原理

最新推荐文章于 2024-07-18 15:53:23 发布

PopDemo

最新推荐文章于 2024-07-18 15:53:23 发布

阅读量85

点赞数

文章标签： python java 大数据 json linux

本文链接：https://blog.csdn.net/weixin_45081087/article/details/109284070

版权

一．爬取数据流程(Reptile)

1.在网页中找到类似于url=’http://www.7799520.com/api/user/pc/list/search?marry=1&page=9'

这种的网站会给我们返回一个类似于元组的数据来进行

2.requests.get(“地址”) 这个后的get是通过你当前网页的提交方式来进行决定
3.通过“键”找到对应的值来获取到自己想要的数据
4.你拿到的值是“字典“格式，所以当你在放入文档时必须要转换为集合的格式

item = [

       dat.get('userid'),

       dat.get('province'),

       dat.get('city'),

       dat.get('height'),

       dat.get('username'),

       dat.get('monolog'),

         ]

4-1：使用更快捷更ok 的方法

//这里的*也可以称之为解包，也就是去除 [ ] 这个外壳来获取到值

Item = [*dat.value]

save_test = (Str(item))//转换为Str格式，之后进入传入文档

二．将爬取的数据放置在文档内

1.通过函数的方式进行获取到值，

defsave_test(dat):

然后with也就是操作系统文档，然后不使用时，自动close
with
open(‘DemoByJson.test’,’a’,encoding=’utf-8’) as f:
f.write(dat+”\n”)

2 ．最重要的“点”

if  __name__ == '__main__':

   jsondata = getJson()

   param(jsondata)

你不是使用这个判定系统不会进入你的函数内

If  __name__ == '__main__':

这里的意思是：

当你当前这个py文件进行编译时，也就是当前的name已经改编为main，也就是你当前这个文件编译中！！！！

PopDemo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
关于爬虫的流程和原理

一．爬取数据流程(Reptile)1.在网页中找到类似于url=’http://www.7799520.com/api/user/pc/list/search?marry=1&page=9' 这种的网站会给我们返回一个类似于元组的数据来进行2.requests.get(“地址”) 这个后的get是通过你当前网页的提交方式来进行决定3.通过“键”找到对应的值来获取...
复制链接

扫一扫