Python爬虫学习第二章-7-文件存储与使用requests模块的回顾

最新推荐文章于 2022-04-28 18:08:01 发布

BreezeChasingDrizzle

最新推荐文章于 2022-04-28 18:08:01 发布

阅读量182

点赞数

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/weixin_44032178/article/details/109192362

版权

爬虫专栏收录该内容

19 篇文章 2 订阅

订阅专栏

Python爬虫学习第二章-7-文件存储与使用requests模块的回顾

这一节是文件存储与使用requests模块的回顾

文件保存：

fp = open('./alldata.json','w',encoding='utf-8')
json.dump(all_data_list,fp=fp,ensure_ascii=False)  # 存到json文件中
fp.close()

filename = kw+'.html'
with open(filename,'w',encoding='utf-8') as fp:
	fp.write(page_text)

filename = word+'.json'
fp = open(filename,'w',encoding='utf-8')
json.dump(dic_obj,fp=fp,ensure_ascii=False) #拿到的json串中有中文，而中文不能使用ASCII码进行编码，所以ensure_ascii应该是Fasle
fp.close()

注意如果是保存图片的话，得指定图片的保存的保存地址，如：

img_name = li.xpath('./a/img/@alt')[0]+'.jpg'
#较为通用的处理中文乱码的方案
img_name = img_name.encode('iso-8859-1').decode('gbk')#为了解决标题乱码的问题
#print(img_name,img_src)
#请求图片并进行持久化存储
img_data = requests.get(url=img_src,headers=headers).content #注意图片是二进制数据，得用content属性
img_path = 'Piclibs/'+img_name #定义图片存储的路径

回顾：

模拟浏览器发起请求：指定url——》进行UA伪装——》进行参数处理（有则处理，无责跳过）——》发起请求——》获取数据——》持久性存储

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

BreezeChasingDrizzle

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python爬虫学习（二）--requests模块

ximo的博客

01-02

248

requests模块 1.安装：一、在命令行输入： pip install requests 二、wheel安装：下载对应的wheel文件：链接: https://pypi.python.org/pypi/requests/版本号#downloads 然后在命令行进入wheel文件目录，利用pip进行安装 pip install 文件名 2.基本用法 (1) GET请求方法： import requests r = requests.get(url='',params='' ) print(r.

Python爬虫requests模块学习笔记

AI算法联盟

02-06

321

一、语法requests.get(url,params=None,**kwargs) url:拟获取页面的url链接 params:url中的额外参数，字典或字节流格式，可选 **kwargs:12个控制访问的参数。 import requests r = requests.get("http://www.baidu.com") print(r.status_code) #结果放回是2...

参与评论您还未登录，请先登录后发表或查看评论

Day05 爬虫学习第五天：Scrapy异步爬虫框架，持久化存储方式，数据库连接

NotFound_error的博客

04-19

518

主要学习了Scrapy异步爬虫框架 1.scrapy介绍 - Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。 - 该框架就是一个集成了各种功能(高性能异步下载，队列，分布式，解析，持久化等)的具有强通用性的项目模板。 - Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。 - 对于Scrapy框架学习，重点是要学习Scrapy框架的特性，各个功能的...

python爬取百度图片持久化存储

地中海的博客

10-15

314

import requests import re shuru= input("请输入") print("程序开始") # shuru1= urllib.parse.quote(shuru) headers={"User-Agent":'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'} url="https:

Python爬虫实例（一）

Suuo1的博客

04-28

1533

python爬虫实例

fp32/bfp16数据类型

dong_learning的博客

06-12

7015

1.基础理论在日常中深度学习的系统，一般使用的是单精度 float（Single-Precision）浮点表示。在了解混合精度训练之前，我们需要先对其中的主角半精度『float16』进行一定的理论知识学习。在上图可以看到，与单精度float（32bit，4个字节）相比，半进度float16仅有16bit，2个字节组成。天然的存储空间是float的一半。其中，float16的组成分为了三个部分：最高位表示符号位；有5位表示exponent位; 有10位表示fraction位; 当5

学习笔记 -- Python爬虫 - requests模块(通用爬虫)

Leer_weini的博客

11-21

287

#内容为视频笔记及个人理解,若有错误还望各位大佬指正 requests模块 python中原生的一款基于网络请求的模块, 能够模拟浏览器发出请求。指定 URL 发出请求获取响应数据持久化存储 import requests url = "https://www.sogou.com" # 指定URl response = requests.get(url=url) # 发出请求并接收 get 所返回的响应对象 page_text = response.text .

python爬虫笔记第一章（基于路飞学城课程）

weixin_46501211的博客

03-22

1490

这里写自定义目录标题python爬虫笔记1爬虫的分类和流程功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 python爬虫笔记1 你好！这是我的python爬虫学习笔记。爬虫的分类和流程搜索引擎流程：抓取网页-数据存储-

基于Python对网络爬虫系统的设计与实现.docx

最新发布

10-31

论文的主要内容和结构安排（Chapter 1.4）中，作者规划了接下来的章节：第二章将详细介绍网络爬虫的基础知识，包括爬虫的定义、Python编程语言以及常用的爬虫工具库；第三章将探讨爬虫系统的具体设计，包括需求分析...

基于python的网上购物商品评论爬虫分析设计与实现.docx

10-26

第二章 Python网络爬虫技术综述 2.1 网络爬虫概述：网络爬虫是一种自动化浏览互联网并抓取信息的程序，它模拟人类用户的行为，遍历网页并提取所需数据。 2.2 Python网络爬虫的特点：Python因其丰富的库支持和简洁的...

怎么利用python爬虫爬数据然后导出csv文档_爬虫入门教程⑨— 用html和csv文件保存爬取到的数据...

weixin_36145482的博客

01-13

2423

经过努力，我们终于拿到了数据了。那么下一步就是要将我们获取到的数据保存起来了，这样才能给后续的操作(在网页上展示、数据分析挖掘可视化等等)提供便利。一般我们保存数据可以采用多种可选载体，根据成本、数据用途我们分别采用适合自己的载体保存数据。主要的数据保存方法有写入到文本：txt，csv，excel...保存到数据库：本地的sqlite、MySQL、mongodb...由于保存到数据库的操作需要了解...

11. Python语言的核心编程 · 第十一章 Python语言的面向对象（上）

sinat_38761218的博客

06-07

973

Python的面向对象（上）1. 面向对象简介2. 类(class)3. 类的定义4. 参数self4.1 属性和方法4.2 self 1. 面向对象简介 • Python是一门面向对象的编程语言 • 所谓面向对象的语言，简单理解就是语言中的所有操作都是通过对象来进行的 • 面向过程 • 面向过程指将我们的程序分解为一个一个步骤，通过对每个步骤的抽象来完成程序 • 这种编写方式往往只适用于一个功能...

ARM FP(frame pointer) 栈帧指针寄存器

广阔天地_大有作为的博客

08-21

5917

FP 通常与 SP(stack pointer)堆栈指针易混淆这里讲一下两者的区别与联系 SP：stack pointer 堆栈指针，总是指向栈顶 FP：frame pointer 栈帧指针，每个进程的栈空间为一帧，FP指向当前进程栈空间的栈底。在多进程环境中，每个进程都有自己的栈空间，但所有进程的栈空间都在同一块存储空间，怎么确定各进程的栈呢？这就要看FP和SP，FP指向栈底，...

关联分析——FP-growth算法

热门推荐

Allen的博客

08-12

1万+

使用FP-growth算法来高效发现频繁项集 FP-growth算法基于Apriori构建，但采用了高级的数据结构减少扫描次数，大大加快了算法速度。FP-growth算法只需要对数据库进行两次扫描，而Apriori算法对于每个潜在的频繁项集都会扫描数据集判定给定模式是否频繁，因此FP-growth算法的速度要比Apriori算法快。 FP-growth算法发现频繁项集的基本过程如下：

python爬虫入门【requests库】

HPUZJH

12-19

391

图片下载 import requests image_url = 'http://img.infinitynewtab.com/wallpaper/881.jpg' r = requests.get(image_url) content = r.content with open('image.jpg', 'wb') as f: f.write(content) imp...

【Python】保存Json文件时乱码问题与读取后乱码问题统一解决方法

Ning+

06-02

3723

网上大部分只讲了ensure_ascii=False，如果保存文件需要设置utf-8为文件保存编码； #中文编码 jsondata = json.dumps(jsontext, ensure_ascii=False) #生成文件utf-8 f = open('filename.json', 'w' ,encoding='utf-8')

Python 爬虫总结——案例代码

qq_50909707的博客

02-22

5410

目录 request的基本使用 urllib使用图片爬取获取动态数据 session和cokkie的处理使用xpath解析使用正则解析 BeautifulSoup使用 seleium自动化爬虫其他自动化操作实现无界面自动化处理iframe标签基于selenium的12306用户登录代理的使用验证码解析协程的使用同步爬虫多线程异步爬虫的使用线程池异步协程 aiohttp实现任务异步协程分布式爬虫简单练手项目肯德基破解 ...

FP Tree算法原理总结

weixin_34277853的博客

01-19

3257

　　　　在Apriori算法原理总结中，我们对Apriori算法的原理做了总结。作为一个挖掘频繁项集的算法，Apriori算法需要多次扫描数据，I/O是很大的瓶颈。为了解决这个问题，FP Tree算法（也称FP Growth算法）采用了一些技巧，无论多少数据，只需要扫描两次数据集，因此提高了算法运行的效率。下面我们就对FP Tree算法做一个总结。 1. FP Tree数据结构　　　　为了减少I...

Python爬虫新宠：requests-html详解

安装完成后，就可以在你的Python项目中导入并使用requests_html模块开始爬虫开发了。 requests-html是requests库的一个强大扩展，它将网络请求和HTML解析结合在一起，为Python爬虫开发者提供了更加便捷和强大的工具...