自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 Python处理多个字符串数据求各字符串数量-字典更新法

处理海量数据:本方法多应用于处理爬虫获取的数据或Excel表格数据。问题描述:当我们需要处理海量的字符串数据,且字符串内容各不相同的时候去求他们的数量,就会很繁琐。这里我们用到字典更新的一种小算法来解决这个问题。 假设:假设我们有这些数据,[‘火锅’,‘粤菜’,‘湘菜’,‘日料’,‘韩料’,‘粤菜’,‘湘菜’,‘粤菜’,‘湘菜’,‘火锅’],需要去整合例如‘火锅’这个字符串有多少个,其他的有多少个。当数据少的时候确实觉得无用,但是如果有100万条数据呢,还不单单是上述那些,还有其他菜品没告

2021-06-25 23:17:57 242

原创 Python创建免费Ip代理池,伪装Ip。

Python创建免费Ip代理池主要使用requests第三方库。欸嘿,有了这个,就不用花钱买Ip了,生活小妙招。妙哇。一、具体思路1.利用requests爬取免费代理Ip的网页2.存储列表后,导出依次发送请求到网页3.判定Ip是否合法(就是能不能用的意思)4.合法Ip录入总列表5.遇到封Ip的网页,调用该源码py循环遍历总列表,直到爬完。示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、代码1.引入库import requestsfrom l

2021-03-13 17:31:51 694

原创 Python爬取豆瓣Top250电影可见资料并保存为excel形式

Python爬取豆瓣Top250电影可见资料并保存为excel形式利用requests第三方库实现网页的元素爬取,再使用openpyxl库进行信息的录入。具体思路1.分析网页的headers。2.分析网页的js。3.模拟用户代理进入网页,get请求浏览。4.提取网页的Xpath在python中利用循环遍历将获取资料录入列表。5.使用openpyxl库,循环遍历列表录入信息。headers头的分析与申请浏览在控制台的网络中点击任意绿色条,弹出下列文件,任意点击一个后即可分析请求头。hea

2021-03-11 22:42:22 950 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除