TooHungfai-CSDN博客

原创 Python处理多个字符串数据求各字符串数量-字典更新法

处理海量数据：本方法多应用于处理爬虫获取的数据或Excel表格数据。问题描述：当我们需要处理海量的字符串数据，且字符串内容各不相同的时候去求他们的数量，就会很繁琐。这里我们用到字典更新的一种小算法来解决这个问题。假设：假设我们有这些数据，[‘火锅’,‘粤菜’,‘湘菜’,‘日料’,‘韩料’,‘粤菜’,‘湘菜’,‘粤菜’,‘湘菜’,‘火锅’]，需要去整合例如‘火锅’这个字符串有多少个，其他的有多少个。当数据少的时候确实觉得无用，但是如果有100万条数据呢，还不单单是上述那些，还有其他菜品没告

2021-06-25 23:17:57 242

原创 Python创建免费Ip代理池，伪装Ip。

Python创建免费Ip代理池主要使用requests第三方库。欸嘿，有了这个，就不用花钱买Ip了，生活小妙招。妙哇。一、具体思路1.利用requests爬取免费代理Ip的网页2.存储列表后，导出依次发送请求到网页3.判定Ip是否合法（就是能不能用的意思）4.合法Ip录入总列表5.遇到封Ip的网页，调用该源码py循环遍历总列表，直到爬完。示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、代码1.引入库import requestsfrom l

2021-03-13 17:31:51 694

原创 Python爬取豆瓣Top250电影可见资料并保存为excel形式

Python爬取豆瓣Top250电影可见资料并保存为excel形式利用requests第三方库实现网页的元素爬取，再使用openpyxl库进行信息的录入。具体思路1.分析网页的headers。2.分析网页的js。3.模拟用户代理进入网页，get请求浏览。4.提取网页的Xpath在python中利用循环遍历将获取资料录入列表。5.使用openpyxl库，循环遍历列表录入信息。headers头的分析与申请浏览在控制台的网络中点击任意绿色条，弹出下列文件，任意点击一个后即可分析请求头。hea

2021-03-11 22:42:22 950 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人