- 博客(38)
- 收藏
- 关注
原创 python爬虫之pandas库——数据清洗
已知在本地桌面有一名为Python开发岗位的csv文件(如果是excel文件可以做简单修改即可,道理是通用的)做法是通过duplicated()查看是否有重复值,如果有则通过电容屏_duplicates()方法进行删除。运行结果如下:(会出现的情况是当缺失值是最后一位时,后方无数据可以用来填充)运行结果如下:(会出现的情况是当缺失值是第一位时,前方无数据可以用来填充)这里要做的是将薪资拆分成最低薪资和最高薪资,并用最低薪资进行排序。首先采用正则表达式将x-x千/月中的千/月利用替换成空值进行删除。
2024-05-24 20:41:31 868
原创 python爬虫之爬虫入门
此时利用r.apparent_encoding获取页面内容编码后将内容方式赋值给encoding后再次查看页面内容时则能正确解读后;所以当使用encoding不能正确解码内容时,我们就使用apparent_encoding。r.encoding是从HTTP头部信息中的charset中获取的,当header中不存在charset时,则认为编码为“ISO-8859-1”r.apparent_encoding则是从网页内容中分析出的编码形式。所以当我们利用r.text查看网页内容时,可看到返回是乱码的。
2024-03-20 15:55:17 914
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人