pandas
文章平均质量分 52
import pandas as pd
麻辣清汤
CDA数据分析师行业认证,深耕数分行业,希望初入数分的同学少走弯路,有任何问题可marshal_wz
展开
-
Python爬虫的基本概念和工作原理
简单了解一下Python爬虫的基本概念和工作原理。Python爬虫是一种自动化抓取互联网信息的程序。它通过网络请求模拟用户操作,将获取到的网页数据解析并提取所需要的信息。爬虫可以帮助我们高效地获取海量数据,并进行相应的分析和处理。1、发送请求 2、解析网页 3、数据处理总结前言Python爬虫的基本工作流程如下:1、发送请求2、解析网页3、数据处理现在让我们来具体了解一下Python爬虫的基本技术点。原创 2024-04-19 15:32:50 · 336 阅读 · 0 评论 -
Jupyter Notebook主题皮肤库
jupyter美化主题 最详细设置 jupyterthemes原创 2023-05-15 16:06:32 · 875 阅读 · 0 评论 -
利用pandas 读取pdf中的表格文件
利用pandas 读取pdf 中的指定表格文件实例pdf文件中的表格了解表格所在pdf具体页数(第四页)加载所需要的库pip install pdfplumberpip install pandas import pdfplumberimport pandas as pd with pdfplumber.open("文化软实力与中国对外抗疫援助_余伟斌.pdf") as pdf: page = pdf.pages[3] # 按照列表的规则,第四页 tab原创 2022-05-13 13:48:42 · 1503 阅读 · 0 评论 -
利用pandas.read_html()直接读取网页中的表格数据
利用pandas.read_html()直接读取网页中的表格数据read_html() 函数是最简单的爬虫,可以爬取静态网页表格数据。但只适合于爬取 table 表格型数据首先分析pandas.read_html() 函数的参数import pandas as pddf=pd.read_html()# 常用的参数io:url、html文本、本地文件等header:标题行flavor:解析器skiprows:跳过的行attrs:属性,例如:attrs = {'id':'table'}原创 2022-05-12 11:12:29 · 4238 阅读 · 0 评论 -
pandas导入excel文件内容不一致的问题
当excel文件里面含有多个表时,用pandas导入会出现生成的dateframe表不一样。错误import pandas as pddf=pd.read_xlsx('文件名.xlsx')整体代码pd.read_excel(path, sheet_name=0, header=0, names=None, index_col=None, usecols=None, squeeze=False,dtype=None, engine=None,原创 2022-05-01 15:10:31 · 1588 阅读 · 1 评论 -
dataframe数据处理(字符串截取)
dataframe数据处理(字符串截取)要求:获取该工资的范围的最高工资和最低工资 df.salary.apply(lambda x:x.split('-')[0])对salary 列 执行函数 每行都以‘-’为分割符选取前面字符df.salary.apply(lambda x:x.split('-')[1][:-1])对salary 列 执行函数 每行都以‘-’为分割符选取后面字符...原创 2022-04-16 11:50:13 · 7317 阅读 · 0 评论 -
利用python库 pandas完成数据分析(持续更新中~)
利用python库 pandas完成数据分析导读Pandas是一个强大的分析结构化数据的工具集,它的使用基础是Numpy(提供高性能的矩阵运算),用于数据挖掘和数据分析,同时也提供数据清洗功能。本文收集了Python数据分析库Pandas及相关工具的日常使用方法,备查,持续更新中。缩写说明df:任意的 Pandas DateFrame 对象s: 任意的Pandas Series对象注: 有些属性方法df和s都可以使用。推荐资源:pandas在线教程https://www.gai原创 2022-04-16 11:26:44 · 3586 阅读 · 0 评论