- 博客(16)
- 收藏
- 关注
原创 数据清洗与整理
from pandas import Series,DataFrameimport pandas as pdimport numpy as npdf1.isnull()df1.notnull()df1.isnull().sum()df1.isnull().sum().sum()df1.info() 按照字段统计df1.dropna()df2.iloc[2,:]=np.nan df2[3]=np.nan df2df2.dropna(how=‘all’)10.df2.fillna(.
2020-07-29 09:51:35 207
原创 dataframe创建数组
创建数组import pandas as pdimport numpy as npfrom pandas import Series, DataFramedf = DataFrame(np.random.rand(12).reshape((3,4)),index = [‘one’, ‘two’, ‘three’],columns= list(‘abcd’))print(df)type(df[‘a’])df[[‘a’,‘c’]] # dataframe...
2020-07-29 08:36:39 1266
原创 python打开大文件并分割存储
from matplotlib import font_manager as fm, rcParamsimport matplotlib as pltplt.rcParams[‘font.sans-serif’]=[‘SimHei’] #显示中文标签plt.rcParams[‘axes.unicode_minus’]=False #这两行需要手动设置fp = open(“C:/Users/ay/Desktop/work/test.txt”,“r”,encoding=‘utf-8’)fp.cl.
2020-06-12 17:22:34 373
原创 网络爬虫数据处理
import requestsfrom bs4 import BeautifulSoupimport pandas as pd为解决的问题,循环没起作用data = []wb_data = requests.get('http://www.kugou.com/yy/rank/home/1-8888.html')soup = BeautifulSoup(wb_data.text,'lxml')ranks = soup.select('span.pc_temp_num')titles = .
2020-06-08 09:56:51 358
原创 python链接数据库
https://blog.csdn.net/u010099177/article/details/93220251#首先先添加清华的镜像源conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/con..
2020-06-01 09:39:41 207
原创 python数据读取和存储
open? 用于学习fp = open(‘D:/python-data/text.csv’,‘w’,newline=’’)writer = csv.writer(fp)writer.writerow((‘id’,‘name’,‘grade’))writer.writerow((‘1’,‘lucky’,‘87’))writer.writerow((‘2’,‘peter’,‘92’))writer.writerow((‘3’,‘lili’,‘85’))fp.close()df1=pd.rea.
2020-05-23 20:51:35 210 1
原创 pandas消费实例
【解决sns加载数据报错】sns.load_dataset(“xxx”)报错原文链接:https://blog.csdn.net/weixin_43469680/article/details/105994891出现原因:seaborn-data文件夹里面是空的,可以另外下载该文件夹的内容复制到该文件夹中。https://github.com/mwaskom/seaborn-data下载后放到seaborn-data文件夹tips = sns.load_dataset(‘tips’)tips
2020-05-20 14:39:03 170
原创 pandas 可视化
import numpy as npfrom pandas import Series,DataFrameimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as plt%matplotlib inlinedf = DataFrame({‘normal’:np.random.normal(size=100),‘gamma’:np.random.normal(1,size=100),‘poisson’:np.
2020-05-19 17:32:21 113
原创 pandas算术运算
def f(x):return x.split(‘元’)[0]返回的是数组里面的元素df1[‘price’] = df1[‘price’].map(f)对元素进行处理df2.applymap(lambda x:’%.2f’%x)f = lambda x:x.max()-x.min()df2.apply(f)obj1.sort_index()obj1.sort_index(ascending=False)obj1.sort_values()df.sum(axis=1) 对行进行求和.
2020-05-19 13:01:03 332
原创 python Dataframe
data = {‘name’:[‘张三’,‘李四’,‘王五’,‘小明’],‘sex’:[‘female’,‘female’,‘male’,‘male’],‘year’:[2001,2001,2003,2002],‘city’:[‘北京’,‘上海’,‘广州’,‘北京’] } df=DataFrame(data) df = DataFrame(data,columns=[‘name’,‘city’,‘sex’,‘year’],index =[‘a’,‘b’,‘c’,‘d’])data2 = {‘.
2020-05-18 17:21:04 165
原创 数组运算nunpy
a = [1,2,3]b = []for i in a:b.append(i*10)bnp.minimum(arr1,arr2)np.random.normal()的意思是一个正态分布,normal这里是正态的意思。zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的对象,result = [(x if c else y) for x,y,c in zip(arr1,arr2,cond)]官方手册...
2020-05-10 21:51:33 211
原创 jupyter notebook使用
d:cd d:\python-data\codejupyter notebookfor i in range(5): print(i)文本信息 需要修改markdown
2020-05-06 11:21:54 186
原创 PYTHON安装日志和坑
PYTHON安装1、搜索清华大学开源软件镜像站2、找到最新版本anaconda,下载安装3、python --version4、conda list5、conda install XXX 卸载容易安装难 pip install xxx 可以安装6、conda create --name data-analysis python=3 anaconda 第一个坑 旧的替换新的...
2020-05-06 09:10:29 289
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人