weixin_47585379-CSDN博客

原创数据清洗与整理

from pandas import Series,DataFrameimport pandas as pdimport numpy as npdf1.isnull()df1.notnull()df1.isnull().sum()df1.isnull().sum().sum()df1.info() 按照字段统计df1.dropna()df2.iloc[2,:]=np.nan df2[3]=np.nan df2df2.dropna(how=‘all’)10.df2.fillna(.

2020-07-29 09:51:35 214

原创 dataframe创建数组

创建数组import pandas as pdimport numpy as npfrom pandas import Series, DataFramedf = DataFrame(np.random.rand(12).reshape((3,4)),index = [‘one’, ‘two’, ‘three’],columns= list(‘abcd’))print(df)type(df[‘a’])df[[‘a’,‘c’]] # dataframe...

2020-07-29 08:36:39 1282

原创 python打开大文件并分割存储

from matplotlib import font_manager as fm, rcParamsimport matplotlib as pltplt.rcParams[‘font.sans-serif’]=[‘SimHei’] #显示中文标签plt.rcParams[‘axes.unicode_minus’]=False #这两行需要手动设置fp = open(“C:/Users/ay/Desktop/work/test.txt”,“r”,encoding=‘utf-8’)fp.cl.

2020-06-12 17:22:34 380

原创网络爬虫数据处理

import requestsfrom bs4 import BeautifulSoupimport pandas as pd为解决的问题，循环没起作用data = []wb_data = requests.get('http://www.kugou.com/yy/rank/home/1-8888.html')soup = BeautifulSoup(wb_data.text,'lxml')ranks = soup.select('span.pc_temp_num')titles = .

2020-06-08 09:56:51 367

原创 python链接数据库

https://blog.csdn.net/u010099177/article/details/93220251#首先先添加清华的镜像源conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/con..

2020-06-01 09:39:41 222

原创 python数据读取和存储

open? 用于学习fp = open(‘D:/python-data/text.csv’,‘w’,newline=’’)writer = csv.writer(fp)writer.writerow((‘id’,‘name’,‘grade’))writer.writerow((‘1’,‘lucky’,‘87’))writer.writerow((‘2’,‘peter’,‘92’))writer.writerow((‘3’,‘lili’,‘85’))fp.close()df1=pd.rea.

2020-05-23 20:51:35 218 1

原创 pandas消费实例

【解决sns加载数据报错】sns.load_dataset(“xxx”)报错原文链接：https://blog.csdn.net/weixin_43469680/article/details/105994891出现原因：seaborn-data文件夹里面是空的，可以另外下载该文件夹的内容复制到该文件夹中。https://github.com/mwaskom/seaborn-data下载后放到seaborn-data文件夹tips = sns.load_dataset(‘tips’)tips

2020-05-20 14:39:03 182

原创 pandas 可视化

import numpy as npfrom pandas import Series,DataFrameimport pandas as pdimport matplotlib as mplimport matplotlib.pyplot as plt%matplotlib inlinedf = DataFrame({‘normal’:np.random.normal(size=100),‘gamma’:np.random.normal(1,size=100),‘poisson’:np.

2020-05-19 17:32:21 118

原创 pandas算术运算

def f(x):return x.split(‘元’)[0]返回的是数组里面的元素df1[‘price’] = df1[‘price’].map(f)对元素进行处理df2.applymap(lambda x:’%.2f’%x)f = lambda x:x.max()-x.min()df2.apply(f)obj1.sort_index()obj1.sort_index(ascending=False)obj1.sort_values()df.sum(axis=1) 对行进行求和.

2020-05-19 13:01:03 346

原创 python Dataframe

data = {‘name’:[‘张三’,‘李四’,‘王五’,‘小明’],‘sex’:[‘female’,‘female’,‘male’,‘male’],‘year’:[2001,2001,2003,2002],‘city’:[‘北京’,‘上海’,‘广州’,‘北京’] } df=DataFrame(data) df = DataFrame(data,columns=[‘name’,‘city’,‘sex’,‘year’],index =[‘a’,‘b’,‘c’,‘d’])data2 = {‘.

2020-05-18 17:21:04 178

原创数组运算nunpy

a = [1,2,3]b = []for i in a:b.append(i*10)bnp.minimum(arr1,arr2)np.random.normal()的意思是一个正态分布，normal这里是正态的意思。zip() 函数用于将可迭代的对象作为参数，将对象中对应的元素打包成一个个元组，然后返回由这些元组组成的对象，result = [(x if c else y) for x,y,c in zip(arr1,arr2,cond)]官方手册...

2020-05-10 21:51:33 221

原创数组索引的坑

python的True False其实就是数值1和0

2020-05-09 08:46:37 244

原创 python数组操作比较难理解

python多维数组的理解

2020-05-07 21:34:35 139

原创 numpy学习与坑

numpy 用于科学计算的开源python库基础包高性能数组与矩阵计算处理能力创建切片索引方法运算存取图像变换

2020-05-07 09:31:12 109

原创 jupyter notebook使用

d:cd d:\python-data\codejupyter notebookfor i in range(5): print(i)文本信息需要修改markdown

2020-05-06 11:21:54 194

原创 PYTHON安装日志和坑

PYTHON安装1、搜索清华大学开源软件镜像站2、找到最新版本anaconda，下载安装3、python --version4、conda list5、conda install XXX 卸载容易安装难 pip install xxx 可以安装6、conda create --name data-analysis python=3 anaconda 第一个坑旧的替换新的...

2020-05-06 09:10:29 300

weixin_47585379的博客