- 博客(4)
- 收藏
- 关注
原创 Python数据处理函数(DatFrame)篇
由于某些数据处理的函数偶尔忘记使用方式以及参数,于此记录一下。几个比较常用的功能去重拼接索引显示缺失值替换去重最常用的不过是 drop_duplicates() 了,参数:subset:列标签,可选keep:first、last、False,默认为firstinplace:默认为False#直接对数据data进行去重处理:data.drop_duplicates(inplace = True)#对数据data的column1、column2进行去重处理:data.drop_duplic
2020-12-10 18:33:33 1096
原创 python关于Error tokenizing data. C error: Expected 10 fields in line 30, saw 31可能出现的问题
今天使用pd.read_csv()出现了错误pd.read_csv(file.txt,encoding='utf-8',header=None,sep='Σ')Error tokenizing data. C error: Expected 10 fields in line 30, saw 31按照其意思是,数据第十行列数原本是30的,现在出现了31;但我在原数据中认真对比了一些,发现列数并没有发生变化。于是我提取了数据的前九行pd.read_csv(file.txt,nrows = 9,enc
2020-11-30 17:45:20 3206
原创 实习杂记(一)
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、python相关模块1.OS2.数据处理方面二、crontab总结前言刚开始实习大概一个月,打算记录一下平时在学校用不到但是在公司比较频繁使用的东西提示:以下是本篇文章正文内容,下面案例可供参考一、python相关模块1.OS查看当前路径import osos.getcwd()查看当前路径下的文件os.listdir()#在查看某文件是否存在在路径可这样for f_name in os.listd
2020-10-17 02:34:00 262 2
转载 关于树的一些推导和笔记
1. 最基本的三种树模型ID3决策树模型信息熵 对集合D中第k类样本所占比例p(k=1,2,…m)有:Ent(D)=−∑k=1mpklog2pkEnt(D)=-\sum_{k=1}^mp_klog_2p_kEnt(D)=−∑k=1mpklog2pk信息熵最低则D的纯度越高。信息增益:Gain(D,a)=Ent(D)−∑v=1V∣Dv∣∣D∣Ent(Dv)Gain(D,a)=Ent(D)-\sum_{v=1}^V\frac{|D^v|}{|D|}Ent(D^v)Gain(D,a)=Ent(
2020-08-14 23:07:31 222
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人