自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(93)
  • 资源 (3)
  • 收藏
  • 关注

原创 Windows系统安装Tensorflow,出现mportError: DLL load failed: 动态链接库(DLL)初始化例程失败

看见网上有很多说用anaconda安装tensorflow, 其实并没有这么复杂,直接安装即可。环境版本:python: 3.6.5tensorflow: 1.5.0如果直接使用下面的命令行安装会非常慢,而且经常time out,根本就下不下来。因为这是从国外的服务器上下载文件。python -m pip install tensorflow使用清华镜像就可以快速的下载文...

2020-03-16 11:48:29 949 3

原创 Python在Dataframe中新添加一列

在敲代码的过程中,老是会遇到在Dataframe中新添加一列的情况,每次都要重新google,这次做个记录。其实在Dataframe中新添加一列很简单,直接指明列名,然后赋值就可以了。import pandas as pddata = pd.DataFrame(columns=['a','b'], data=[[1,2],[3,4]])data>>> dat...

2019-08-13 16:31:25 98898

原创 DataFrame计算corr()函数计算相关系数时,出现返回值为空或NaN的情况

1. 返回值为空的情况出现返回值为空的情况是因为数据的类型不是数值型。用data.info()函数可以查看dataframe的信息。这里举个例子:###创建一个dataframe,数据类型为objectdata = pd.DataFrame([[1,2,3],[4,5,6]],columns=['a','b','c'],dtype=object)dataOut[23]: ...

2018-09-15 00:01:48 16561 6

原创 风控模型稳定性指标PSI

群体稳定性指标是衡量样本变化所产生的偏移量的一种重要指标,通常用来衡量样本的稳定程度,比如样本在两个月份之间的变化是否稳定。也可以用来衡量模型稳定度。通常用作模型效果监测。由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的样本,可以用稳定性测试。PSI可以衡量测试样本及模型开发样本评分的分布差异,为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有显著变化

2020-10-12 18:33:19 155

原创 如何修改聚合后的数据的index

>>> data.groupby(['name']).agg(age_sum = ('age','sum'),age_mean=('age','mean')).reset_index() name age_sum age_mean0 x 70 35.01 y 93 46.52 z 30 30.0

2020-09-04 20:15:42 84

原创 DataFrame groupby+agg出现SpecificationError: nested renamer is not supported的错误

这个应该是pandas的版本问题,我的是v1.0.5>>> import pandas as pd>>> data=pd.DataFrame({'name':['x','y','x','y','z'],'sex':['f','m','f','f','m'],'age':[25,26,45,67,30]})>>> data name sex age0 x f 251 y m 262 x f .

2020-09-04 19:58:57 415

原创 给大家推荐一门免费的Spark课程

到底

2020-08-07 16:31:06 49

原创 在终端里启动Tensorboard的详细步骤

1.需要在代码中插入一段将信息写入graph的代码以下面这段代码为例import tensorflow as tf#重新设置默认的graph,否则之前的所有的graph会在一张图中tf.reset_default_graph()logdir = '/Users/zhangxin/Documents/tb1'#这里为我在桌面上新建的文件夹的路径a = tf.constant(2, name = 'a')b = tf.constant(3, name = 'b')sum_out = t

2020-06-25 18:55:33 429

原创 推荐两个免费学习Tensorflow的网站

该网站的教程从入门到深入,也会有代码片段http://c.biancheng.net/view/1914.html

2020-06-04 23:32:47 190

原创 【Python】处理时间数据格式出现time data does not match format valueError

ValueError: time data '19970004' does not match format '%Y%m%d' (match)

2020-06-04 11:41:39 5654 4

原创 给大家推荐一个免费的Tableau数据分析入门教程

讲课的是个小姐姐,课程讲的很详细也有实操演示https://study.163.com/course/courseMain.htm?courseId=1209019803

2020-06-01 18:21:47 558

原创 【Python】对DataFrame空值进行统计

现实中的数据,总是不理想的,比如说数据中有的列会存在缺失值。缺失值太多的样本本身没有太多的信息,对训练模型就没有作用。同时,缺失值会影响模型,特别是使用度量相关的模型。如KNN和SVM。### 统计数据每列的缺失数量ListData.isnull().sum()Out[11]: id 0name 1host_id

2020-05-29 17:14:06 1332

转载 回归模型三种损失函数

无论在机器学习还是深度领域中,损失函数都是一个非常重要的知识点。损失函数(Loss Function)是用来估量模型的预测值 f(x) 与真实值 y 的不一致程度。我们的目标就是最小化损失函数,让 f(x) 与 y 尽量接近。通常可以使用梯度下降算法寻找函数最小值。损失函数有许多不同的类型,没有哪种损失函数适合所有的问题,需根据具体模型和问题进行选择。一般来说,损失函数大致可以分成两类:回归(Regression)和分类(Classification)。今天,红色石头将要总结回归问题中常用的 3 .

2020-05-20 19:05:34 1265

转载 回归问题评估模型的三个指标

我们通常都会训练多个模型,可以通过下面几个方法来评估模型的好坏

2020-05-06 17:55:22 553

翻译 【Python】Dataframe删除空值

上一篇文件讲了如何判断Datafram里面的空值,这一篇我们聊一下如何删除Dataframe中的空值。

2020-03-27 20:50:23 5522

原创 给大家推荐一门浙江大学的免费数据结构公开课

数据结构https://www.icourse163.org/course/ZJU-93001

2020-03-20 16:17:09 215 3

原创 【Python】如何读取文件夹下的所有文件

有时候需要处理一个文件夹下面所有的文件,一个个的将文件的名字复制粘贴到代码里太麻烦了,我们可以一次性读取文件夹里面所有的文件。import ospath = '/Users/zhangxin/Desktop/文件夹/'files = os.listdir(path)i = 0for file in files: try: used_name ...

2020-03-18 22:41:30 793 2

原创 zip函数在【Python2】和【Python3】中的区别

从python2到python3,zip函数的使用发生了很大的变化。在python2中,zip函数返回的是一个list,可以直接使用list相关的函数,比如,len(), 索引。zip2 = zip([1,2,3],[4,5,6])print zip2print len(zip2)print zip2[0][(1, 4), (2, 5), (3, 6)]3(1, 4)...

2020-03-04 16:08:51 193

原创 【Python】将字符串转为list

之前经常使用[]将其他格式的字段转为list,后面发现不太对。下面举例说明list()方法和直接使用[]的区别:>>> s = '233'>>> list(s)['2', '3', '3']>>> [s]['233']直接使用[]只是把整个字符串变为list,而使用list()方法是将字符串拆分为单个字符, 并存为list类型...

2020-02-10 23:26:39 840

转载 pandas.read_csv() 报错 OSError: Initializing from file failed,报错原因分析和解决方法

Python版本:Python 3.6pandas.read_csv() 报错 OSError: Initializing from file failed,一般由两种情况引起:一种是函数参数为路径而非文件名称,另一种是函数参数带有中文。亲测有效,解决了我的问题!!# -*- coding: utf-8 -*-"""Created on Mon Jun 4 09:44:36 2018...

2020-01-09 12:38:30 98

原创 KS曲线和ROC曲线(二)

上一篇文章我们说了KS曲线和ROC曲线的理论知识,这篇文章我们来实际操作一下。import pandas as pdfrom sklearn.metrics import roc_curveimport matplotlib.pyplot as plt### 构造数据data = [[1,1,0,1,0,0],[0.9,0.8,0.5,0.6,0.2,0.6]]### 转化喂da...

2019-12-25 15:02:38 363 1

原创 【Python】pass,continue和break的区别

又是一个表明我基础不扎实的点,上一个是【Python】重新认识or运算pass经常作为代码里面的占位符,不知道写啥时就可以写个pass放在哪儿,后面再写。我们可以看到下面一段代码,pass后面的代码还是会继续执行,也就是当前的循环还在继续。ls = [0,1]for i in ls: if i == 0: pass print(i)01con...

2019-12-20 18:20:48 470

原创 【Python】pandas 读取excel文件报错UnicodeDecodeError: 'utf-16-le' codec can't decode bytes in position 60-61

今天在用pandas读取同事传过来的excel时,出现了UnicodeDecodeError: 'utf-16-le' codec can't decode bytes in position 60-61: unexpected end of data的问题。找了一圈儿是因为同事传过来的excel后缀名是xls,新建一个xlsx的excel然后将内容复制进去就可以了。直接对原来的xls文档另存...

2019-12-16 16:36:23 1966 3

原创 【Python】将Dataframe转化为字典(dict)

【Python】将字典转化为Dataframe有时候我们需要Dataframe中的一列作为key,另一列作为key对应的value。比如说在已知词频画词云的时候,这个时候需要传入的数据类型是词典。import pandas as pddata = pd.DataFrame([['a',1],['b',2]], columns=['key','value'])dict1 = dic...

2019-12-11 10:24:03 3491 1

原创 【Python】深拷贝和浅拷贝

浅拷贝简单赋值其实也是一种浅拷贝。通过下面的例子我们可以看到,即使提前将ls的值赋给了ls1,后面对ls进行排序时,ls1的值也排序了。>>> ls = [1,3,2]>>> ls1=ls>>> ls1[1, 3, 2]>>> ls.sort()>>> ls[1, 2, 3]>&...

2019-11-29 15:18:29 47

原创 【Python】重新认识or运算

今天在刷leetcode的时候,看别人的代码时,认识了一个新的or运算(还是基础不扎实[捂脸])之前认识的or运算我之前认为的or运算是,只有两个值都是false的时候,输出的结果才是false'False' or 'False'Out[43]: 'False'0 or 0Out[40]: 0之后认识的or运算当两个值中有一个值为非零时,就返回第一个非零的值。这种...

2019-11-25 18:20:07 63

原创 【Python】生成全0矩阵的方法

1. 使用numpy生成0矩阵(1). np.zeros((行数,列数))import numpy as np### 生成一个两行,三列的矩阵np.zeros((2,3))Out[2]: array([[0., 0., 0.], [0., 0., 0.]])(2). np.full((行数,列数), 填充的数值)。这种方法相对于第一种方法更加的通用,可以指定填...

2019-11-25 17:22:25 5803

原创 【Python】【DataFrame】判断空值出现TypeError的错误

一直用的是numpy的np.isnan()来判断,结果今天用的时候就爆了下面的错误TypeError: ufunc 'isnan' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule '...

2019-11-14 15:38:06 485

原创 【Python】【DataFrame】TypeError: argument of type 'float' is not iterable

有时候在迭代Dataframe的时候会出来一个TypeError,感觉真的是莫名奇妙。比如针对下面这个数据,想把duration里面的字符’s‘去掉,运用下面的代码就报错了。tempDataOut[12]: duration likes0 2.3 891 3s 67tempData.duration = tempData.durati...

2019-11-14 15:29:55 4817

原创 【Excel】数据透视表—简单数据分析实例

【Excel】数据透视表—数据透视表布局【Excel】数据透视表—标签合并居中【Excel】数据透视表—新增一列(字段)【Excel】数据透视表—按年、季度、月份汇总报表数据透视表可以帮助我们快速的做一些统计方面的数据分析,也是很方便的。下面给出了五个简单的分析实例:1. 统计各部门人数占总人数的百分比。主要就是修改生成的数据透视表的【值显示方式】,就不需要我们自己用公式去计算...

2019-10-24 11:48:14 3236

原创 【Excel】数据透视表—按年、季度、月份汇总报表

【Excel】数据透视表—数据透视表布局【Excel】数据透视表—标签合并居中【Excel】数据透视表—新增一列(字段)【Excel】数据透视表—简单数据分析实例直接举个例子,我们对下面的数据透视表进行操作: ...

2019-10-22 15:50:13 5444

原创 【Excel】数据透视表—新增一列(字段)

【Excel】数据透视表—数据透视表布局【Excel】数据透视表—标签合并居中【Excel】数据透视表—按年、季度、月份汇总报表【Excel】数据透视表—简单数据分析实例在生成了数据透视表后,有时候需要自己通过计算添加新的列,举个?我们要在下面已经生成好的数据透视表中,添加一列提成: ...

2019-10-22 10:50:49 7839

原创 【Excel】数据透视表—去掉列的值汇总依据(求和项:、计数项:等)

【Excel】数据透视表—数据透视表布局【Excel】数据透视表—标签合并居中【Excel】数据透视表—新增一列(字段)【Excel】数据透视表—按年、季度、月份汇总报表【Excel】数据透视表—简单数据分析实例数据透视表的功能就是汇总分析,但是在列名中会出现值汇总的依据。比如:求和项,计数项,平均值项等 ...

2019-10-18 18:06:11 6295

原创 【Excel】数据透视表—数据透视表布局(显示)

【Excel】数据透视表—标签合并居中【Excel】数据透视表—新增一列(字段)【Excel】数据透视表—按年、季度、月份汇总报表【Excel】数据透视表—简单数据分析实例我们刚刚生成的一个数据透视表通常是这样的,个人感觉看着不是很方便。其实,Excel对数据透视表提供了三种报表布局让我们选择。选中数据透视表——点击【设计】——点击【报表布局】,然后就可以看见下面这三种样式:...

2019-10-18 17:00:58 1304

原创 【Excel】数据透视表—标签合并居中

【Excel】数据透视表—数据透视表布局【Excel】数据透视表—新增一列(字段)【Excel】数据透视表—按年、季度、月份汇总报表【Excel】数据透视表—简单数据分析实例​​​​​​​做数据透视表的时候,为了让表格更加的美观会将多行共有的标签进行居中合并。我们来举个?:下面是已经做好的数据透视表,我们可以看到地区这一列是多行共有的,可以做一下合并居中 ...

2019-10-18 15:48:37 1268

原创 【Python】【 DataFrame】判断某一列的值是否包含另一列的值

在操作DataFrame的时候偶尔会需要判断同一个DataFrame中的一列是否包含另一列的元素,首先想到的就是用 in 和 not in,可是直接使用会报错:import pandas as pddata = {'地址1':['广东深圳','广东汕头','重庆'],'地址2':['深圳','揭阳','北京']}df = pd.DataFrame(data)df = df[df.a...

2019-10-17 10:16:57 9704

原创 【Python】使用wordcloud画词云的可视化例子,并保存图片

之前写了用pyecharts画词云,今天我们来看一下用python的wordcloud库画词云。wordcloud接收的数据有两种格式,一种是纯文本的格式,另一种是词频的格式。我们来举个例子。from wordcloud import WordCloudimport matplotlib.pyplot as plt### 纯文本数据data = ['重庆','上海','北京','...

2019-09-17 18:13:20 2095

原创 【Python】爬取菜鸟物流管家异步加载XHR订单

最近需要商家的订单信息,一直Ctrl+c和Ctrl+v感觉就是有点儿不科学,所以就想爬一下试试。首先得有商家的账号,巧妇难为无米之炊,还是得有账号。因为以前没有爬过,就是各种的尝试。本来是想用selenium来模拟登录,然后一步一步的获取我想要的信息。但是,模拟登录的时候有滑块,手动操作这个滑块也不行。正常在浏览器上登录时就没有这个滑块,所以我就改用cookie来爬了。刚开始就找了我看...

2019-09-11 15:02:51 766

原创 【Python】内置数据集介绍

在动手操作一个算法的时候,可能需要自己生成数据集。Python sklearn给我们提供了一些有用的数据生成器和数据加载工具,所以就不需要我们写代码来生成数据啦。下面介绍几个大家都比较常用的数据集:数据加载工具这个工具下面一共有24个数据集,只要直接导入就可以使用,就像导入一个csv文件一样。1.datasets.load_iris()这个数据集应该是最常见的了,经常看见网上博主们...

2019-08-28 17:52:30 2603

原创 Python pandas处理(提取/删除)DataFrame中的重复行

在处理数据的时候,我们经常会遇到处理重复数据的情况。根据需求一般有两种情况,下面我们分别针对两种情况举????:第一种情况,去掉重复的数据:### 构造数据data = pd.DataFrame(data=[['a',1],['a',2],['b',1],['b',2],['a',1]],columns=['label','num'])dataOut[17]: label nu...

2019-08-22 10:47:29 7200 1

本资源是所写excel文章时用来展示的简单数据.xlsx

本资源是所写excel文章时用来展示的简单数据,大家可以使用这些数据对应文章中的操作做练习。希望对大家有所帮助!

2020-07-07

自如房价数字图片训练集标签

因为之前传的数据没有标签,此文件为数据的标签。顺序是匹配的

2018-11-05

自如房价数字图片训练集

自如房价图片训练集,已经转换成30x30的行列值。该文档没有标签

2018-11-05

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除