tableau连接多个表 今天打开tableau找了一圈儿都没有找到如下的join多个表的界面。还以为是更新了版本的原因????♀️ 后面才知道原来是将表格拖过来以后,再双击表格就可以进到上面的界面进行join和union的操作 ...
PCA(转载) 文章转载自Microstrong03051.相关背景在许多领域的研究与应用中,通常需要对含有多个变量的数据进行观测,收集大量数据后进行分析寻找规律。多变量大数据集无疑会为研究和应用提供丰富的信息,但是也在一定程度上增加了数据采集的工作量。更重要的是在很多情形下,许多变量之间可能存在相关性,从而增加了问题分析的复杂性。如果分别对每个指标进行分析,分析往往是孤立的,不能完全利用数据中的信息,因此盲目减少指标会损失很多有用的信息,从而产生错误的结论。因此需要找到一种合理的方法,在减少需要分析的指标同时
堆排序 堆排序 堆排序是利用堆这种数据结构而设计的一种排序算法,堆排序是一种选择排序,它的最坏,最好,平均时间复杂度均为O(nlogn),它也是不稳定排序。首先简单了解下堆结构。堆 堆是具有以下性质的完全二叉树:每个结点的值都大于或等于其左右孩子结点的值,称为大顶堆;或者每个结点的值都小于或等于其左右孩子结点的值,称为小顶堆。如下图:同时,我们对堆中的结点按层进行编号,将这种逻辑结构映射到数组中就是下面这个样子该数组从逻辑上讲就是一个堆结构,我们用简单的公式来描述一下堆的定义就是:
归并排序 归并排序采用分治的思想,同时,它和冒泡排序一样也是稳定排序,不会处理相同元素。def orders(ls1,ls2):### 对两个分块进行排序合并 ls = [] length1 = len(ls1) length2 = len(ls2) s1 = 0 s2 = 0 while s1<length1 and s2<length2: if ls1[s1] < ls2[s2]: ls.append(ls1[s1]) s1 += 1 else: .
风控模型稳定性指标PSI 群体稳定性指标是衡量样本变化所产生的偏移量的一种重要指标,通常用来衡量样本的稳定程度,比如样本在两个月份之间的变化是否稳定。也可以用来衡量模型稳定度。通常用作模型效果监测。由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的样本,可以用稳定性测试。PSI可以衡量测试样本及模型开发样本评分的分布差异,为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后,针对不同样本,或者不同时间的样本,population分布是否有变化,就是看各个分数区间内人数占总人数的占比是否有显著变化
如何修改聚合后的数据的index >>> data.groupby(['name']).agg(age_sum = ('age','sum'),age_mean=('age','mean')).reset_index() name age_sum age_mean0 x 70 35.01 y 93 46.52 z 30 30.0
DataFrame groupby+agg出现SpecificationError: nested renamer is not supported的错误 这个应该是pandas的版本问题,我的是v1.0.5>>> import pandas as pd>>> data=pd.DataFrame({'name':['x','y','x','y','z'],'sex':['f','m','f','f','m'],'age':[25,26,45,67,30]})>>> data name sex age0 x f 251 y m 262 x f .
在终端里启动Tensorboard的详细步骤 1.需要在代码中插入一段将信息写入graph的代码以下面这段代码为例import tensorflow as tf#重新设置默认的graph,否则之前的所有的graph会在一张图中tf.reset_default_graph()logdir = '/Users/zhangxin/Documents/tb1'#这里为我在桌面上新建的文件夹的路径a = tf.constant(2, name = 'a')b = tf.constant(3, name = 'b')sum_out = t
【Python】处理时间数据格式出现time data does not match format valueError ValueError: time data '19970004' does not match format '%Y%m%d' (match)
给大家推荐一个免费的Tableau数据分析入门教程 讲课的是个小姐姐,课程讲的很详细也有实操演示https://study.163.com/course/courseMain.htm?courseId=1209019803
【Python】对DataFrame空值进行统计 现实中的数据,总是不理想的,比如说数据中有的列会存在缺失值。缺失值太多的样本本身没有太多的信息,对训练模型就没有作用。同时,缺失值会影响模型,特别是使用度量相关的模型。如KNN和SVM。### 统计数据每列的缺失数量ListData.isnull().sum()Out[11]: id 0name 1host_id
回归模型三种损失函数 无论在机器学习还是深度领域中,损失函数都是一个非常重要的知识点。损失函数(Loss Function)是用来估量模型的预测值 f(x) 与真实值 y 的不一致程度。我们的目标就是最小化损失函数,让 f(x) 与 y 尽量接近。通常可以使用梯度下降算法寻找函数最小值。损失函数有许多不同的类型,没有哪种损失函数适合所有的问题,需根据具体模型和问题进行选择。一般来说,损失函数大致可以分成两类:回归(Regression)和分类(Classification)。今天,红色石头将要总结回归问题中常用的 3 .
【Python】如何读取文件夹下的所有文件 有时候需要处理一个文件夹下面所有的文件,一个个的将文件的名字复制粘贴到代码里太麻烦了,我们可以一次性读取文件夹里面所有的文件。import ospath = '/Users/zhangxin/Desktop/文件夹/'files = os.listdir(path)i = 0for file in files: try: used_name ...
Windows系统安装Tensorflow,出现mportError: DLL load failed: 动态链接库(DLL)初始化例程失败 看见网上有很多说用anaconda安装tensorflow, 其实并没有这么复杂,直接安装即可。环境版本:python: 3.6.5tensorflow: 1.5.0如果直接使用下面的命令行安装会非常慢,而且经常time out,根本就下不下来。因为这是从国外的服务器上下载文件。python -m pip install tensorflow使用清华镜像就可以快速的下载文...