知识笔记
文章平均质量分 54
人生苦短,我用python!
这个作者很懒,什么都没留下…
展开
-
hive 窗口函数(持续更新)
hive窗口函数语法avg()、sum()、max()、min()等是分析函数,而over()才是窗口函数,下面我们来看看over()窗口函数的语法结构、及常与over()一起使用的分析函数:1、over()窗口函数的语法结构2、常与over()一起使用的分析函数1、over()窗口函数的语法结构格式:分析函数 over(partition by 列名 order by 列名 rows between 开始位置 and 结束位置)over()函数中包括三个函数:包括分区partition by原创 2021-10-11 22:43:03 · 226 阅读 · 0 评论 -
大数据Hive知识笔记(持续更新)
1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上1.2.1 优点操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。避免了去写MapReduce,减少开发人员的学习成本。原创 2021-08-15 20:13:43 · 156 阅读 · 0 评论 -
MySQL函数笔记(继续)
1、数学函数ABS(x) --返回x的绝对值BIN(x) --返回x的二进制(OCT返回八进制,HEX返回十六进制)EXP(x) --返回值e(自然对数的底)的x次方LN(x) --返回x的自然对数LOG(x,y) --返回x的以y为底的对数MOD(x,y) --返回x/y的模(余数)PI() --返回pi的值(圆周率)RAND() --返回0到1内的随机值原创 2021-07-04 22:13:45 · 77 阅读 · 0 评论 -
评价指标(回归指标)知识笔记
评价指标(回归指标)对学习器的泛化性能进行评估,不仅仅需要有效可行的实验估计方法,还需要有衡量模型泛华能力的评价标准,这就是性能度量。我们通常会根据不同的业务选出适合的业务指标。评价指标大概有1、回归的有:RMSE(平方根误差)、MAE(平均绝对误差)、MSE(平均平方误差)、Coefficient of determination (决定系数)。2、分类的有:精确率、召回率、准确率、F值、ROC-AUC 、混淆矩阵、PRC。3、聚类的有:兰德指数、互信息、轮廓系数。回归:f是学习器,D是训练集原创 2021-06-13 14:30:57 · 489 阅读 · 0 评论 -
hive函数笔记(持续)
一、关系运算等值比较:=语法:A=B描述:如果表达式A与表达式B相等,则为True,否则为False不等值比较:<>语法:A<>B描述:如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果表达式A与表达式B不相等,则为True,否则为False小于比较:<语法:A<B描述:如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果表达式A小于表达式B,则为True,否则为False小于等于比较:<=语法原创 2021-06-12 16:48:32 · 490 阅读 · 1 评论 -
程序员大全网站
www.cxy521.com原创 2021-05-30 14:10:02 · 59 阅读 · 0 评论 -
2021-05-30数据分析入门收藏(持续整理)
一、数据分析概述数据分析是指用适当的统计分析方法对收集来的大量的数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据方作用。思维导图:1.数据分析类别1.描述性数据分析2.探索性数据分析3.验证性数据分析2.数据分析的作用1.现状分析 (了解企业的运营情况及构成)2.原因分析(确定业务变动的具体原因)3.预测分析(对企业未来发展做出预测)3.数据分析步骤1.宏观上明确分析的目的和思路2.收集用于解决问题的数据3.对收集来的数据进行预处理4.微观上进行具原创 2021-05-30 12:01:09 · 382 阅读 · 0 评论 -
在linux里如何安装hadoop和hive,及其配置问题
搭建hive环境1. 安装jdk环境可以直接使用yum install 安装: yum -y install java-1.8.0-openjdk也可以上oracle官方下载压缩包.2. 配置java环境变量执行以下命令:# vi /etc/profileexport JAVA_HOME=/usr/lib/jvm/jre export JRE_HOME=/usr/lib/jvm/jre export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib原创 2021-04-14 22:13:29 · 671 阅读 · 1 评论 -
在linux里如何安装mysql以及进行远程连接
配置安装mysql#查看mysql是否安装,如果安装了,卸载mysql[root@qianfeng01 hive] rpm -qa|grep mysql #如果出现下面的提示,就说明系统已经有了mysql,要卸载mysql-libs-5.1.73-7.el6.x86_64# 卸载mysql[root@qianfeng01 hive] rpm -e --nodeps mysql-libs-5.1.73-7.el6.x86_64安装MySql服务器mysql安装的步骤介绍# 1. 下载my原创 2021-04-14 22:09:26 · 85 阅读 · 0 评论 -
The CIFAR-10 dataset数据事物识别知识笔记
#导包import numpy as npimport pandas as pdimport matplotlib.pyplot as plt加载训练数据Python引入了with语句来自动帮我们调用close()方法使用pickle.load(),encoding = ‘ISO-8859-1’transpose([])方法调用#定义打开文件函数def unpickle(file): import pickle with open(file, 'rb') as fo:原创 2021-04-01 12:50:13 · 232 阅读 · 0 评论 -
人脸识别知识笔记
准备工作将fetch_lfw_people数据集下载放置本地用户里新建一个scikit_learn_data文件夹#导包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.datasets import fetch_lfw_people#读取人脸数据faces = fetch_lfw_people(min_faces_per_person=70, resize=1)#获取特征和标签原创 2021-03-31 16:00:03 · 296 阅读 · 0 评论 -
人脸补全(左右脸)知识笔记
#导数据包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.datasets import fetch_olivetti_faces#加载数据faces = fetch_olivetti_faces()faces#取数据data = faces.datatarget = faces.dataimages = faces.images#显示其中一张图片plt.imsho原创 2021-03-30 14:09:26 · 537 阅读 · 2 评论 -
mysql窗口函数(分析函数)知识笔记
窗口函数MySQL从8.0开始支持开窗函数,这个功能在大多商业数据库中早已支持,也叫分析函数。开窗函数与分组聚合比较像,分组聚合是通过制定字段将数据分成多份,每一份执行聚合函数,每份数据返回一条结果。开窗函数也是通过指定字段将数据分成多份,也就是多个窗口,对每个窗口的每一行执行函数,每个窗口返回等行数的结果。窗口函数分为静态窗口和滑动窗口,静态窗口的大小是固定的,滑动窗口的大小可以根据设置进行变化,在当前窗口下生成子窗口。1、窗口函数的定义窗口函数作用于一个数据集合。窗口函数的一个概念就是当原创 2021-03-29 17:04:02 · 1020 阅读 · 0 评论 -
人脸补全(上下脸)知识笔记
准备工作将fetch_olivetti_faces数据集下载放置本地用户里新建一个scikit_learn_data文件夹,并将sklearn版本设置为0.20的版本(特别重要)#导包import numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 导入人脸数据from sklearn.datasets import fetch_olivetti_faces#加载数据faces = fetch_olivetti_f原创 2021-03-26 00:05:12 · 813 阅读 · 0 评论 -
数据分析思路知识笔记
基础的分析思路,这么建最近天气多暴雨,某天你走在街上,被突然袭来的暴雨淋了个落汤鸡。猛跑回家,感觉身上很冷、 发抖、打喷嚏。你会怎么想?——生活的常识告诉你:可能感冒了!这时候你可能会选择不理它, 扛过去就好了。也可能吃点感冒药,因为你假设自己感冒了。过了几天,没有发冷、发抖、打喷嚏的症状了。你觉得感冒好了,就不会再吃药。但是如果你发现 自己还是没好,甚至觉得头好烫。妈呀,赶紧找个体温计测测,一看38度,心中顿觉紧张,于是跑 去看医生。这就是一个完整的数据分析思路的例子。可能会纳闷。啥!这就数据分析了原创 2021-03-23 20:48:41 · 126 阅读 · 0 评论 -
评价指标(分类指标)知识笔记
评价指标(分类指标)对学习器的泛化性能进行评估,不仅仅需要有效可行的实验估计方法,还需要有衡量模型泛华能力的评价标准,这就是性能度量。我们通常会根据不同的业务选出适合的业务指标。评价指标大概有1、回归的有:RMSE(平方根误差)、MAE(平均绝对误差)、MSE(平均平方误差)、Coefficient of determination (决定系数)。2、分类的有:精度、召回率、精确率、F值、ROC-AUC 、混淆矩阵、PRC。3、聚类的有:兰德指数、互信息、轮廓系数。分类1.精度(Accurac原创 2021-03-22 15:40:40 · 1889 阅读 · 0 评论 -
数据分析常用分析模型知识笔记
一、RFM模型1.作用:用以衡量当前用户价值和客户潜在价值(CRM)的重要工具和手段2.三个指标:R:Recency—客户最近一次交易时间的间隔,R值越大,表示离客户上一次交易时间间隔越久F:Frequency—频率,客户在最近一段时间内交易的次数,F值越大,表示客户交易越频繁M:Monetary—客户在最近一段时间内的交易金额,M值越大,表示客户价值越高3.RFM实践运用的三个前提假设:最近购买产品的用户更容易产生下一次消费行为消费频次越高的用户,满意度、忠诚度和粘性则越高,更易产生原创 2021-03-18 12:29:17 · 452 阅读 · 0 评论 -
找规律批量读取文件,最后展示结果
如何批量读取文件夹中的文件:1,先读一个文件,对比其它文件看有什么规律zero = plt.imread('../data/data/0/0_1.bmp')plt.imshow(zero,cmap='gray')2,发现文件名相对应的数字编号规律,读取所有文件data = []target = []for i in range(10): for j in range(1,501): temp = plt.imread(f'../data/data/{i}/{i}_{原创 2021-03-17 13:00:34 · 103 阅读 · 0 评论 -
数据中某些字段的类型转换(boject转int)
数据需要进行机器学习预测,发现某些字段的数据类型是object,现将这些字段类型转换为int类型:第一种使用元素索引对应进行转换:#类型转换n = ['education','marital_status', 'occupation', 'relationship', 'race', 'sex','native_country']for i in n: unique = data[i].unique() def transform(type): inde原创 2021-03-17 10:17:17 · 396 阅读 · 0 评论