自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 工作需求处理(数据分析)

发现问题 1,以数据分析思维探索问题 2,找到有效问题: 是否有价值 是否涉及核心指标 是否影响面广 是否有时效 是否波动大 3,通过什么方式发现问题 与历史对比 与同期对比 与总体对比 与竞品对比 与目标对比 与经验对比 与预测对比 4,问题归类与拆解 按照四象限法进行归类 按照问题类型进行归类 按照优先级进行归类 5,站在业务角度想问题 回归业务本质需求确认及梳理 1,确认需求背景 需求产生的原因 需求

2022-02-27 11:30:41 187

原创 hive 窗口函数(持续更新)

hive窗口函数语法avg()、sum()、max()、min()等是分析函数,而over()才是窗口函数,下面我们来看看over()窗口函数的语法结构、及常与over()一起使用的分析函数:1、over()窗口函数的语法结构2、常与over()一起使用的分析函数1、over()窗口函数的语法结构格式:分析函数 over(partition by 列名 order by 列名 rows between 开始位置 and 结束位置)over()函数中包括三个函数:包括分区partition by

2021-10-11 22:43:03 235

原创 大数据Hive知识笔记(持续更新)

1.1 什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是MapReduce3)执行程序运行在Yarn上1.2.1 优点操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。避免了去写MapReduce,减少开发人员的学习成本。

2021-08-15 20:13:43 166

原创 MySQL函数笔记(继续)

1、数学函数ABS(x) --返回x的绝对值BIN(x) --返回x的二进制(OCT返回八进制,HEX返回十六进制)EXP(x) --返回值e(自然对数的底)的x次方LN(x) --返回x的自然对数LOG(x,y) --返回x的以y为底的对数MOD(x,y) --返回x/y的模(余数)PI() --返回pi的值(圆周率)RAND() --返回0到1内的随机值

2021-07-04 22:13:45 82

原创 评价指标(回归指标)知识笔记

评价指标(回归指标)对学习器的泛化性能进行评估,不仅仅需要有效可行的实验估计方法,还需要有衡量模型泛华能力的评价标准,这就是性能度量。我们通常会根据不同的业务选出适合的业务指标。评价指标大概有1、回归的有:RMSE(平方根误差)、MAE(平均绝对误差)、MSE(平均平方误差)、Coefficient of determination (决定系数)。2、分类的有:精确率、召回率、准确率、F值、ROC-AUC 、混淆矩阵、PRC。3、聚类的有:兰德指数、互信息、轮廓系数。回归:f是学习器,D是训练集

2021-06-13 14:30:57 508

原创 hive函数笔记(持续)

一、关系运算等值比较:=语法:A=B描述:如果表达式A与表达式B相等,则为True,否则为False不等值比较:<>语法:A<>B描述:如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果表达式A与表达式B不相等,则为True,否则为False小于比较:<语法:A<B描述:如果表达式A为NULL,或者表达式B为NULL,返回NULL;如果表达式A小于表达式B,则为True,否则为False小于等于比较:<=语法

2021-06-12 16:48:32 516 1

原创 程序员大全网站

www.cxy521.com

2021-05-30 14:10:02 64

原创 2021-05-30数据分析入门收藏(持续整理)

一、数据分析概述数据分析是指用适当的统计分析方法对收集来的大量的数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据方作用。思维导图:1.数据分析类别1.描述性数据分析2.探索性数据分析3.验证性数据分析2.数据分析的作用1.现状分析 (了解企业的运营情况及构成)2.原因分析(确定业务变动的具体原因)3.预测分析(对企业未来发展做出预测)3.数据分析步骤1.宏观上明确分析的目的和思路2.收集用于解决问题的数据3.对收集来的数据进行预处理4.微观上进行具

2021-05-30 12:01:09 421

原创 在linux里如何安装hadoop和hive,及其配置问题

搭建hive环境1. 安装jdk环境可以直接使用yum install 安装: yum -y install java-1.8.0-openjdk也可以上oracle官方下载压缩包.2. 配置java环境变量执行以下命令:# vi /etc/profileexport JAVA_HOME=/usr/lib/jvm/jre export JRE_HOME=/usr/lib/jvm/jre export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

2021-04-14 22:13:29 700 1

原创 在linux里如何安装mysql以及进行远程连接

配置安装mysql#查看mysql是否安装,如果安装了,卸载mysql[root@qianfeng01 hive] rpm -qa|grep mysql #如果出现下面的提示,就说明系统已经有了mysql,要卸载mysql-libs-5.1.73-7.el6.x86_64# 卸载mysql[root@qianfeng01 hive] rpm -e --nodeps mysql-libs-5.1.73-7.el6.x86_64安装MySql服务器mysql安装的步骤介绍# 1. 下载my

2021-04-14 22:09:26 89

原创 The CIFAR-10 dataset数据事物识别知识笔记

#导包import numpy as npimport pandas as pdimport matplotlib.pyplot as plt加载训练数据Python引入了with语句来自动帮我们调用close()方法使用pickle.load(),encoding = ‘ISO-8859-1’transpose([])方法调用#定义打开文件函数def unpickle(file): import pickle with open(file, 'rb') as fo:

2021-04-01 12:50:13 240

原创 人脸识别知识笔记

准备工作将fetch_lfw_people数据集下载放置本地用户里新建一个scikit_learn_data文件夹#导包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.datasets import fetch_lfw_people#读取人脸数据faces = fetch_lfw_people(min_faces_per_person=70, resize=1)#获取特征和标签

2021-03-31 16:00:03 306

原创 人脸补全(左右脸)知识笔记

#导数据包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.datasets import fetch_olivetti_faces#加载数据faces = fetch_olivetti_faces()faces#取数据data = faces.datatarget = faces.dataimages = faces.images#显示其中一张图片plt.imsho

2021-03-30 14:09:26 587 2

原创 mysql窗口函数(分析函数)知识笔记

窗口函数MySQL从8.0开始支持开窗函数,这个功能在大多商业数据库中早已支持,也叫分析函数。开窗函数与分组聚合比较像,分组聚合是通过制定字段将数据分成多份,每一份执行聚合函数,每份数据返回一条结果。开窗函数也是通过指定字段将数据分成多份,也就是多个窗口,对每个窗口的每一行执行函数,每个窗口返回等行数的结果。窗口函数分为静态窗口和滑动窗口,静态窗口的大小是固定的,滑动窗口的大小可以根据设置进行变化,在当前窗口下生成子窗口。1、窗口函数的定义窗口函数作用于一个数据集合。窗口函数的一个概念就是当

2021-03-29 17:04:02 1066

原创 人脸补全(上下脸)知识笔记

准备工作将fetch_olivetti_faces数据集下载放置本地用户里新建一个scikit_learn_data文件夹,并将sklearn版本设置为0.20的版本(特别重要)#导包import numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 导入人脸数据from sklearn.datasets import fetch_olivetti_faces#加载数据faces = fetch_olivetti_f

2021-03-26 00:05:12 849

原创 数据分析思路知识笔记

基础的分析思路,这么建最近天气多暴雨,某天你走在街上,被突然袭来的暴雨淋了个落汤鸡。猛跑回家,感觉身上很冷、 发抖、打喷嚏。你会怎么想?——生活的常识告诉你:可能感冒了!这时候你可能会选择不理它, 扛过去就好了。也可能吃点感冒药,因为你假设自己感冒了。过了几天,没有发冷、发抖、打喷嚏的症状了。你觉得感冒好了,就不会再吃药。但是如果你发现 自己还是没好,甚至觉得头好烫。妈呀,赶紧找个体温计测测,一看38度,心中顿觉紧张,于是跑 去看医生。这就是一个完整的数据分析思路的例子。可能会纳闷。啥!这就数据分析了

2021-03-23 20:48:41 129

原创 评价指标(分类指标)知识笔记

评价指标(分类指标)对学习器的泛化性能进行评估,不仅仅需要有效可行的实验估计方法,还需要有衡量模型泛华能力的评价标准,这就是性能度量。我们通常会根据不同的业务选出适合的业务指标。评价指标大概有1、回归的有:RMSE(平方根误差)、MAE(平均绝对误差)、MSE(平均平方误差)、Coefficient of determination (决定系数)。2、分类的有:精度、召回率、精确率、F值、ROC-AUC 、混淆矩阵、PRC。3、聚类的有:兰德指数、互信息、轮廓系数。分类1.精度(Accurac

2021-03-22 15:40:40 2069

原创 数据分析常用分析模型知识笔记

一、RFM模型1.作用:用以衡量当前用户价值和客户潜在价值(CRM)的重要工具和手段2.三个指标:R:Recency—客户最近一次交易时间的间隔,R值越大,表示离客户上一次交易时间间隔越久F:Frequency—频率,客户在最近一段时间内交易的次数,F值越大,表示客户交易越频繁M:Monetary—客户在最近一段时间内的交易金额,M值越大,表示客户价值越高3.RFM实践运用的三个前提假设:最近购买产品的用户更容易产生下一次消费行为消费频次越高的用户,满意度、忠诚度和粘性则越高,更易产生

2021-03-18 12:29:17 511

原创 找规律批量读取文件,最后展示结果

如何批量读取文件夹中的文件:1,先读一个文件,对比其它文件看有什么规律zero = plt.imread('../data/data/0/0_1.bmp')plt.imshow(zero,cmap='gray')2,发现文件名相对应的数字编号规律,读取所有文件data = []target = []for i in range(10): for j in range(1,501): temp = plt.imread(f'../data/data/{i}/{i}_{

2021-03-17 13:00:34 106

原创 数据中某些字段的类型转换(boject转int)

数据需要进行机器学习预测,发现某些字段的数据类型是object,现将这些字段类型转换为int类型:第一种使用元素索引对应进行转换:#类型转换n = ['education','marital_status', 'occupation', 'relationship', 'race', 'sex','native_country']for i in n: unique = data[i].unique() def transform(type): inde

2021-03-17 10:17:17 405

原创 如何批量读取文件知识笔记

批量读取以csv结尾的文件为例.第一种:导入os模块import os显示目录中以csv结尾的所有文件创建一个空的DataFrame,将列表中的文件依次读取并添加from pandas import DataFrame显示前5行第二种:导入glob模块import glob读取文件,*为通配符读取数据第三种:导入re模块,os模块import reimport os读取文件#可以用正则去精确匹配文件名.files = [file_name for file

2021-03-16 12:55:57 179

原创 pandas知识点:查看输出某列某行缺失值

for columname in data.columns:if data[columname].count() != len(data):loc = data[columname][data[columname].isnull().values==True].index.tolist()print(‘列名:"{}", 第{}行位置有缺失值’.format(columname,loc))

2021-03-12 16:43:00 975

原创 虚拟环境的使用

1. 安装virtualenvpip install virtualenv -i https://pypi.douban.com/simple2. 安装虚拟环境进入到你想安装虚拟环境的目录, 进入到黑窗口. 执行以下命令产生一个新的虚拟环境virtualenv <虚拟环境名字>3. 使用虚拟环境进入虚拟环境的scripts目录, 在这个目录下进入黑窗口. 执行activate激活虚拟环境.4. 安装需要的包进入 虚拟环境之后执行以下命令安装需要的包.pip install ju

2021-03-08 18:57:14 344 1

原创 BOSS招聘网站数据分析岗位分析详情

BOSS招聘网站数据分析岗位分析详情数据来源于BOSS招聘网站,仅供学习#导包import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport re#中文显示及负号显示plt.rcParams[‘font.sans-serif’]=[‘SimHei’]plt.rcParams[‘axes.unicode_minus’]=False#读取数据df = pd.read_csv(’./boss.csv’,he

2021-03-06 14:21:34 1783 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除