自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 【SQL取数练习,入门篇】牛客网SQL入门板块个人练习,含sql文件,复习必备

牛客网SQL入门板块个人练习,含sql文件,复习必备

2022-07-21 13:57:28 1171 1

原创 淘宝用户日志数据集的用户行为分析与用户分群

文章目录数据集描述一、数据清洗1.读取并查看数据基本信息和数据的完整性2.查看数据集中行的重复情况并删除3.处理缺失值4.合并month和day列组成时间类型的date列5.划分子数据集二、数据分析1.访问量与访客量的情况2.不同用户行为的访问量情况3.付费用户消费次数、付费率、复购率、复购间隔、复购频率分析4.不同商品品类的转化率分析三、用户分群:用户价值RFM模型分析(RF)1.基于RFM模型K-Means算法进行用户群体聚类:2.得出聚类结果:数据集描述数据集是淘宝2015年双11前6个月(201

2022-05-25 14:51:30 1572 2

原创 sqoop连接mysql数据库导入导出数据Communications link failure错误解决

在将数据从hive存入mysql或者从hdfs存入mysql时出现了如下的错误:ERROR manager.CatalogQueryManager: Failed to list databasescom.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failureThe last packet successfully received from the server was 194 millisec

2022-05-22 18:06:33 1834

原创 机器学习--数据清洗

文章目录1.缺失值2.异常值3.数据集成4.实体识别5.冗余属性识别6.数据变换数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。1.缺失值处理缺失值的方法可分为3类:删除记录、数据插补和不处理。*缺失值的处理方法均值/中位数/众数插补:根据属性值的类型,用该属性取值的平均数/中位数/众数进行插补使用固定值:将缺失的属性值用一个常量替换。如广州一个工厂普通外来务工人员的“基本工资”属性的空缺值可以用2015年广州市普通外来务工

2022-05-20 23:24:21 2835

原创 软件测试--应用JUnit进行单元测试

一、实验原理JUnit是一个开源的Java编程语言的单元测试框架,最初由 Erich Gamma 和 Kent Beck 编写。Junit测试是一种白盒测试工具。JUnit是一套框架,继承TestCase类,就可以用Junit进行自动测试了。具有JUnit经验对于应用“测试驱动开发(TDD)”的程序开发模型是非常重要的。JUnit本质上是一套框架,即开发者制定了一套条条框框,遵循这此条条框框要求编写测试代码,如继承某个类,实现某个接口,就可以用JUnit进行自动测试了。  由于JUnit相对独立于所编

2022-04-25 00:09:51 5924

原创 深度学习--使用预训练的卷积神经网络

文章目录前言一、使用预训练网络二、将VGG16卷积基实例化三、使用卷积基进行特征提取1.不使用数据增强的快速特征提取2.使用数据增强的特征提取四、微调模型前言想要将深度学习应用于小型图像数据集,一种常用且非常高效的方法是使用预训练网络。 预训练网络(pretrained network)是一个保存好的网络,之前已在大型数据集(通常是大规模图像分类任务)上训练好。如果这个原始数据集足够大且足够通用,那么预训练网络学到的特征的空间层次结构可以有效地作为视觉世界的通用模型,因此这些特征可用于各种不同的计算机视

2022-04-23 19:16:38 1822 1

原创 深度学习--使用数据增强在小型图像数据集上训练一个卷积神经网络

文章目录前言一、数据集二、训练一个基准模型二、使用数据增强在小型数据集上训练一个神经网络前言深度学习的一个基本特性就是能够独立地在训练数据中找到有趣的特征,无须人为的特征工程,而这只在拥有大量训练样本时才能实现。特别是对于输入样本的维度非常高(比如图像)的问题。所谓“大量”样本是相对的,即相对于你所要训练网络的大小和深度而言。但如果模型很小, 并做了很好的正则化(提高范化能力),同时任务非常简单,那么几百个样本可能就足够了。在现实生活中,使用很少的数据来训练一个图像分类模型是很常见的情况。但数据集太

2022-04-23 17:21:35 2075 1

原创 机器学习--高维数据降维方法并使用Iris数据集进行降维演示

前言高维数据降维是指采用某种映射方法,降低随机变量的数量,例如将数据点从高维空间映射到低维空间中,从而实现维度减少。降维分为特征选择和特征提取两类,前者是从含有冗余信息以及噪声信息的数据中找出主要变量,后者是去掉原来数据,生成新的变量,可以寻找数据内部的本质结构特征。降维的过程是通过对输入的原始数据特征进行学习,得到一个映射函数,实现将输入样本映射后到低维空间中之后,原始数据的特征并没有明显损失,通常情况下新空间的维度要小于原空间的维度。且前大部分降维算法是处理向量形式的数据。本文列举了常用的一些降维

2022-04-23 12:23:58 5668 1

原创 数据分析课后作业--企业所得税分析预测模型(代码)

1.求取企业所得税各特征间的相关系数(1)求取原始数据特征之间的Pearson相关系数。(2)判断各特征之间的相关性。#求取企业所得税各特征间的相关系数import numpy as npimport pandas as pdinputfile = 'income_tax.csv' #读取数据文件data = pd.read_csv(inputfile) #读取数据#输出Pearson相关系数,并保留两位小数print('相关系数矩阵为:','\n',np.round(data.iloc[

2022-04-22 00:44:47 2862 5

原创 数据分析课后作业--信用卡客户风险评价(代码)

1.处理数据异常值:(1) 丢弃逾期,呆账,强制停卡,退票记录,拒往记录为 1 ,瑕疵户为 2 的记录 。(2) 丢弃呆账,强制停卡,退票为 1 ,拒往记录为 2 的记录。(3) 丢弃频率为 5 ,刷卡金额不等于 1 的数据。import pandas as pdimport numpy as npdata=pd.read_csv("credit_card.csv",encoding='gbk')#查看数据集情况:#data.info()#data.describe()print("原数

2022-04-22 00:07:16 4307 3

原创 深度学习--训练一个简单的卷积神经网路

写在前面,对于卷积神经网络,需要强调的是,卷积神经网络是在将数据输密集连接分类器网络(即 Dense 层的堆叠)前的一个数据变换网络,一次卷积操作是一种数据变换的形式,是一种将大数据量转化为小数据量的操作。(但是卷积神经网络是多次卷积操作,可能过滤器(filter)数量多,数据量可能会变多,但最终经过整个卷积网路的数据量是减小的。)卷积神经网络在计算机视觉任务上很成功。一、卷积操作1.一次卷积操作一次卷积操作会将大数据量转化为小数据量,它是如何操作的呢,是如何将数据量变小的呢?先形象一点的说一下卷积

2022-04-20 12:45:25 4455 1

原创 深度学习--解决模型过拟合的问题

一.什么是过拟合你刚开始训练出来的模型是不是在留出的验证数据上的性能总是在几轮后达到最高点,然后开始下降。如下图所示,模型在训练集上的精度一直不断上升,但模型在验证集上的精度在第二轮就达到最高点然后就开始下降,这时模型在训练数据上开始出现过拟合的现象,模型开始学习仅和训练数据有关的模式,但这种模式对新数据来说是错误的或无关紧要的。训练模型是为了得到好的神经网络,好的网络要求能够对数据由高的预测准确率,这就要求:1.要调节模型以在训练数据上得到最佳性能,即优化,这很好实现。2.但同时,要让训练好的

2022-04-18 17:26:28 13948 1

原创 深度学习--结合代码讲解如何简单训练一个神经网络

很多人知道有神经网络这个名词,却不完全理解它的意思,神经网络顾名思义可以理解为一个网,每个网是由多个层堆叠连接起来的。下面将结合代码讲解如何训练一个简单的神经网络一、神经网络的构造与训练神经网络的核心组件是层(layer),它是一种数据处理模块,你可以将它看成数据过滤器。 进去一些数据,出来的数据变得更加有用。具体来说,层从输入数据中提取表示——我们期望这种表示有助于解决手头的问题。大多数深度学习都是将简单的层链接起来,从而实现渐进式的数据蒸馏(data distillation)。深度学习模型就像是数

2022-04-18 15:56:10 2820

原创 sparkwithhive读写hive数据库某种报错解决

sparkwithhive读写hive数据库报错解决

2022-04-17 12:14:07 1960

原创 python-pcl踩坑后记录完整配置过程

点云工具python-pcl配置

2022-04-15 14:58:15 1626 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除