数据分析与数据挖掘
luky_yu
这个作者很懒,什么都没留下…
展开
-
Python ValueError: could not convert string to float: ‘-‘ 解决办法
写主成分分析程序时,遇到 ValueError: could not convert string to float: ‘105001 2512.6143 11857.8736’ 的问题此时我的程序是这样的:def loadDataSet(fileName, delim='\t'): fr = open(fileName) stringArr = [line.strip().split(delim) for line in fr.readlines()] datArr =原创 2020-11-13 20:43:52 · 10032 阅读 · 0 评论 -
解决“Class org.apache.hadoop.hdfs.DistributedFileSystem not found“问题
部署完分布式系统后,写了个测试类,运行出现"Class org.apache.hadoop.hdfs.DistributedFileSystem not found " ,搜索查询一番后, 在这个博客上”灵感链接“找到一丝灵感,于是试了下,果然有效,问题解决了。原来是因为jar包导入不全,于是在hadoop-hdfs-client-2.8.1中找到了这个类,添加依赖jar包,运行成功!!!碎碎念:好多时候就在你快要放弃的时候,哪怕再坚持一点点,就成功了。所以遇到问题不要怕,耐心去查询解决就可以了原创 2020-11-12 17:33:59 · 6274 阅读 · 1 评论 -
主成分分析原理及Python实现
主成分分析(Principal Components Analysis, PCA)是一种常用的数据分析手段,是图像处理过程中常用到的降维方法。对于一组不同维度之间可能存在线性相关关系的数据,PCA能够把这组数据通过正交变换变成各个维度之间线性无关的数据,通过剔除方差小的那些维度上的数据,达到数据降维的目的。PCA从原始变量出发,通过旋转变化(即原始变量的线性组合)构建出一组新的,互不相关的新变量,这些变量尽可能多的解释原始数据之间的差异性(即数据内在的结构),他们就成为原始数据的主成分。由于这些变量不相关原创 2020-10-27 15:16:26 · 5508 阅读 · 2 评论 -
详解Python的内置函数eval()
前几天写一个项目中,遇到一个需要把列表原样输出的问题,几经周折,找到了eval()函数,不得不说,eval()是真的好用!现在就让我们一起了解下eval()的强大之处吧!下面请尽情欣赏eval():eval函数的作用:将字符串列表转换为列表将字符串元组转换为元组将字符串字典转换为字典综上所述:eval函数的用法就是把字符串对象转换为能够具体的对象。链接1了解eval()的强大与危害:链接2https://blog.csdn.net/liuchunming033/article/det原创 2020-09-12 09:34:07 · 283 阅读 · 0 评论 -
期望最大化算法
多次见到,今天特此记录下!期望最大化算法是基于质心得一个聚类算法,它依赖于距离的某种度量,通常是欧几里得距离。如果预先指定了簇数n,则首先从随机选择n个记录作为n个簇的质心开始。数据集中的每个记录都分配给它最近的质心,因此分配给它的质心代表的簇。在下一轮中,每个质心都移动到属于该群集的所有记录的均值的位置。同样,每个记录都分配给它最近的质心,因此也分配给相应的簇。重复此过程,直到基于所有点到质心的平方距离的某种误差测量值降至某个阈值以下。现在,每个记录已分配给一个群集。 k均值的变化不仅估计每个聚类的原创 2020-09-06 10:16:33 · 484 阅读 · 0 评论 -
最简易上手的numpy学习笔记四
1 numpy中数组的算术函数如果参与的两个对象都是ndarray,并且形状相同,那么会对位彼此之间进行加减乘除。Nmupy中的相应算术函数:add(),subtract(),multiply(),divide().import numpy as np#加法a=np.arange(9).reshape(3,3)b=np.array([10,10,10])print('加法')print(np.add(a,b))print(a+b)print('减法')print(np.subtrac原创 2020-06-01 17:55:49 · 193 阅读 · 0 评论 -
最简易上手的numpy学习笔记三
1 数组的复制2 改变数组的维度改变这些数组的维度,包含提高数组的维度和降低数组的维度,还包括数组的转置。通过reshape方法可以将一维数组变成二维、三维或者多维数组。通过ravel方法或flatten方法可以将多维数组变成一维数组。改变数组的维度可以直接设置Numpy数组的shape属性,通过resize方法可以改变数组的维度。3 数组的组合使用hstack函数将两个数组水平组合使用vstack函数可以将两个或多个数组垂直组合起来形成一个数组。4 数组的分割5 数组的原创 2020-06-01 17:46:36 · 98 阅读 · 0 评论 -
最简易上手的numpy学习笔记二
数组的切片和索引一维数组的切片和索引原创 2020-06-01 17:33:44 · 113 阅读 · 0 评论 -
最简易上手的Numpy学习笔记一
1.Numpy是什么?Numpy (Numerical Python)是科学计算基础库,提供大量科学计算相关功能,比如数据统计、随机数生成等。其提供核心类型为多维数组类型(ndarray),支持大量的维度数组与矩阵运算,支持向量处理ndarray对象,提高运算速度。2.数组操作numpy的array模块可以生成多维数组。 例如,如果要生成一个二维数组,需要向array函数传递一个数组类型的参数,每一个列表元素是一维的ndarray类型数组,作为二维数组的行。另外通过ndarray类的shape属性获原创 2020-06-01 17:21:42 · 162 阅读 · 0 评论 -
数据分析
1.概述狭义的数据分析 是获取数据,探索分析数据,并可视化数据。相关理论:集中趋势:均值、中位数与分位数、众数离中趋势:标准差与方差数据分布:偏态与峰态、正态分布、三大分布抽样理论:抽样误差、抽样精度数据分析演练:读取并分析数据,获取数据各属性, 通过计算均值、方差、最大值、最小值等增加对数据的了解。python 源码 参见 2_mainhttps://github.com/cyy111/Data-Analysis-and-mining-modeling...原创 2020-06-13 15:47:29 · 300 阅读 · 0 评论 -
pandas学习笔记五之pandas合并
1. concat合并2.merge合并原创 2020-06-03 16:24:36 · 123 阅读 · 0 评论 -
pandas学习笔记四之读取写入文件
原创 2020-06-03 16:19:10 · 123 阅读 · 0 评论 -
pandas学习笔记三之处理丢失数据
原创 2020-06-03 16:16:56 · 185 阅读 · 0 评论 -
pandas学习笔记三之赋值操作
原创 2020-06-03 16:14:39 · 601 阅读 · 0 评论 -
pandas学习笔记二之pandas选择器
pandas选择器原创 2020-06-03 16:09:39 · 171 阅读 · 0 评论 -
pandas学习笔记
Series学习原创 2020-06-03 16:05:27 · 121 阅读 · 0 评论 -
Jupyter简易上手的安装与使用教程
一、Jupyter是什么??? 它是一个数据分析与展示的平台。是web版本的ipython。 作用:编程、记笔记、写文档、展示。Jupyter安装: pip install jupyter打开:jupyter notebook/ipython notebook在打开的浏览器页面,点击新建python文件,即可进行输入编辑等操作。python文件...原创 2020-05-04 15:25:00 · 2325 阅读 · 0 评论