机器学习
文章平均质量分 64
yiluohan0307
这个作者很懒,什么都没留下…
展开
-
Windows系统配置Python环境(Anaconda篇)
Windows系统配置Python环境(Anaconda篇)原创 2023-06-13 08:14:06 · 2255 阅读 · 0 评论 -
python pandas处理大数据节省内存的方法
python pandas处理大数据节省内存的方法数值类型的列进行降级处理字符串类型的列转化为类别类型(category)字符串类型的列的类别数超过总行数的一半时,建议使用object类型'''减少内存的使用'''def reduce_mem_usage(df, verbose=True): numerics = ['int16', 'int32', 'int64', '...原创 2019-02-11 17:21:57 · 1545 阅读 · 0 评论 -
11使用Apriori算法进行关联分析
第11章 使用Apriori算法进行关联分析一、背景在超市中,实际上包含了许多机器学习的应用,包括超市物品的展示方式、摆放位置、购物之后优惠券的提供以及用户的忠诚度计划等。他们都离不开数据的分析。本文介绍关联分析,即从大规模数据集中寻找物品间的隐含关系。最著名的一个例子:啤酒与尿布的例子关联分析中最有名的例子是“尿布与啤酒”。据报道,美国中西部的一家连锁店发现,男人们会在周四购买尿布和...原创 2019-04-18 17:37:04 · 5118 阅读 · 0 评论 -
12使用FP-growth算法来高效发现频繁项集
第12章 使用FP-growth算法来高效发现频繁项集一、背景大家都用过搜索引擎。当我们输入一个单词或单词的一份,搜索引擎就会自动补全查询词项。例如:当我们在百度输入“为什么”时,会出现很多的推荐结果。为了给出这些推荐查词词项,公司的研究人员使用了本本章将要介绍的一个算法–FP-growth算法,高效发现频繁项集的方法。FP-growth 算法优缺点:优点: 1. 因为 FP-growth...原创 2019-04-25 14:04:18 · 1379 阅读 · 0 评论 -
13利用 PCA 来简化数据
第13章 利用 PCA 来简化数据一、背景1.降维技术场景我们正通过电视观看体育比赛,在电视的显示器上有一个球。显示器大概包含了100万像素点,而球则可能是由较少的像素点组成,例如说一千个像素点。人们实时的将显示器上的百万像素转换成为一个三维图像,该图像就给出运动场上球的位置。在这个过程中,人们已经将百万像素点的数据,降至为三维。这个过程就称为降维(dimensionality...转载 2019-05-05 19:50:14 · 464 阅读 · 0 评论 -
14利用SVD简化数据
【转】第14章 利用SVD简化数据一、svd概述奇异值分解(Singular Value Decomposition,以下简称SVD)是在机器学习领域广泛应用的算法,它不仅用于降维算法中的特征分解,还可以用于推荐系统,以及自然语言处理领域的隐性语义检索(Latent Semantic Indexing, LSI)或 隐形语义分析(Latent Semantic Analysis, LSA)。...转载 2019-05-17 15:45:40 · 295 阅读 · 0 评论 -
10K-Means(K-均值)聚类算法
第 10 章 K-Means(K-均值)聚类算法一、概述1.1.聚类的定义聚类就是对大量未知标注的数据集,按照数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的相似度较小。聚类算法的重点就是计算数据间的相似度。1.2.相似度衡量方法1.2.1.闵可夫斯基距离(Minkowski)当p=1时,为曼哈顿距离(Manhattan)当p=2时,为欧式距离(Euc...原创 2019-05-27 15:51:09 · 643 阅读 · 0 评论 -
Python操作TDengine并进行简单风机预测应用
Python操作TDengine并进行简单风机预测应用安装Linux端安装Python Connector1、确保Linux环境下安装了Python环境,我的python版本Python3.6.0。2、从https://github.com/taosdata/TDengine下载源码,解压后放到服务器上创建的TDengine目录下,在源代码的src/connector/python文件夹...原创 2019-08-22 13:48:42 · 4767 阅读 · 4 评论