![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 85
4v1d
for better 闲鱼小店:札幌奇妙的川朴,可以咨询Python安装答疑、机器学习环境搭建及各种问题解决
展开
-
机器学习案例:加州房产价格(五)
要解决这个问题,一个常见的方法是给每个分类创建一个二元属性:当分类是<1H OCEAN,该属性为 1(否则为 0),当分类是INLAND,另一个属性等于 1(否则为 0),以此类推。现在,你就可以使用这个“训练过的”imputer来对训练集进行转换,将缺失值替换为中位数,结果是一个包含转换后特征的普通的 Numpy 数组。通过前面的工作,你应该注意到了属性total_bedrooms有一些缺失值,缺失值的处理是需要着重解决的。大多机器学习算法不能处理缺失的特征,因此先创建一些函数来处理特征缺失的问题。原创 2024-05-18 16:35:20 · 637 阅读 · 1 评论 -
机器学习案例:加州房产价格(四)
这张图也呈现了一些不是那么明显的直线:一条位于 450000 美元的直线,一条位于 350000 美元的直线,一条在 280000 美元的线,和一些更靠下的线。你可以看到,纬度和房价中位数有轻微的负相关性(即,越往北,房价越可能降低)。尽管北加州海岸区域的房价不是非常高,但离大海距离属性也可能很有用,所以这不是用一个简单的规则就可以定义的问题。通过之前的工作,你只是快速查看了数据,对要处理的数据有了整体了解,现在的目标是更深的探索数据。另外,如果训练集非常大,你可能需要再采样一个探索集,保证操作方便快速。原创 2024-05-14 09:42:21 · 801 阅读 · 0 评论 -
机器学习案例:加州房产价格(三)
参考链接:https://hands1ml.apachecn.org/2/#_11。原创 2024-05-13 13:56:51 · 604 阅读 · 1 评论 -
机器学习案例:加州房产价格(二)
参考链接:https://hands1ml.apachecn.org/2/设计好系统后,要开始在工作区编写代码来解决问题了。原创 2024-05-12 14:58:58 · 728 阅读 · 0 评论 -
机器学习案例:加州房产价格(一)
参考链接:https://hands1ml.apachecn.org/2/假设你是被一家地产公司雇佣的数据科学家,现在需要做一些工作。公司所给的数据集是StatLib 的加州房产价格数据集。这个数据集是基于 1990 年加州普查的数据。数据已经有点老,但它有许多优点,利于学习,所以假设这个数据为最近的数据。为了便于学习理解,稍后学习过程中添加了一个类别属性,并除去了一些。你的第一个任务是利用加州普查数据,建立一个加州房价模型。这个数据包含每个街区组的人口、收入中位数、房价中位数等指标。原创 2024-05-12 14:24:11 · 644 阅读 · 0 评论 -
2.监督/非监督学习
参考链接为:https://hands1ml.apachecn.org/1/机器学习可以根据训练时监督的量和类型进行分类。主要有四类:监督学习、非监督学习、半监督学习和强化学习。本文将简单介绍监督学习和非监督学习。原创 2024-05-11 14:36:17 · 818 阅读 · 0 评论 -
1.理解机器学习
虽然并不是一个有自我意识的天网系统(Skynet),垃圾邮件过滤器从技术上是符合机器学习的(它可以很好地进行学习,用户几乎不用再标记某个邮件为垃圾邮件)。后来出现了更多的数以百计的机器学习产品,支撑了更多你经常使用的产品和功能,从推荐系统到语音识别。相反的,基于机器学习技术的垃圾邮件过滤器会自动学习哪个词和短语是垃圾邮件的预测值,通过与普通邮件比较,检测垃圾邮件中反常频次的词语格式。大多数人听到“机器学习”,往往会在脑海中勾勒出一个机器人:一个可靠的管家,或是一个可怕的终结者,这取决于你问的是谁。原创 2024-05-10 16:31:36 · 375 阅读 · 0 评论 -
机器学习记录(二)
在日常的数据分析中,经常需要将数据根据某个(多个)字段划分为不同的群体(group)进行分析,如电商领域将全国的总销售额根据省份进行划分,分析各省销售额的变化情况,社交领域将用户根据画像(性别、年龄)进行细分,研究用户的使用情况和偏好等。总结来说,groupby的过程就是将原有的DataFrame按照groupby的字段(这里是company),划分为若干个分组DataFrame,被分为多少个组就有多少个分组DataFrame。在Pandas中,上述的数据处理操作主要运用groupby完成。原创 2023-04-02 19:40:47 · 248 阅读 · 0 评论 -
机器学习记录(一)
若数据服从正态分布,则异常值被定义为一组结果值中与平均值的偏差超过三倍标准差的值。即在正态分布的假设下,距离平均值三倍 \sigma(标准差)之外的值出现的概率很小(如下式),因此可认为是异常值。若数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述(这就使该原理可以适用于不同的业务场景,只是需要根据经验来确定 k sigma中的k值,这个k值就可以认为是阈值)。描述性统计数据:数值类型的包括均值,标准差,最大值,最小值,分位数等;类别的包括个数,类别的数目,最高数量的类别及出现次数等;原创 2023-04-02 11:10:37 · 366 阅读 · 0 评论