机器学习
文章平均质量分 96
机器学习与数据挖掘实战篇
curd_boy
热爱编程,喜欢探索新技术
展开
-
机器学习建模
文章目录1.机器学习模型概述1.1 模型与算法1.2 机器学习中的三要素1.3 机器学习模型2.传统机器学习模型(单模型)2.1 按任务类型划分2.1.1 分类2.1.2 回归2.2 按性质划分2.2.1 非概率模型(决策函数)2.2.2 概率模型2.3 按知识体系划分2.3.1 线性模型2.3.2 神经网络模型2.3.3支持向量机模型2.3.4贝叶斯模型2.3.5树模型3.集成与提升模型(boo...原创 2019-07-04 16:12:12 · 1137 阅读 · 0 评论 -
机器学习中建模所用的知识点总结(持续更新中)
1.数据转换1.12.准确率def run_cv(X,y,clf_class,**kwargs): # Construct a kfolds object kf = KFold(n_folds=5,shuffle=True) y_pred = y.copy() # Iterate through folds for train_index, test...原创 2019-07-18 09:34:57 · 952 阅读 · 1 评论 -
机器学习基础教程第三章 降维、特征提取与流形学习
3.4降维、特征提取与流形学习3.4.1主成分分析将 PCA 应用于 cancer 数据集并可视化 PCA 最常见的应用之一就是将高维数据集可视化。正如第 1 章中所说,对于有两个以上特 征的数据,很难绘制散点图。对于 Iris(鸢尾花)数据集,我们可以创建散点图矩阵(见 第 1 章图 1-3),通过展示特征所有可能的两两组合来展示数据的局部图像。但如果我们想 要查看乳腺癌数据集,即便用散点...原创 2019-06-07 23:17:31 · 1589 阅读 · 0 评论 -
贷款申请最大化利润(二分类,逻辑回归,随机森林)
文章目录1. 数据清洗过滤无用特征1.1 设定的nan个数界限保留整列1.2 查看数据,第一行与列数1.3 删除无用列2. 数据预处理2.1 保留loan_status中两值变为0和1 (target)2.2 删除唯一属性的列2.3 求出每列的空值总和,并去除空值2.4 查看数据各个类型的数量,并转换字符类型的列的值2.5 查看列的各个特征值的数量,判断是更改还是删除2.6 更改字符的类型2.7...原创 2019-07-18 00:21:12 · 1036 阅读 · 0 评论 -
用户画像(逻辑回归)
基于用户搜索关键词数据为用户打上标签(年龄,性别,学历)整体流程1.数据预处理1.1 编码方式转换将原始数据转换成utf-8编码,防止后续出现各种编码问题¶由于原始数据比较大,在分词与过滤阶段会比较慢,这里我们选择了原始数据中的1W个import csv#原始数据存储路径data_path = './data/user_tag_query.10W.TRAIN' #生成数...原创 2019-07-20 18:05:46 · 1585 阅读 · 0 评论 -
使用Gensim库构造中文维基百度数据词向量word2vec模型
1.xml格式转txt格式process.py#!/usr/bin/env python# -*- coding: utf-8 -*-# 修改后的代码如下:import loggingimport os.pathimport sysfrom gensim.corpora import WikiCorpusif __name__ == '__main__': pr...原创 2019-07-22 17:38:28 · 535 阅读 · 0 评论 -
GMM聚类模型(高斯混合聚类)
1.查看数据查看数据类型import pandas as pddata = pd.read_csv ('Fremont.csv', index_col='Date', parse_dates=True)data.head()data.tail()绘图data.plot();数据重采样,按天进行计算data.resample('D').sum().head()...原创 2019-07-22 20:19:30 · 3665 阅读 · 1 评论 -
Kaggle比赛之房价预测
0.简介:要求购房者描述他们梦想中的房子,他们可能不会从地下室天花板的高度或靠近东西方铁路开始。但是这个游乐场比赛的数据集证明了价格谈判比卧室或白色栅栏的数量更多。有79个解释变量描述(几乎)爱荷华州埃姆斯的住宅的各个方面,这次竞赛挑战你预测每个家庭的最终价格。练习技巧创意特色工程高级回归技术,如随机森林和梯度提升关于这个案例,具体的介绍及简介,见Kaggle官网上的数据,内容很全...原创 2019-08-07 22:47:49 · 2222 阅读 · 0 评论 -
K折验证
模块化的K折验证:此外,也可以进行简单的交叉验证(十折)Scikit中提取带K-Fold接口的交叉验证接口sklearn.model_selection.cross_validate,但是该接口没有数据shuffle功能,所以一般结合Kfold一起使用。如果数据在分组前已经经过了shuffle处理,比如使用train_test_split分组,那就可以直接使用cross_val_score接口...原创 2019-08-06 18:57:12 · 804 阅读 · 0 评论 -
阿里天池新人实战赛—移动推荐算法
简介本次赛题为《阿里移动推荐算法》,以阿里巴巴移动电商平台的真实用户-商品行为数据为基础,同时提供移动时代特有的位置信息,而参赛队伍则需要通过大数据和算法构面向建移动电子商务的商品推荐模型。希望参赛队伍能够挖掘数据背后丰富的内涵,为移动用户在合适的时间、合适的地点精准推荐合适的内容。赛事网址:https://tianchi.aliyun.com/competition/entrance/231...原创 2019-08-09 22:24:40 · 3263 阅读 · 2 评论 -
探索性数据分析-粮农组织数据集
粮农组织的三个主要目标是:消除饥饿、粮食不安全和营养不良消除贫困促进经济社会进步自然资源的可持续管理和利用,包括土地、水、空气、气候和遗传资源,以造福今世后代。为支持这些目标,《宪法》第1条要求粮农组织“收集、分析、解释和传播与营养、粮食和农业有关的信息”。因此,水温自动调节器开始,其目的是通过收集有助于联合国粮农组织的目标,与水资源相关的信息传播分析,用水和农业用水管理,对国家重点在...原创 2019-08-14 15:05:14 · 1698 阅读 · 1 评论 -
scikit-learn模型建立与评估
文章目录1.mean_squared_error()2.预测结果准确率的比重3.ROC曲线,roc_auc_score4.交叉验证5.三分类1.mean_squared_error()模型:LinearRegression 线性回归均方误差(mean-square error, MSE)是反映估计量与被估计量之间差异程度的一种度量。###汽车油耗效率import pandas as ...原创 2019-07-17 16:13:23 · 427 阅读 · 0 评论 -
XGBoost实战
文章目录1.XGBoost介绍2.数据展示2.1 查看形状2.2 查看列和描述信息2.3 查看缺失值2.4 查看数据集的信息2.5 类别值中属性的个数2.6 赔偿值2.7 连续值特征2.8 特征之间的相关性3. XGBoost基本模型构建过程3.1 数据预处理3.2 使用 xgb.DMatrix对数据预处理3.3 xgb_params3.4 使用交叉验证 xgb.cv3.5 绘制训练和测试的平均绝...原创 2019-07-19 18:55:32 · 1703 阅读 · 0 评论 -
探索性数据分析-足球赛事数据集
挑战在下面查看之前,请尝试回答有关数据集的一些高级问题。我们如何操作裁判给黑皮球员更多红牌的问题?反事实:如果球员体重较轻,裁判在同样的条件下可能会给同一个犯规者一张黄牌或无牌。回归:考虑到混杂因素,深色玩家对比例红牌/总牌的回归系数为正。潜在问题如何将Rater1和Rater2结合起来?平均?如果他们不同意怎么办?把它扔掉?数据是否失衡,即红牌非常罕见?数据是否有偏差,即玩...原创 2019-07-24 00:21:43 · 3579 阅读 · 4 评论 -
机器学习之泰坦尼克号预测生还案例的分析(逻辑回归)
一 明确课题:在泰坦尼克号之灾事件中,建立乘客获救情况(是/否)与其诸背景特征之间的量化模型,并且依据此模型来预测有某些背景的人在该海难中能否获救。二 课题分析:2.1 选择模型一个二分类问题。常用的分类算法有逻辑回归、随机森林、支持向量机(SVM)等等。我们可以选择其中的一种算法进行模型建立,或是尝试使用多种算法建立模型并融合。对于同一个问题,可以尝试多种思路进行解决,尤其是算法模型...原创 2019-06-17 18:33:59 · 8474 阅读 · 1 评论 -
Python时间序列分析(ARIMA模型回归,决策树二分类)
文章目录1. 时间序列1.1 date_range1.2 truncate过滤1.3 Timestamp,Period,Timedelta1.4 时间转换1.5 period_range1.6 指定索引1.7 时间戳Timestamp 和时间周期period 转换2.股价预测2.1 查看数据2.2 取Close列每周的平均值2.3 Close列每周的平均值绘制折线图2.4 一阶分差,提高平稳性2....原创 2019-07-13 00:49:07 · 6368 阅读 · 0 评论 -
维基百科词条EDA数据可视化
文章目录1.1.1 查看数据1.2 转换数据格式1.3 统计各国家的点击量1.4 按国家对数据进行分类1.5 统计各个国家每天平均点击量的折线图1.6 绘制en这个国家某个词条600天的点击量折线图1.7 统计每个国家各个词条的总量1.81.1.1 查看数据import pandas as pdimport numpy as npimport matplotlib.pyplot as...原创 2019-07-14 19:20:30 · 898 阅读 · 1 评论 -
Python文本数据分析:新闻分类任务(贝叶斯,TF-IDF词向量)
基本思路1.文本分析2.关键词提取3.新闻数据与任务简介4.TF-IDF关键词提取5.LDA建模6.基于贝叶斯算法进行新闻分类1.文本分析11.查看数据import pandas as pdimport jiebadf_news = pd.read_table('./data/val.txt',names=['category','theme','URL','content'...原创 2019-06-18 22:49:17 · 9430 阅读 · 9 评论 -
机器学习实战之科比数据集分析(随机森林寻最优值参数)
文章目录总体思路分为三部1.查看数据,对数据进行清洗,规约1.1 查看数据1.2 数据清洗,规约1.3 删除不相关的特征1.4 数据one-hot处理*2.建立模型,挑选出最优参数2.1 准备数据集,训练集,测试集2.2 建立随机森林模型2.3 通过树的大小和K折验证得到log_loss最小的值和最优树的数量2.4 通过树的深度和K折验证得到log_loss最小的值和最大深度的最优值3.绘制模型训...原创 2019-07-05 20:08:37 · 3908 阅读 · 1 评论 -
电信商用户流失预警案例(二分类)
import pandas as pdimport numpy as npchurn_df = pd.read_csv('churn.csv')col_names = churn_df.columns.tolist()print "Column names:"print col_namesto_show = col_names[:6] + col_names[-6:]prin...原创 2019-07-15 18:30:32 · 848 阅读 · 1 评论 -
Python深度学习之波士顿房价重复K折验证
K折验证原创 2019-05-07 00:35:49 · 1074 阅读 · 4 评论 -
基于Keras实现猫狗大战,25000张猫狗图像的精准分类
猫狗大战数据集地址:https://www.kaggle.com/c/dogs-vs-cats1.将下载好的文件分为训练集、测试集、验证集。import os, shutiloriginal_dataset_dir = 'D:/软件(学习)/Python/DeepLearning/chapter4/data/kaggle/kaggle_original_data' ##下载好的地址# ...原创 2019-07-11 23:36:47 · 3260 阅读 · 1 评论 -
Kaggle入门——手写数字识别
0.前言比赛说明MNIST(“修改后的国家标准与技术研究所”)是计算机视觉事实上的“hello world”数据集。自1999年发布以来,这一经典的手写图像数据集已成为分类算法基准测试的基础。随着新的机器学习技术的出现,MNIST仍然是研究人员和学习者的可靠资源。在本次比赛中,您的目标是从数万个手写图像的数据集中正确识别数字。我们策划了一套教程式内核,涵盖从回归到神经网络的所有内容。我们...原创 2019-08-12 22:59:21 · 1421 阅读 · 4 评论