机器学习实战
机器学习sklearn实战
BlackTurn
安静的搬砖人士~
(有些内容涉及个人信息、公司信息,所以设置为付费专栏)
展开
-
学生上网时间分布聚类
数据请见(电脑F盘)或(腾讯微云文件“Redhur的进阶“)的{python数据—test1}1.根据上网的时间(几点上的网)进行聚类import numpy as npimport sklearn.cluster as skcfrom sklearn import metricsimport matplotlib.pyplot as plt mac2id = dict()"""在mac2id这个字典里:键key是MAC地址值value是字典里面对应的序号"""onlineti原创 2021-03-11 10:15:37 · 664 阅读 · 10 评论 -
每日订单预测
5.每日订单预测(本节内容的数据见电脑F:/python数据/Daily_Demand_Forecasting_Orders 或腾讯微云文件”python数据\Daily_Demand_Forecasting_Orders “)import pandas as pdframe=pd.read_csv('F:/python数据/Daily_Demand_Forecasting_Orders.csv',sep=';')pd.set_option('display.max_columns',None)原创 2021-03-12 06:58:52 · 1170 阅读 · 1 评论 -
线性回归+房价与房屋尺寸关系的拟合
线性回归+房价与房屋尺寸关系的线性拟合(本节内容数据见电脑”F:\python数据\test4“或腾讯微云文件”python数据\test4“)import matplotlib.pyplot as pltfrom sklearn import linear_model #进行线性回归。import numpy as np#建立datasets_X和datasets_Y用来存储数据中的房屋尺寸和房屋成交价格。datasets_X =[]datasets_Y =[]fr =ope原创 2021-03-11 10:09:02 · 924 阅读 · 0 评论 -
会员卡预测
(本节内容的数据见电脑F:/python数据/customer 或腾讯微云文件”python数据\customer “)包含27个相关的特征(姓名、地址、教育情况);还有一个会员卡的类型(金卡、银卡、铜卡、普通卡)1.决策树特征的选择:特征列太多,我们先选择三个数字型特征的列(年收入,小孩数,家庭汽车拥有量)。年收入是一个范围,我们要替换一下才能用;import pandas as pdframe=pd.read_csv('F:/python数据/customer.csv')print(f原创 2021-03-12 06:57:47 · 369 阅读 · 0 评论 -
企业欺诈识别
1.企业欺诈识别(本节内容的数据见电脑F:/python数据/audit_risk 或腾讯微云文件”python数据\audit_risk “)最后一列是预测列,预测是否存在风险;前面的列是特征列。我们要把特征列和预测列单独分开。第一步先阅读数据第二步:数据预处理我们要把非数值型数据处理为数值型第三步:模型划分(把数据划分为特征列和预测列,最后一列是预测列,预测是否存在风险;前面的列是特征列。)import pandas as pdframe=pd.read_csv('F:/pyt原创 2021-03-11 10:19:16 · 350 阅读 · 0 评论 -
利用K-means算法进行图像分割
import numpy as npimport PIL.Image as Image #加载PIL包,用于加载创建图片from sklearn.cluster import KMeans #加载Kmeans算法def loadData(filePath): data= [] img=Image.open(filePath) m,n =img.size #获得图片大小(width, height) for i in range(m): fo.原创 2021-03-11 10:18:01 · 296 阅读 · 0 评论 -
人脸数据特征提取
实例(以下代码只做了解)import matplotlib.pyplot as pltfrom sklearn import decomposition#加载PCA算法包from sklearn.datasets import fetch_olivetti_faces#加载人脸数据集from numpy.random import RandomState#加载RandomState用于创建随机种子n_row,n_col = 2,3#设置图像展示时的排列情况,2行三列n_compo原创 2021-03-11 10:16:48 · 927 阅读 · 0 评论 -
31个省市居民家庭收费调查
数据请见(电脑F盘)或(腾讯微云文件“Redhur的进阶“)的{python数据—test2}北京,2959.19,730.79,749.41,513.34,467.87,1141.82,478.42,457.64天津,2459.77,495.47,697.33,302.87,284.19,735.97,570.84,305.08河北,1495.63,515.90,362.37,285.32,272.95,540.58,364.91,188.63山西,1406.33,477.77,290.15,2.原创 2021-03-11 10:12:25 · 193 阅读 · 0 评论 -
对某路口的交通流量监测数据,对车流量的信息进行多项式回归
数据介绍: 数据为某路口的交通流量监测数据,记录全年小时级别的车流量。实验目的: 根据已有的数据创建多项式特征,使用岭回归模型代替一般的线性模型,对车流量的信息进行多项式回归。(本节内容数据见电脑”F:\python数据\test5“或腾讯微云文件”python数据\test5“)import numpy as npimport pandas as pdfrom sklearn.linear_model import Ridge #加载岭回归方法from sklearn import mod原创 2021-03-11 10:10:49 · 2288 阅读 · 20 评论 -
通过不同的广告投入,预测产品销量
TV:对于一个给定市场中单一产品,用于电视上的广告费用(以千为单位)Radio:在广播媒体上投资的广告费用Newspaper:用于报纸媒体的广告费用Sales:对应产品的销量在这个案例中,我们通过不同的广告投入,预测产品销量。因为响应变量是一个连续的值,所以这个问题是一个回归问题。数据集一共有200行(200个观测值),每一个观测对应一个市场的销售情况。#(网上搜索Advertising.csv即可找到本文用到的csv文件)import numpy as npimport matplot..原创 2021-03-11 10:07:17 · 1310 阅读 · 1 评论 -
上证指数涨跌预测
实验目的:根据给出当前时间前150天的历史数据,预测当天上证指数的涨跌。用代码将上面的数据处理成下面这种格式import pandas as pdimport numpy as npfrom sklearn import svmfrom sklearn import model_selection # sklearn下cross_validation:交叉验证#parse_dates=第0列解析为日期, index_col= 用作行索引的列编号)data =pd.read_csv('F原创 2021-03-11 10:05:42 · 1883 阅读 · 0 评论 -
人体运动状态信息评级”实例(KNN、决策树、贝叶斯)
一共有A、B、C、D、E 5个人的运动数据,每个人的数据有41列若干行,即41个特征值,每一个特征值代表一个人的此时的体温、此时的加速度、一个人所处环境磁场的数据等等,根据这些特征值可以预测这个人此时的运动状态(跑步,骑行,还是蹲着)。这五个人的数据存储在featurePaths里面, featurePaths= [‘A/A.feature’,‘B/B.feature’,‘C/C.feature’,‘D/D.feature’,‘E/E.feature’]这五个人的运动状态存储在labelPaths里面,原创 2021-03-11 10:04:42 · 568 阅读 · 5 评论