自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

原创 机器学习100天---day06 NMF非负矩阵分解

NMF,非负矩阵分解。这种方法只能应用于每个特征都是非负的数据。基本思想:将大矩阵分解成两个小矩阵,使两个小矩阵相乘后能够尽可能的还原成大矩阵。公式为:Vn∗m=Wn∗k∗Hk∗mW矩阵:基础数据矩阵,相当于从V中抽取出K个特征,每一列表示一个特征,每行表示一个对象(比如:用户,图像像素);它们的值表示用户与这一特征的相关性;H矩阵:系数矩阵,表示系数m与特征k之间的关联。矩阵优化目标:...

2018-09-30 14:35:29 319

原创 机器学习100天---day05 主成分分析Python Numpy实现

#_*_coding:utf-8_*_'''PCA:降维''''''将数据转换为只保留前N个主成分特征空间1、去除平均值2、计算协方差矩阵3、计算协方差矩阵的特征值和特征向量4、将特征值排序保留前N个最大特征值对应的特征向量5、将数据转换到上面得到的N个特征向量构建的特征空间(实现了特征压缩)'''import numpy as npimport pandas as p...

2018-09-29 18:02:41 347

原创 推荐系统之协同过滤

协同过滤在推荐算法领域是一个老生常谈的算法,在此仅对理论部分做一个总结。协同过滤分为基于用户的协同过滤(UserCF)和基于用户的协同过滤(ItemCF)UserCF通俗的解释就是把与用户相似的用户喜欢的东西推荐给该用户。故推荐系统中有一个用户相似度矩阵。ItemCF通俗的说就是把与用户有过行为的物品相似的物品推荐给该用户。故推荐系统中有一个物品相似度矩阵。但是在电子商务网站中,例如某宝...

2018-09-27 15:10:06 256

原创 推荐算法 协同过滤sklearn实现

数据集使用MovieLens数据集import pandas as pdimport numpy as npheader = ['user_id', 'item_id', 'rating', 'timestamp']dataset = pd.read_csv('../data/u.data',sep='\t',names=header)#计算唯一用户和电影的数量# unique对...

2018-09-20 10:24:35 7830 3

原创 机器学习基础100天---day04 逻辑回归

该数据集包含了社交网络中用户的信息。这些信息涉及用户ID,性别,年龄以及预估薪资。一家汽车公司刚刚推出了他们新型的豪华SUV,我们尝试预测哪些用户会购买这种全新SUV。并且在最后一列用来表示用户是否购买。我们将建立一种模型来预测用户是否购买这种SUV,该模型基于两个变量,分别是年龄和预计薪资。因此我们的特征矩阵将是这两列。我们尝试寻找用户年龄与预估薪资之间的某种相关性,以及他是否购买SUV的决定。...

2018-09-17 17:14:47 276

原创 机器学习基础100天---day03 多元线性回归

R&D Spend,Administration,Marketing Spend,State,Profit 165349.2,136897.8,471784.1,New York,192261.83 162597.7,151377.59,443898.53,California,191792.06 153441.51,101145.55,407934.54,Flor...

2018-09-14 11:29:13 294

原创 机器学习基础100天---day02 简单线性回归模型

数据集: Hours,Scores 2.5,21 5.1,47 3.2,27 8.5,75 3.5,30 1.5,20 9.2,88 5.5,60 8.3,81 2.7,25 7.7,85 5.9,62 4.5,41 3.3,42 1.1,17 8.9,95 2.5,30 1.9,2...

2018-09-13 17:21:36 161

原创 Java Spark2.1.0 读取文本写入MySQL

import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.function.Function;import org.apache.spark.sql.Dataset;import org.apache.spark.sql.RowFactory;import org.apache.spark.sql.S...

2018-09-13 14:39:24 787

原创 机器学习基础100天---day01 数据预处理

GitHub链接 GitHub有大神出的机器学习100天教程,仅在此记录下我的学习生活。数据预处理数据集 Country Age Salary Purchased 0 France 44.0 72000.0 No 1 Spain 27.0 48000.0 Yes 2 Germany 30.0 54000.0 ...

2018-09-11 21:51:58 391

原创 python3 pandas读取文本写入MySQL

import pymysqlimport pandas as pdfrom sqlalchemy import create_enginepymysql.install_as_MySQLdb()name = ['id','create_time','ruuid','version','addition', 'bookname','content','dversion','...

2018-09-03 14:42:11 1477

大数据开发面试集锦

本文收集了近年各公司大数据开发岗位的面试题,涉及Hadoop、Spark、kafka、HBASE等大数据组件相关组件

2018-09-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除