数据挖掘学习
yyt200808
懒懒的码农
展开
-
k-means聚类方法的简单java实现
k-means 是硬聚类算法,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。今天是研究生生涯的开始,数据挖掘课中提到了k-means,就想自己去实现以下算法。 算法过程如下: 1)从N个点随机选取K个点作为质心 2)对剩余的每个点测量其到每个质心的距离,并把它归到最近的质心的类 3)重新计算已经得到的各个类的质心 4)迭代2~3步直至新原创 2015-09-16 18:41:55 · 3693 阅读 · 2 评论 -
使用sklearn做单机特征工程
目录 1 特征工程是什么? 2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾 3 特征选择 3.1 Filter 3.1.1 方差选择法转载 2016-11-14 23:10:28 · 285 阅读 · 0 评论 -
Mongodb 和python相连,从json文本中导入数据
Mongodb 和python相连,从json文本中导入数据因为现在mogondb 升级了,pymongo的version 变成了3.3 现在是将用scrapy 爬到的zhihu用户数据存到mongodb中,所以代码如下:#coding=utf-8import pymongo from bson.objectid import ObjectId import logging from datet原创 2016-09-02 16:13:30 · 1773 阅读 · 0 评论