数据挖掘
川师_King
川师King永远的神
展开
-
数据挖掘算法原理与实践:k-均值
什么是质心#encoding=utf8import numpy as np#计算样本间距离def distance(x, y, p=2): ''' input:x(ndarray):第一个样本的坐标 y(ndarray):第二个样本的坐标 p(int):等于1时为曼哈顿距离,等于2时为欧氏距离 output:distance(float):x到y的距离 ''' #********* Begin *******原创 2021-05-06 17:51:53 · 4366 阅读 · 1 评论 -
Pytorch 之神经网络
加载数据——Data Loaderimport torchimport torchvision.datasets as dsetsimport torchvision.transforms as transformsimport osimport syspath = os.path.split(os.path.abspath(os.path.realpath(sys.argv[0])))[0] + os.path.seppath = path[:-10] + '/data/'#/******原创 2021-05-06 17:45:56 · 2453 阅读 · 1 评论 -
K-means聚类算法
计算欧几里得距离# -*- coding: utf-8 -*-import numpy as npdef euclid_distance(x1, x2): """计算欧几里得距离 参数: x1 - numpy数组 x2 - numpy数组 返回值: distance - 浮点数,欧几里得距离 """ distance = 0 # 请在此添加实现代码 # #********** Begin原创 2021-05-06 17:41:26 · 1982 阅读 · 2 评论 -
数据科学导论——数据可视化
第2关:初识数据import pandas as pdimport numpy as nppd.set_option('display.max_columns', 1000)pd.set_option('display.width', 1000)pd.set_option('display.max_colwidth', 1000)def student(): # ********* Begin *********# df=pd.read_csv("Task2/listings.原创 2021-04-07 21:21:13 · 1404 阅读 · 5 评论 -
数据科学导论——数据可视化进阶
第1关:热图import matplotlibmatplotlib.use("Agg")import matplotlib.pyplot as pltimport seaborn as snsimport numpy as npimport pandas as pddef student(): # ********* Begin *********# df=pd.read_csv("Task1/listings.csv") plt.figure(figsize=(10原创 2021-04-07 21:18:54 · 1846 阅读 · 2 评论 -
数据挖掘算法原理与实践:基于矩阵分解的协同过滤算法
第1关:基于矩阵分解的协同过滤算法# -*- coding: utf-8 -*-import numpy as npdef recommend(userID,lr,alpha,d,n_iter,data): ''' userID(int):1-10推荐用户ID lr(float):学习率 alpha(float):权重衰减系数 d(int):矩阵分解因子(元素个数) n_iter(int):训练轮数 data(ndarray):评分表原创 2021-03-31 18:05:58 · 4423 阅读 · 1 评论 -
数据科学导论——数据预处理进阶
第1关:数据归约任务描述相关知识数据归约策略数据立方体聚集与维归约数据压缩与数值归约编程要求测试说明任务描述本关任务:使用直方图展示不同年龄的发病次数。相关知识数据仓库中往往存有海量数据,在其上进行复杂的数据分析与挖掘需要很长的时间,数据归约可以用来得到数据集的归约表示,它小得多,但可以产生相同的(或几乎相同的)分析结果。数据归约策略数据归约策略:数据立方体聚集;维归约;数据压缩;数值归约;离散化和概念分层产生。用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘原创 2021-03-31 18:04:38 · 2182 阅读 · 3 评论 -
数据科学导论——数据预处理
第2关:数据清理-查漏补缺import numpy as npimport pandas as pdimport matplotlib.pyplot as pltdef student(): train = pd.read_csv('Task1/diabetes_null.csv', na_values=['#NAME?']) train['Insulin'] = train['Insulin'].fillna(100) train['SkinThickness'] = tr原创 2021-03-31 18:03:04 · 1912 阅读 · 2 评论 -
Python机器学习软件包Scikit-Learn的学习与运用
第1关:使用scikit-learn导入数据集from sklearn import datasetsdef getIrisData(): ''' 导入Iris数据集 返回值: X - 前5条训练特征数据 y - 前5条训练数据类别 X_shape - 训练特征数据的二维数组大小 ''' #初始化 X = [] y = [] X_shape = () # 请在此添加实现代码 # #原创 2021-03-23 17:01:10 · 3568 阅读 · 0 评论 -
数据科学导论——数学基础之向量
第2关:什么是向量?# 请根据左侧编程要求编写完整的代码# ********** Begin ********** #height_weight_age = [70, 170, 40 ] grades = [95, 80, 75, 62 ] print(height_weight_age)print(grades)# ********** End ********** #第3关:向量运算a = eval(input())b = eval(input())c = 0.5原创 2021-03-23 16:57:41 · 611 阅读 · 0 评论 -
数据科学导论——数学基础之矩阵
第1关:什么是矩阵?# ********** Begin ********** ## 创建之后的矩阵赋值给 matrixmatrix = [[0]*20 for x in range(20)]for x in range(len(matrix)): matrix[x][x] = 1 # ********** End ********** #print(matrix)第2关:线代基础之矩阵运算def matxMultiply(A, B): # **********原创 2021-03-23 16:55:51 · 649 阅读 · 0 评论