基于奇异值分解压缩数据 python
data
5 2 1 4 0 0 2 4 0 0 0
0 0 0 0 0 0 0 0 0 3 0
1 0 5 2 0 0 3 0 3 0 1
0 5 0 0 4 0 1 0 0 0 0
0 0 0 0 0 4 0 0 0 4 0
0 0 1 0 0 0 1 0 0 5 0
5 0 2 4 2 1 0 3 0 1 0
0 4 0 0 5 4 0 0 0 0 5
0 0 0 0 0 0 4 0 4 5 0
0 0 0 4 0 0 1 5 0 0 0
0 0 0 0 4 5 0 0 0 0 3
4 2 1 4 0 0 2 4 0 0 0
0 1 4 1 2 1 5 0 5 0 0
0 0 0 0 0 4 0 0 0 4 0
2 5 0 0 4 0 0 0 0 0 0
5 0 0 0 0 0 0 4 2 0 0
0 2 4 0 4 3 4 0 0 0 0
0 3 5 1 0 0 4 1 0 0 0
# . 基于奇异值分解压缩数据的模型二
import numpy as np
import pandas as pd
a = np.loadtxt('data3_6_1.txt')
u, sigma, vt = np.linalg.svd(a)
# print(sigma)
cs = np.cumsum(sigma ** 2) # 按列求和
# print(cs)
rate = cs / cs[-1] # 计算信息累计贡献率
ind = np.where(rate >= 0.9)[0][0] + 1
# ind为奇异值的个数,满足信息提出率达到90%
b = np.diag(sigma[:ind]) @ u.T[:ind, :] @ a # 得到降维数据
d = 0.5 * np.corrcoef(b.T) + 0.5
# c =np.linalg.norm(b, axis=0,keepdims=True)
# d = 0.5*b.T@b/(c.T@c)+0.5
dd = pd.DataFrame(d)
dd.to_excel('a.xlsx', index=False)
print("请输入人员编号1-18")
user = int(input())
n = a.shape[1]
no = np.where(a[user - 1, :] == 0)[
0] # 未评分编号 这里索引的是一维数组 #它的值来源于满足条件的元素的行索引,两个0行的,三个1行的,四个2行的,五个3行的;元祖的第二个元素也是一个array,它的值来源于满足条件的元素的列索引。
print(no)
# set 是一个不允许内容重复的组合,而且set里的内容位置是随意的,
yb = set(range(n)) - set(no) # 已评分的编号
yb = list(yb)
ys = a[user - 1, yb] # 已评分的分数
sc = np.zeros(len(no)) # 初始化
for i in range(len(no)):
sim = d[no[i], yb]
sc[i] = ys @ sim / sum(sim)
print('未评分项的编号为:', no + 1)
print('未评分项的分数为:', np.round(sc, 4))