3.向量空间模型

前文向量语义模型中说明了如何使用共现矩阵(co-occurrence matrix)表示词向量(word vectors)和文档向量(document vectors)。本文作为补充来深入阐述向量相似性指标包括cosine相似性(前面的文章也涉及到)和欧氏距离以及用于降维可视化的PCA方法。

相似性指标
  1. 欧氏距离
    欧几里得距离是连接两个向量的直线段的长度, n n n维向量距离的计算公式如下:

    😊python实现如下:
import numpy as np
v = np.array([1,4,6])
w = np.array([2,5,8])
d = np.linalg.norm(v-w) #输出为:2.449489742783178
  1. cosine在这里插入图片描述
    上图的三个corpus中“Agriculture corpus”和“History corpus”有相似的单词总数,而“Food corpus”则相对较少。可以看到,角度比距离更能合理的进行相似性度量。
    😊 python实现如下:
import numpy as np
v = np.array([20,40])
w = np.array([30,20])
cosine = np.dot(v,w)/(np.linalg.norm(v) * np.linalg.norm(w)) #输出:0.868

利用两个向量之间的角度余弦值计算相似度相比欧氏距离的优点在于不受向量表示之间大小差异的影响。

主成分分析(PCA,1901)

在这里插入图片描述
PCA作为一种降维方法可以为数据找到不相关特征并试图保留尽可能多的信息,从而可视化数据来帮助检查向量之间的关系。上图是将PCA应用于二维空间上的过程示意图。

过程
  • 要执行PCA,第一步是要获取一组不相关的特征——对数据进行归一化得到 X X X,计算原始数据的协方差矩阵 ∑ \sum ,最后执行SVD得到3个矩阵从而获得特征值和特征向量。在这里插入图片描述

特征向量: 数据的不相关特征,给出不相关特征的方向
特征值:每个特征下数据集的方差

  • 第二步是将数据投射到一组新的特征中去, 即词向量矩阵点乘特征向量矩阵得到你想要维数的新矩阵(对于可视化常保留两个维度)。还可以获得保留在新向量空间中的方差百分比。
    在这里插入图片描述
    😊python实现:
    """
    Input:
        X: of dimension (m,n) where each row corresponds to a word vector
        n_components: Number of components you want to keep.
    Output:
        X_reduced: data transformed in 2 dims/columns + regenerated original data
    """
    # mean center the data
    X_demeaned = X - np.expand_dims(np.mean(X,axis=0),axis=0)
    # calculate the covariance matrix
    covariance_matrix = np.cov(X_demeaned,rowvar=False)
    # calculate eigenvectors & eigenvalues of the covariance matrix
    eigen_vals, eigen_vecs = np.linalg.eigh(covariance_matrix, UPLO='L')
    # sort eigenvalue in increasing order (get the indices from the sort)
    idx_sorted = np.argsort(eigen_vals)
    # reverse the order so that it's from highest to lowest.
    idx_sorted_decreasing = idx_sorted[::-1]
    # sort the eigen values by idx_sorted_decreasing
    eigen_vals_sorted = eigen_vals[idx_sorted_decreasing]
    # sort eigenvectors using the idx_sorted_decreasing indices
    eigen_vecs_sorted = eigen_vecs[:,idx_sorted_decreasing]
    # select the first n eigenvectors (n is desired dimension
    # of rescaled data array, or dims_rescaled_data)
    eigen_vecs_subset = eigen_vecs_sorted[:,:n_components]
    X_reduced = np.dot(X_demeaned,eigen_vecs_subset)

随后就可以利用PCA将高维的词向量进行降维到二维平面上,从而方便进行可视化。整个源代码见我的github

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
水资源是人类社会的宝贵财富,在生活、工农业生产中是不可缺少的。随着世界人口的增长及工农业生产的发展,需水量也在日益增长,水已经变得比以往任何时候都要珍贵。但是,由于人类的生产和生活,导致水体的污染,水质恶化,使有限的水资源更加紧张。长期以来,油类物质(石油类物质和动植物油)一直是水和土壤中的重要污染源。它不仅对人的身体健康带来极大危害,而且使水质恶化,严重破坏水体生态平衡。因此各国都加强了油类物质对水体和土壤的污染的治理。对于水中油含量的检测,我国处于落后阶段,与国际先进水平存在差距,所以难以满足当今技术水平的要求。为了取得具有代表性的正确数据,使分析数据具有与现代测试技术水平相应的准确性和先进性,不断提高分析成果的可比性和应用效果,检测的方法和仪器是非常重要的。只有保证了这两方面才能保证快速和准确地测量出水中油类污染物含量,以达到保护和治理水污染的目的。开展水中油污染检测方法、技术和检测设备的研究,是提高水污染检测的一条重要措施。通过本课题的研究,探索出一套适合我国国情的水质污染现场检测技术和检测设备,具有广泛的应用前景和科学研究价值。 本课题针对我国水体的油污染,探索一套检测油污染的可行方案和方法,利用非分散红外光度法技术,开发研制具有自主知识产权的适合国情的适于野外便携式的测油仪。利用此仪器,可以检测出被测水样中亚甲基、甲基物质和动植物油脂的污染物含量,为我国众多的环境检测站点监测水体的油污染状况提供依据。
### 内容概要 《计算机试卷1》是一份综合性的计算机基础和应用测试卷,涵盖了计算机硬件、软件、操作系统、网络、多媒体技术等多个领域的知识点。试卷包括单选题和操作应用两大类,单选题部分测试学生对计算机基础知识的掌握,操作应用部分则评估学生对计算机应用软件的实际操作能力。 ### 适用人群 本试卷适用于: - 计算机专业或信息技术相关专业的学生,用于课程学习或考试复习。 - 准备计算机等级考试或职业资格认证的人士,作为实战演练材料。 - 对计算机操作有兴趣的自学者,用于提升个人计算机应用技能。 - 计算机基础教育工作者,作为教学资源或出题参考。 ### 使用场景及目标 1. **学习评估**:作为学校或教育机构对学生计算机基础知识和应用技能的评估工具。 2. **自学测试**:供个人自学者检验自己对计算机知识的掌握程度和操作熟练度。 3. **职业发展**:帮助职场人士通过实际操作练习,提升计算机应用能力,增强工作竞争力。 4. **教学资源**:教师可以用于课堂教学,作为教学内容的补充或学生的课后练习。 5. **竞赛准备**:适合准备计算机相关竞赛的学生,作为强化训练和技能检测的材料。 试卷的目标是通过系统性的题目设计,帮助学生全面复习和巩固计算机基础知识,同时通过实际操作题目,提高学生解决实际问题的能力。通过本试卷的学习与练习,学生将能够更加深入地理解计算机的工作原理,掌握常用软件的使用方法,为未来的学术或职业生涯打下坚实的基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值