眠眠菇-CSDN博客

原创 TF-IDF与TextRank

TF-IDFTF_IDF(Term Frequency/Inverse Document Frequency)是信息检索领域非常重要的搜索词重要性度量；用以衡量一个关键词w对于查询(Query,可看作文档)所能提供的信息。TF-IDF是两个指标的乘积：词频和逆文档频率。词频（Term Frequency, TF）表示关键词w在文档DiD_iDi中出现的频率:TFw,Di=count(w)∣Di∣TF_{w,D_i}=\frac{count(w)}{|D_i|}TFw,Di=∣Di∣count(

2021-02-07 19:53:38 618

原创拉普拉斯矩阵拉普拉斯算子图论

图函数我们知道，互相连接的节点可以构成一个图，其中包含所有节点构成的集合V，和所有边构成的集合E。对于实数域上的函数y=f(x)y=f(x)y=f(x), 我们可以理解为一种对于x的映射，将每个可能的x∈Xx\in Xx∈X 映射到一个对应的y∈Yy\in Yy∈Y。相应地，我们也可以定义一个函数FG:V→RF_G: V \rightarrow RFG:V→R，使得图上的每一个节点v∈Vv \in Vv∈V，都被映射到一个实数RRR上。图函数的梯度我们记得，梯度的意义在于，衡量函数在每一个点处，

2021-02-05 21:55:23 6813

原创 Keras 文本预处理 (Tokenizer的使用)

注: 部分内容参照keras中文文档Tokenizer文本标记实用类。该类允许使用两种方法向量化一个文本语料库：将每个文本转化为一个整数序列（每个整数都是词典中标记的索引）；或者将其转化为一个向量，其中每个标记的系数可以是二进制值、词频、TF-IDF权重等。keras.preprocessing.text.Tokenizer(num_words=None, filters='!"#$%&()*+,-./:;<=

2020-08-02 17:48:18 4915

翻译 Kaggle dog vs cat —— 基于tensorflow.keras 的基本卷积神经网络模型(baseline)

小型卷积神经网络模型预训练的神经网络模型微调

2020-07-13 22:31:33 844

原创扩展欧几里得算法的证明以及求逆元

2020-05-22 05:35:25 1120

原创 np.hstack(), np.concatenate()与np.stack()解析

np.hstack(),np.concatenate()与np.stack()是numpy中实现数组水平组合的三个函数。1. np.hsatck(arrays)np.hstack(arrays)是其中最简单的一个函数。它接收的参数是一个元组，包含需要组合在一起的几个数组。这些数组需要满足的要求是维数相同零轴元素个数相同例：a = np.arange(9).reshape(3, 3...

2020-02-06 12:07:29 5333 1