特征工程
薛定谔的小佩奇
这个作者很懒,什么都没留下…
展开
-
TF-IDF
TF-IDF概述TF-IDF是Term Frequency -  Inverse Document Frequency的缩写,即“词频-逆文本频率”。它由两部分组成,TF和IDF。前面的TF也就是我们前面说到的词频,我们之前做的向量化也就是做了文本中各个词的出现频率统计,并作为文本特征,这个很好理解。关键是后面的这个IDF,即“逆文本频率”如何理解。在上一节中,我们讲到几乎所有文本都...原创 2018-09-21 20:36:08 · 173 阅读 · 0 评论 -
Embedding
One-hot Embedding假设一共有个物体,每个物体有自己唯一的id,那么从物体的集合到有一个trivial的嵌入,就是把它映射到中的标准基,这种嵌入叫做One-hot embedding/encoding.应用中一般将物体嵌入到一个低维空间 ,只需要再compose上一个从到的线性映射就好了。每一个 的矩阵都定义了到的一个线性映射: 。当 是一个标准基向量的时候,对应矩阵中...原创 2018-09-22 19:54:01 · 1028 阅读 · 0 评论 -
滤波
滤波算法主要包括均值滤波,高斯滤波,中值滤波和双边滤波。 每种算法都有自己的特点,建议从原理上了解每种算法的优缺点。上图给出简洁版的总结。 以下是代码:import numpy as npimport cv2import matplotlib.pyplot as plt######## 四个不同的滤波器 #########img = cv2.imread(‘cat....原创 2018-11-06 16:54:03 · 212 阅读 · 0 评论