自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (1)
  • 收藏
  • 关注

原创 FM算法简述

诞生的契机故事从LR模型说起,传统的LR模型每个特征都是相互独立的,但是我们要处理的情况往往没有这么理想,当需要考虑到特征之间的关系时,得要通过人工的方式对这些特征进行组合。除此之外,非线性SVM可以对特征进行kernel映射,但是在特征高度稀疏的情况下,学习效果并不好。其他的可以学习到特征之间关系的算法都受限于输入和使用场景,因此FM(Factorization Machine)诞生了。来一个贴合的小栗子,比如要根据用户的各种行为特征来预测对于某部电影的喜爱程度(评分)。如下图:User、Move

2020-05-10 01:18:03 275

原创 深度学习中的Embedding层

在许多深度学习实战中对于Embeding的介绍比较含糊,比如 Keras中文文档中对嵌入层 Embedding的介绍除了一句 “嵌入层将正整数(下标)转换为具有固定大小的向量”之外就没有了。下面选择重点详细说一下。单词嵌入是使用密集的矢量表示来表示单词和文档的一类方法。词嵌入是对传统的词袋模型编码方案的改进,传统方法使用大而稀疏的矢量来表示每个单词或者在矢量内对每个单词进行评分以表示整个词汇表,...

2020-05-03 01:33:02 1257

原创 python——re模块

很久没有编写爬虫程序,不过前不久又再次上手。对于文本数据获取指定信息,或者进行清洗,正则表达式都是一个强力的工具。它的使用场景也十分多样。借此回顾总结一下,python中的re模块的主要功能与示例。compilere.compile()可以对传入的字符串进行编译,来返回一个目标的匹配模式,从而提高正则的效率。主要参数:pattern : 需要编译的字符串flags : 修改匹配方式,包括...

2020-04-26 00:44:49 299

原创 初识反向传播

引入在单层感知机模型中,对于输入与输出之间的权重调整依赖于预测产生的误差,由于不含隐藏层,误差可以直接计算得到。而对于多层网络来说,由于隐藏层的存在,输入输出之间的权重变得复杂,显然直接计算并不合理,而是需要通过从输出到输入反方向逐层计算。由于是从输出到输入,所以我们一定需要先有一个正向传播的过程。使得样本从输入层开始,由上至下逐层经隐节点计算处理,最终样本信息被传送到输出层节点,得到预测的结...

2020-04-11 23:59:36 272

原创 k-medoids聚类

我们知道对于K-means算法来说,如果数据样本中出现极端的离群值,导致样本数据分布出现一定的扭曲或者说偏离,则会导致聚类效果不好,与期望的效果之间有误差存在,也就是我们所说的极端值敏感。聚类很多情况下都是通过计算点之间的欧式距离来表现亲缘远近的,所以解决在其上产生的问题就逃不过中心点。这次介绍的k-medoids算法自然在处理一些异常值方面具有得天独厚的优势。就原理而言,k-means与k-m...

2020-04-05 01:52:53 841

原创 tensorflow1.0中conv2的细节

对比2.0可以知道tensorflow1.0对于网络的搭建更复杂一些,因此细节上的容易出现差错,在此总结一下使用conv2d的一些小问题。tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, data_format=None, name=None)先来看一下各个参数的意义。input:需要做卷积...

2020-03-08 01:41:05 142

原创 keras.layers--核心网络层摘要

完成一定实践后仔细阅读keras文档,做了关于核心网络层的一些摘要,主要汇总一些常用的网络层及其使用指南,大都在实践中使用过。Densekeras.layers.Dense(units, activation=None, use_bias=True, kernel_initializer='glorot_uniform', bias_initializer='zeros...

2020-02-29 23:19:57 165

原创 HDF5文件--python 使用简介

在使用TensorFlow,学习回调函数时,使用了ModelCheckpoint(),产生了.h5的文件。为了了解回调函数产生的信息,需要了解HDF5的相关内容,本篇仅仅简要介绍并记录遇到的问题及对用解决方案简介HDF5(Hierarchical Data Formal)是用于存储大规模数值数据的较为理想的存储格式,文件后缀名为h5,存储读取速度非常快,且可在文件内部按照明确的层次存储数据,同...

2020-02-12 23:27:35 1504

原创 二分法

2019年终记事:一年的经历那么多,回忆起来却短的不可想象。2019年的最后一篇博客,回想第一篇到现在,虽然一路上走走停停,但学习的脚步还在前进。短短二十年放弃的东西比一声叹息多多了,回头看来人生得要有一件能坚持下去的东西……新年的钟声带不走2019的遗憾,希望它能带来2020的希望。引言在计算机科学中,二分搜索,也称为半间隔搜索,对数搜索,是一种搜索算法,用于查找排序数组中目标值的位置。...

2020-01-01 00:03:47 318

原创 LeetCode164. 最大间距

原题链接题目给定一个无序的数组,找出数组在排序之后,相邻元素之间最大的差值。如果数组元素个数小于 2,则返回 0。示例 1:输入: [3,6,9,1]输出: 3解释: 排序后的数组是 [1,3,6,9], 其中相邻元素 (3,6) 和 (6,9)之间都存在最大差值 3。思路原题最后要求是 O(n) 的时间复杂度,显然我们最先想到的常规排序算法是不能胜任了,我们需要使用桶排序。...

2019-12-15 16:39:41 64

原创 岭回归

引入岭回归(英文名:ridge regression, Tikhonov regularization)是一种专用于共线性数据分析的有偏估计回归方法,实质上是一种改良的最小二乘估计法,通过放弃最小二乘法的无偏性,以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法,对病态数据的拟合要强于最小二乘法。在统计学中,回归分析(regression analysis)指的是确定两...

2019-12-01 20:13:58 953

原创 数据清洗----缺失值处理

从缺失的产生说起缺失值的产生的原因多种多样,主要分为机械原因和人为原因。机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据。处理...

2019-11-17 19:37:08 1188

Checkpoint.zip

Checkpoint.zip

2021-06-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除