自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 特征工程

特征工程我们先捋一下基于原始的给定数据, 有哪些特征可以直接利用:1.文章的自身特征, category_id表示这文章的类型, created_at_ts表示文章建立的时间, 这个关系着文章的时效性, words_count是文章的字数, 一般字数太长我们不太喜欢点击, 也不排除有人就喜欢读长文。2.文章的内容embedding特征, 这个召回的时候用过, 这里可以选择使用, 也可以选择不用, 也可以尝试其他类型的embedding特征, 比如W2V等3.用户的设备特征信息上面这些直接可以用的特

2020-12-03 21:58:27 75

原创 多路召回

多路召回所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用,可以明显的看出,“多路召回策略”是在“计算速度”和“召回率”之间进行权衡的结果。其中,各种简单策略保证候选集的快速召回,从不同角度设计的策略保证召回率接近理想的状态,不至于损伤排序效果。如下图是多路召回的一个示意图,在多路召回中,每个策略之间毫不相关,所以一般可以写并发多线程同时进行,这样可以更加高效。import pandas as pd import numpy

2020-11-30 23:33:49 486

原创 推荐系统打卡第二天

推荐系统打卡第二天关于赛题的理解数据概况评价方式理解赛题理解关于赛题的理解数据概况该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B。具体数据表和参数, 大家可以参考赛题说明。下面说一下拿到这样的数据如何进行理解, 来有效的开展下一步的工作。评价方式理解

2020-11-27 23:58:55 70

原创 关于赛题的理解

推荐系统打卡第一天关于赛题的理解数据概况评价方式理解赛题理解关于赛题的理解数据概况该数据来自某新闻APP平台的用户交互数据,包括30万用户,近300万次点击,共36万多篇不同的新闻文章,同时每篇新闻文章有对应的embedding向量表示。为了保证比赛的公平性,从中抽取20万用户的点击日志数据作为训练集,5万用户的点击日志数据作为测试集A,5万用户的点击日志数据作为测试集B。具体数据表和参数, 大家可以参考赛题说明。下面说一下拿到这样的数据如何进行理解, 来有效的开展下一步的工作。评价方式理解理解评

2020-11-26 12:04:21 428

原创 LeetCode刷题点滴记录

LeetCode刷题点滴记录第一题:最长回文子串(5)先说说思路:这道题让我们求最长回文子串,首先说下什么是回文串,就是正读反读都一样的字符串,比如 “bob”, “level”, “noon” 等等。那么最长回文子串就是在一个字符串中的那个最长的回文子串。LeetCode 中关于回文串的题共有五道,除了这道,其他的四道为 Palindrome Number,Validate Palindrome,Palindrome Partitioning,Palindrome Partitioning II,我们

2020-08-23 23:42:44 80

原创 LeetCode刷题记录

LeetCode刷题记录50题这道题让我们求x的n次方,如果只是简单的用个 for 循环让x乘以自己n次的话,未免也把 LeetCode 上的题想的太简单了,一句话形容图样图森破啊。OJ 因超时无法通过,所以需要优化,使其在更有效的算出结果来们可以用递归来折半计算,每次把n缩小一半,这样n最终会缩小到0,任何数的0次方都为1,这时候再往回乘,如果此时n是偶数,直接把上次递归得到的值算个平方返回即可,如果是奇数,则还需要乘上个x的值。还有一点需要引起注意的是n有可能为负数,对于n是负数的情况,我可以先用其

2020-08-19 23:41:54 100

原创 OpenCV学习的最后一天

OpenCV学习的最后一天一、简介什么是边缘?边缘是图像强度函数快速变化的地方如何检测边缘?为了检测边缘,我们需要检测图像中的不连续性,可以使用导数来检测不连续性。如上图所示,上图的第一幅图表示一张数字图片,我们对水平红线处进行求导,便可得到上图二中的关系,可以看到在边缘处有着较大的跳变。但是,导数也会受到噪声的影响,因此建议在求导数之前先对图像进行平滑处理(上图三)。但...

2020-05-01 22:09:42 101

原创 OpenCV学习第五天

OpenCV学习第五天一、简介该部分的学习内容是对经典的阈值分割算法进行回顾,图像阈值化分割是一种传统的最常用的图像分割方法,因其实现简单、计算量小、性能较稳定而成为图像分割中最基本和应用最广泛的分割技术。它特别适用于目标和背景占据不同灰度级范围的图像。它不仅可以极大的压缩数据量,而且也大大简化了分析和处理步骤,因此在很多情况下,是进行图像分析、特征提取与模式识别之前的必要的图像预处理过程。图...

2020-04-29 23:46:57 113

原创 OpenCV学习第四天

OpenCV学习第四天算法理论介绍1. 均值滤波、方框滤波1. 滤波分类线性滤波: 对邻域中的像素的计算为线性运算时,如利用窗口函数进行平滑加权求和的运算,或者某种卷积运算,都可以称为线性滤波。常见的线性滤波有:均值滤波、高斯滤波、盒子滤波、拉普拉斯滤波等等,通常线性滤波器之间只是模版系数不同。非线性滤波: 非线性滤波利用原始图像跟模版之间的一种逻辑关系得到结果,如最值滤波器,中值滤波器...

2020-04-27 21:40:56 181

原创 OpenCV打卡第三天

OpenCV打卡第三天一、简介图像彩色空间互转在图像处理中应用非常广泛,而且很多算法只对灰度图有效;另外,相比RGB,其他颜色空间(比如HSV、HSI)更具可分离性和可操作性,所以很多图像算法需要将图像从RGB转为其他颜色空间,所以图像彩色互转是十分重要和关键的。二、算法3.4.1 RGB与灰度图互转RGB(红绿蓝)是依据人眼识别的颜色定义出的空间,可表示大部分颜色。但在科学研究一般不采...

2020-04-25 23:46:38 106

原创 OpenCV学习第二天

OpenCV学习第二天: 几何变换1.简介该部分将对基本的几何变换进行学习,几何变换的原理大多都是相似,只是变换矩阵不同,因此,我们以最常用的平移和旋转为例进行学习。在深度学习领域,我们常用平移、旋转、镜像等操作进行数据增广;在传统CV领域,由于某些拍摄角度的问题,我们需要对图像进行矫正处理,而几何变换正是这个处理过程的基础,因此了解和学习几何变换也是有必要的。2.算法理论介绍变换形式先...

2020-04-23 22:28:48 147

转载 OpenCV学习第一天

OpenCV学习第一天OpenCV的介绍1.原理2.代码实现(C++)这是我人生第一次写博客,也是学习OpenCV的第一天,欢迎大神们指教批评我这个小白。OpenCV的介绍一句话总结:他就是个很厉害的库函数。那就来简单介绍一下什么是OpenCV:OpenCV是一个用于图像处理、分析、机器视觉方面的开源函数库.不管你是做科学研究,还是商业应用,opencv都能够作为你理想的工具库,由于,...

2020-04-21 21:49:04 244

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除