项目实战笔记
文章平均质量分 96
这里会从项目实战的角度出发,记录在真正项目实战中遇到的问题和经验,应用领域涵盖CV, NLP,时间序列预测,推荐系统等多个方向。
翻滚的小@强
毕业于某985高校,计算机技术专业,研究方向是数据挖掘和时空序列预测,在学校学习过一些机器学习和深度学习的皮毛,入门过推荐系统,计算机视觉以及NLP和大数据等领域,目前在做大数据分析和挖掘相关的工作, 对人工智能,大数据等各种前沿计算机技术以及其他领域的新事物都特别感兴趣,一直奔跑在学习的路上, 欢迎伙伴们一块学习, 一起交流呀......
展开
-
OpenCV实践小项目(三) - 停车场车位实时检测
1. 写在前面今天整理OpenCV入门的第三个实战小项目,前面的两篇文章整理了信用卡数字识别以及文档OCR扫描, 大部分用到的是OpenCV里面的基础图像预处理技术,比如轮廓检测,边缘检测,形态学操作,透视变换等, 而这篇文章的项目呢,不仅需要一些基础的图像预处理,还需要搭建模型进行识别和预测,所以通过这个项目,能把图像预处理以及建模型等一整套流程拉起来,并应用到实际的应用场景,还是非常有意思的。停车场车位实时检测任务,是拿到停车场的一段视频video,主要完成两件事情:检测整个停车场当中,当前一共原创 2022-04-09 10:57:08 · 22545 阅读 · 41 评论 -
OpenCV实践小项目(二) -文档ocr扫描识别
1. 写在前面今天整理OpenCV入门的第二个实战小项目, 前一篇文章是信用卡数字识别, 主要运用了OpenCV基础图像处理操作里面的轮廓检测, 边缘检测,形态学操作, 今天的这个项目叫做文档ocr扫描识别,就是给定一个文档的图片,然后识别文档上的文字信息,这个在生活中也是非常常见的哟。 比如试卷扫描,文章扫描等等吧,其实原理都非常类似。下面是给定了一个随意拍摄的购物小票的图片, 然后通过一顿图片处理等操作,得到的ocr扫描结果:由于这个截图我进行了放缩,导致右边这个图片人眼看不太清楚字了,但是基本原创 2022-03-31 08:11:52 · 3839 阅读 · 1 评论 -
OpenCV实践小项目(一): 信用卡数字识别
OpenCV实践项目之信用卡数字识别原创 2022-03-28 16:34:11 · 9633 阅读 · 9 评论 -
头条项目推荐的相关技术(十):排序模型进阶与总结
1. 写在前面这里是有关于一个头条推荐项目的学习笔记,主要是整理工业上的推荐系统用到的一些常用技术, 这是第八篇, 上一篇文章介绍了离线排序模型训练与实时计算的相关内容,原创 2021-03-22 22:51:51 · 735 阅读 · 3 评论 -
头条项目推荐的相关技术(九):深度学习推荐系统与TensorFlow框架
1. 写在前面这里是有关于一个头条推荐项目的学习笔记,主要是整理工业上的推荐系统用到的一些常用技术, 这是第八篇, 上一篇文章介绍了离线排序模型训练与实时计算的相关内容,原创 2021-03-21 19:06:12 · 810 阅读 · 0 评论 -
头条项目推荐的相关技术(八):实时推荐业务流实现与AB测试
1. 写在前面这里是有关于一个头条推荐项目的学习笔记,主要是整理工业上的推荐系统用到的一些常用技术, 这是第八篇, 上一篇文章介绍了离线排序模型训练与实时计算的相关内容,原创 2021-03-19 22:49:40 · 952 阅读 · 3 评论 -
头条项目推荐的相关技术(七): 离线排序模型训练与在线计算
1. 写在前面这里是有关于一个头条推荐项目的学习笔记,主要是整理工业上的推荐系统用到的一些常用技术, 这是第七篇, 上一篇介绍了离线召回与定时更新技术, 这里说的就是根据用户的历史点击行为,基于模型或者是文章内容,从海量的文章中为每个用户在每个频道召回几百篇文章,并存储到HBase,供后面的精排模型所使用。 而今天这篇文章介绍的就是离线排序模型训练与实时计算用到的相关技术。这篇文章使用的数据就是前面召回回来的候选样本集。 主要内容如下:离线排序模型训练基础(CTR预估作用,常见点击率预测种类模型,CT原创 2021-03-18 20:06:31 · 773 阅读 · 1 评论 -
头条项目推荐的相关技术(六): 离线召回与定时更新
1. 写在前面这里是有关于一个头条推荐项目的学习笔记,主要是整理工业上的推荐系统用到的一些常用技术, 这是第六篇, 上一篇介绍了用户画像的计算以及增量更新方式,最后还整理了推荐系统中的特征工程的相关知识, 这篇文章要介绍的技术是离线召回与排序。这个也是推荐系统的核心技术之一了。主要内容如下:召回排序介绍(业务流程, 头条推荐的召回排序设计)离线用户基于模型召回集(ALS模型推荐API使用, StringIndexer的使用,spark完成离线用户基于模型的协同过滤推荐)离线用户基于内容召回集(离原创 2021-03-17 18:08:21 · 828 阅读 · 0 评论 -
头条项目推荐的相关技术(五): 离线用户画像计算与增量更新
1. 写在前面这里是有关于一个头条推荐项目的学习笔记,主要是整理工业上的推荐系统用到的一些常用技术, 这是第三篇, 上一篇文章整理了离线文章画像的计算与更新的全过程,本篇介绍的技术是离线用户画像的计算, 首先会介绍离线用户画像建立的流程,然后就介绍离线的画像如何计算及更新,最后借鉴王喆老师的书,补充一下推荐系统应该如何选取和处理特征的相关知识, 主要内容如下:离线用户画像建立流程离线用户画像增量更新推荐系统应该如何选取和处理特征(特征工程原则,常用特征,常用特征处理方法以及特征工程与业务).原创 2021-03-16 20:26:42 · 918 阅读 · 0 评论 -
头条项目推荐的相关技术(四):离线文章画像的增量更新及离线文章相似度计算
1. 写在前面这里是有关于一个头条推荐项目的学习笔记,主要是整理工业上的推荐系统用到的一些常用技术, 这是第三篇, 上一篇文章整理了离线文章画像的计算过程,主要包括TFIDF和TextRank两种技术, 这篇文章介绍下离线画像的增量更新计算(定时更新)以及文章相似度技术的相关计算方法, 由于离线画像计算方法上一篇文章总结了,这里就简单了解下增量更新,也就是新来的文章,应该怎么去计算这些新文章的画像呢? 主要内容如下:离线增量文章画像计算, 这里要把上一篇文章里面的所有代码写成项目代码并放入pych原创 2021-03-16 14:50:15 · 668 阅读 · 2 评论 -
头条项目推荐的相关技术(三): 离线文章画像计算
1. 写在前面这里是有关于一个头条推荐项目的学习笔记,主要是整理工业上的推荐系统用到的一些常用技术, 这是第三篇, 上一篇文章整理了用户的行为日志收集技术, 第一篇文章整理了数据库的迁移技术,这里呢,就真正开始头条推荐项目了, 本篇介绍的技术是离线文章画像的计算, 首先会介绍离线画像的流程,然后就介绍离线的文章画像如何计算。主要包括:离线画像的流程(把握下画像构建在整个推荐系统中所处的位置)离线文章的画像计算原理(文章画像构成, spark tf-idf和TextRank计算工具使用,文章画像计算和原创 2021-03-13 21:03:27 · 592 阅读 · 1 评论 -
头条项目推荐的相关技术(二):用户的行为收集(从日志经flume到hadoop再Hive操作)
1. 写在前面这里是有关于一个头条推荐项目的学习笔记,主要是整理工业上的推荐系统用到的一些常用技术, 这是第二篇,第一篇介绍的是数据库的迁移技术,也就是mysql中的数据如何导入到Hadoop中,在大数据平台上进行处理, 而这一篇要介绍的技术是用户的行为日志收集,通过flume将业务数据服务器A的日志收集到hadoop服务器的hdfs的hive中。 对于头条文章推荐来说, 用户的行为(点击,收藏,转发等)代表着每一次的喜好反馈,能够了解分析用户的行为,喜好变化,也能为后面为建立用户画像提供依据,所以用户行原创 2021-03-09 22:54:51 · 1458 阅读 · 0 评论 -
头条项目推荐的相关技术(一): 数据库的迁移与定时迁移技术
1. 写在前面这里是有关于一个头条推荐项目的学习笔记,主要是整理工业上的推荐系统用到的一些常用技术, 这是第一篇, 首先是数据库的迁移技术。主要包括:为什么需要数据库的迁移以及需求如何进行数据库的迁移应用Sqoop完成头条业务数据到Hive的导入Ok, let’s go!2. 为什么需要数据库的迁移及需求我们的web开发和我们的推荐系统所使用的服务器是不同的,这两块肯定是分开的,各自有各自的任务。 因此我们从web开发中获取到的某些业务数据表,往往是没法直接就能在做推荐系统开发的上面直接获原创 2021-03-09 08:55:54 · 1126 阅读 · 2 评论 -
个性化广告推荐系统实战系列(六):实时推荐产生结果
1. 写在前面这几天打算整理一个模拟真实情景进行广告推荐的一个小Demon, 这个项目使用的阿里巴巴提供的一个淘宝广告点击率预估的数据集, 采用lambda架构,实现一个离线和在线相结合的实时推荐系统,对非搜索类型的广告进行点击率预测和推荐(没有搜索词,没有广告的内容特征信息)。这个感觉挺接近于工业上的那种推荐系统了,通过这个推荐系统,希望能从工程的角度了解推荐系统的流程,也顺便学习一下大数据的相关技术,这次会涉及到大数据平台上的数据处理, 离线处理业务和在线处理业务, 涉及到的技术包括大数据的各种技术,原创 2021-01-22 21:13:49 · 1893 阅读 · 6 评论 -
个性化广告推荐系统实战系列(五):离线广告召回和离线特征缓存
1. 写在前面这几天打算整理一个模拟真实情景进行广告推荐的一个小Demon, 这个项目使用的阿里巴巴提供的一个淘宝广告点击率预估的数据集, 采用lambda架构,实现一个离线和在线相结合的实时推荐系统,对非搜索类型的广告进行点击率预测和推荐(没有搜索词,没有广告的内容特征信息)。这个感觉挺接近于工业上的那种推荐系统了,通过这个推荐系统,希望能从工程的角度了解推荐系统的流程,也顺便学习一下大数据的相关技术,这次会涉及到大数据平台上的数据处理, 离线处理业务和在线处理业务, 涉及到的技术包括大数据的各种技术,原创 2021-01-22 21:12:52 · 1094 阅读 · 0 评论 -
个性化广告推荐系统实战系列(四):逻辑回归(LR)实现CTR预估
1. 写在前面这几天打算整理一个模拟真实情景进行广告推荐的一个小Demon, 这个项目使用的阿里巴巴提供的一个淘宝广告点击率预估的数据集, 采用lambda架构,实现一个离线和在线相结合的实时推荐系统,对非搜索类型的广告进行点击率预测和推荐(没有搜索词,没有广告的内容特征信息)。这个感觉挺接近于工业上的那种推荐系统了,通过这个推荐系统,希望能从工程的角度了解推荐系统的流程,也顺便学习一下大数据的相关技术,这次会涉及到大数据平台上的数据处理, 离线处理业务和在线处理业务, 涉及到的技术包括大数据的各种技术,原创 2021-01-22 11:30:54 · 2392 阅读 · 0 评论 -
个性化广告推荐系统实战系列(三):CTR预估的数据准备(这篇走起来步履维艰)
1. 写在前面这几天打算整理一个模拟真实情景进行广告推荐的一个小Demon, 这个项目使用的阿里巴巴提供的一个淘宝广告点击率预估的数据集, 采用lambda架构,实现一个离线和在线相结合的实时推荐系统,对非搜索类型的广告进行点击率预测和推荐(没有搜索词,没有广告的内容特征信息)。这个感觉挺接近于工业上的那种推荐系统了,通过这个推荐系统,希望能从工程的角度了解推荐系统的流程,也顺便学习一下大数据的相关技术,这次会涉及到大数据平台上的数据处理, 离线处理业务和在线处理业务, 涉及到的技术包括大数据的各种技术,原创 2021-01-21 21:08:44 · 2173 阅读 · 2 评论 -
个性化广告推荐系统实战系列(二):根据用户行为数据创建ALS模型并召回商品
1. 写在前面这几天打算整理一个模拟真实情景进行广告推荐的一个小Demon, 这个项目使用的阿里巴巴提供的一个淘宝广告点击率预估的数据集, 采用lambda架构,实现一个离线和在线相结合的实时推荐系统,对非搜索类型的广告进行点击率预测和推荐(没有搜索词,没有广告的内容特征信息)。这个感觉挺接近于工业上的那种推荐系统了,通过这个推荐系统,希望能从工程的角度了解推荐系统的流程,也顺便学习一下大数据的相关技术,这次会涉及到大数据平台上的数据处理, 离线处理业务和在线处理业务, 涉及到的技术包括大数据的各种技术,原创 2021-01-16 20:40:59 · 2003 阅读 · 3 评论 -
个性化广告推荐系统实战系列(一):任务数据简介和基本流程梳理
1. 写在前面参考:个性化广告推荐系统推荐系统算法基础原创 2021-01-15 13:21:11 · 5652 阅读 · 15 评论