日萌社
人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)
2.1 离线业务介绍
学习目标
- 目标
- 了解离线业务构建的主要内容
- 应用
- 无
2.1.2 离线计算流程
离线计算流程:
离线计算主要包含以下几部分:
- 离线文章、用户画像 双画像构建
- 离线用户召回集合收集
- 离线用户文章特征中心构建
2.1.3 用户画像与文章画像
画像的构建作为推荐系统非常重要的环节,画像可以作为整个产品的推荐或者营销重要依据。需要通过各种方法来构建。
2.1.4 文章画像
1 文章画像是什么
在新闻推荐系统中,内容画像系统,简单来说就是打标签系统。所以呢,内容画像系统的工作就是为整个推荐系统的文本构建一套完整,丰富的标签,方便后续的各个步骤,不管是推荐,还是运营和统计。
文章(物品)的标签体系
- 产品业务标签:文章的点击次数、浏览次数、转发次数
- 挖掘标签:文章的关键词
我们那选择标签,尽可能要与推荐的任务有关文章特征化即给内容打标签。目前有两种方式:
- 人工打标签:发表文章时候,自媒体平台用户手动添加
- 机器自动打标签:算法自动进行标签获取添加
2 为什么需要文章画像
文本也能用于画像?实际生产中,有很多的文本数据,比如发表评论、对话、发表文章等等,另一个最直观的例子就是今日头条这样的大厂以文本为主要内容,用户对新闻类型的偏好成为推荐过程中的主要副产品,即用户画像。推荐系统的使命是在用户和物品之间建立连接,用户有用户画像,物品自然也有物品画像。新闻内容、标题、商品标签、描述等都是物品画像的内容,物品画像可以很好的版主丰富用户画像。
- 用物品画像丰富用户画像
- 物品画像做物品的相似、分类分析、
3 实现方式-文章的结构化
成熟的文本挖掘、NLP算法分析有如下:
- 关键词提取:是最基础的物品画像的标签来源,也为其他文本分析提供数据基础,如TF-IDF,TextRank;是文章画像的组成部分
- 比如用户点击某篇文章,而内容的标签是德甲、英超,那么用户和内容不关联的话是无法联系在一起的。所以可以将德甲、英超关联到某用户,这样用户就有了喜好的标签。
- 词嵌入:也就是Embedding,从词到篇章,无不可以学习这种嵌入表达。嵌入表达是为了挖掘出字面意思之下的语义信息,并且用有限的维度表达出来, 如word2vec
- 可以用于文章之间相似度的计算
- 实体识别:识别文章人、位置、地点、著作、影视剧、历史事件和热点事件等,最长基于词典的方法结合CRF模型;
- 内容分类:将文本按照分类体系分类,用分类来表达较粗粒度的结构化信息;
2.1.5 头条文章画像
头条文章需要我们计算两个部分的词语
- 关键词
- 主题词