离线业务介绍

日萌社

人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新)


2.1 离线业务介绍

学习目标

  • 目标
    • 了解离线业务构建的主要内容
  • 应用

2.1.2 离线计算流程

离线计算流程:

离线计算主要包含以下几部分:

  • 离线文章、用户画像 双画像构建
  • 离线用户召回集合收集
  • 离线用户文章特征中心构建

2.1.3 用户画像与文章画像

画像的构建作为推荐系统非常重要的环节,画像可以作为整个产品的推荐或者营销重要依据。需要通过各种方法来构建。

2.1.4 文章画像

1 文章画像是什么

在新闻推荐系统中,内容画像系统,简单来说就是打标签系统。所以呢,内容画像系统的工作就是为整个推荐系统的文本构建一套完整,丰富的标签,方便后续的各个步骤,不管是推荐,还是运营和统计。

文章(物品)的标签体系

  • 产品业务标签:文章的点击次数、浏览次数、转发次数
  • 挖掘标签:文章的关键词

我们那选择标签,尽可能要与推荐的任务有关文章特征化即给内容打标签。目前有两种方式:

  • 人工打标签:发表文章时候,自媒体平台用户手动添加
  • 机器自动打标签:算法自动进行标签获取添加

2 为什么需要文章画像

文本也能用于画像?实际生产中,有很多的文本数据,比如发表评论、对话、发表文章等等,另一个最直观的例子就是今日头条这样的大厂以文本为主要内容,用户对新闻类型的偏好成为推荐过程中的主要副产品,即用户画像。推荐系统的使命是在用户和物品之间建立连接,用户有用户画像,物品自然也有物品画像。新闻内容、标题、商品标签、描述等都是物品画像的内容,物品画像可以很好的版主丰富用户画像。

  • 用物品画像丰富用户画像
  • 物品画像做物品的相似、分类分析、

3 实现方式-文章的结构化

成熟的文本挖掘、NLP算法分析有如下:

  • 关键词提取:是最基础的物品画像的标签来源,也为其他文本分析提供数据基础,如TF-IDF,TextRank;是文章画像的组成部分
    • 比如用户点击某篇文章,而内容的标签是德甲、英超,那么用户和内容不关联的话是无法联系在一起的。所以可以将德甲、英超关联到某用户,这样用户就有了喜好的标签。
  • 词嵌入:也就是Embedding,从词到篇章,无不可以学习这种嵌入表达。嵌入表达是为了挖掘出字面意思之下的语义信息,并且用有限的维度表达出来, 如word2vec
    • 可以用于文章之间相似度的计算
  • 实体识别:识别文章人、位置、地点、著作、影视剧、历史事件和热点事件等,最长基于词典的方法结合CRF模型;
  • 内容分类:将文本按照分类体系分类,用分类来表达较粗粒度的结构化信息;

2.1.5 头条文章画像

头条文章需要我们计算两个部分的词语

  • 关键词
  • 主题词

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

あずにゃん

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值