抖音视频推荐功能
如何理解谷歌运行机制,可能一下子大家无法理解。我们可以用我们身边能接触到的去试着理解以下。通俗易懂的话来说就是我们经常接触的抖音。如果你经常刷情感剧,就会给你推荐此类电视片段。如果你沉迷爱情,就天天推送爱情是神圣的伟大的。但是你浏览习惯是一会儿关注搞笑段子,一会关注育儿,考证,跨度很大的时候,最近视频推荐的就会很乱。
以上现象的原理是,我们每天在软件上的行为都被抖音贴上标签,时刻随着我们的喜好变化,但是在一段时间我们的生活起伏,心态比较乱,或者是同一个观看手机视频的人换人了,亦或许我们新买的一个手机安装的抖音。推送的视频就显得乱七八糟了,需要我们去看,后台会收集共同点,人物特征,喜好;针对性的推荐视频。
谷歌搜索引擎机制原理
它们的原理一样,所以我们在账户上线早期,数据不稳定是正常现象,要有耐心等着让量变发生质变,前期用尽可能多的优质点击去吸引到最相关的用途。后期模型稳固,生意通畅。这个机器学习过程不是人为控制,我们不能决定出效果的快慢,但是可以用正确的做法去驱动机器运营,做正确的事情,其他的交给天意。正常跑流量情况下一个月到三个月都会有效果。但是不按正确模式执行周期会延长到一年,二年或者更久。当然也有一周,两周显著效果马上就出现的。因为控制得当。有一些比较特殊的情况是本公司的产品词市场上没人进行搜索,搜索量不足,模型是无法跑成功的,周期会无限拉长。
以下几种情况大家应该会经常遇到:
最近询盘质量跟以前比有些下降,为什么呢?
①、因为随着点击广告的人增多,更多的用户人群新的特征加入数据库,数据在不断学习和优化的一个状态,是动态的。
②、最近账户因为费用暂停,运行暂停,重新启用,又进入了一个学习状态,所以充值前和充值后,效果可能大打折扣。
③、因为公司业务方向调整,加了很多不是相关的词,范围太广。机器无法判断你的目标。
④、最近加了大批量的排除账户字词,也就是否定字词几千,上万的填充。改变机器运营方向。
⑤、我们是做B2B生意的,最近的流量怎么都是零售的。遇到这种情况一定要及时和运营人员沟通,数据集偏移,需要调整账户,再次进入账户学习阶段,命令机器重新梳理数据。
听起来是不是很复杂,而且数据方向无法控制。并不是的其实数据模型前期跑的足够优质,各方面细节把控得当。询盘稳定,单个点击价格和单个获取询盘价格是不断可以降低的。
技术层面的理解机器学习工作流程
1.获取数据
对原始数据进行收集,也就意味着是一个谷歌账户sem的开始。前期跑流量,尽可能更多的点击,去收集用户在网站上的行为特征。我们每个所消费的搜索字词造成的点击,都是一次用户行为的记录。前期搜索词选的越准,为后期的机器学习模型打下良好的数据收集基础,账户后期越稳定,也更容易形成模型闭环,流量越精准,询盘更优质。
2.数据基本处理
即对数据进行缺失值、去除异常值等处理。数据预处理是数据分析和数据运营过程中的重要环节,它直接决定了后期所有数据工作的质量和价值输出。
-
数据清洗
-
数据转换
-
数据抽样
把一个账户我们所有收集到的用户搜索字词,进行数据分析拆解。利用大数据分析搜索这个词的背后用户行为特征,一个账户所有词的共同点,包括行业是否一致,产品属性是否一致。越纯净越好,如果数据量庞大,什么产品都有,数据处理的时间周期会增长,单个点击和单个询盘的价格迟迟降不下来。还有可能因为机器学习模型需要不断学习处理,造成账户动荡,询盘不稳。
3.特征工程
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。它的意义:会直接影响机器学习的效果。
业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
特征工程包含内容:
- 特征提取
- 特征预处理
- 特征降维
我们前期如果投放的产品词范围太大,太宽泛。打个比方:一个网站如果是做电缆的,电缆有工程项目用线、机器用线、汽车上用线、光伏行业用线,电线的种类繁多,如果都集中到一个点的话,反而适得其反。我们要做的就是工业线,光伏线,电力线和充电桩电缆等等几个不同的大类不要放在同一个网站上,因为受众群体群庞大,每个产品有不同的特性,流量发展趋势不稳定。数据模型跑的持久,一直无法形成闭环。单个询盘价格始终无法降下来。而且流量质量浮动,效果无法保持平稳上升。
4.机器学习(模型训练)
机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。
机器学习一般的数据集会划分为两个部分:
- 训练数据:用于训练,构建模型
- 测试数据:在模型检验时使用,用于评估模型是否有效
训练模型,测试数据;是因为我们的这个后台谷歌机器学习系统是一个不断获取新词的过程,就是在我们投放过程中,每天都会有新的关键字被点击。这个是数据积累的过程。新添加进来的每个词都是要重新训练的,所以随着数据量的增多,这个机器模型在不断地学习加固,数据越纯净,后期的模型跑的越好,询盘质量就越高。反之、如果期间新上线的产品与之前的没有任何关系,相差很大,就会造成机器模型动荡,询盘不准,大大下降的状态。或者是新上的产品有一点点关系,这个模型训练的周期会无限拉长,而且询盘不稳,时好时坏,时多时少,价格迟迟下不来。
5.模型评估
模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。我们谷歌的机器算法是最严谨的,大数据也做得相当到位。
比如,逻辑回归(Logistic Regression)是机器学习中的一种分类模型,逻辑回归是一种分类算法,可以应用在广告点击率上。
我们可以把模型比作一个球,如果数据集越集中,这个具有共同点的球,会越来越大,而且很坚实。反之很蓬松,一动就开。基础不牢,地动山摇。数据的最佳模型决定将来工作的性能如何。前期我们所选目标准确,账户整体各方面细节问题控制得当,询盘暴涨只是时间问题,我们每天只需要投入少部分预算,就可以获得很大的投资回报比。但是前期数据积累阶段,切记不要着急,频繁破坏机器学习模型进度。
谷歌机器学习经常遇到的问题:
- 欠拟合
- 学习到的东西太少
- 模型学习的太过粗糙
- 过拟合
- 学习到的东西太多
- 学习到的特征多,不好泛化
一般我们上线的账户会经常遇到正在学习状态:我们的账户有学习的目标,设置好目标,然后通过学习达到这个目标。前期账户切记勿着急,经常调整反而离我们的目标背道而驰。