用户画像
文章平均质量分 89
OneTenTwo76
这个作者很懒,什么都没留下…
展开
-
【用户画像】Redis_Jedis测试、将人群包存放到Redis中、挖掘类标签处理过程、决策树、用SparkMLLib实现决策树
需要识别哪些是连续值特征,哪些是离散值特征,具体判断标准:底层会设置一个阈值,高于阈值判断为连续值,否则为离散值,即小于等于。挖掘类标签需要用算法挖掘用户的相关特征,比如:性别预测、年龄预测、 用户流失预测、风险欺诈预测。主要是对数据的初步的清洗加工,这个过程一般可以在数仓中完成,然后在数仓中稍微的添加一些操作。”,比如抽选出来的这些用户特征,那这些用户到底是不是流失的,要标记出来,用于机器学习。把模型投放到实际的标签生产中去观察,比如预测流失的用户,一段时间是否真的会流失。观察两组人的变化效果。原创 2022-11-21 18:00:00 · 807 阅读 · 0 评论 -
【用户画像】Redis的常用五大数据类型和配置文件介绍
常用命令自定义目录:/home/hzy/redis2022.conf。原创 2022-11-20 11:00:00 · 576 阅读 · 0 评论 -
【用户画像】Redis的简介和安装
Redis是一个开源的key-value存储系统,在查询场景中只能使用K去查询,HBase如果想使用除rowkey之外的结构进行查询,需要设计二级索引(索引的索引),Redis经常会担当某些数据库的二级索引,如学号是K,人名是V,现有需求想要使用人名进行查询,这时就需要建立一张表,存储人名与K之间的关系,然后再用K去查询V。与memcached一样,为了保证效率,数据都是在内存中。原创 2022-11-19 11:00:00 · 477 阅读 · 0 评论 -
maven如何手动添加jar包到本地仓库
如果环境出现错误,在path 中添加自己的maven的bin的路径 例如:D:\maven\apache-maven-3.6.1\bin;打开cmd,执行 mvn -h 查看maven的环境变量是否配置正确。-DartifactId: 表示jar对应的artifactId。-Dversion: 表示jar对应的 version。可以在maven库中查找下载,也可以在对应官网下载。-DgroupId:表示jar对应的groupId。-Dfile:下载的jar包名称。重新加载pom.xml文件就好了。原创 2022-11-18 11:00:00 · 4375 阅读 · 3 评论 -
【异常处理】Required: com.sun.org.apache.xpath.internal.operations.String Found:java.lang.String
com.sun.org.apache.xpath.internal.operations.String与java.lang.String冲突,而String用到的地方就包含main(String args[]){},所以就会出现在运行之前 ideal 无法识别main方法了。删除误导入的com.sun.org.apache.xpath.internal.operations.String包。.sun.org.apache.xpath.internal.operations.String引起bug。原创 2022-11-17 11:00:00 · 370 阅读 · 0 评论 -
【用户画像】功能实现值写入ClickHouse人群包、预估和更新分群人数,NoSQL数据库介绍
,意即 ”不仅仅是SQL“,泛指非关系型的数据库。NoSQL 不拘泥于关系型数据库的设计范式,放弃了通用的技术标准,为某一领域特定场景而设计,从而使性能、容量或者扩展性都打到了一定程度的突破。不遵循SQL标准。是一个巨大的牺牲,学习成本,人力成本很高,所有的语法都需要学习。不支持ACID(事务)。远超于SQL的性能。原创 2022-11-16 11:15:00 · 1111 阅读 · 0 评论 -
【用户画像】数据层mybatis、mabatis-plus介绍和使用,多数据源配置、生成分群基本信息(源码实现)
注解 : 目录下接口 xxxMapper 标识@MapperMapper接口的方法上 @Select @Insert @Update @Delete 实现sql方法参数名前加@Param 声明变量 可以再SQL 以 #{ }方式引用 ${} (视情况补充单引、特殊符号的处理)、 引用 (完全字符替换)在service使用mapper 需要用@Autowire 进行装配application.properties 要填写数据库地址,用户名密码 ,驱动。原创 2022-11-06 11:30:00 · 663 阅读 · 0 评论 -
【用户画像】在ClickHouse中将宽表转换为bitmap表(源码实现)、用户分群架构设计、SpringBoot概述及使用
Web服务(http服务),接收网页或者App应用发起的http请求,然后通过程序进行处理、计算、查询、存储等,再将结果返回给页面或App应用。平台化管理:越来越多的企业认为使用脚本管理不方便,容易出错。无论是离线还是实时数仓,更多的是将脚本变为页面,越来越多脚本中的SQL会被放到页面中。原创 2022-11-05 11:30:00 · 2444 阅读 · 0 评论 -
【用户画像】将数据迁移到ClickHouse(源码实现)、位图的介绍(bitmap)、位图在用户分群中的应用、位图的使用
函数arrayJoin宽表转Bitmap表需要行转列,要用arrayJoin把多列数组炸成行。把聚合列的数字值聚合成Bitmap的聚合函数bitmapAnd求两个Bitmap值的交集bitmapOr求两个Bitmap值的并集bitmapXor求两个Bitmap值的差集(异或)把Bitmap转换成数值数组把一列中多个bitmap值进行并集聚合。(连续值)求Bitmap包含的值个数更多其他函数可以参考官网。原创 2022-11-04 11:30:00 · 2481 阅读 · 0 评论 -
【用户画像】ClickHouse中的SQL操作、副本介绍和配置、分片集群环境配置和使用
这里分为两种数据,一是分布式表和本地表同节点的数据,一是分布式表和本地表不同节点的数据,如果直接发送,远端到分布式表,分布式表再到不同节点,这样远端会阻塞这个请求。以后有请求,直接发送给分布式表,分布式表根据写入的算法(如哈希值)分发到不同的机器上,真实存储数据的表称为本地表,分布式表不存储数据,只是一个逻辑表,分布式表不用部署在多台机器上,在一台机器上就足以,如下图中,分布式表和A本地表可以在同一个机器上。每次插入数据,以分区为单位,如果插入的一批数据中,有一条数据不同,就会将所有的数据全部插入进去。原创 2022-11-03 11:30:00 · 1077 阅读 · 0 评论 -
【用户画像】ClickHouse中的数据类型、表引擎介绍及使用、项目几个问题的解决办法
minmax GRANULARITY 5的含义就是为 每5 * 8192 行数据计算一对该列的最大最小值,当扫描行扫描到该区间时,会对比最大最小值,如果不在该范围,就可以直接跳过该区域的扫描。当插入第一份数据时,其会自动进入主分区,插入第二份数据时,会将数据放到临时分区(独立的目录、文件)中,当触发某总条件会自动产生合并,也可以通过一行命令去强行合并,固定长度的可以保存一些定长的内容,比如一些编码,性别等但是考虑到一定的变化风险,带来收益不够明显,所以定长字符串使用意义有限。建议尽可能以整数形式存储数据。原创 2022-11-02 11:15:00 · 848 阅读 · 0 评论 -
【用户画像】ClickHouse简介、特点、安装和部署
之前数仓和画像的处理都是批处理,一般在夜间进行,花费时间很长,按照脚本和调度去完成,后来的处理称为即时处理,即时处理要求计算的时间非常之短,存放在hive中,肯定是不行的,这种需求既要求从一定的数据量中提取(如果是小数量可以从MySQL提取),同时需要速度快。这种数据库就需要在hive中和OLAP中同时存储一份,OLAP总体的设计目标就是即席查询,但是不同的数据库之间又有细微的差别,OLAP数据库有kylinprestodruidclickhouse:多用于用户画像和实时计算,速度快。原创 2022-11-01 17:00:00 · 3048 阅读 · 0 评论 -
【用户画像】标签任务开发流程(源码之实体类、工具类、配置文件、DAO层)
加入provided原因:task-sql程序最终会打成jar包,如果不写provided,所有的依赖都会打一个jar包,最终的jar包会变得十分臃肿,称为”胖包“,有一部分类不用放到jar包中,可以放到运行环境中,spark-lib下存在mysql驱动包,所以此处为provided。在task-common中增加实体类TagInfo,是一个样例类,样例类本身不含有无参构造函数,但是后续过程中,需要其无参构造函数,所以需要自己定义一个无参构造函数,将有参的参数都置为null则相当于无参,原创 2022-10-26 09:00:00 · 764 阅读 · 0 评论 -
【用户画像】实现宽表合并,pivot概述,源码实现并发布任务
当所有的单独标签任务都计算完成时,为了更加方便的查询及导出数据,要拼接出一张以用户ID为主键的宽表。宽表的每一列用**三级标签编号作为列名**,这张大宽表,包含了所有的标签,有多少个标签,就会有多少列。实现思路草图:如何将高表转换为宽表- 读取所有启动的标签任务中的标签列表- 读取标签列表中的标签编码和标签值类型,获得字段名和字段值,拼接成建表语句- 根据标签列表组合多表合并,同时进行行转列,组合成insert select 语句。原创 2022-10-28 10:30:00 · 655 阅读 · 0 评论 -
【用户画像】标签任务开发流程(源码之动态建表、常量类、配置信息、本地调试、发布运行、任务调度)
上级标签:自然属性上级标签编码:TG_BASE_PERSONA标签编码:TG_BASE_PERSONA_AGEGROUP标签名称:年龄段标签类型:统计标签值类型:文本上级标签:年龄段上级标签编码:TG_BASE_PERSONA_AGEGROUP标签编码:TG_BASE_PERSONA_AGEGROUP_60标签名称:60后标签类型:统计标签值类型:文本在3级标签年龄段上添加任务:启用任务执行方式:SQL标签规则配置6 60后7 70后8 80后。原创 2022-10-27 10:30:00 · 850 阅读 · 0 评论 -
【用户画像】用户画像添加标签、定义标签任务、搭建工程
接下来的任务:利用在网页端填写的规则计算出想要得到的标签结果。已有数据,存放在MySQL中:1 整数 2 浮点 3 文本 4 日期tag_info:标签定义(id,标签编码,标签名称,标签等级,上级标签id,标签类型【99类目,1统计型,2规则性,3挖掘型】,标签值类型【1 整数 2 浮点 3 文本 4 日期】,标签对应的计算任务id,标签说明,更新时间,创建时间)原创 2022-10-25 09:30:00 · 2465 阅读 · 0 评论 -
【用户画像】用户画像简介、用户画像的架构、搭建用户画像管理平台
数据仓库是大数据体系的基石,用户画像是建立在数仓之上的一种应用,类似的应用还有商业智能,推荐系统等。用户画像,英文: User Profile,( 也有少数称: User Portrait 或User Persona)。一句话概念就是将用户信息标签化(Tag或者Label),以用户为中心,将各种各样的标签对应到其身上,一般表现为《人 – 标签 – 标签值》。原创 2022-10-24 09:30:00 · 13146 阅读 · 0 评论