pomelorange-CSDN博客

原创 fastspark | 用SparkCore和SparkSQL两种方式实现各省份广告TopN统计

内容本文讲述使用SparkCore和SparkSQL实现每个省份点击量最多的前三个广告id，测试数据如下省份id 广告id1 1001 1001 1001 1121 1011 1121 1021 1021 1031 1121 1121 1011 1122 1002 1212 1012 1212 1042 1212 1112 1042 1032 11...

2020-04-15 20:38:06 408

原创业务指标分析 | 多维度统计：统计每一个省份每一小时点击Top3的广告

文章目录场景准备业务要求SQL分析场景准备某张表里有字段：provinceid、adid，表示省份id和广告id，每一行表示一份广告点击数据，测试数据如下。省份id 广告id1 1001 1001 1001 1121 1011 1121 1021 1021 1031 1121 1121 1011 1122 1002 1212 1012 1212 1042...

2020-04-15 14:38:43 623

原创图数据库 | 我用Neo4j 实现了柯南和怪盗基德周边动态关系图谱

代码可以看github柯南动态关系图谱Cypher 建立关系图谱MERGE (p1:Kenan {name:'柯南', image:'kn.png'})MERGE (p2:Kenan {name:'毛利兰', image:'mll.png'})MERGE (p3:Kenan {name:'灰原哀', image:'hya.png'})MERGE (p4:Kenan {name:'服部平次...

2020-04-15 00:51:26 741

原创 Spark企业级交互式用户行为分析系统架构

2020-04-14 23:43:30 183

原创 3种方式帮你完成J2EE业务系统根据taskID启动对应spark应用

1. 调用本地的shell脚步来启动spark的应用Java程序中调用本地的shell脚步来启动spark的应用shell脚步中是spark-submit的命令优点：简单缺点：需要将shell脚本放到所有可能执行的服务器上spark应用的jar文件和spark的环境(spark-submit脚本和相关的lib)需要放到可能只需的服务器上2. 调用远程机器上的shell脚本执...

2020-04-14 20:20:44 183

原创业务指标分析 | 我用一条SQL统计了PV、UV和二跳率

文章目录场景准备业务要求SQL分析场景准备假设有一张track_log表，里面有字段：url、guid、sessionid、ds（url、全局唯一标识、会话id、日期），数据示例如下，其中，一个guid可以有多个sessionid；一个sessionid对应一个guid，但是存在对应多个guid的非法数据；url可能为空。http://www.yhd.com/?union_ref=7&amp...

2020-04-13 23:20:12 2938

原创 fastspark | 电商流量PV、UV、会话二跳率统计

通过编写SparkCore 程序实现电商流量的PV、UV 以及会话二跳率的统计。通过SparkCore 比较累，也很难实现复杂功能，本文章实现的内容应该用Spark SQL 实现更好，类似于MR 可以用Hive 代替。下次整理使用SparkSQL 的实现方式数据准备数据存在Hive建表drop table track_log;create table track_log (id ...

2020-04-12 00:10:51 671

原创 CentOS7安装MySQL、修改密码、设置开机自启（自己踩坑后尝试出来的安装方式，在两台机器上都试过，没有问题）

本篇文章有三大内容：安装、设置root密码、设置开机自启，概述如下：通过下载清华镜像，yum方式安装；先设置跳过密码验证再修改root密码；Centos7设置开机自启的方式1. 删除mariadb和原有mysql–》rpm -qa | grep mariadb–》rpm -qa | grep mysql如果有查看结果，则用下面的语句删除它–》rpm -e --nodeps 查到...

2020-03-22 11:09:03 202

原创 IDEA填坑 | ES_io.netty.util.AttributeKey.newInstance(Ljava/lang/String;)Lio/netty/util/AttributeKey

往下看之前，先排查您遇到的问题是否与本人一致。看lib 下的依赖包，是不是netty 有4.0.23 和4.1.13 两个版本。我这边是在4.1.13 上面，还有一个netty-all:4.0.23.Final 的版本如果有，把那个4.0.23 版本的右键remove 掉即可。为了以防万一，可以先把程序做一个备份，再移除。...

2020-02-25 20:17:15 949

原创 IDEA填坑 | JavaWeb_Maven引入了包，执行时还报错，找不到依赖

本人的经历：在web 项目中，pom 新增maven 依赖后，编码时没有任何问题，但是运行时却报ClassNotFoundException 的错误。可能的原因在于Artifact 没有更新。如果您也是这种情况，强烈建议参考本文；如果不是，也可以看看，多个经验。解决方案查看Artifacts 下的依赖是否有新添加的依赖ps. 如果WEB-INF 下没有lib 包，可以在工程目录下新建一个...

2020-02-25 20:09:29 872

原创图数据库 | Neo4j简单的JavaAPI案例

入门Neo4j，在官网案例的基础上添加了两个方法，下文程序的功能分别是：获取图数据库连接驱动、往标签添加节点、打印节点信息、获取所有节点数据、获取节点和关系、关闭连接。执行以下程序需要的lib，分别是Neo4j安装包下的lib，以及neo4j-java-driver-x.x.x.jarimport org.neo4j.driver.v1.*;import org.neo4j.driver...

2020-02-18 20:27:24 651

原创图数据库 | Cypher语法大全

2020-02-15 22:10:35 661

原创 HBase | HBase从介绍到Java客户端开发

文章目录HBase入门认识HBase介绍HBaseHBase架构RegionServer集群结构HBase逻辑存储结构HBase物理存储结构HBase安装前期准备HBase安装步骤Hbase启动HBase验证备份masterHBase命令HBase 命令介绍HBase Shell命令介绍status命令命名空间namespace相关命令介绍create_namespace命令drop_namesp...

2020-01-30 16:35:24 2491

原创 Hive_基于Hive的网站日志分析

文章目录12

2019-12-21 10:22:59 1428

原创 Hive | 基于Python预处理、用Hive对movielens数据集进行分析

概述熟悉Hive的小伙伴都知道，企业中对Hive进行数据预处理ETL，最多的是用UDF和Python脚本。本文主要是实践在Hive中使用Python脚本进行数据清洗。数据集来源：http://files.grouplens.org/datasets/movielens/当然，下面的分析内容如果用spark，一句就搞定了。需求分析ml-100k中的数据有四个字段，分别对应：userId（用户...

2019-12-20 23:02:32 1044 1

原创截图加文字详细记录Idea导出jar包的方式

打开Project StructureArtifacts–》+ --》JAR–》From modules with dependencies…选择目标Class，之后点击OK或APPLY直到回到主界面主菜单上Build–》Build Artifacts，选择Build或者Rebuild项目下out目录里，展开就能看到了...

2019-12-20 17:53:09 179

原创 Hive_Hive企业使用高级优化/调优

文章目录概述FetchTask默认配置修改配置为大表创建子表理解方式外部表和分区表外部表分区表注意概述本文总结记录Hive企业使用是常见的优化策略。FetchTask为什么有的sql执行mapreduce，而有的却不？比如执行select * 的时候不会跑MR，这其实就是优化，属于FetchTask。默认配置在hive.default.xml.template中，搜索hive.fetc...

2019-12-19 21:36:04 637

原创大数据什锦_ORC&PARQUET_按列存储_Columnar VS Row-based

文章目录概述概述本文通过使用Hadoop的数据仓库工具Hive中的不同存储格式，比较按行存储和按列存储的不同。按列存储使用的是企业中最长见的ORC和PARQUET。...

2019-12-14 16:50:34 346

原创 Hadoop集群杂项_时间同步

文章目录方法概括具体步骤1. 时间服务器(root)（1）检查ntp是否安装（2）修改ntp配置文件（3）修改/etc/sysconfig/ntpd 文件（4）启动ntp（5）设置ntpd服务开机启动2. 其它机器配置(root)对每台机器建立定时任务测试方法概括时间同步的方式：找一个机器，作为时间服务器，所有的机器与这台集群时间进行定时同步，如，每隔十分钟同步一次时间。具体步骤准备阶段...

2019-12-14 11:15:32 345

whisky_12的博客