- 博客(24)
- 收藏
- 关注
原创 启动&服务相关命令-合集
opt/installs/spark/sbin/start-history-server.sh ---对应进程名字HistoryServer。mr-jobhistory-daemon.sh start historyserver---对应进程名字JobHistoryServer。用户名:admin 密码: dolphinscheduler123。用户名:admin 密码:123456。hive的metastore服务启动。spark的history服务启动。yarn的history服务。
2024-08-19 11:10:56 845
原创 hbase-manager图形化界面的安装与配置
完整资料在夸克网盘中,链接:https://pan.quark.cn/s/927c444ca547。
2024-08-15 11:18:30 896
原创 mysql主从复制
MASTER_LOG_FILE 和 MASTER_LOG_POS 来自于上边 show master status的截图。2、登录mysql数据库 mysql -uroot -p。2、登录mysql数据库 mysql -uroot -p。1、在/etc/my.cnf文件。1、在/etc/my.cnf文件。3、重启mysql服务。3、重启mysql服务。
2024-08-09 14:32:35 245
原创 Spark整合Hive
Hive on Spark : 写Hive SQL,最后通过spark引擎运行在集群中 提高Hive SQL的执行速度,替换计算引擎。配置文件所在路径参考(/opt/installs/hive3.1.2/conf/hive-site.xml)如果未配置Metastore,在hive的配置文件中hive-site.xml添加以下代码问。Spark on Hive : 写spark sql,要查询的数据在hive表中。hive默认包含的计算引擎(mr、tez、spark)准备工作:在hive中创建一张表。
2024-08-09 08:53:03 287
原创 spark&python 操作mysql数据库案例
Spark读取本地文件,并写入MySQL中的 表中,读取MySQL中的表。使用spark操作mysql数据库。使用python操作数据库案例。
2024-08-08 10:14:59 464
原创 dolphinScheduler跑spark任务调度问题汇总
分发spark安装包到各个节点,因为ds的worker涉及到hadoop11-13,都需要有spark-submit提交作业的能力。如果在windows压缩,可能有问题。推荐在linux上压缩。在服务器上运行,需要将他们放到HDFS上。:python3找不到。
2024-08-06 10:39:09 891
原创 hive数仓分层
DWD,主要是将从业务数据库中同步过来的ODS层数据进行清洗和整合成相应的事实表。在拿到业务系统的表结构后,进行大概的梳理,再与业务方沟通整个业务过程的流转过程,对业务的整个生命周期进行分析,明确关键的业务步骤,在能满足业务需求的前提下,尽可能设计出更通用的模型。:业务库,埋点数据,消息队列、接口数据 与业务库表结构一致,表名可以换,但是一般情况下会在原业务库表名前面添加库前缀,或自定义前缀。ODS层采用建设方式原则:直接采集业务数据,不做转换处理,数据保留时间根据业务具体确定。服务于终端用户,高度汇总。
2024-08-05 12:09:46 185
原创 批量读取MySQL数据库中的表,使用python生成datax的脚本
其中代码中source_database = "db1"改为自己对应的MySQL数据库的名字。解释:传递的第一个参数为数据库名字,第二个参数是数据库中的表。如果只想输出一个表的话,按照代码中,给对应注释打开。python 脚本名字 -d 数据库名字。在linux上面使用 下面命令。
2024-08-02 17:22:05 210
原创 运行spark任务操作hive时报错
将集群上面的/opt/installs/hadoop3.1.4/etc/hadoop/目录下的hdfs-site.xml中添加下面代码。注意将分布式集群上的都需要更改!
2024-07-30 19:46:58 137
原创 【sql开发】间隔连续问题
先使用lag根据dt列生成一列,使用datediff对dt和刚才生成的相减,得出时间差,并使用if对其判断,使在连续的标记为一组(0,1)rn,嵌套,使用sum(rn)列,使其所有的连续登录,被标记为一组 c1,再嵌套,根据id和c1分组使用datediff(max(dt),min(dt))得出连续天数c2,最后嵌套,根据id分组,查出最大连续天数。
2024-07-30 16:21:40 299
原创 MongoDB数据迁移到MySQL
1安装MongoDB1.3 卸载MongoDB1.6 MongoDB的基本操作2、MongoDB可视化工具加载数据到mysql数据库参考文章https://www.cnblogs.com/LIAOBO/p/13666845.html对datax的所有模
2024-07-30 14:29:27 859
原创 geohash无法导入到pycharm
将外部库中的site-packages下的Geohash文件名改成 geohash,并将geohash文件夹下的 __init__.py 文件中的 from geohash import decode_exactly, decode, encode改为。在pycharm中使用pip install geohash后。写的代码还是显示未导入模块下的encode, decode。如果还是为解决的话可以使用pygeohash模块。测试pygeohash模块。
2024-07-29 18:13:41 306
原创 pycharm运行spark任务报错
本地运行报错,将两个linux上spark下jars下的包放到本地的conda环境下的Pyspark的jars目录下。这个是我自己的conda环境安装路径。再运行pycharm代码即可解决问题。
2024-07-27 14:20:40 270
原创 spark提交作业的参数
在linux上跑yarn任务。--deploy-mode配置参数。--py-files配置参数。--queue参数配置。
2024-07-24 14:34:33 205
原创 pycharm本地运行spark任务报错
java.net.BindException: Address already in use: JVM_Bind:是由于端口被别的进程占用导致的,或者别的进程不使用后还没有释放;java.net.BindException: Cannot assign requested address: bind:是由于IP地址变化导致的;添加以下代码.set("spark.driver.host","localhost")在代码中需要手工添加一个比如本地环境设置。
2024-07-23 10:38:12 353
原创 运行Spark任务时解决WARN yarn.Client: Neither spark.yarn.jars nor spark.yarn.archive is set
2) 修改/opt/installs/spark/conf/spark-defaults.conf文件 spark.yarn.jars=hdfs://hadoop10:8020/spark-yarn/jars/*.jar。3)在spark-default.conf中设置 spark.yarn.archive=hdfs://hadoop10:8020/system/SparkJars/jar/spark-libs.jar。该方法同时可以对Spark任务进行调优。下面配置解决上述警告。
2024-07-17 12:19:49 348
原创 hive启动报错
原因:同一个ip在短时间内产生太多(超过mysql数据库max_connection_errors的最大值)中断的数据库连接而导致的阻塞 (短时间内链接错误次数过多)登录数据库所在虚拟机并登录数据库 执行 flush hosts 命令,然后重启hive。
2024-06-27 10:00:31 145
原创 sqoop批量将mysql数据库中的表导入hive中 遇到的问题(已解决)
cdh版sqoop对“0000-00-00”类型的时间数据明显采取的是默认exception策略,而Apache sqoop官网明确表明将会把0000-00-00的date值默认转成null。原因是数据中的含有日期列,在查询中数据库中有错误时间格式的数据,数据值为 0000-00-00 00:00:00。该脚本是循环读取bm.txt文本中的MySQL数据库中对应的表名,在hive中创建对应的ods_对应表名的文件。注意参数大小写和加入该参数后可能会识别不到,需要给url使用双引号包裹!
2024-06-23 17:38:41 177
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人