韩翱键-CSDN博客

原创 hive调优-优化

@hive优化Hive调优，数据工程师成神之路前言毫不夸张的说，有没有掌握hive调优，是判断一个数据工程师是否合格的重要指标hive调优涉及到压缩和存储调优，参数调优，sql的调优，数据倾斜调优，小文件问题的调优等2hive调优数据的压缩与存储格式图片map阶段输出数据压缩，在这个阶段，优先选择一个低CPU开销的算法。set hive.exec.compress.intermediate=trueset mapred.map.output.compression.codec=

2021-06-04 11:56:55 214

原创一个例子学会map用法

一个例子学会map用法def add(x,y,z):return x,y,zlist1 = [1,2,3]list2 = [1,2,3,4]list3 = [1,2,3,4,5]res = map(add, list1, list2, list3)print(res)输出：[(1, 1, 1), (2, 2, 2), (3, 3, 3), (None, 4, 4), (None, None, 5)]

2021-04-30 14:24:30 124

原创 Spark streaming消费Kafka的正确姿势

前言在游戏项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结，之后简单阐述Spark streaming+kafka在舆情项目中的应用，最后将自己在Spark Streaming+kafka的实际优化中的一些经验进行归纳总结。（如有任何纰漏欢迎补充来踩，我会第一时间改正v）

2021-02-08 18:13:47 854

原创多线程遇到负载均衡有问题解决方案

@多线程遇到负载均衡有问题解决方案多线程遇到负载均衡有问题解决方案多线程使用线程分配数据分发的机器节点 sentiment_host = ["192.168.50.119:33140", "192.168.50.139:33140", "192.168.50.169:33140", "192.168.50.179:33140"] factor, reminder = divmod(len(tags_cul_name), len(sentiment_host))

2021-01-28 15:22:55 547

原创 python多线程案例

import threadingimport timedef run(n): #加锁 semaphore.acquire() print("Look：%s"%n) time.sleep(0.5) #释放锁 semaphore.release()if __name__ == "__main__": #同时准许5个线程 semaphore = threading.BoundedSemaphore(5) tlist = [] .

2021-01-22 15:25:14 103

原创 python的线程使用案例

1、简单启动线程。import threadingdef run(name) print("run thread....")#创建进程对象，target=方法名，args=(参数1,参数b,)t = threading.Thread(target=run,args=(n,))#设置守护线程t.setDaemon(True)#启动线程t.start()#等待线程结束t.jion()2、线程池的使用import threadingimport timedef run(n

2021-01-06 17:55:01 275 2

原创 chmod: changing permissions of ‘/user/hive/warehouse‘: Permission denied. user=hdfs is not the owner

安装hive后发现无法创建表和写入在执行Hadoop的创建目录、写数据等情况，可能会出现该异常，而在读文件的时候却不会报错，这主要是由于系统的用户名不同导致的，由于我们进行实际开发的时候都是用Windows操作系统，而编译后的JAVA程序是部署在Linux上的。而Windows的用户名一般都是自定义的或者是administrator，Linux的用户名是root，对于Hadoop的部署，也有可能是hadoop用户名。由于，Hadoop的权限验证是依靠Linux系统的，而用户名不一致，会报错，这个错误很经

2020-08-06 15:44:06 2864

原创 linux安装镜像

二、linux下永久更换镜像源需要修改~/ .pip/pip.confcd ~mkdir -p .pipnano pip.conf #或者vi pip.conf在pip.conf中，添加配置内容，就修改了默认的软件源。[global]index-url = https://pypi.tuna.tsinghua.edu.cn/simple[install]trusted-host=mirrors.aliyun.com...

2020-08-04 15:23:17 432

原创解决安装python3.7.4报错Can‘‘t connect to HTTPS URL because the SSL module is not available

从官网下载了Python3.7.4，直接编译安装后，使用pip3出现了报错信息： Can’t connect to HTTPS URL because the SSL module is not available在Python3.7之后的版本，依赖的openssl，必须要是1.1或者1.0.2之后的版本，或者安装了2.6.4之后的libressl查看版本：[root@localhost ~]# openssl versionOpenSSL 1.0.1e-fips 11 Feb 2013解决方法：

2020-08-04 10:59:53 593

weixin_45268144的博客

原创 hive调优-优化

原创一个例子学会map用法

原创 Spark streaming消费Kafka的正确姿势

原创多线程遇到负载均衡有问题解决方案

原创 python多线程案例

原创 python的线程使用案例

原创 chmod: changing permissions of ‘/user/hive/warehouse‘: Permission denied. user=hdfs is not the owner

原创 linux安装镜像

原创解决安装python3.7.4报错Can‘‘t connect to HTTPS URL because the SSL module is not available

原创虚拟集群迁移容易出的问题

原创 windows上运行spark上报Constructor org.apache.spark.api.python.PythonRDD does not exist

原创清华镜像的配置

原创第三方包多次导入失败，无法引用

空空如也

空空如也