- 博客(13)
- 收藏
- 关注
原创 hive调优-优化
@hive优化Hive调优,数据工程师成神之路前言毫不夸张的说,有没有掌握hive调优,是判断一个数据工程师是否合格的重要指标hive调优涉及到压缩和存储调优,参数调优,sql的调优,数据倾斜调优,小文件问题的调优等2hive调优数据的压缩与存储格式图片map阶段输出数据压缩 ,在这个阶段,优先选择一个低CPU开销的算法。set hive.exec.compress.intermediate=trueset mapred.map.output.compression.codec=
2021-06-04 11:56:55 214
原创 一个例子学会map用法
一个例子学会map用法def add(x,y,z):return x,y,zlist1 = [1,2,3]list2 = [1,2,3,4]list3 = [1,2,3,4,5]res = map(add, list1, list2, list3)print(res)输出:[(1, 1, 1), (2, 2, 2), (3, 3, 3), (None, 4, 4), (None, None, 5)]
2021-04-30 14:24:30 124
原创 Spark streaming消费Kafka的正确姿势
前言在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streaming嵌入kafka的方式进行归纳总结,之后简单阐述Spark streaming+kafka在舆情项目中的应用,最后将自己在Spark Streaming+kafka的实际优化中的一些经验进行归纳总结。(如有任何纰漏欢迎补充来踩,我会第一时间改正v)
2021-02-08 18:13:47 854
原创 多线程遇到负载均衡有问题解决方案
@多线程遇到负载均衡有问题解决方案多线程遇到负载均衡有问题解决方案多线程使用线程分配数据分发的机器节点 sentiment_host = ["192.168.50.119:33140", "192.168.50.139:33140", "192.168.50.169:33140", "192.168.50.179:33140"] factor, reminder = divmod(len(tags_cul_name), len(sentiment_host))
2021-01-28 15:22:55 547
原创 python多线程案例
import threadingimport timedef run(n): #加锁 semaphore.acquire() print("Look:%s"%n) time.sleep(0.5) #释放锁 semaphore.release()if __name__ == "__main__": #同时准许5个线程 semaphore = threading.BoundedSemaphore(5) tlist = [] .
2021-01-22 15:25:14 103
原创 python的线程使用案例
1、简单启动线程。import threadingdef run(name) print("run thread....")#创建进程对象,target=方法名,args=(参数1,参数b,)t = threading.Thread(target=run,args=(n,))#设置守护线程t.setDaemon(True)#启动线程t.start()#等待线程结束t.jion()2、线程池的使用import threadingimport timedef run(n
2021-01-06 17:55:01 275 2
原创 chmod: changing permissions of ‘/user/hive/warehouse‘: Permission denied. user=hdfs is not the owner
安装hive后发现无法创建表和写入在执行Hadoop的创建目录、写数据等情况,可能会出现该异常,而在读文件的时候却不会报错,这主要是由于系统的用户名不同导致的,由于我们进行实际开发的时候都是用Windows操作系统,而编译后的JAVA程序是部署在Linux上的。而Windows的用户名一般都是自定义的或者是administrator,Linux的用户名是root,对于Hadoop的部署,也有可能是hadoop用户名。由于,Hadoop的权限验证是依靠Linux系统的,而用户名不一致,会报错,这个错误很经
2020-08-06 15:44:06 2864
原创 linux安装镜像
二、linux下永久更换镜像源需要修改~/ .pip/pip.confcd ~mkdir -p .pipnano pip.conf #或者vi pip.conf在pip.conf中,添加配置内容,就修改了默认的软件源。[global]index-url = https://pypi.tuna.tsinghua.edu.cn/simple[install]trusted-host=mirrors.aliyun.com...
2020-08-04 15:23:17 432
原创 解决安装python3.7.4报错Can‘‘t connect to HTTPS URL because the SSL module is not available
从官网下载了Python3.7.4,直接编译安装后,使用pip3出现了报错信息: Can’t connect to HTTPS URL because the SSL module is not available在Python3.7之后的版本,依赖的openssl,必须要是1.1或者1.0.2之后的版本,或者安装了2.6.4之后的libressl查看版本:[root@localhost ~]# openssl versionOpenSSL 1.0.1e-fips 11 Feb 2013解决方法:
2020-08-04 10:59:53 593
原创 虚拟集群迁移容易出的问题
虚拟集群迁移容易出的问题复制集群:1、/etc/udev/rules.d目录,编辑70-persistent-net.rules这个文件,删除eth0 那行 将eth1改成eth02、修改网络配置文件/etc/sysconfig/network-scripts/ifcfg-eth0将修改 ip(VMnet8中的id) DSN(默认8.8.8.8) HWAADR(70-persistent-net.rules中复制过来)3.配置hosts编辑 /etc/hosts 文件,使用命令:vim /et
2020-07-23 18:57:44 161
原创 windows上运行spark上报Constructor org.apache.spark.api.python.PythonRDD does not exist
windows上运行spark上报Constructor org.apache.spark.api.python.PythonRDD does not exist在代码第一行加上()import findsparkfindspark.init()
2020-07-23 15:42:00 859
原创 清华镜像的配置
[global]timeout = 6000index-url = https://pypi.tuna.tsinghua.edu.cn/simpletrusted-host = pypi.tuna.tsinghua.edu.cn将上四行写在pip.ini 文件中将文件放在C盘中
2020-07-15 18:24:15 708
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人