![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
20210706
流川枫_
态度决定一切!
展开
-
pycharm使用pip更换安装源
pycharm使用pip更换安装源在Pycharm底部的 Terminal输入// An highlighted blockPS D:\Users> pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn Writing to C:\Users\AppData\Roaming\pip\pip.ini#下面这行代码是查原创 2022-05-10 14:58:28 · 1410 阅读 · 0 评论 -
Flume+SparkStreaming(SparkSQL)+Kafka+Mysql
Flume+SparkStreaming(SparkSQL)+Kafka+Mysql使用flume采集文件数据,发送至kafka,再由SparkStreaming消费kafka消息,使用sparkSql对数据进行处理,结果数据保存到Mysql数据库。使用三台虚拟机完成测试,集群搭建配置就不赘述了。Flume:文件名: flume2Kafka.conf#定义了当前agent的名字叫做a1a...原创 2021-07-06 16:11:11 · 272 阅读 · 0 评论 -
HIVE- SPARK
日常记录备忘Hive修改字段类型之后(varchar->string)Hive可以查到数据,Presto查询报错; 分区字段数据类型和表结构字段类型不一样;spark-sql分区表和非分区表兼容问题, 不能关联 可以建临时表把分区数据导入,用完数据将表删除;count有数据,select没数据 可能是压缩格式所导致;优化合全量任务,之前是row_number()函数 先插入当天增量,取出最新的数据插入全量表 改成:昨日增量+ (loan_id前天全量中不在昨天增量中的)建议用原创 2021-07-06 16:04:44 · 548 阅读 · 0 评论