- 博客(30)
- 资源 (2)
- 收藏
- 关注
原创 python_批量创建文件夹
python_批量创建文件夹import os #导入系统模块 #要在"E:\新建文件夹\每日疫情统计更新"路径下新建一系列文件夹 #并将此路径赋值给file_path变量 路径给改了file_path=os.path.abspath(r"C:\data")#需求:要建从2月1日起,到2月25日每天的文件夹#注意range遵循:左闭右开,所以参数的起点是1,终点是26for...
2020-03-27 16:48:41 650
原创 pandas_分组聚合_groupby和agg的区别
pandas_分组聚合_groupby和agg的区别对特定字段进行聚合操作对多个字段进行分组对多个字段进行分组,多个字段进行聚合运算import pandasdata = pandas.read_csv('C:/data/data/data.csv', engine='python', encoding='utf8')data.head()id reg_date id_num...
2020-03-27 16:33:58 1378
原创 python_execel表格数据转化为列表list
python_execel表格数据转化为列表listfrom pyecharts import options as optsfrom pyecharts.charts import Geofrom pyecharts.globals import ChartType, SymbolType# 导入数据# 湖北地区新增数据 data_num = pandas.read_exc...
2020-03-27 11:36:01 6022
原创 pyhton_绘制支援地图
pyhton_绘制支援地图自己改良了下,直接加载execel表格的数据from pyecharts import options as optsfrom pyecharts.charts import Geofrom pyecharts.globals import ChartType, SymbolType# 导入数据# 湖北地区新增数据 data_num = pandas.r...
2020-03-27 11:32:56 214
原创 python_绘制动态地图
python_绘制动态地图数据:数据下载链接: https://pan.baidu.com/s/1xjUm4d8VJEqReYKaWwOxvg 提取码: qpraimport pandasfrom pyecharts.charts import Mapfrom pyecharts import options as optsfrom pyecharts.charts import Ti...
2020-03-27 10:11:30 3258 1
原创 python_绘制地图
python_松绘制新冠疫情地图参考:http://blog.sina.com.cn/s/blog_49f78a4b0102z9eh.html用到的数据,数据下载链接: https://pan.baidu.com/s/1xjUm4d8VJEqReYKaWwOxvg 提取码: qpra# 导入需要使用的模块import pandasfrom pyecharts.charts import...
2020-03-26 21:25:06 829 1
原创 python_数据框转化为二位列表_zip
数据框转化为二位列表_zip# 导入数据data = pandas.read_excel('C:/data/xgyq.xlsx',sheet_name='1')# 将数据转换为二元的列表list1 = list(zip(data['省份'],data['新增']))
2020-03-26 21:15:06 360
原创 python_绘制玫瑰图_南丁格尔图
python_绘制玫瑰图_南丁格尔图通过加载execel文件绘制通过直接造数看这:https://blog.csdn.net/kaikai_sk/article/details/104954309import pandas as pdfrom pyecharts.charts import Piefrom pyecharts import options as opts# 准备数据...
2020-03-26 14:17:46 2493
原创 pip安装pyecharts_python镜像库
pip安装pyecharts参考:https://blog.csdn.net/qq_31061155/article/details/96567862?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-taskpip install -i https://...
2020-03-26 11:31:22 7429
原创 pyspark_createOrReplaceTempView
DataFrame注册成SQL的表:DF_temp.createOrReplaceTempView('DF_temp_tv')select * from DF_temp_tv
2020-03-25 11:19:52 2481 2
原创 pysaprk常用操作
参考:https://www.izhangchao.com/internet/internet_234179.htmlhttps://blog.csdn.net/sinat_26917383/article/details/80500349
2020-03-24 16:36:52 167
原创 spark sql加载csv文件并筛选
spark sql加载csv文件并筛选from pyspark.sql.types import TimestampTypeimport pandas as pdpd_df = pd.read_csv('/home/product_with_decd.csv')DF = spark.createDataFrame(pd_df)DF = DF.withColumn('before_afte...
2020-03-24 14:32:47 446
原创 可视化_一个图中绘制多个直方图
参考:https://blog.csdn.net/qq_42768234/article/details/103720068import numpy as npimport pandas as pdimport matplotlib.pyplot as plt#plt.rcParams["font.family"] = 'Arial Unicode MS' # mac电脑设置中文字体...
2020-03-24 11:04:29 2341 2
原创 python_求每组的差值统计
python_求每组的差值import pandas as pdimport numpy as npdata = [[1,2,3],[1,2,6],[1,3,5]] columns=['id01','id02','test3'] frame = pd.DataFrame(data=data, columns=columns)# frame = pd.DataFrame(np.ra...
2020-03-20 17:48:16 2055 1
原创 python_字符串操作_join
python_字符串操作#join操作>>#对序列进行操作(分别使用' ' 、' - '与':'作为分隔符) >> a=['1','2','3','4','5']>> ' '.join(a)1 2 3 4 5>>';'.jion(a)1-2-3-4-5>>'.'.join(a)1.2.3.4.5>>#对...
2020-03-20 16:15:10 115
原创 hive_优化模式
本地模式:当一个MapReduce任务的数据量和计算任务很小的时候,真正的逻辑处理其实占用时间很少,只需要在本地进行Map和Reduce的执行,大大的加快了小任务的执行时间,通常可以把分钟级别任务的执行时间降低秒级。并行模式:Hive的Parallel特性使得某些任务中的stage子任务以并行执行模式同时执行,相对于一直串行执行stage任务来说有效的提升资源利用率严格模式:通过设置hi...
2020-03-20 14:18:35 150
原创 hive调优_解决数据倾斜
小表与大表JOIN小表与大表JOIN小表与大表Join时容易发生数据倾斜,表现为小表的数据量比较少但key却比较集中,导致分发到某一个或几个reduce上的数据比其他reduce多很多,造成数据倾斜。优化方法:使用Map Join将小表装入内存,在map端完成join操作,这样就避免了reduce操作。有两种方法可以执行Map Join:(1) 通过hint指定小表做MapJoin ...
2020-03-20 14:01:40 223
原创 git常用操作
使用Git上传文件夹到GitHub仓库https://www.cnblogs.com/xiongdongdong/p/11398466.htmlgit add . (注:别忘记后面的.,此操作是把Test文件夹下面的文件都添加进来)git commit -m "第一次提交" (注:“提交信息”里面换成你需要,如“first commit”)git push -u origin ...
2020-03-12 17:02:55 120
原创 shell_判断进程文件是否存在
#判断增量脚本进程是否还在ps -ef |grep "sh new_sync_data.sh" |grep -v "grep" | grep -v "vim" >>/dev/nullif [ $? -ne 0 ]then mkdir -p ${currentPath}/proccessLog >>/dev/null echo "ERROR ${currentT...
2020-03-12 14:58:34 188
原创 shell_生成时间日期
#当天日期currentDay=`date +'%Y-%m-%d'`#具体时间currentTime=`date +'%Y-%m-%d %H:%M:%S'`
2020-03-12 14:41:57 994
原创 为什么MySQL数据库索引选择使用B+树
参考:https://www.cnblogs.com/tiancai/p/9024351.html五、B+树(1)简介B+树是应文件系统所需而产生的一种B树的变形树(文件的目录一级一级索引,只有最底层的叶子节点(文件)保存数据)非叶子节点只保存索引,不保存实际的数据,数据都保存在叶子节点中(3)应用 1、B和B+树主要用在文件系统以及数据库做索引,比如MySQL;知乎上看到有人是这样说...
2020-03-11 11:51:08 600
原创 hive表类型压缩方式对比
参考:https://blog.csdn.net/xjp8587/article/details/52330440几种压缩方式笔记: textfile 存储空间消耗比较大,并且压缩的 text 无法分割和合并 查询的效率最低,可以直接存储,加载数据的速度最高 sequencefile 存储空间消耗大,压缩的文件可以分割和合并 查询效率高,需要通过text 文件转化来加载 ...
2020-03-11 10:24:53 554
原创 车羊门问题分析
参考:https://blog.csdn.net/weixin_30344795/article/details/98499428import random as r#总次数total=1000000 #1000,1W,10W,100W#换与不换的获胜次数win1=0win2=0for i in range(total): #模拟选择过程 # 1).声名两个变量,...
2020-03-10 17:34:09 481
原创 MapReduce实现两表join_join的类型
参考:https://www.cnblogs.com/duaner92/p/9596770.htmljoin的类型:1.1 reduce side joinreduce side join是一种最简单的join方式,其主要思想如下:在map阶段,map函数同时读取两个文件File1和File2,为了区分两种来源的key/value数据对,对每条数据打一个标签(tag),比如:tag=0表...
2020-03-07 21:13:43 262
原创 DB2常用查询命令
db2常用查询语句--排序select * from test.core_cl_info where STAND_NAME like '%ACCT_CLOSE_APPR_STATUS%'order by code_de ;--查找 '所有'库中的 字段的中文名包含‘’的字段select tabschema,tabname,colname,remarks fromsyscat.colu...
2020-03-05 11:26:42 2301
原创 大数据groupby太慢该如何优化
算子调优五:reduceByKey本地聚合参考:https://www.cnblogs.com/dflmg/p/10430181.htmlreduceByKey相较于普通的shuffle操作一个显著的特点就是会进行map端的本地聚合,map端会先对本地的数据进行combine操作,然后将数据写入给下个stage的每个task创建的文件中,也就是在map端,对每一个key对应的value,执行r...
2020-03-04 22:46:21 3383
原创 hive的mapjoin原理
什么是MapJoin?MapJoin顾名思义,就是在Map阶段进行表之间的连接。而不需要进入到Reduce阶段才进行连接。这样就节省了在Shuffle阶段时要进行的大量数据传输。从而起到了优化作业的作用。MapJoin的原理:省去了reduce操作即在map 端进行join,其原理是broadcast join,即把小表作为一个完整的驱动表来进行join操作。通常情况下,要连接的各个表里面...
2020-03-03 22:39:20 553
原创 Hive的常见压缩格式(ORC,Parquet,Sequencefile,RCfile,Avro)的区别
读写查询性能测试:https://blog.csdn.net/wx1528159409/article/details/88417457TEXTFILE和SEQUENCEFILE的存储格式都是基于行存储的;并且SEQUENCEFILE是存储为二进制文件ORC和PARQUET是基于列式存储的行列混合存储的RCFile,该存储结构遵循的是“先水平划分,再垂直划分”的设计理念。先将数据按...
2020-03-03 14:26:34 2282
原创 vmware客户端远程登录连接超时
vmware客户端远程登录连接超时一、下载安装文件官方网站下载:https://my.vmware.com/cn/web/vmware/info/slug/desktop_end_user_computing/vmware_horizon_clients/5_0但是报连接超时这样设置就好了...
2020-03-01 11:55:04 5948
oracle-drives.rar
2019-12-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人