数据分析
数据处理与分析
快乐骑行^_^
全栈技术博主,博主会持续更新专栏文章,欢迎关注和订阅博主,欢迎私信与博主交流技术。
展开
-
深入浅出理解数据分析系列之:python绘图和可视化
深入浅出理解数据分析系列之:python绘图和可视化一、figure和add_subplot二、subplots和subplots_adjust三、颜色、标记和线型四、刻度和标签五、图例和注解六、将图标保存到文件一、figure和add_subplotimport numpy as npimport matplotlib.pyplot as pltimport pandas as pdfrom numpy.random import randnfig = plt.figure()ax1 =原创 2021-12-30 15:47:42 · 941 阅读 · 0 评论 -
Presto查询数据,通过pyspark把数据存入mysql数据库
Presto查询数据,通过pyspark把数据存入mysql数据库Python连接Presto查询数据pyspark读写mysql数据库pyspark读取mysql、sqlserver数据库数据,pymysql往mysql数据库中写入数据from pyhive import prestofrom pyspark.shell import sparkfrom requests import Sessionimport requestsfrom requests.auth import HTTP原创 2021-11-14 20:08:58 · 2527 阅读 · 0 评论 -
Python连接Presto查询数据
Python连接Presto查询数据一、pyhive二、presto-python-client一、pyhivepip3 install pyhivefrom pyhive import prestofrom requests import Sessionimport requestsfrom requests.auth import HTTPBasicAuthrequests.packages.urllib3.disable_warnings()req_kw = { 'auth'原创 2021-11-07 11:42:57 · 1646 阅读 · 0 评论 -
Spark3查询Hive表最新分区
Spark3查询Hive表最新分区方法一:spark sql查询max(分区字段)方法二:spark 代码show partitions表方法一:spark sql查询max(分区字段)%sqlselect max(date_time) from 表名方法二:spark 代码show partitions表%sparkval partition_df = spark.sql( s"show partitions optics.data " )partition_df: org.apache.原创 2021-09-16 11:16:57 · 1349 阅读 · 0 评论 -
Spark3:pyspark注册udf和使用窗口函数
Spark3注册udf和使用窗口函数一、准备数据二、pyspark注册udf三、pyspark使用窗口函数一、准备数据%pysparkdata = [(1,"火男",6000),(1,"流浪法师",7000),(2,"盖伦",10000),(2,"皇子",8000)]df = spark.createDataFrame(data,["属性","角色名称","战斗力"])df.show()二、pyspark注册udf%pyspark#注册udfimport pandas as pdfr原创 2021-09-09 22:05:42 · 1006 阅读 · 0 评论 -
Zeppelin上通过Spark读写mysql数据库
Zeppelin上通过Spark读写mysql数据库一、从mysql数据库获取数据%sparkval df = spark.read.format("jdbc") .option("url","jdbc:mysql://192.168.216.130:3306/dw") .option("dbtable","stu_info") .option("password","xxxx") .load() .select("id","name","sex") .withColumn("id",co原创 2021-09-09 18:39:32 · 472 阅读 · 0 评论
分享