自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(51)
  • 收藏
  • 关注

原创 lambda,Python中一个强大的函数

如前文所述,lambda函数可以用于定义简单、临时的函数。这些函数通常只是一行代码,并只执行一个任务。例如,您可以定义一个lambda函数来对列表中的元素进行排序或过滤。

2024-07-18 16:41:24 857

原创 Numpy

数据分析: NumPy提供了大量的数值和统计函数,可用于数据清洗和预处理。比如,你可以使用NumPy进行数据的筛选、排序、聚合等操作。(Numerical Python)是Python的一个开源的数值计算扩展库,主要用于对大量数据进行高效存储和计算。图像处理: 利用NumPy的多维数组,可以方便地对图像进行处理,例如图像的缩放、转换、滤波等。信号处理: 在信号处理领域,NumPy可以作为数据分析和预处理工具,处理如音频信号数据等。总的来说,只要涉及到大量数据的数值计算和处理,很可能都会需要用到NumPy。

2024-07-15 14:56:04 308

原创 Pandas

Pandas 提供了丰富的功能,包括:

2024-07-15 14:52:33 104

原创 Numpy 和 pandas的区别

Pandas 则支持更多种类的数据结构,如 Series、DataFrame 和 Panel,其中最常用的是 DataFrame,它是由多个 Series 组成的表格型数据结构,适用于处理二维表格类型的数据。2、数据类型:NumPy 数组中只能包含一种数据类型,如整数或浮点数,而 Pandas 中的 DataFrame 可以包含多种数据类型,如数字、字符串、布尔值等,这使得 Pandas 更加灵活。1、pandas操作的数据集是Series,本质上是列表与字典的混合,常用的数据形式为DataFrame;

2024-07-15 14:49:57 142

原创 matplotlib 做饼图

matplotlib pie 饼图

2024-06-20 10:20:00 181

原创 matplotlib做分组柱状图

分组 柱状图 matplotlib

2024-06-19 16:41:42 131

原创 Matplotlib 和 Seaborn的区别

Seaborn matplotlib

2024-06-19 14:25:35 226

原创 pyecharts画水球图

水球图

2024-06-12 16:20:02 195

原创 pyechart 创建柱形图

Pyecharts 是一个基于 Python 的开源数据可视化库,用于创建各种交互式的图表和可视化效果。它是在 Echarts 的基础上进行封装和优化,Echarts 是一个流行的 JavaScript 数据可视化库。pyecharts 模块 还支持动态数据更新、交互操作、动画效果等功能 , 可以让用户更加直观地理解和分析数据。

2024-06-12 10:58:59 318

原创 matplotlib ---词云图

词云图是一种直观的方式来展示文本数据,可以体现出一个文本中词频的使用情况,有利于文本分析,通过词频可以抓住一篇文章的重点。本文通过处理一篇关于分析影响洋流流向的文章,分析影响洋流流向的主要因素都有哪些。4、设置停用词&在已处理的文本中过滤停用词。5、设置png掩膜(设置图像显示的形状)

2024-05-28 17:53:37 372

原创 解决bug :OSError: cannot open resource

在创建词云,运行程序的时候报错OSError: cannot open resource。在Windows操作系统上,字体文件通常存储在 ​。方法2>在网上下载自己想要的字体,然后放在这个文件夹下。但是在windows系统现有的字体中并没有这种字体。遇到这种报错,通常是由于无法加载字体导致的。方法1> 更改字体样式,选择一种现有的字体。3、分析出现问题的原因。

2024-05-28 11:39:14 355

原创 matplotlib---气泡图

气泡图(Bubble Chart)是一种数据可视化图形,主要用于展示多个数据点之间的关系。气泡图通过气泡的大小,位置和颜色可以展示数据之间的关系。在气泡图中,横轴和纵轴通常表示数据的两个维度,而气泡的半径和位置则表示数据的值。气泡图可在二维平面上展示多元数据间的关系。下面以python中的鸢尾花数据集来展示,气泡图的绘制和对数据的展现iris = load_iris() # 这里,从sklearn库中加载鸢尾花数据集 获得的数据集是一个列表,其中有两列,一列是鸢尾花的特征,一列是鸢尾花的种类。

2024-05-27 17:43:05 228

原创 matplotlib做折现&柱状复合图

【代码】matplotlib做折现&柱状复合图。

2024-05-27 13:58:27 148

原创 解决bug: A value is trying to be set on a copy of a slice from a DataFrame

python DataFrame 赋值报错

2024-04-29 16:21:38 153

原创 python计算两个日期间的工作日天数

计算两个日期间的工作日天数

2024-04-23 19:04:01 376 2

原创 运营分析模型----人货场

用户运营

2023-11-16 09:18:59 195

原创 运营分析模型----AARRR模型

用户运营,AARRR

2023-11-15 12:48:40 133

原创 运营分析模型----RFM模型

产品运营,RFM

2023-11-14 13:01:51 82

原创 运营分析----用户行为理论

用户生命周期,用户运营

2023-11-09 21:51:51 64

原创 运营分析模型-----5W2H分析法

运营,用户运营

2023-11-09 21:40:57 42

原创 常用运营分析模型-----QQ模型

运营分析模型

2023-11-09 21:11:18 34

原创 财务报表分析

财务,财务报表

2023-11-09 20:57:17 41

原创 SQL查询中的模糊匹配

SQL 模糊查询

2022-11-21 17:14:28 3540

原创 XGboost和GBDT的异同

xgb

2022-11-04 11:16:00 266

原创 XGboost原理

XGboost

2022-11-04 11:10:55 204

原创 union 和 union all的区别

union 和 union all的区别

2022-11-04 11:04:37 288

原创 SQL调优

SQL调优

2022-11-04 10:57:39 63

原创 hive中日期和字符串的转换

hive中日期和字符串之间的转换

2022-08-23 10:46:32 4858

原创 hive中的空值处理函数 nvl、 nvl2、if、 coalesce

hive中的空值处理函数

2022-06-27 10:20:34 3459

原创 hive中行转列

hive数据统计

2022-06-21 18:13:59 3740

原创 用户连续登录天数hive

用户连续登录天数hive统计

2022-06-13 18:24:45 539

原创 ClickHouse中的数据字典

数据字典数据字典是ClickHouse中提供的一种非常简单实用的存储媒介。数据字典中的数据会主动或被动加载到内存,并支持动态更新,由于数据字典常驻内存的特性,所以它非常适合保存常量或经常使用的维度表数据,以避免不必要的join查询。ClickHouse中扩展字典类型及特点...

2022-02-08 18:29:43 518

原创 ClickHouse的数据定义

ClickHouse的数据类型1、基础类型基础类型中没有布尔类型,但可以使用整型中的0或1代替目前时间类型中没有时间戳类型,时间类型最高的精度是秒,如果需要处理毫秒,微秒等大于秒分辨率的时间,只能借助UInt类型实现。2、复合类型3、特殊类型...

2022-02-08 15:59:39 699

原创 ClickHouse的架构设计

ClickHouse的架构设计ClickHouse架构设计中的核心模块1、Column 与FiledColumn和Filed是ClickHouse数据最基础的映射单元,作为一款百分之百的列式存储数据库,ClickHouse按列存储数据2、DataTypeDataType负责数据的序列化和反序列化DataType虽然负责数据的序列化工作,但是不负责数据的直接读取,而是从Column和Filed对象获取3、Bolck与Block流ClickHouse内部的数据操作是面向Block对象进行的,并

2022-02-08 15:12:35 374

原创 ClickHouse

ClickHouseClickHouse最初设计的目标是服务公司的一款web流量分析工具。基于前方探针采集到的行为数据,进行一系列的数据分析。在采集数据的过程中,一次页面click(点击),就会产生一个event(事件),整个系统的逻辑就是基于页面的点击事件流,所以ClickHouse的全称是Click Stream,Data WareHouse。ClickHouse适用场景基本能够胜任各种数据分析类的场景,非常适用于商业智能领域(BI领域),能够被广泛应用于广告流量,web,app流量,电信,金融,

2022-01-29 11:59:00 2363

原创 数据架构简析

简单了解大数据Hadoop最初指代的是分布式文件系统HDFS和Mapreduce计算框架,但是它一路高歌猛进,在此基础之上像搭积木一般快速发展成为一个庞大的生态(包括Yarn,Hive,HBase,Spark等十种之多)为解决海量数据下分析查询性能问题,数据仓库的基础上衍生出的概念1、对数据仓库进行分层,通过层层递进形成数据集市,减少最终查询的数据体量2、提出数据立方体的概念,通过对数据预先处理,以时间换空间,提升查询性能。BI系统在Hadoop技术的加持下,在海量数据下要实现多维分析的实时应答,

2022-01-29 11:30:45 3112

原创 SQL查询条件巧用

sql查询条件中直接写boole类型的字段,而不标注要查询的是哪部分数据,默认查询的为true的数据consent_status 为布尔类型,true代表用户已授权,false代表为访客select * from mid_user_channel where consent_status;查询出来的数据全部为已授权用户...

2021-12-28 10:37:06 550

原创 hive中字段长度

获取字段长度 length()获取数组长度 size()

2021-11-30 10:58:11 3337

原创 hive中将文本拆分为键值对str_to_map()

str_to_map(字符串参数, 分隔符1, 分隔符2)分隔符1将文本分成K-V对,分隔符2分割每个K-V对。对于分隔符1默认分隔符是',',对于分隔符2默认分隔符是'='。举例user_id tag_value 1 62@2021-11-28 2 92@2021-11-28#93@2021-11-29 3 98@2001-1-17 select user_id,str_to_map(tag_value,'#',"@') as tag from t..

2021-11-29 13:54:30 1293

原创 hive ----获取json字符串中指定字段名的值

id info 1 {"con_id":"105","doctor_id":"134"} 2 {"con_id":"107","status":"True"} select get_json_object(info,'$.con_id') from test运行结果:info 105 107

2021-11-23 18:17:16 1550

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除