自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 第四章 处理字符串

匹配字符串可能是一项令人痛苦的任务,为了减轻这样的痛苦,SQL 提供了各种工具,掌握这些工具可以避免你陷入困境。尽管可以使用 SQL 原生字符串函数完成很多任务,但可使用的正则表达式函数越来越多,它们可以让你更上一层楼。

2023-04-11 16:24:48 132

原创 第3章 表连接和集合运算

连接在数据库查询中扮演着至关重要的角色,你经常需要连接多张表以获取所需的信息。掌握本章介绍的连接类型和组合是迈向成功的第一步。

2023-03-23 20:52:11 154

原创 第二章 查询结果排序

对查询结果进行排序都是必须掌握的核心技能。ORDER BY 子句的功能非常强大,但正如你在本章中看到的,要卓有成效地使用它,必须对一些玄妙之处有深刻认识。

2023-03-20 21:33:19 133

原创 第一章 检索基础记录

信息检索是数据库查询的核心

2023-03-20 21:05:48 90

原创 一行代码encoder编码/内存优化/模型调用保存

快速一行代码编码

2023-03-09 15:08:37 152

原创 第7章 Pandas数据合并与对比

对比数据非常有用,我们在日常办公、数据分析时需要核对数据,可以使用它来帮助我们自动处理,特别是在数据量比较大的场景,这样能够大大节省人力资源。

2023-02-23 22:23:16 249

原创 6-1 聚合统计和可视化

数据的分组聚合是数据分析的常规手段,旨在将有共性的事物进行分组统计,最终对各组进行比较,从而发现规律。

2023-02-20 22:39:26 129

原创 6 pandas分组聚合

apply():最为灵活的处理方法,可以对数据完成操作后返回各种形式的数据。transform():对数据处理完后返回原型形状的数据,可以类比为对一个汽车不改变结构,只重新进行涂装。filter():每个分组传入后,通过计算返回这个分组的真假值,所有为真的留下,作为最终的结果。

2023-02-19 20:59:26 465

原创 5-3 数据迭代和函数应用

以迭代形成编写复杂的数据处理逻辑;利用函数完成重复工作,让代码更加高效。

2023-02-16 23:04:01 194

原创 5-2 数据排序、添加修改、高级过滤

利用数据查询的功能,确定未知的数据位置并将其作为变量,再将数据内容赋值给它,从而完成数据的添加。数据修改也类似,它通过查询的已知的数据位置,重新赋值以覆盖原有数据。

2023-02-15 22:55:01 78

原创 5-1 pandas 复杂查询

本节介绍的数据类型匹配和转换是高效处理数据的前提。

2023-02-13 22:49:26 124

原创 第4.1章 Pandas数据选择

绍了数据查询的几个常用方法,可以根据需求把所需要的行和列筛选出来。

2023-02-11 17:23:57 137

原创 第4章 Pandas基础操作

介绍Pandas对数据的基础操作,包括索引的创建和使用、数据信息的查看、数据的筛选、数据的统计、数据类型的转换、排序

2023-02-11 16:41:23 150

原创 第三章 Pandas数据读取与输出

探讨了数据的读取与输入

2023-02-10 22:41:03 409

原创 Pandas 第二章 数据结构基础

本章介绍了什么是数据结构、Python原生的数据结构、Pandas的依赖基础NumPy库的数据结构、Pandas的数据结构。

2023-02-08 22:50:54 92

原创 Pandas 第一章 环境配置与数据操作快速入门

快速了解Pandas的数据读取加载、数据查看、描述性统计、数学统计、数据筛选、数组聚合、数据可视化、导出等

2023-02-07 23:03:23 316

原创 My sql 性能优化大全

优化是多方面的,原则是减少系统的瓶颈,减少资源的占用,增加系统的反应速度。例如,通过优化文件系统,提高磁盘I\O的读写速度;通过优化操作系统调度策略,提高MySQL在高负荷情况下的负载能力;优化表结构、索引、查询语句等使查询响应更快。1.1使用SHOW STATUS语句查询一些MySQL数据库的性能参数SHOW STATUS LIKE 'value';Slow_queries:慢查询的次数SHOW STATUS LIKE 'Slow_queries';查询是数据库中最频繁的操作,提高查询速度可以有效地提高M

2022-06-21 13:48:36 242

原创 K-Means聚类分析广告投放效果的改进(数据标准化、最佳K值的确定)

业务场景:甲公司投放广告的渠道很多,每个渠道的客户性质也可能不同,比如在优酷视频投广告和今日头条投放广告,效果可能会有差异。现在需要对广告效果分析实现有针对性的广告效果测量和优化工作。2.数据探索与清洗(1)数据共889行记录,12个维度(第一列为序号),数据量较小,可以用聚类分析。(2)日均UV到投放时间为数值型数据,后5项为分类型数据。 (3)数值型数据度量单位不同,需要做标准化处理 平均停留时间存在2项缺失值,聚类分析对缺失值敏感,需要做进一步处理此处用缺失值可视化

2022-06-09 12:27:20 3927 10

原创 数据标签体系与用户画像

1.什么是数据标签体系?用户的数据标签是指通过对用户的社会属性、消费习惯、偏好特征等多个维度的数据进行采集和处理,实现对用户或产品属性特征的刻画,并对这些特征进行分析、统计,挖掘潜在价值,从而抽象出用户的信息全貌。对于用户的数据标签与数据标签体系的关系可以这样理解:用户的数据标签是用户信息标签化,即将用户的各类信息映射为标签符号,这些标签符号最终会形成普通大众对于用户或者产品的认知;数据标签体系是将用户多个维度的标签按照一定规律进行组合,以提高数据分析师的分析效率,更好地辅助运营人员进行决策。2.数据标签体

2022-06-01 21:42:47 3889

原创 第2篇 数据指标体系

1.数据埋点技术?每当用户在客户端发生一个行为操作,这个操作会被对应页面位置背后的代码采集到,这就是数据埋点技术。2.为什么需要进行数据埋点?进行数据埋点获取用户行为习惯,要对业务进行数据监控,对产品进行优化,对用户行为进行分析以实现精细化运营。3.数据埋点能够采集哪些用户数据?①设备的硬件信息,如设备品牌、型号、主板、CPU、屏幕分辨率等;②软件能力,就算没有点击网页或者App、横竖屏、截屏、摇一摇等操作也会被记录下来;③数据权限,新注册某款软件时,对于相册、通讯录、GPS等比较私密的信息一般会跳出让用户

2022-06-01 18:47:19 92

原创 数据思维如何指导业务

1.1部门岗位职责?数据分析师则负责数据的即时查询和指标体系、报表体系的建设以及输出各项业务报告1). 数据埋点假如现在用户流失很严重,业务方想要让数据分析师帮忙分析用户流失前的第N步都做了什么?但是,碰巧用户流失前第N步的事件没有埋点,那么数据分析师就无从下手,只能给研发人员提出埋点需求,在下一个版本进行数据埋点。2). 构建体系和标准好的评价标准和指标体系能够直接反映业务问题,同时能够帮助数据分析师快速定位业务问题,以辅助业务方进行决策。3)商业智能分析了商业智能分析,包括各类活动效果分析、版本变化分析

2022-06-01 18:18:58 249

原创 第3章 数理统计基础

本章主要介绍数理统计的基础知识,主要包括抽样估计的基础知识、数据分布及中心极限定理等内容,其中详细介绍随机事件及其概率、随机变量及其概率分布、正态分布、T分布、F分布以及卡方分布的分布函数和分布曲线等数理统计的基础内容。这些内容也是作为数据分析师在进行数理统计分析时所需要的基础知识。3.1抽样估计基础3.1.1 随机事件1.随机现象偶然性,结果不止一个,哪一个结果出现事先不知道称为随机现象。对随机现象进行大量的重复观察时,它表现出另一种特征:重复性、明确性、随机性。2.样本空间样本空

2022-05-29 17:39:30 914

原创 第2章 描述性统计分析

本章主要介绍数据分析中最基本的分析方法一一描述性统计分析,主要包括数据的集中趋势、离中趋势和数据分布的测度指标,以及根据这些指标进行的比较分析方法;直方图、茎叶图、箱线图等统计图的含义和画法。2.1数据概览:直方图可以判断数据的分布(例如正态分布)2.2数据的集中趋势在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点所在的位置。最常见的就是平均数、分位数和众数。2.2.1 平均数它主要适用于定量数据,而不适用于定性数据。平均数是概括数据的一个强有力的指标,它通过

2022-05-29 16:29:46 972

原创 数据分析的统计基础

1.1什么是数据分析?数据分析有针对性地收集、加工、整理数据,并采用统计、挖掘技术分析和解释数据,为特定的研究或商业目的提供参考。1.2数据分析步骤?明确分析目的和内容、数据收集、数据预处理、数据分析、数据展现和报告撰写1.2.1 数据预处理第一步:数据审查。数据的数量(记录数)是否满足分析的最低要求。变量值的内容是否与研究目的要求一致,是否全面。包括利用描述性统计分析,检查各个变量的数据类型,变量值的最大值、最小值、平均数、中位数等,数据个数、缺失值或空值个数等。第二步:数据清

2022-05-29 15:36:09 2931

原创 1.1 一元线性回归分析案例

#将pyplot字体转化成中文matplotlib.rcParams['font.family'] = 'Microsoft YaHei'plt.rcParams['font.size'] = 12 # 设置字体大小plt.rcParams['axes.unicode_minus'] = False # 设置正常显示负号案例背景:寻找房屋面积与价格的关系并进行预测图#需要的包import matplotlib.pyplot as pltfrom matplotlib impo.

2022-05-17 12:32:29 1116

原创 第三章 回归分析

一、回归分析相关概念1.1回归分析是研究变量间函数关系的一种方法。变量之间的关系可以表示为方程的形式。大数据分析中,回归分析是一种预测性的建模技术。这种技术通常用于预测分析、时间序列模型,以及发现变量之间的因果关系。1.2可以解决的问题进行因素分析,确定影响某一变量的若干变量(因素)中,何者为主要,何者为次要,以及它们之间的关系1.3回归分析的步骤①首先确定要进行预测的因变量,然后集中于说明变量,进行多元回归分析②多元回归分析将给出因变量与说明变量之间的关系③这一关系最后以公

2022-05-17 12:20:28 2549

原创 第二章 统计学基础(四)相关分析和方差分析

一、相关分析1.1含义相关分析是研究现象之间是否存在某种依存关系,并对具体有 依存关系的现象探讨其相关方向以及相关程度,是研究随机变 量之间的相关关系的一种统计方法1.2描述方式:①通过散点图来描述相关②协方差:如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。协方差一般只能描述变化趋势,无法直观描述变化程度。受度量单位的影响(不能反映变量间线性关系的强弱)③相关系数:经过标准化后的 Y 和 X 的协方差

2022-05-15 20:05:58 1268

原创 第二章 统计学基础(三)假设检验

一、假设检验的基本问题1.1假设问题的提出什么是假设(hypothesis):对总体参数的的数值所作的一种陈述什么是假设检验:事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立。采用逻辑上的反证法,依据统计上的小概率原理。1.2提出原假设和备择假设:①原假设:待检验的假设,又称“0假设”。研究者想收集证据予以反对的假设。总是有=, < 或>。表示为H0②备择假设:与原假设对立的假设。表示为 H1。1.3 假设检验中的两类错误①第一类错误

2022-05-15 18:50:01 1059

原创 第二章 统计学基础(二)

第五章 参数估计5.1基本概念估计量:用于估计总体参数的随机变量。参数用θ 表示,估计量用θ帽表示。如果样本均值 x帽 =80,则80就是θ 的估计值5.1.1点估计:用样本的估计量的某个取值直接作为总体参数的估计值。点估计量的可靠性是由它的抽样标准误差来衡量,表明一个具体的点估计值无法给出估计的可靠性的度量。5.1.2区间估计区间估计:在点估计的基础上,给出总体参数估计的一个区间 范围,该区间由样本统计量加减估计误差而得到。能够对样本统计量与总体参数的接近程度给出一个概率度量。

2022-05-15 16:09:10 1889 1

原创 第二章 统计学基础(一)

一、统计的基本概念1.1统计学分析数据的方法描述性分析:总体规模、对比关系、集中趋势、离散程度、偏态、峰态推断性分析:估计(点、区间)、假设检验、列联分析、方差分析、相关分析、回归分析1.2数据的分类①分类型数据:对事物进行分类的结果,如人的性别分为:男、女②顺序型数据:对事物类别顺序的测度,如产品分为:一等品、二等品、三等品③数值型数据:对事物的精确测度,如身高为:175cm、180cm定量数据(③)优先于定性数据(①、②)1.3总体和样本总体(population

2022-05-15 13:58:55 951

原创 第一章 机器学习基础

1.1学习方法1.1.1监督学习机器学习的数据是带标记的,这些标记可以包括数据类别、数据属性及特征点位置等。每个训练样本x有人为标注的目标t,学习的目的是发现x到t的映射。将标记作为预期效果,不断修正机器的预测结果。常见的监督学习有分类和回归。分类(Classification)是将一些实例数据分到合适的类别中,它的预测结果是离散的。回归(Regression)是将数据归到一条“线”上,即为离散数据生产拟合曲线,因此其预测结果是连续的。1.1.2无监督学习机器学习的数据是没有标记的。学习样本

2022-05-14 20:15:58 743

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除