自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Python爬虫

浏览器分析Response中的 HTML,发现其中引用了很多其他文件,比如Images文件,CSS文件,JS文件。POST请求参数在请求体当中,消息长度没有限制而且以隐式的方式进行发送,通常用来向HTTP服务器提交量比较大的数据(比如请求中包含许多参数或者文件上传操作等),请求的参数包含在。默认是 All ,其右边还有很多,比如:XHR(ajax请求)、JS、CSS等,但是每次都只能选择一个,若想选择多个按住Ctrl不放,点击鼠标左键。元素面板,可以看到渲染后的最终结果,可以操作DOM和CSS。

2024-05-06 23:15:52 895

原创 计算机网络

数据链路层 :网络层针对的还是主机之间的数据传输服务,而主机之间可以有很多链路,链路层协议就是为同一链路的主机提供数据传输服务。网络层 :为主机提供数据传输服务。而传输层协议是为主机中的进程提供数据传输服务。层与层之间相互独立、相关隔离。每层只考虑当前层如何实现,无需考虑其他层。应用层 :为特定应用程序提供数据传输服务。物理层 :负责比特流在传输介质上的传播。传输层 :为进程提供通用数据传输服务。1. 计算机网络体系结构。

2023-09-09 09:53:49 116 1

原创 Data Analysis-统计

条件概率: P(A|B):在B的条件下A的概率。

2023-04-08 15:38:02 158

原创 Python

qcut函数则是根据数据本身的数量来对数据进行分割:比如要把数据分为四份,则四段分别是数据的0-25%,25%-50%,50%-75%,75%-100%,每个间隔段里的元素个数都是相同的。cut函数是按照数据的值进行分割:例子:按照数据值由小到大的顺序将数据分成4份,并且使每组值的范围大致相等。数据清洗时,会将带空值的行删除,此时DataFrame或Series类型的数据不再是连续的索引,可以使用。groupby(‘A’)[‘B’].value_counts(),统计的是B的特征。

2023-03-23 23:39:06 170

原创 数据分析--机器学习

计算样本i和簇内其他样本间的平均距离得到样本i的簇内不相似度,计算样本i和其他簇内样本间的平均距离得到样本i的簇间不相似度bi。优点:朴素贝叶斯算法假设了数据集属性之间是相互独立的,因此算法的逻辑性十分简单,并且算法较为稳定,即朴素贝叶斯算法的稳定性比较好,对于不同类型的数据集不会呈现出太大的差异性。是监督学习,数据集是带Label的数据,没有明显的训练过程。缺点:数据集属性的独立性在很多情况下是很难满足的,因为数据集的属性之间往往都存在着相互关联,如果在分类过程中出现这种问题,会导致分类的效果大大降低。

2023-03-16 00:32:29 617

原创 数据分析常见面试问题----数据库

产⽣原因 1.group by维度过小,某值的数量过多(后果:处理某值的reduce⾮常耗时) 2.去重 distinct count(distinct xx) 某特殊值过多(后果:处理此特殊值的reduce耗时) 3.连接 join,count(distinct),group by,join等操作,这些都会触发Shuffle动作,⼀旦触发,所有相同key的值就会拉到⼀个或⼏个节点上,就容易发⽣单点问题。因为相⽐于与数据库是为了数据的储存,更新⽽设计的,数据仓库则是更多为了数据的查询。

2023-03-16 00:30:36 197

原创 数据分析4--相关分析

数据分析中如何探究两个或者多个变量之间的相关性?注意⚠️相关性并不等于因果性,因此基于相关性,数据分析师还会开展一系列的因果性分析。相关性分析是数据分析中较为常用的方法,数据分析师在日常工作中经常会使用该方法。举个例子,对于游戏用户留存分析来说,数据分析师会去探讨用户在线时长、好友组队、比赛场次等多种因素与用户留存之间的相关性,以辅助运营人员或产品专员及时调整策略提升用户留存率。

2023-03-10 01:09:25 5967

原创 数据分析3--对比法(AB test)

在对比方法中,A/B试验是一种较为典型的方法,它通过线上试验对比在相同干预条件下对照组和试验组之间的差异,从而得出结论。本章重点介绍A/B试验,会着重从A/B试验的设计、统计学原理出发详细介绍每一个环节的操作流程,还会利用公开数据集介绍A/B试验相关的分析流程。

2023-03-10 00:56:00 3915

原创 数据分析2--数据指标体系与数据异动分析

用精准的数字和具体的指标来说明中国人口现状。官方的说法是这样的,据国家统计局发布的2019年经济年报数据显示,2019年全国人口总数超过14亿人,新生人口数达1465万人,人口出生率为10.41‰;死亡人口数为998万人,人口死亡率为7.09‰;人口自然增长率为3.32‰。例子中,人口总数、出生率、死亡率、自然增长率是四个不同的指标,它们从不同的维度描述了中国人口现状;当将多个不同的指标有规律、有体系地组织在一起去量化人口现状时,它们就成为一套指标体系。所以,根据上面的例子可以重新给指标体系下一个定义。

2023-03-09 22:39:34 2744

原创 数据分析1--数据思维

是指将零散的用户数据通过采集、传输、储存等一系列标准化流程变成格式规范、结构统一的数据,并构建严格规范的综合数据管控机制;对这些标准化的数据进行进一步加工分析,形成具有指导意义的业务监控报表、业务监控模型,以辅助业务方进行决策。流程:从数据规划、数据采集、数据储存管理到数据应用的过程,是从无序到有序的过程,也是标准化流程的构建过程。从数据规划、数据采集、数据储存管理到数据应用的过程,是从无序到有序的过程,也是标准化流程的构建过程。1: 理:梳理业务流程,规划数据资源需要采集用户的哪些数据?

2023-03-09 21:01:30 384 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除