- 博客(877)
- 收藏
- 关注
原创 数据缺失值的4种处理方法
文章摘要: 本文系统分析了数据缺失问题的处理方案。首先阐述了缺失值产生的机械和人为两类原因,然后介绍了完全随机缺失、随机缺失和完全非随机缺失三种类型。重点讨论了两种处理方法:删除缺失个案(简单删除法和权重法)和缺失值插补(均值插补、同类均值插补、极大似然估计和多重插补)。文章指出,多重插补方法相对最优,但所有插补方法都会影响原始数据关系,建议根据数据类型和专业判断谨慎选择处理方案。最后强调缺失值处理需要平衡信息完整性与数据真实性,没有放之四海而皆准的解决方案。
2025-06-11 15:20:00
191
原创 科普:传说中的数据挖掘工程师,究竟是做什么的?
不懂写代码的工程师都是扯淡,不要写代码的数据挖掘与机器学习,那是研究员,懂得一门高级语言与一门脚本语言就差不多了(如JAVA或C++,Python或R,个人推荐Java与Python,因为像Hadoop、Spark、Hive、MPI之类的都对Java提供了很方便的接口,Python写脚本很爽),还需要懂得Linux、Shell、SQL,这都是个人意见,至少在阿里,用java+sql+python+shell,阿里有个很牛逼的东西,叫做ODPS,现在叫MaxCoupute,可以去阿里云官网查查相关资料。
2025-06-10 10:17:37
778
原创 python爬虫整理 原来我曾经拥有过这么多爬虫啊~
实例:使用手机版的百度翻译:response = requests.post(url, data={请求体的字典}) #发送post请求,请求url地址对应的响应。当不添加headers的时候会发现返回的内容只有一段,但是在添加了headers后就会发现返回的是整个网页的html。选择具体某个元素//ul[@class=‘btns’]/li选择class='btns’下面的ul下面的所。/a//text():获取a下的所有文本(包括a标签下的子标签中的文本值)
2025-06-09 10:17:23
444
原创 用Python做数据分析之数据统计
Weights参数是采样的权重,通过设置不同的权重可以更改采样的结果,权重高的数据将更有希望被选中。Corr函数用来计算数据间的相关系数,可以单独对特定数据进行计算,也可以对整个数据表中各个列进行计算。Describe函数是进行描述统计的函数,自动生成数据的数量,均值,标准差等数据。Excel的数据分析功能中提供了相关系数的计算功能,python 中则通过 corr 函数完成相关分析的操作,并返回相关系数。接下来说说数据统计部分,这里主要介绍数据采样,标准差,协方差和相关系数的使用方法。
2025-06-05 09:59:54
230
原创 mysql忘记密码的三种解决方案
mysql用户分为root用户(超级管理员,拥有所有权限)和普通用户,mysql服务器通过权限表来控制用户对数据库的访问,这些权限表存于root用户下的mysql数据库中。注意:mysql新版本用于存用户密码的字段名为authentication_string,而不是 password,且新密码必须使用password函数进行加密。第四步:将输入mysqld --skip-grant-tables命令的命令行窗口关闭,接下来就可以使用新密码登录mysql服务器了。怎么样,是不是觉得很简单呢?
2025-06-04 09:55:14
396
原创 8个Python高效数据分析的技巧,不看肯定后悔~
本文介绍了8种提升Python数据分析效率和代码质量的实用方法:1)列表推导式简化循环操作;2)lambda表达式创建匿名函数;3)map和filter函数处理数据;4)NumPy的arange和linspace生成数值序列;5)理解Pandas中axis参数的含义;6)DataFrame的concat、merge和join操作;7)apply函数应用自定义处理;8)pivot_table创建透视表。这些技巧不仅能提高代码运行效率,还能使代码更加简洁优雅,适用于数据分析和机器学习项目。
2025-06-03 10:08:14
559
原创 老司机带你十分钟入门Python!
元组由不同的元素组成,每个元素可以存储不同类型的数据,如字符串、数字甚至元素。当程序员需要创建的类型不能用简单类型来表示时,就需要定义类,然后利用定义的类创建对象。2)列表(list):列表和元组相似,也由一组元素组成,列表可以实现添加、删除和查找操作,元素的值可以被修改。2)python中一次新的赋值,将创建一个新的变量。5)Python是强类型语言,变量创建后会对应一种数据类型,出现在统一表达式中的不同类型的变量需要做类型转换。私有函数不能被该类之外的函数调用,私有的方法也不能被外部的类或函数调用。
2025-05-29 10:12:50
907
原创 做了7年开源数据库开发,我学到了什么?
本文总结了作者在7年开发开源数据库rqlite过程中的经验体会。主要观点包括:开发时要专注单一功能,避免过度改动;创造力具有随机性,重要功能往往在短时间内完成;测试至关重要,尤其要重视单元测试;Go语言经久耐用;开源项目推广困难;个人编程能带来治愈感,不受团队协作限制。虽然rqlite已持续开发7年,但仍有诸多改进空间。文章展现了开源开发者真实的心路历程和技术洞见。
2025-05-28 09:40:51
389
原创 自动化Web页面性能测试介绍
它能在 Cypress 的自动化测试运行的过程中,针对每张测试过的页面生成Lighthouse 的性能分数,并展示在 Cypress 的测试报告中。同时,随着 Web 应用的空前发展,前端业务逐渐复杂,为了处理这些复杂业务,前后端分离,出现了专门应对这种分离架构的应用开发框架,比如 Angular,React,Vue 等,从而也导致 Web 应用的复杂度大大增加,并出现了 SPA。前端页面性能测试本质上和本地应用性能测试类似,其性能和运行应用的设备的性能强相关,即运行被测系统的硬件性能越强,性能也越强。
2025-05-27 10:30:14
1069
原创 开启MySQL的binlog日志
MySQL的binlog是记录所有DML操作的二进制日志,可用于数据恢复和主从复制。启用binlog需在my.inf配置文件中添加相关参数:log_bin=ON、log_bin_basename和log_bin_index分别指定日志路径和索引文件,5.7+版本还需配置唯一的server-id。配置完成后重启MySQL,通过"show variables"命令验证是否生效。启用成功后,系统会生成以mysql-bin为前缀的日志文件和索引文件。binlog对运维和架构人员至关重要,开发者通
2025-05-26 09:57:04
226
原创 你问我接口测试重不重要,看看这些面试题,就知道了
接口测试的重要性,相信不用我多说了。接口测试是现在软件测试工程师一个加分项。因为很多朋友一开始做了几年的软件测试都是在做功能测试,做界面UI的测试,然而没有做过接口测试。(很正常,也很普遍)那么接口测试它在企业中,能达到非常好的收益。后端、服务端的测试,特别是现在!一个接口它可以支持安卓、IOS、H5、Web端。而且接口测试可以测很多你在界面上无法去测试的一些范围和类型。了解清楚这些后,我们开始看题吧~
2025-05-22 09:54:27
729
原创 Get这些性能测试分解操作后,你的测试之路会更顺
本文分享了一个性能测试的实战案例,详细介绍了从获取测试需求到最终报告的完整流程。首先,作者明确了测试需求,涉及微信会员系统的四个场景接口的性能验证。接着,制定了测试计划和方案,包括时间安排和资源分配。在执行测试前,作者完成了环境搭建、场景建模、测试数据准备和脚本开发等准备工作。测试执行阶段,通过单接口基准测试和多次执行,记录并发数和TPS值,分析性能瓶颈。监控调试阶段,使用jmeter工具及其插件进行资源使用率和测试数据的监控。最后,根据测试结果分析系统瓶颈,提出优化建议,并完成最终报告。整个过程强调了理解
2025-05-21 10:07:27
484
原创 利用好jmeter,性能测试也能做的棒棒哒
JMeter是一款由Java开发的开源测试工具,广泛应用于功能测试和性能测试,尤其是对Restful API的测试。它支持多种协议,包括HTTP、HTTPS、SOAP、JDBC、LDAP、JMS、POP3、IMAP、SMTP和FTP等。JMeter具有跨平台特性,可以在Linux/UNIX和Windows系统上运行,提供了直观的图形用户界面和完整的Swing组件支持。测试计划以XML格式存储,便于编辑和扩展。JMeter的多线程框架允许并发执行多个线程组,适用于自动化测试和功能测试。使用JMeter进行性能
2025-05-20 10:09:55
411
原创 送你8个Python高效数据分析的技巧
本文介绍了8个使用Python进行数据分析的高效方法,旨在提升代码运行效率并使其更加简洁。这些方法包括:1. 使用一行代码定义列表,避免繁琐的For循环;2. 利用Lambda表达式创建小型匿名函数;3. 结合Map和Filter函数实现更强大的数据处理;4. 使用Arange和Linspace生成等差列表;5. 理解Pandas中Axis的含义;6. 掌握Concat、Merge和Join函数以组合DataFrame;7. 应用Pandas Apply函数对Series进行操作;8. 使用Pivot Ta
2025-05-19 10:20:06
583
原创 手把手教你做接口测试
接口测试是验证系统组件间交互的关键测试方法,主要用于检测系统间数据交换、传递和控制管理过程。其重要性在于早期发现和修复bug,降低修复成本,确保系统安全性和稳定性,并适应系统复杂度的增加。接口测试通过模拟客户端向服务器发送请求并接收响应来实现,常用工具有Postman、JMeter等。接口测试的自动化可以显著提高测试效率,减少人工成本,支持快速迭代。测试过程包括需求分析、案例设计、数据准备、案例开发和执行,以及持续集成和回归测试。接口测试的质量评估标准包括功能覆盖、规则覆盖、参数验证、异常场景覆盖、接口和代
2025-05-15 10:06:49
618
原创 零基础如何学习自动化测试
文章摘要:自动化测试的学习和应用需要扎实的编程基础,尤其是Python语言。许多测试人员急于求成,缺乏基础,导致在自动化测试中遇到各种问题,如语法错误、元素定位失败等。文章强调,编程语言是自动化测试的基础,推荐学习Python,因为它简单且功能强大。此外,文章还介绍了学习自动化测试的步骤,包括Python学习、前端基础知识、Selenium学习、单元测试框架学习以及编写自己的测试框架。最后,文章指出,自动化测试不仅仅是工具的使用,还需要理解其背后的思想和理论。
2025-05-14 10:13:43
259
原创 用Python做数据分析之数据表清洗
数据清洗是确保数据质量的关键步骤,主要包括处理空值、清理空格、统一大小写、更改数据格式、删除重复值以及数值修改和替换。对于空值,可以选择删除或填充,如使用均值或特定值填充。在Python中,可以使用dropna函数删除空值,或使用fillna函数进行填充。清理空格可以通过str.strip方法实现,而大小写转换则可以使用str.lower或str.upper方法。数据格式的更改可以通过astype函数完成。删除重复值可以使用drop_duplicates函数,并可通过参数控制保留哪个重复值。数值的修改和替换
2025-05-13 10:15:28
299
原创 如何衡量测试效率?
衡量测试效率可以从多个指标综合考评,包括发现缺陷的质量、测试的有效性、测试组员交叉测试发现漏测问题的数量、遗漏到客户缺陷的比例、递交的缺陷数量、执行用例的数量、编写测试文档的速度和质量、评审发现问题的效率、测试工具使用的熟练程度以及测试结果的分析水平。这些指标能够全面反映测试人员的工作效率和质量,有助于团队内部的工作评估和绩效考核。通过定期统计和分析这些指标,可以有效地提升测试团队的整体效率和测试质量。
2025-05-12 10:20:35
299
原创 如何不失风度,又能落实完内容的开好测试评审会
通过测试评审会,一方面,测试人员对需求和系统实现方式的疑问能得到开发的解答,并最终与开发达成共识;另一方面,测试人员对测试方法,测试策略,测试思路进行展现,开发和其他评审人员进行提问和补充,目的是能在有限的时间和人力条件下,以高效的测试手段,达到比较理想的覆盖率。本文档针对前期开展的版本测试评审会存在的不足和问题,总结一些经验和教训,制定评审议程,希望能帮助大家更有效率和效果的开展测试评审。另一方面,测试方会对测试思路,测试方法,测试点进行呈现,开发等其他评审人员提问和补充修正,以达到完善测试案例的目的。
2025-05-08 10:01:11
305
原创 压力测试是什么?为什么我们要对产品进行压力测试?
分别对CPU、GPU、内存进行不断施压然后检测,压力测试结束后会自动弹出测试报告,可以清楚的看到CPU和GPU的占用率、频率、温度、转速的最大值和最小值,以及详细的降频次数和压力测试后的状态信息,更直观的找到电脑硬件所存在的问题,方便后期进行更换及优化。翻阅了各大论坛文章了解到压力测试是为了发现电脑所存在的问题,包括CPU、GPU、内存等通过压力测试,可以知道在什么极限情况下电脑会死机、蓝屏、重启等现象,但更多的是为了确定电脑的稳定性。压力测试结束后的测试报告,可以清楚的看出当前我的电脑还没有潜在的问题;
2025-05-07 10:11:17
386
原创 使用Postman做API自动化测试
一个思路是根据请求的参数进行测试,一段重要的snipet是在postman中获取querystring,query是一种PropertyList的数据,定义在postman-collection-PropertyList。当可以测试Collection后,需要对测试加入版本控制,与项目集成在一起,保留测试记录,以便准时定位bug。按照我的理解,UI自动化测试目的是用来测试流程是否通畅,比如登陆,注册,退出,如果用例没通过则截屏。对于系统的单个请求,可以使用Proxy监听请求进行调试。
2025-05-06 10:11:48
758
原创 性能测试之稳定性测试如何做?
将稳定性测试的重心放在软件最有Value的地方,比如说一个抢票系统,它最有value的地方是当有一定数量的用户同时进行买票操作是系统的相应时间,资源利用率等是否能够正常且稳定,而不是用户如何添加新的联系人,修改个人信息等。总的来说,稳定性测试是用来验证产品在一定的负载下是否能够长时间的稳定运行,其主要目的是验证能力,并在能力的验证过程中找到系统不稳定的因素并进行分析解决。最近两天在系统的复习性能测试方面的知识,结合之前的性能测试经验有了一些总结,希望写出来与大家分享,希望多提宝贵意见,共同进步~
2025-04-29 09:49:39
909
原创 初学者教程:如何学习渗透测试?
不幸的是,鉴于黑客攻击的速度有多快,大多数有能力的网站已经安全地反对基础知识(但你仍然需要了解它们!你可以试试在Windows中做你需要的一切,但这并不容易 - 如果你正在进行测试,你最终需要了解一些Linux。相信我:如果你找到一份安全工作,而你的同事发现你从未使用过Linux,他们会永远嘲笑你。但无论你做什么,你都有一个舒适的设置是绝对至关重要的。当你拥有无数的窗户和复杂的工具时,Pentesting会变得混乱,你需要的最后一件事就是你自己的环境对你不利。成为一个自信的测试者的一部分是建立你的工具库。
2025-04-28 10:12:15
328
原创 抽丝剥茧的数据分析之道
但数据的本质还是数值,只是属于最后结果的一种表现形式,要想改变结果,只能去寻找因,从因上做改变,才能引起结果的改变。以上,就是数据分析需要怎样的能力,其实,在很多企业中,数据分析是个岗位,但我一直认为数据分析仅仅是数据从业者谋生的高级手段,数据运营、数据产品、数据管理等各类岗位都需要数据分析的技能,比如数据运营就是数据分析的一种持续迭代形式。这些东西说起来都是高大上的,简单来说,能通过数据找到问题,准确地定位问题,准确地找到问题产生的原因,为下一步的改进,找到机会点,也就是所谓的:数据驱动。
2025-04-27 10:40:51
278
原创 mysql忘记密码的三种解决方案
mysql用户分为root用户(超级管理员,拥有所有权限)和普通用户,mysql服务器通过权限表来控制用户对数据库的访问,这些权限表存于root用户下的mysql数据库中。注意:mysql新版本用于存用户密码的字段名为authentication_string,而不是 password,且新密码必须使用password函数进行加密。第四步:将输入mysqld --skip-grant-tables命令的命令行窗口关闭,接下来就可以使用新密码登录mysql服务器了。怎么样,是不是觉得很简单呢?
2025-04-24 09:54:49
2949
原创 如何有效的进行服务器稳定性测试?
在场景设计中,使用事务点集合策略。模拟高峰期使用人数,如早晨的登录,下班后的退出,工资发送时的消息系统等。评测不同数据库数据量对性能的影响:针对不同数据库数据量的测试,将测试结果进行对比,分析发现数据库中各表的数据量对事务性能的影响。该类测试主要还是通过测试出问题的脚本场景,并可以增加发现和检测的工具,如开启Tivoli性能监控、开启HeapDump输出、Linux资源监控命令等。主要是针对预先没有明确的预期测试结果,而是要通过测试获取在特定压力场景下的性能指标(如:事务响应时间、最大并发用户数等)。
2025-04-23 10:18:13
414
原创 Get这些性能测试分解操作后,你的测试之路会更顺
简单概括下业务逻辑,就是:发起一个拼团,其他人点击活动进去,领券,然后领券时要验证拼团的有效性,在买单用券时,先验证是否是会员,如果不是,先注册会员,再将券和会员绑定!根据上面的几个步骤,得到测试结果,分析系统存在的瓶颈,然后采用各种方法提出解决方案或优化建议,最后对本次性能测试进行一个完整的总结,这样,一次性能测试就完成了。在保证接口可以成功调用之后,先进行单接口基准测试,即:对一个接口进行压力测试,不断加压,直到响应时间达到或超过指标,观察当前其并发数和TPS。
2025-04-22 10:10:03
692
原创 BI数据分析师究竟是做什么的?
并非所有的商业分析师都需要IT方面的背景知识,只要他们对信息系统,产品和工具的工作方式有一个基础的了解即可。但是在这里要强调的是,这不是单纯的商业分析师,也不是单纯的数据分析师,而是综合的复合型人才,既要有商业的一些分析方法和对业务的理解,又要会数理统计的一些分析方法,只有这样才能更好的适应从BI到AI的过度升级。而作为数据分析的硬核技能,我们有需要掌握一些处理数据的工具,包括一些统计学的方法,并会建模分析,能够做预测分析,再结合商业分析的方法和业务的一些情况,我们才能做的更好。
2025-04-21 09:54:34
390
原创 配置测试,你了解吗?
很多小伙伴在学理论的时候,感觉自己都学会了,然而真的在做配置测试的时候,又一脸懵逼,今天我们就来讲讲,基于标准Windows的PC机在家用和商用领域有哪些配置。配置测试一般不会贯穿于整个项目期间,最初可能会尝试几种配置,然后是前面通过测试,逐步变为越来越小的范围测试,确保软件缺陷被修复。步骤:根据设备使用者——项目管理员或者销售人员——的输入建立硬件的等价区间,开发测试案例,收集所选硬件,执行测试。3)外设(打印机、扫描仪、鼠标、键盘、显示器、数码相机、游戏杆以及其他可以插在主板上从外部操纵PC机的设备)
2025-04-17 09:46:24
229
原创 7种性能测试方法,帮你提供工作效率80%
由于真实环境下的实际负载,会有高峰和低谷的交替变化(比如,对于企业级应用,白天通常是高峰时 段,而晚上则是低峰时段),所以为了尽可能地模拟出真实的负载情况,我们会每12小时模拟一个高峰 负载,两个高峰负载中间会模拟一个低峰负载,依次循环3-7天,形成一个类似于“波浪形”的系统测试 负载曲线。由于需要模拟的并发用户数,通常在“几百”到“几百万”的数量级,所以你选择的性能测试工具,一定不 是基于GUI的,而是要采用基于协议的模拟方式,也就是去模拟用户在GUI操作的过程中实际向后端服 务发起的请求。
2025-04-16 09:48:50
435
原创 从功能测试到自动化测试,待遇翻倍的秘籍在这里~
所以也是到处去找那种软件测试的学习社区,有幸遇到了一位测试行业的技术大佬,进到了一个很不错的学习交流群内,里面有很多人都和我一样想要提升,所以都在一起学习,有什么问题都会在群里相互讨论、技术交流,这也极大的提高了学习效率。一是感觉自己在浪费时间,另一个就是做了快2年的测试,感觉每天过得浑浑噩噩,薪资也从不见涨,岗位也一直得不到提升,我身边的许多同事要么升职加薪,要么跳槽去了更好的公司工作,特别觉得我自己碌碌无为。更希望想自学的你一样,通过我的分享可以少走一些弯路,可以形成一条自己的体系,并应用到实际中。
2025-04-15 09:56:45
400
原创 为什么团队的自动化没有效果?
在不同的层级进行配对的测试,分层自动化的本质需要对业务的被测对象进行深度了解,需要看透操作的本质、了解协议的组成以及数据的流动。但是随之而来的产品质量的提升并没有做到,因为大多数的自动化用例是无效的用例,只是重复的在UI自动化以及接口自动化进行了重复验证,所以大家都会在思考一个问题,做自动化的意义在哪?但是随之而来的产品质量的提升并没有做到,因为大多数的自动化用例是无效的用例,只是重复的在UI自动化以及接口自动化进行了重复验证,所以大家都会在思考一个问题,做自动化的意义在哪?
2025-04-14 10:03:22
697
原创 测试稳定性三板斧,我怎么用?
有了这些能力,能够以零人力成本、非常快速且非常repeatable的从无到有建一套“开箱即用”的测试环境,能够造出来测试需要的所有数据,我们就能做到测试环境的用完即抛:要跑测试了就新建一个环境,测试跑完了就把环境销毁掉。我的回答是:实际上,并不会这样,因为开始高频跑了以后,很快问题就会收敛的,所以总的需要排查的量可能是差不多的或者反而小了的。如果有一套长期维护的环境,里面的数据是之前老版本的代码生成的,部署了新版本代码后,这些老数据是可以帮我们发现新代码里面的数据兼容性问题的。这个风险的确是存在的。
2025-04-10 10:22:45
971
原创 自动化Web页面性能测试介绍
它能在 Cypress 的自动化测试运行的过程中,针对每张测试过的页面生成Lighthouse 的性能分数,并展示在 Cypress 的测试报告中。同时,随着 Web 应用的空前发展,前端业务逐渐复杂,为了处理这些复杂业务,前后端分离,出现了专门应对这种分离架构的应用开发框架,比如 Angular,React,Vue 等,从而也导致 Web 应用的复杂度大大增加,并出现了 SPA。前端页面性能测试本质上和本地应用性能测试类似,其性能和运行应用的设备的性能强相关,即运行被测系统的硬件性能越强,性能也越强。
2025-04-09 10:44:09
510
原创 菜鸟进阶数据大牛:如何系统学习BI商业智能
数据仓库作为提供所有数据类型支持的战略集合,对于BI分析数据模型是至关重要的,而ETL从数据库中提取,清洗数据加载到数据仓库中,作为连接数据库和数据仓库的纽带,在我们想要学好BI的前提下,学习ETL也是必不可少的。因为BI的出发点是数据,希望能够从数据分析中得到有价值的信息,所以从事BI相关的工作是绝对离不开数据库的。学习BI,我们要知道业务中的一些专业名词,比如指标、维度、主题域、主体集、主题表等等,以及业务中的一些具体逻辑,这些对于我们在做BI分析的时候都是十分重要的。首先,我们认识一下数据仓库。
2025-04-08 09:59:52
816
原创 银行的压力测试如何进行?
美联储的压力测试的主体是一个九季度的预测:这九个季度本质上是一次假设的全球性的金融危机,包含市场急剧恶化,触底和逐步恢复的过程。在风险评估结果的基础上,金融机构应该相应的设计自己的压力测试情景并设计开发模型。美联储的风险测试评估不仅关注定量的结果,即一级资本充足率,更关注金融机构是如何定性的研究自己风险属性并得出相应模型和结果的。这对于金融机构本身的信誉也是有一定负面影响的。一方面这样的控制手段提高了了银行的稳定性,加强了银行对于其风险资产的控制,减少了银行的杠杆,对于整个金融生态系统是有益的。
2025-04-07 09:53:50
455
原创 初学者教程:如何学习渗透测试?
不幸的是,鉴于黑客攻击的速度有多快,大多数有能力的网站已经安全地反对基础知识(但你仍然需要了解它们!你可以试试在Windows中做你需要的一切,但这并不容易 - 如果你正在进行测试,你最终需要了解一些Linux。相信我:如果你找到一份安全工作,而你的同事发现你从未使用过Linux,他们会永远嘲笑你。但无论你做什么,你都有一个舒适的设置是绝对至关重要的。当你拥有无数的窗户和复杂的工具时,Pentesting会变得混乱,你需要的最后一件事就是你自己的环境对你不利。成为一个自信的测试者的一部分是建立你的工具库。
2025-04-02 10:13:10
296
原创 用Python做数据分析之数据统计
Weights参数是采样的权重,通过设置不同的权重可以更改采样的结果,权重高的数据将更有希望被选中。Corr函数用来计算数据间的相关系数,可以单独对特定数据进行计算,也可以对整个数据表中各个列进行计算。Describe函数是进行描述统计的函数,自动生成数据的数量,均值,标准差等数据。Excel的数据分析功能中提供了相关系数的计算功能,python 中则通过 corr 函数完成相关分析的操作,并返回相关系数。接下来说说数据统计部分,这里主要介绍数据采样,标准差,协方差和相关系数的使用方法。
2025-04-01 10:01:06
507
原创 大数据知识合集之数据分析方法论
其中,用户分类是最常见的情况。折线图和散点图都清晰的表示了广告曝光量和费用成本两组数据间的相关关系,优点是对相关关系的展现清晰,缺点是无法对相关关系进行准确的度量,缺乏说服力。对所研究现象只作相关分析,仅说明现象之间具有密切的相关关系是不够的,统计上研究现象之间具有相关关系的目的,就是要通过回归分析,将具有依存关系的变量间的不确定的数量关系加以确定,然后由已知自变量值推算未知因变量的值,只有这样,相关分析才具有实际意义。相关分析的方法很多,初级的方法可以快速发现数据之间的关系,如正相关,负相关或不相关。
2025-03-31 10:30:04
1091
原创 银行的压力测试如何进行?
美联储的压力测试的主体是一个九季度的预测:这九个季度本质上是一次假设的全球性的金融危机,包含市场急剧恶化,触底和逐步恢复的过程。在风险评估结果的基础上,金融机构应该相应的设计自己的压力测试情景并设计开发模型。美联储的风险测试评估不仅关注定量的结果,即一级资本充足率,更关注金融机构是如何定性的研究自己风险属性并得出相应模型和结果的。这对于金融机构本身的信誉也是有一定负面影响的。一方面这样的控制手段提高了了银行的稳定性,加强了银行对于其风险资产的控制,减少了银行的杠杆,对于整个金融生态系统是有益的。
2025-03-27 09:40:00
730
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人