自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 收藏
  • 关注

原创 spark复习

5.​构建一个机器学习流水线,首先要定义流水线中各个PipelineStage,称为工作流阶段,包括转换器和评估器,之后就可以按照具体的处理逻辑,有序组织PipelineStage并创建一个流水线。6.​RDD编程中需要生成一个SparkContext对象,在Spark SQL编程中需要生成一个SparkSession对象,在Spark Streaming中需要生成一个StreamingContext对象。3.​RDD,DAG,Executor,应用,阶段的概念。

2024-06-08 11:34:04 1501

原创 太原理工大学Python数据分析原理与应用(课外考题:8~11章)

这部分大概只考10分,且大部分出在选择题,填空最多一两个(仅供参考)

2024-05-07 22:36:48 651

原创 太原理工大学Python数据分析原理与应用(第七章时间序列分析知识点总结)

2024-04-25 00:00:22 405

原创 太原理工大学Python数据分析原理与应用(第六章数据可视化知识点总结)

2024-04-25 00:00:10 552

原创 太原理工大学Python数据分析原理与应用(第五章数据聚合与分组运算知识点总结)

2024-04-24 23:59:59 222 1

原创 太原理工大学Python数据分析原理与应用(第四章数据预处理知识点总结)

2024-04-24 23:59:46 294

原创 太原理工大学Python数据分析原理与应用(第三章Pandas知识点总结)

2024-04-24 23:59:33 521

原创 太原理工大学Python数据分析原理与应用(第二章Numpy知识点总结)

2024-04-24 23:59:13 325

原创 太原理工大学大数据技术原理与应用考试重点问题

14.​第二名称节点是怎么样合并名称节点上的EditLog和FsImage?3.​Hadoop和MapReduce分别是对哪一个文件系统的开源的实现。10.​名称节点它存储的这个数据节点的位置信息,这在哪儿存的。11.​讲一下名称节点在启动的时候会执行什么样的操作?18.​读数据的时候,是从哪个节点获取到数据块的地址?2.​HDFS的HA解决了HDFS 1.0的什么问题?3.​HDFS在存储文件的时候是以什么为单位进行?4.​为什么HDFS要用块去进行存储?15.​第二名称节点可以当做名称节点的热备份吗?

2024-04-10 10:54:59 1607 3

原创 Python数据分析与应用练习题

2.Pandas练习题。3.NumPy练习题。

2024-03-27 16:36:04 673

原创 时间序列分析练习题

2024-03-22 17:24:14 390

原创 MapReduce分组与聚合练习题

铅笔是答案。

2024-03-20 11:54:35 253

原创 数据聚合与分组运算(例题)

2024-03-15 15:50:31 476

原创 Python数据分析与应用——数据聚合与分组运算(转载书籍)

如果内置方法无法满足聚合要求时,则可以自定义函数,将它作为数传给agg()方法,实现Pandas对象的聚合运算。df.groupby('key').mean()按key列分组,求每个分组平均值。1.使用内置统计方法聚合数据。apply():较为灵活。2.面向列的聚合方法。

2024-03-15 15:24:50 362

原创 Python数据分析与应用——数据预处理(转载书籍)

函数会返回一个含有布尔值的对象,如果对应位置返回的结果为True,则说明有空值或缺失值,否则为False。数据清洗的目的在于提高数据质量,将脏数据(这里指的是对数据分析没有实际意义、格式非法、不在指定范围内的数据)清洗干净,使原数据具有完整性、唯一性、权威性、合法性、一致性等特点。duplicated()方法用于标记Pandas对象的数据是否重复,重复则标记为True,不重复则标记为False。Pandas中常见的数据清洗操作有空值和缺失值的处理、重复值的处理、异常值的处理、统一数据格式,等等。

2024-03-13 15:46:59 384

原创 数据预处理例题(数据合并)

2024-03-13 14:51:46 407 2

原创 数据分析工具Pandas(例题)

后面是我写的时候的一个草稿,有点乱,看不懂也不影响。

2024-03-08 15:13:16 531 1

原创 IT项目管理——IT项目整体管理(转载书籍)

项目结束:项目的实质性工作已经停止,项目不再有任何进展的可能性,项目结果正在交付用户使用或者已经停滞,项目资源已经转移到了其他的项目中,项目团队正在解散的过程。组织过程资产是指任何一种即所有用于影响项目成功的资产,包括正式和非正式的计划,政策,流程,程序,标准,模板和指南,还包括组织的知识库,项目档案,历史数据等。项目章程的作用是授权项目,对项目进行完整定义,确认项目发起人,确认项目经理,确保项目经理对项目负责,从项目发起人的角度分配授权项目经理权利等。是项目立项的申请报告,批准以后进入可行性研究阶段。

2024-03-07 11:57:18 859

原创 IT项目管理——IT项目组织环境与管理过程(转载书籍)

项目经理是项目实施的最高领导者、组织者、责任者,应确保项目全部工作在预算范围内。进行的项目一般是在一个部门内部进行的。员工的人事权掌握在职能经理手中。4.组织结构:项目经理和职能经理的权利分配,一种企业环境因素。项目经理:没有提拔成员的权利(无行政权)7.项目经理的责任与权利。3.项目相关利益者分析。是职能型和项目型的混合。5.IT项目生命周期。6.IT项目管理过程。

2024-03-06 10:18:41 352 1

原创 IT项目管理——IT项目管理概述(转载书籍)

项目管理的目标是以最小的代价、最大程度满足客户的需求和期望,即协调好质量、任务、成本、进度等要素相互直接的冲突,获取平衡。要求达到的目标是必须满足的规定要求和附加获取的期望要求。1.项目的价值:在于项目具有明示和潜在的功能,能满足利益相关方明示和潜在的需要,组织和个人的业绩和工作能力也是通过项目来实现的。属于项目管理的范畴,项目管理的思想是相通的,一般来说,基本方法也是适用的,不同之处在于具体方法和管理工具上。包括项目管理九大知识域:整体、范围、时间、成本、质量、人力资源、沟通、风险和采购。

2024-03-06 10:18:23 415 1

原创 大数据技术原理与应用——分布式文件系统(转载书籍)

HDFS设计目标:硬件廉价的硬件设备;流数据读写支持大数据简单的文件模型移动计算比移动数据更划算强大的跨平台兼容性局限:不支持多用户写入以及任意修改文件;不适合低延迟数据访问;无法高效存储大量小文件。

2024-03-05 12:02:15 1025 1

原创 大数据技术原理与应用——大数据处理架构Hadoop(安装与使用)(转载书籍)

特性:高,高效性,高可扩展性,高容错性,成本低,运行在Linux操作系统上,支持多种编程语言。的教材配套大数据软件安装和编程实践指南。Hadoop的安装和使用。

2024-03-05 11:15:52 398 1

原创 大数据技术(原理与运用)——大数据概述(转载书籍)

实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得各种IT资源。云技术数据中心:是云计算的重要载体,为云计算提供计算、存储、带宽等各种硬件资源,为各个平台和应用提供运行支撑环境。2.人类社会数据产生方式大致经历了3个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段。云计算关键技术:虚拟化、分布式存储、分布式计算、多租户。对科学研究的影响:科学研究经历的4种范式。大数据对思维方式的影响:3种转变。大数据对社会发展的影响。大数据对人才培养的影响。

2024-03-05 11:07:57 411 1

原创 太原理工大学软件测试第十章

3.测试管理系统:软件测试管理工具能管理整个测试过程,提高管理的效率和准确性,并提供一个协同合作的环境,其管理的核心是测试用例和缺陷。

2024-03-04 17:03:20 350 1

原创 太原理工大学软件测试第九章

3.缺陷信息列表:标题,前提,环境,操作步骤,期望结果,实际结果,频率,严重程度,优先级,类型,缺陷提交人,缺陷指定解决人,来源,产生原因,构建包跟踪,版本跟踪,提交时间,修正时间,验证时间,所属项目模块,产品信息,状态。1.缺陷引起的故障对软件产品都使用有着不同的影响,我们将这种特性称为缺陷的严重性。4.如何才能有效的报告软件缺陷?

2024-03-04 17:03:10 329 1

原创 太原理工大学软件测试第七章

负面测试:是从逆向思维出发的检查系统在异常条件下或用户的非法操作下,系统是如何响应的,是否有异常行为或执行的不该执行的动作。根据不同的负载方式,恒定负载,不断加载,长时间加载,峰值加载等压力测试可分为下列几种类型,:通过负载测试或其他测试方法,预先分析出反应软件系统特征的某项指标的极限值,在其极限值的状态下,系统主要功能还能保持正常运行。3.负载测试常用(输入)参数:并发用户数,思考时间,加载的循环次数或持续时间,请求的数据量,加载的方式。他的执行需要针对不同的维度变化进行,时间维,负载维,系统维。

2024-03-04 17:02:51 854 1

原创 太原理工大学软件测试第六章

会测试全部用例,基于风险选择测试,会优先选择哪些最重要或最频繁使用的功能所关联的测试用例,测试修改的部分。8.回归测试定义:每当软件发生变化时,就必须重新测试原来已经通过测试的区域,验证修改的正确性及其影响。主要体现在:是否符合标准和规范,直观性,一致性,灵活性,舒适性,正确性和实用性。包含满意,可学习性,效率,可记忆性,正确性。2.为了更全面进行系统功能方面的测试分析,建立一个模型LOSED。4.功能图法:就是为了解决动态说明问题的一种测试用例的设计方法。9.测试工具Selenuium(开放性考点)

2024-03-04 17:02:38 368 1

原创 太原理工大学软件测试第五章

渐增式测试模式:把下一个要测试的模块同已测试好的模块结合起来进行测试,测试完以后再把下一个应该测试的模块结合起来测试。条件覆盖一般情况下会强于分支覆盖,但条件覆盖也不能保证分支覆盖,组合条件覆盖可以保证分支覆盖和条件覆盖。了解,基于内部逻辑结构,针对程序语句,路径,变量状态等来进行测试检验。桩程序:又叫存根程序,对顶层或上层模块进行测试时,所编织的代替下层模块的程序,用于模拟被测模块工作过程中所调用的模块。:对低层或子模块进行测试时所编制的调用被测模块的程序 ,用于模拟被测模块的上级模块。

2024-03-04 17:02:28 369 1

原创 太原理工大学软件测试第三章,第四章

1.自动化测试和测试自动化有着不同的含义。自动化测试焦点集中在测试执行,主要是由测试工具自动得完成测试。而测试自动化含义更广一些,可以理解为一切可以由计算机系统自动完成的测试任务都已经有计算机系统或软件工具程序来承担并自动执行。3.自动化措施存在的问题:不正确的观念或不现实的期望,缺乏相应的人才,测试脚本的质量低劣,缺乏培训,没有考虑到公司的实际情况,盲目引入测试工具,其他问题。2.自动化测试的优点:自动运行速度快,测试结果准确,高复用性,永不疲劳,可靠,能力。

2024-03-04 17:02:10 324 1

原创 太原理工大学软件测试第二章

互为复审,设计人员很少,复审效率比较高,而且灵活,所以互为复审是一种常用的办法。会议审查是一种系统化,严密的集体评审方法。对单个用户故事的评审标准可以概括为独立的,可协商的,有价值的,可估算的,足够小的,可测试的。8.软件系统需求质量标准:正确性,可行性,规范性,可验证性,优先级,合理性,完备性,无二义性,兼容性,一致性,易追溯性。6.缺陷在前期发现的越多,对后期的影响越少,后期的缺陷就会减少的越快,最终留给用户的缺陷就很少。软件文档质量标准:规范性,易理解性,一致性,准确性,易修改性,读者。

2024-03-04 17:01:49 335 1

原创 太原理工大学软件测试第一章

压力测试:也称负载测试,用来检查系统在不同负载条件下的系统运行情况,特别是高负载、极限负载下的系统运行情况,以发现系统不稳定,系统性能瓶颈,内存泄露,CPU使用率过等的问题。系统测试:输入代码软件包,系统设计说明书,测试计划,测试用例,测试环境,输出缺陷报告,系统性能,可靠性等分析报告,缺陷状态报告,阶段性测试报告。安装测试:在一个真实的或近似的用户环境中,验证系统是否能按照安装说明书成功的完成系统的安装,其中要考虑环境的不同设置或配置安装文档的正确性等。输出缺陷报告,跟踪报告,完善的测试用例、测试计划。

2024-03-04 17:01:32 865

原创 Python数据分析与应用——数据分析工具Pandas(转载书籍)

一个类似于一维数组的对象,能保存任何类型的数据,主要由一组数据和与之相关的索引两部分构成。Pandas的索引都是Index对象,又称索引对象,该对象不可以进行修改。索引不止有行索引index,还有列索引columns。使用index(),将原索引按照新索引排序。是一个类似与二维数组或表格的对象。每列数据可以是不同的数据类型。

2024-03-04 16:59:03 377 1

原创 Python数据分析与应用——科学数据库NumPy

1.认识NumPy对象重要特点是其N维数组,即ndarray对象,该对象具有矢量算数能力和复杂的广播能力,可以执行一些科学对象。不同于Python标准数据库,NumPy数组在创建时具有固定的大小,数组中元素有相同的数据类型,执行效率高。ndarray.ndim维度个数 ndarray.shape数组的维度,表示每个维度上数组的大小,例如一个n行m列数组,shape属性为(n,m) ndarray.size数组元素的总个数 ndarray.dtype描述数组元素中元素类型的对象 ndarr

2024-03-04 16:17:10 375 1

原创 Python数据分析与应用——数据分析概述

选择Python做数据分析:语法简单精炼;有一个巨大且活跃的科学计算社区;人工智能时代的通用语言;概念:适当的统计方法对收集来的大量数据进行分析,从中提取有用信息和形成结论,并加以研究和概括总结的过程。目的:将隐藏在一大批看似杂乱无章的数据信息集中提炼出来有用的数据,以找出所研究对象的内在规律。流程(5个阶段):明确目的和思路→数据收集→数据处理→数据分析→数据展现。分类:描述性数据分析,探索性数据分析,验证性数据分析。

2024-03-04 16:16:45 390 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除