自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1441)
  • 资源 (208)
  • 收藏
  • 关注

原创 【大数据Zookeeper系列】Zookeeper教程:详细全部

【大数据Zookeeper系列】 Zookeeper知识体系总结(2021版)【大数据Zookeeper系列】Zookeeper单机环境和集群环境搭建【大数据Zookeeper系列】基于Zookeeper搭建Hadoop高可用集群【大数据Zookeeper系列】基于Zookeeper搭建Kafka高可用集群【大数据Zookeeper系列】基于ZooKeeper搭建Spark高可用集群【大数据Zookeeper系列】 Zookeeper ACL【大数据Zookeeper..

2021-04-19 07:50:04 474 1

原创 【Docker系列】Docker教程:详细全部

【Docker系列】Docker教程:详细全部

2021-04-14 13:38:03 374

原创 【Mysql系列】Mysql教程:详细全部

【Mysql系列】Mysql教程:详细全部

2021-04-11 11:25:25 322

原创 【大数据Storm系列】Storm教程:详细全部

【大数据Storm系列】Storm教程:详细全部

2021-04-09 08:54:53 279

原创 【大数据Hive系列】Hive教程:详细全部

【大数据Hive系列】Hive教程:详细全部

2021-04-08 06:44:13 555

原创 【大数据Flink系列】Flink教程:详细全部

【大数据Flink系列】Flink教程:详细全部

2021-04-04 15:37:16 307

原创 【redis系列】Nosql之redis:详细全部

【redis系列】Nosql之redis:详细全部

2021-04-03 08:12:40 124

原创 【大数据Spark系列】Spark教程:详细全部

【大数据Spark系列】Spark教程:详细全部

2021-04-02 09:15:29 693

原创 【大数据Scala系列】Scala教程:详细全部

开启了作为大数据分析师学习Scala系列,旨在提纲挈领的介绍Scala理念、Scala所有的教程集合:

2021-04-02 08:53:54 330

原创 大数据常用软件安装指南

为方便大家查阅,大数据所有软件的安装方式单独整理如下:

2021-03-29 08:05:58 304

原创 计算机网络修佛成仙学习教程

有人问我怎么学习计算机网络,我来答复了

2021-03-28 08:23:17 187

原创 C语言修佛成仙学习教程

有人问我怎么学习C语言,我来答复了

2021-03-19 21:49:05 420

原创 Python爬虫100例教程导航帖(未完结)

本系列博客争取把爬虫入门阶段的所有内容都包含住,需要你有较好的 Python 基础知识,当然你完全零基础也可以观看本系列博客。

2021-03-15 13:27:17 1113

原创 最标准的Go学习路线:小姐姐偷偷带你学Go语言, 2021年,一起let‘s go(未完结)

本文提供了Go学习的详细进阶路线图,列出了学习Go开发所需的各类知识和技能,而且每个知识点也附上啦相应的学习资源。相信无论是零基础的新手,还是对Go语言有一定了解的开发者,都能够有所收获。小姐姐偷偷带你学Go语言,2021年,一起let‘s go(未完结)。

2021-03-15 12:42:05 644 1

原创 小姐姐用一周的时间,偷偷带你学Python,从小白到进阶,全站式保姆的Python基础教程导航帖(已完结)

本次我用一周的时间,偷偷带你学Python,从小白到进阶,全站式保姆的Python基础教程导航帖(已完结)。**如果大家还有什么问题,欢迎关注私信我。**

2021-03-12 16:05:50 213

原创 神仙程序媛小姐姐的23个Java设计模式 ,全站式保姆的Java教程导航帖(已完结)

神仙程序媛小姐姐的23个Java设计模式 ,全站式保姆的Java教程导航帖(已完结)

2021-03-07 13:28:38 196 2

原创 神仙程序媛小姐姐的一些列Java教程,从小白到进阶,春招和秋招必备的面试题,全站式保姆的Java教程导航帖(未完结)

神仙程序媛小姐姐的一些列Java教程,从小白到进阶,春招和秋招必备的面试题,全站式保姆的Java教程导航帖(未完结)

2021-03-07 13:01:39 269

原创 回文字符串【华为OD机试 2023 Q1考试题 A卷】

题目描述【回文字符串】如果一个字符串正读和反渎都一样(大小写敏感),则称它为一个「回文串」,例如:leVel是一个「回文串」,因为它的正读和反读都是leVel;同理a也是「回文串」art不是一个「回文串」,因为它的反读tra与正读不同Level不是一个「回文串」,因为它的反读leveL与正读不同(因大小写敏感)给你一个仅包含大小写字母的字符串,请用这些字母构造出一个最长的回文串,若有多个最长的,返回其中字典序最小的回文串。字符串中的每个位置的字母最多备用一次,也可以不用。

2023-03-04 10:56:32 201 1

原创 创建二叉树【华为OD机试 2023 Q1考试题 A卷】

【创建二叉树】请按下列描达构建一颗二叉树,并返回该树的根节点:1、先创建值为-1的根结点,根节点在第0层;2、然后根据operations依次添加节点: operations[i] = [height, index] 表示对第 height 层的第index 个节点node, 添加值为i 的子节点:若node 无「左子节点」。则添加左子节点;若node 有「左子节点」但无「右子节点」,则添加右子节点:否则不作任何处理。height、index 均从0开始计数;

2023-02-27 22:55:36 127

原创 Firmographics, Inc. has hired you as a consultant to design a database of companies and executives.

【代码】Firmographics, Inc. has hired you as a consultant to design a database of companies and executives.

2023-02-24 23:36:29 40

原创 机器学习个人作业:回归分析

本作业计划利用机器学习多元回归模型对伦敦地区2018年和2019年共享单车在不同季节和环境下的使用次数进行分析,尝试寻找出影响单车使用情况的因素。数据项如下,数据量共包含730条记录。

2023-02-24 09:27:06 33

原创 最大化控制资源成本【华为OD机试 2023 Q1考试题 A卷】

1:题目与【区间交集】非常相似。[2,3] [4,5] [6,7] 两两之间都没有交集,因此最多的机器数为5。一共有三个任务,第一个任务在时间区间[2, 3]运行,占用1个服务器,需要最多服务器的时间区间为[2, 3]和[6, 9],需要2个服务器。一共两个任务,第一个任务在时间区间[3, 9]运行,占用2个服务器,排序后区间为:[0,5] [2,3] [4,7] [6,9][0,5] 和 [2,3] 交集为[2,3] 机器数相加为2。[0,5] 和 [4,7] 交集为[4,5] 机器数相加为4。

2023-02-24 09:16:11 112 2

原创 单向链表中间节点【华为OD机试 2023 Q1考试题 A卷】

【单向链表中间节点】题目描述求单向链表中间的节点值,如果奇数个节点取中间,偶数个取偏右边的那个值。输入:第一行 链表头节点地址 后续输入的节点数n后续输入每行表示一个节点,格式 节点地址 节点值 下一个节点地址(-1表示空指针)输入保证链表不会出现环,并且可能存在一些节点不属于链表。测试用例:6。

2023-02-24 09:15:53 59

原创 最快到达医院的方法【华为OD机试 2023 Q1考试题 A卷】

【最快到达医院的方法】新型冠状病毒疫情的肆虐,使得家在武汉的大壮不得不思考自己家和附近定点医院的具体情况经过一番调查,大壮明白了距离自己家最近的定点医院有两家。其中医院 A 距离自己的距离是 X 公里,医院 B 距离自己的距离是Y公里。由于武汉封城,公交停运,私家车不能上路,交通十分不便。现在到达医院 A只能搭乘志愿者计程车,已知计程车的平均速度是 M 米/分钟,上车平均等待时间为L分钟。

2023-02-24 09:15:40 128

原创 通过修改老师提供的样例py文件,实现两个Excel文件的数据比对和分析。

通过文件1的A列“学号”为关键字段,在文件2中查找该学生的各个项目成绩,并与该学生在文件1中的各个项目成绩进行比对分析,输出成绩存在异常的学生学号和相关的项目名称。5、如果文件1中学生某一个项目成绩,与文件2中该个项目成绩的相差绝对值(即abs(文件1-文件2)/文件2*100%),男生大于50%、女生大于30%,则判定该项目“成绩异常”。3、如果文件1或2中,学生某一个项目成绩为空,则不对该学生进行该个项目的比对分析,其余项目仍正常比对分析;1、项目成绩仅需关注J、M、P、S、V、Y、AB列;

2023-02-24 09:15:34 37

原创 2.试读取鸢尾花数据集iris.npz,绘制sepal_length和sepal_width两个特征之间的散点图,X轴添加“SepalLength”标签,Y轴添加“SepalWidth”标签,散点设置

2022-2023学年第1期期末考试《Python数据分析与应用》试卷A卷(大数据技术专业2131、2132班适用 120分钟 机试开卷)班级 学号 姓名 1题 号 一 总 分得 分评卷人得分 一、编程题(共100分)1.根据已经给出的代码,按要求在指定位置填写缺失的代码。(75分)

2023-02-24 09:15:28 169

原创 无向图染色【华为OD机试 2022 Q4考试题 A卷】

【无向图染色】题目描述给一个无向图染色,可以填红黑两种颜色,必须保证相邻两个节点不能同时为红色,输出有多少种不同的染色方案?输入描述第一行输入M(图中节点数) N(边数)后续N行格式为:V1 V2表示一个V1到V2的边。数据范围:1

2023-02-24 09:15:06 882

原创 处理器问题【华为OD机试 2023 Q1考试题 A卷】

题目描述【处理器问题】题目描述某公司研发了一款高性能AI处理器。每台物理设备具备8颗AI处理器,编号分别为0、1、2、3、4、5、6、7。编号0-3的处理器处于同一个链路中,编号4-7的处理器处于另外一个链路中,不通链路中的处理器不能通信。如下图所示。现给定服务器可用的处理器编号数组array,以及任务申请的处理器数量num,找出符合下列亲和性调度原则的芯片组合。如果不存在符合要求的组合,则返回空列表。

2023-02-24 09:14:27 224

原创 字符串重新排列【华为OD机试 2023 Q1考试题 A卷】

【字符串重新排列】题目描述给定一个字符串s,s包括以空格分隔的若干个单词,请对s进行如下处理后输出:1、单词内部调整:对每个单词字母重新按字典序排序2、单词间顺序调整:1)统计每个单词出现的次数,并按次数降序排列2)次数相同,按单词长度升序排列3)次数和单词长度均相同,按字典升序排列请输出处理后的字符串,每个单词以一个空格分隔。输入描述一行字符串,每个字符取值范围:[a-zA-z0-9]以及空格,字符串长度范围:[1,1000]

2023-02-23 13:43:46 95

原创 完美走位【华为OD机试 2023 Q1考试题 A卷】

题目描述【完美走位】在第一人称射击游戏中,玩家通过键盘的A、S、D、W四个按键控制游戏人物分别向左、向后、向右、向前进行移动,从而完成走位。假设玩家每按动一次键盘,游戏人物会向某个方向移动一步,如果玩家在操作一定次数的键盘并且各个方向的步数相同时,此时游戏人物必定会回到原点,则称此次走位为完美走位。现给定玩家的走位(例如:ASDA),请通过更换其中一段连续走位的方式使得原走位能够变成一个完美走位。其中待更换的连续走位可以是相同长度的任何走位。请返回待更换的连续走位的最小可能长度。

2023-02-23 13:42:06 577 4

原创 最多颜色的车辆【华为OD机试 2023 Q1考试题 A卷】

【最多颜色的车辆】题目描述在一个狭小的路口,每秒只能通过一辆车,假好车辆的颜色只有 3 种,找出 N 秒内经过的最多颜色的车辆数量。三种颜色编号为0 ,1 ,2输入描述第一行输入的是通过的车辆颜色信息[0,1,1,2] 代表4 秒钟通过的车辆颜色分别是 0 , 1 , 1 , 2第二行输入的是统计时间窗,整型,单位为秒输出描述输出指定时间窗内经过的最多颜色的车辆数量。示例1 输入输出示例仅供调试,后台判断数据一般不包含示例输入0 1 2 13输出2样例解释。

2023-02-23 13:40:37 373

原创 租车骑绿岛【华为OD机试 2023 Q1考试题 A卷】

题目描述【租车骑绿岛】题目描述部门组织绿岛骑行团建活动。租用公共双人自行车,每辆自行车最多坐两人,最大载重M。给出部门每个人的体重,请问最多需要租用多少双人自行车。输入描述第一行两个数字m、n,分别代表自行车限重,部门总人数。第二行,n个数字,代表每个人的体重,体重都小于等于自行车限重m。0

2023-02-23 13:38:07 48

原创 不含 101 的数【华为OD机试 2023 Q1考试题 A卷】

【不含 101 的数】题目描述小明在学习二进制时,发现了一类不含 101的数,也就是:将数字用二进制表示,不能出现 101。现在给定一个整数区间 [l,r] ,请问这个区间包含了多少个不含 101 的数?输入描述输入的唯一一行包含两个正整数 l, r( 1 ≤ l ≤ r ≤ 10^9)。输出描述输出的唯一一行包含一个整数,表示在 [l,r] 区间内一共有几个不含 101 的数。示例1 输入输出示例仅供调试,后台判断数据一般不包含示例输入1 10输出8样例解释。

2023-02-23 13:38:00 190

原创 租车骑绿岛【华为OD机试 2023 Q1考试题 A卷】

题目描述【租车骑绿岛】题目描述部门组织绿岛骑行团建活动。租用公共双人自行车,每辆自行车最多坐两人,最大载重M。给出部门每个人的体重,请问最多需要租用多少双人自行车。输入描述第一行两个数字m、n,分别代表自行车限重,部门总人数。第二行,n个数字,代表每个人的体重,体重都小于等于自行车限重m。0

2023-02-23 13:36:06 69

原创 等和子数组最小和【华为OD机试 2022 Q4考试题 A卷】

【等和子数组最小和】题目描述给定一个数组nums,将元素分为若干个组,使得每组和相等,求出满足条件的所有分组中,组内元素和的最小值。输入描述第一行输入 m接着输入m个数,表示此数组数据范围:1

2023-02-23 13:35:07 494

原创 字母组合【华为OD机试 2023 Q1考试题 A卷】

题目描述【字母组合】题目描述数字0、1、2、3、4、5、6、7、8、9分别关联 a~z 26个英文字母。0 关联 “a”,”b”,”c”1 关联 “d”,”e”,”f”2 关联 “g”,”h”,”i”3 关联 “j”,”k”,”l”4 关联 “m”,”n”,”o”5 关联 “p”,”q”,”r”6 关联 “s”,”t”7 关联 “u”,”v”8 关联 “w”,”x”9 关联 “y”,”z”

2023-02-23 13:34:50 306

原创 新员工座位安排系统【华为OD机试 2023 Q1考试题 A卷】

题目描述【新员工座位】工位由序列F1,F2…Fn组成,Fi值为0、1或2。其中0代表空置,1代表有人,2代表障碍物。1、某一空位的友好度为左右连续老员工数之和,2、为方便新员工学习求助,优先安排友好度高的空位,给出工位序列,求所有空位中友好度的最大值。输入描述:第一行为工位序列:F1,F2…Fn组成,1

2023-02-23 13:33:15 379

原创 真正的密码【华为OD机试 2023 Q1考试题 A卷】

题目描述【真正的密码】题目描述在一行中输入一个字符串数组,如果其中一个字符串的所有以索引0开头的子串在数组中都有,那么这个字符串就是潜在密码,在所有潜在密码中最长的是真正的密码,如果有多个长度相同的真正的密码,那么取字典序最大的为唯一的真正的密码,求唯一的真正的密码。示例1 输入输出示例仅供调试,后台判断数据一般不包含示例输入输出ninja说明按要求,hello、ok、ninja都是潜在密码。检查长度,hello、ninja是真正的密码。检查字典序,ninja是唯一真正密码。

2023-02-23 13:31:26 102

原创 特异性双端队列 | 最小调整顺序次数【华为OD机试 2023 Q1考试题 A卷】

【特异性双端队列 | 最小调整顺序次数】给定一个队列,但是这个队列比较特殊,可以从头部添加数据,也可以从尾部添加数据,但是只能从头部删除数据。输入一个数字n,会依次添加数字1~n(也就是添加n次)。但是在添加数据的过程中,也会删除数据,要求删除必须按照1~n按照顺序进行删除,所以在删除时,可以根据需要调整队列中数字的顺序以满足删除条件。输入描述第一行一个数据N,表示数据的范围。接下来的2N行是添加和删除语句。其中:head add x 表示从头部添加元素 x,

2023-02-22 20:38:56 257

原创 羊、狼、农夫过河【华为OD机试 2023 Q1考试题 A卷】

题目描述【羊、狼、农夫过河】羊、狼、农夫都在岸边,当羊的数量小于狼的数量时,狼会攻击羊,农夫则会损失羊。农夫有一艘容量固定的船,能够承载固定数量的动物。要求求出不损失羊情况下将全部羊和狼运到对岸需要的最小次数。只计算农夫去对岸的次数,回程时农夫不会运送羊和狼。备注:农夫在或农夫离开后羊的数量大于狼的数量时狼不会攻击羊。农夫自身不占用船的容量。输入描述第一行输入为M,N,X, 分别代表羊的数量,狼的数量,小船的容量。输出描述。

2023-02-22 20:37:48 84

Health Insurance Cross Sell Prediction

Our client is an Insurance company that has provided Health Insurance to its customers now they need your help in building a model to predict whether the policyholders (customers) from past year will also be interested in Vehicle Insurance provided by the company. Conclusion 1.This table above is evaluation matrix on all the algorithm after hyperparameter tuning, we are going to focus more on recall instead of accuracy here because we want to reduce the false negative ( The customer who actual

2023-03-04

Health Insurance Cross Sell Prediction kaggle

Health Insurance Cross Sell Prediction Our client is an Insurance company that has provided Health Insurance to its customers now they need your help in building a model to predict whether the policyholders (customers) from past year will also be interested in Vehicle Insurance provided by the company. Data Description id: Unique ID for the customer Gender: Gender of the customer Age: Age of the customer Driving_License: 0 : Customer does not have driving license, 1 : Customer already has drivi

2023-03-04

Health Insurance Cross Sell Prediction

Problem Statement Your client is an Insurance company that has provided Health Insurance to its customers now they need your help in building a model to predict whether the customers from past year will also be interested in Vehicle Insurance provided by the company. Business Goal Building a model to predict whether a customer would be interested in Vehicle Insurance is extremely helpful for the company because it can then accordingly plan its communication strategy to reach out to those custom

2023-03-04

HEALTH-INSURANCE-CROSS-SELL-PREDICTION

Problem Statement Your client is an Insurance company that has provided Health Insurance to its customers now they need your help in building a model to predict whether the customers from past year will also be interested in Vehicle Insurance provided by the company. Business Goal Building a model to predict whether a customer would be interested in Vehicle Insurance is extremely helpful for the company because it can then accordingly plan its communication strategy to reach out to those custom

2023-03-04

Predict Health Insurance Owners' who will be interested in Vehic

Our client is an Insurance company that has provided Health Insurance to its customers now they need your help in building a model to predict whether the policyholders (customers) from past year will also be interested in Vehicle Insurance provided by the company.

2023-03-04

Predict Health Insurance Owners' who will be interested in Vehic

Our client is an Insurance company that has provided Health Insurance to its customers now they need your help in building a model to predict whether the policyholders (customers) from the past year will also be interested in Vehicle Insurance provided by the company. An insurance policy is an arrangement by which a company undertakes to provide a guarantee of compensation for specified loss, damage, illness, or death in return for the payment of a specified premium. A premium is a sum of money

2023-03-04

Health Insurance Cross Sell Prediction

We looked at the definitions of univariate, bivariate, and multivariate analysis. We also looked at some ways to perform such analysis in python. We used some plots to identify relations between variables. We also understood how we can interpret the results of such analysis. Built a model to predict whether a customer would be interested in Vehicle Insurance is extremely helpful for the company because it can then accordingly plan its communication strategy to reach out to those customers and op

2023-03-04

https://www.kaggle.com/code/dietzschdaniel/who-will-buy-your-ins

Context: Our client is an Insurance company that has provided Health Insurance to its customers now they need your help in building a model to predict whether the policyholders (customers) from past year will also be interested in Vehicle Insurance provided by the company. About the Data: id: Unique ID for the customer Gender: Gender of the customer Age: Age of the customer Driving_License: 0 : Customer does not have DL 1 : Customer already has DL Region_Code: Unique code for the region of th

2023-03-04

销售-健康-保险-预测 kaggle

Meningkatkan User Interested Rate sebesar 10% Objective Memprediksi nasabah yang potensial untuk asuransi Kendaraan Menemukan faktor penting dan karakteristik utama dari user yang tertarik dengan asuransi kendaraan Menemukan metode apa yang membuat customer tertarik Meningkatkan jumlah orang yang tertarik dengan asuransi kendaraan Mengimplementasikan pada sebuah simulasi bisnis untuk melihat apakah model yang dibuat memberikan dampak yang positive untuk perusahaan Asuransi. Business Metrics Use

2023-03-04

建立一个模型来预测客户是否会对车辆保险感兴趣,这对公司非常有帮助,因为它可以相应地规划其沟通策略以接触这些客户并优化其业务模型和

保险是一种以保单为代表的合同,其中个人或实体从保险公司获得财务保护或损失补偿。 该 EDA 将使用 Python 库、matplotlib 和 Seaborn 通过可视化和图形检查订阅的健康保险客户数据集。 该数据集是来自保险公司的 Subscribed Health 保险客户,包含年龄、性别、驾驶执照、地区等信息。 机器学习在我们的组织中有广泛的应用。长期以来,预测和分析一直是机器学习最著名的应用,它推动了我们的销售预测。 我们还利用机器学习通过识别导致内容成功的特征来协助设计我们的销售策略和活动计划。 我们利用它来帮助公司通过适当的数据驱动决策迅速扩大对客户的影响。 我们还可以采用机器学习来改善服务和客户保留,以目标为导向的促销活动。 我们在这个项目中的主要目标是根据公司订阅的健康保险数据确定有兴趣购买车辆保险的客户。

2023-03-04

Data Source : Kaggle Data Source Link : https://www.kaggle.com/

我们的客户是一家为其客户提供健康保险的保险公司,现在他们需要您帮助建立模型来预测过去一年的保单持有人(客户)是否也会对公司提供的车辆保险感兴趣。 保险单是一种安排,据此公司承诺为特定的损失、损害、疾病或死亡提供赔偿保证,以换取支付特定的保费。保费是客户需要定期向保险公司支付此担保的一笔款项。 例如,您可以支付 Rs 的溢价。每年 5000 卢比的健康保险。200,000/- 如果上帝保佑,您在那一年生病并需要住院,保险公司将承担住院等费用,最高可达 Rs。200,000。现在,如果您想知道该公司仅收取 Rs 的保费,如何承担如此高的住院费用。5000/-,这就是概率概念出现的地方。例如,像您一样,可能有 100 名客户将支付 Rs 的溢价。每年 5000 人,但那一年只有少数人(比如 2-3 人)会住院,而不是所有人。这样每个人都分担其他人的风险。 就像医疗保险一样,有车辆保险,客户每年需要向保险公司支付一定数额的保费,以便在车辆发生意外事故时,保险公司提供赔偿(称为“保额” ) 给客户。 建立一个模型来预测客户是否会对车辆保险感兴趣,这对公司非常有帮助,因为它可以相应地规划其

2023-03-04

预测客户是否有兴趣购买车辆保险,以便公司可以相应地规划其沟通策略以接触这些客户并优化其业务模型和收入

从加载我们的数据集开始,我们首先通过异常值检测和数据规范化来执行数据清理和重构。然后我们介绍了 EDA、特征选择和算法选择,以及超参数调整。在调整之前,所有模型获得的准确度得分都在 68% 到 85% 的范围内。在调整模型之后,我们能够获得大约 87% 的准确度。但我们选择了我们最好的模型作为模型,考虑到精度和召回率,准确率得分为 85%,因为我们在数据集中每个类别的观察数量不相等,因此仅靠准确率可能会产生误导。 我们有一个数据集,其中包含与对车辆保险感兴趣的人相关的人口统计信息(性别、年龄、区域代码类型)、车辆(车辆年龄、损坏)、保单(保费、采购渠道)等信息。我们有 381109 个数据点可用。

2023-03-04

健康保险交叉销售 EDA 和机器学习建模

健康保险交叉销售 EDA 和机器学习建模 这是一本关于健康保险客户交叉销售车辆保险产品并使用机器学习预测客户是否对车辆保险感兴趣的探索性数据分析笔记本 背景资料: 向客户提供健康保险的保险公司,通常他们通过不同类型的营销渠道向客户提供其他保险产品。在这种情况下,我们将建立一个模型来预测过去一年的保单持有人(客户)是否也会对公司提供的车辆保险感兴趣。 问题陈述: 未优化客户联系流程,许多保险工作者花费大量时间与潜在客户会面,却不知道该客户购买保险产品的可能性 业务目标: 建立一个模型来预测客户是否会对车辆保险感兴趣,这对公司非常有帮助,因为它可以相应地规划其沟通策略以接触这些客户并优化其业务模型和收入 业务问题: 车龄如何决定车险广告反应 如何吸引不同世代的顾客 使健康保险客户对车辆保险不感兴趣的主要因素是什么 这个交叉销售案例的最佳机器学习建模是什么 工作流程: 数据清洗 重新分类数据 分级 探索性数据分析以回答业务问题 机器学习过程的特征工程和选择 编码所有分类特征 检查因变量和独立变量之间的相关性 特征选择 建筑模型 : 将数据拆分为训练和测试 由于数据不平衡,将SMOT

2023-03-04

健康保险交叉销售预测 Kaggle

健康保险交叉销售预测 预测对车辆保险感兴趣的健康保险所有者 问题陈述 您的客户是一家为其客户提供健康保险的保险公司,现在他们需要您帮助建立一个模型来预测过去一年的客户是否也会对公司提供的车辆保险感兴趣。 经营目标 建立一个模型来预测客户是否会对车辆保险感兴趣,这对公司非常有帮助,因为它可以相应地规划其沟通策略以接触这些客户并优化其业务模型和收入。 数据说明 数据来源:Kaggle 数据源链接:https://www.kaggle.com/anmolkumar/health-insurance-cross-sell-prediction? select=train.csv 用于分析的数据集包括以下列: id : 客户的唯一 ID 性别:客户的性别 Age : 客户的年龄 Driving_License :0 - 客户没有 DL,1 - 客户已经有 DL Region_Code :客户所在地区的唯一代码 Previously_Insured : 1 - 客户已经有车辆保险,0-客户没有车辆保险 Vehicle_Age:车辆的年龄 Vehicle_Damage:1 -

2023-03-04

使用Django框架开发的一个后台管理系统,项目是从B站上跟着视频学的

联通后台管理系统 在B站上观看视频写的一个基于Django的后台管理系统 https://www.bilibili.com/video/BV1NL41157ph/?p=1&vd_source=6e7590efd0665a54e4845faba48bdb57

2023-03-03

本项目可以将计算机字符转换为手写字符

本项目可以将计算机字符转换为手写字符,需要安装pytesserect exe和库。将“CodeWithGUI.py”和“AutoDownloader.py”文件复制到桌面同一个文件夹中运行,所有图片会自动下载到同一个文件夹中。

2023-03-03

《Python编程从入门到实践》课后练习

Python编程从入门到实践》课后练习 第一部分-基础知识 chapter02_变量和简单数据类型 chapter03_列表简介 chapter04_操作列表 chapter05_if语句 chapter06_字典 chapter07_用户输入和while循环 chapter08_函数 chapter09_类 chapter10_文件和异常 chapter11_测试代码 第二部分-项目 项目1:外星人入侵 chapter12_武装飞船 chapter13_外星人 chapter14_记分 项目地址 项目2:数据可视化 chapter15_生成数据 chapter16_下载数据 chapter17_使用API 项目3:Web应用程序 chapter18_Diango入门 chapter19_用户账户 chapter20_设置应用程序的样式并对其进行部署 项目地址

2023-03-03

上海大学《机器学习》课程项目,选题时序数据预测

上海大学《机器学习》课程项目,选题时序数据预测

2023-02-25

python 健康保险交叉销售预测

python 健康保险交叉销售预测

2023-02-25

机器学习实战项目:工业蒸汽量预测

现阶段实现程度: 数据处理:异常值处理,查看数据分布图,可视化线性回归情况,归一化数据 特征工程:删除分布不一致特征,删除相关性较小特征 模型训练:xgboost算法、GBDT回归算法、随机森林算法、贝叶斯线性回归法、LightGBM回归算法、决策树回归算法、Lasso回归算法进行训练,并用交叉验证方法验证误差 模型融合:按不同权重融合 最后测得mse=0.1365

2023-02-25

使用20天股票的高、开、低、收、上影线、下影线、实体相对于昨日价格的涨跌幅来预测后5天最高收盘价的涨跌幅 模型是使用keras中

模型功能:使用前20天的股票数据预测后5天最高收盘价的涨跌幅区间。 模型分为3部分:数据预处理、模型搭建、模型训练与保存。 数据预处理:该部分获取csv文件中股票的高、开、低、收、成交量数据,然后对每一个数让其除于昨日收盘价做数据归一化、0均值化处理(成交量除外),再用相应数据得到上影线、下影线、 实体相对于昨日收盘价的的波动幅度。再按收盘价计算所属类别并转为one-hot格式。最后将数据转为RNN模型输入数据格式。 模型搭建:分别使用keras中的SimpleRNN、LSTM、Conv2D搭建神经网络模型。使用训练数据集中后20%数据作为测试集,回调函数使用early_stopping,优化器使用Adam。 模型训练与保存:对mTrain_StockData中的每一个股票行情文件都进行模型训练,对其中在测试集上准确率达到50%的模型进行保存。对数据集上样本数较少但重要性较强的预

2023-02-16

股票时序预测 (OCHLV)五个特征可以自由组合,选1个或多个

1、数据处理,可以进行抽样,我们的数据是以1分钟为单位进行的采样,可以尝试不同的采样,以提高准确率为主。 2、使用的历史数据时长,可以自己组合。使用前1天的(240个)来预测下一天中的某个时刻;使用前一小时的,预测下一分钟的;使用前1小时,预测下一小时的。 3、使用的特征。(OCHLV)五个特征可以自由组合,选1个或多个。 4、误差为预测100个结果的平均。

2023-02-16

通过多种机器学习股票价格预测,包括随机森林(Random Forest),决策树(SVM),线性回归(LinearRegress

数据获取与数据集说明/Data acquisition and dataset description 利用toshare获取600519.sh 2000-2020年数据,除了随机森林外基本都是以前19年数据做训练集,最后一年做预测。 通过多种机器学习股票价格预测,包括随机森林(Random Forest),决策树(SVM),线性回归(LinearRegress

2023-02-16

ARIMA-LSTM结合的股票预测项目 SP500

import numpy import numpy as np import pandas as pd import matplotlib.pyplot as plt import statsmodels.api as sm from statsmodels.tsa.arima_model import ARIMA from statsmodels.graphics.tsaplots import plot_acf from statsmodels.graphics.tsaplots import plot_pacf from statsmodels.tsa.seasonal import seasonal_decompose sp500_2013_2018 = pd.read_csv('sp500_data/SP500.csv') print(sp500_2013_2018.head())

2023-02-16

预测股票价格的简单小程序,LSTM 实现,基于 Pytorch

目标:根据历史数据,预测当天股票最高价 模块导入 import pandas as pd import matplotlib.pyplot as plt import datetime import torch import torch.nn as nn import numpy as np from torch.utils.data import Dataset, DataLoader 数据读取 原始数据获取 预测股票价格的简单小程序,LSTM 实现,基于 Pytorch。数据预处理时,将训练数据和验证数据进行了统一处理,发生了数据泄露,因此仅供娱乐,并不实用。

2023-02-16

泰坦尼克号生存预测.zip

import pandas as pd from sklearn.tree import DecisionTreeClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import GridSearchCV import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.model_selection import GridSearchCV from sklearn.model_selection import cross_val_score from sklearn.preprocessing import OneHotEncoder data = pd.read_csv('data.csv') data.head(1)

2023-02-15

随机森林填补乳腺癌数据.ipynb

""" data = load_breast_cancer() 我个人的倾向是,要看见n_estimators在什么取值开始变得平稳,是否一直推动模型整体准确率的上升等信息 第一次的学习曲线,可以先用来帮助我们划定范围,我们取每十个数作为一个阶段,来观察n_estimators的变化如何 引起模型整体准确率的变化 """ scorel = [] for i in range(1,201,10): rfc = RandomForestClassifier(n_estimators=i, n_jobs=-1, random_state=90) score = cross_val_score(rfc,data.data,data.target,cv=10).mean() scorel.append(score) print(max(scorel),(scorel.index(max(scorel))*10)) plt

2023-02-15

链家网二手房价分析 python

import pandas as pd import numpy as np import seaborn as sns import matplotlib as mpl import matplotlib.pyplot as plt from IPython.display import display plt.style.use("seaborn-dark") sns.set_style('dark') sns.set_style({'font.sans-serif':['simhei','Arial']}) %matplotlib inline

2023-02-15

基于kmean聚类实现用户分层RFM模型.rar

model = KMeans(algorithm='lloyd', n_clusters=8, init = 'k-means++', n_init=10, max_iter=17, random_state=2022, verbose=False ) model.fit(train) # 可视化聚类结果————对输入数据标准化处理,去除量纲带来的影响 # 效果相比未处理提升了不少,聚类效果比较明显 import matplotlib as mpl from mpl_toolkits.mplot3d import Axes3D fig = plt.figure(figsize=(12,12)) ax = fig.add_subplot(1,1,1,projection='3d') data_train = pd.DataFrame(train,columns=['R','F

2023-02-15

电信用户流失预测 python

首先是围绕数据集字段含义进行解释。该数据集并没有提供相应的数据字典作为不同字段的解释,但由于数据集并没有匿名字段,所以基本可以根据字段的名称给出相应的解释: | 字段 | 解释 | | ------ | ------ | | customerID | 用户ID | | gender | 性别 | | SeniorCitizen | 是否是老年人(1代表是) | | Partner | 是否有配偶(Yes or No) | | Dependents | 是否经济独立(Yes or No) | | tenure | 用户入网时间 | | PhoneService | 是否开通电话业务(Yes or No) | | MultipleLines | 是否开通多条电话业务(Yes 、 No or No phoneservice) | | InternetService | 是否开通互联网服务(No、DSL数字网络或filber potic光线网络) | | OnlineSecurity | 是否开通网络安全服务(Yes、No or No internetservice) | | OnlineB

2023-02-15

电商销量预测挑战赛公开数据.zip

https://challenge.xfyun.cn/topic/info?type=e-commerce-2022&ch=ds22-dw-gzh01 本次电商销量预测挑战赛公开数据

2023-02-15

电动汽车永磁同步电机温度预测挑战赛公开数据和代码

随着汽车行业的不断发展以及人们的环保意识逐步增强,新能源汽车在人们的出行计划中占有的比例越来越大。国内电动车品牌,诸如理想、蔚来、小鹏等品牌,也如雨后春笋般涌现出来。 作为电动汽车和混合动力汽车的主要驱动核心,永磁同步电动机常常面临着运行温度过高的问题,该问题会导致永磁体退磁以及线路损伤等危险,从而造成新能源汽车的驱动能力下降甚至失去驱动力的情况。 为了保障永磁同步电动机能够在复杂的工作条件下安全、稳定的运转,各大新能源汽车品牌非常关注永磁同步电动机温度预测问题的研究,希望及时获得电机的实时温度,从而采取相应的降温方法来保障永磁同步电动机的安全,降低电机的维护成本。 赛事任务 本次比赛任务是根据从永磁同步电机收集的多个历史传感器数据,预测接下来12个单位的温度(pm),其中单位间隔是为 20 Hz(每 5 秒一行)。

2023-02-15

测用户是否违约的二分类问题,在此过程中增加制作用户信用评分卡的部分

赛题主页:https://www.kaggle.com/competitions/GiveMeSomeCredit/overview 本赛题是一个预测用户是否违约的二分类问题,在此过程中增加制作用户信用评分卡的部分。 # 探索字段标签含义 """ 特征 标签含义 SeriousDlqin2yrs 出现 90 天或更长时间的逾期行为(即定义好坏客户) RevolvingUtilizationOfUnsecuredLines 贷款以及信用卡可用额度与总额度比例 age 借款人借款年龄 NumberOfTime30-59DaysPastDueNotWorse 过去两年内出现35-59天逾期但是没有发展得更坏的次数 DebtRatio 每月偿还债务,赡养费,生活费用除以月总收入 MonthlyIncome

2023-02-15

这是一个数据可视化项目,关于LPL春季赛的一些数据进行可视化

%matplotlib auto import pandas as pd import numpy as np import re import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['figure.autolayout'] = True df = pd.read_excel('../data.xlsx', index_col=0) team_data = df.index.tolist() titles = [] def type_c(data): findfloat = re.compile(r'(.*?)%') datalist = [] for i in data: datalist.append(re.findall(findfloat,i)[0]) d = pd.Series(datalist, index=team_data, dtype=float) return d

2023-02-15

该项目来源于202205美国运通在kaggle发布的信用卡风险逾期预测竞赛 该项目较为贴近Fintech实际业务内容,是对于从事

美国运通Kaggle举办信用卡逾期竞赛,周期3个月(202205-202208。 附上比赛链接:https://www.kaggle.com/competitions/amex-default-prediction/overview 数据描述:数据集为包含时间序列行为的客户匿名档案信息,目的在于用所提供数据集预测客户未来是否存在逾期风险,提高客户信用卡批准率以及现有持卡人更好的客户体验。 数据量: train:16.39GB,55w+样本,458913 独立客户ID, test:33.82GB,150w+,924621 独立客户ID, 脱敏变量来源:拖欠、支出、付款、银行流水、风险变量,共190。 参赛人数:6003,团队 4874。 二、 数据探索与可视化 数据集过大,本地机器无法运行,需进行数据压缩,kaggle 论坛提供了诸多大佬压缩完毕的文件和代码,均可参考以及直接使用,该部分并非竞赛关注重点,感兴趣的同学可以研究相应论坛, 附上链接:https://www.kaggle.com/competitions/amex-default-prediction/discussion/

2023-02-15

本项目的目标是建立预测模型,该模型可根据新冠肺炎患者的当前症状、状态和病史,预测患者是否有可能面临死亡风险

COVID-19是由冠状病毒引起的传染病。大多数感染新冠肺炎病毒的人会出现轻度至中度呼吸道疾病,无需特殊治疗即可康复。然而,老年人和患有心血管疾病、糖尿病、慢性呼吸道疾病和癌症等潜在疾病的人患上新冠病毒肺炎后,症状较为严重,有死亡风险。在COVID-19流行的过程中,医疗资源短缺和如何有效分配医疗资源是医疗机构面临的主要问题之一。在医疗资源紧缺时期,及时且准确地预测患者未来是否有可能面临死亡风险,并根据预测结果进行医疗资源的合理分配,对缓解医疗资源压力、保障国民生命健康具有重要意义。 首先,本项目进行了COVID-19数据的探索性分析,包括基本信息、数据清洗和可视化。之后,利用欠采样和过采样算法解决样本的不平衡问题,训练逻辑回归和随机森林模型并调整超参数来对患者进行分类,预测患者是否面临死亡风险。最后对比两种算法的结果,并且给出特征的重要性排序。 数据集由墨西哥政府提供,链接为https://www.kaggle.com/datasets/meirnizri/covid19-dataset

2023-02-15

电子科技大学经济与管理学院运营管理课程项目:数据驱动的餐饮顾客行为分析

电子科技大学经济与管理学院运营管理课程项目:数据驱动的餐饮顾客行为分析 ## 程序列表 ### 1.wordcloud.py:用户评论分析 统计分析:直方图、饼状图 文本分析:分词(带停用词处理)、按出现频次提取关键词、情感分析

2023-02-15

网络视频服务商客户流失.ipynb

数据说明 id:客户唯一ID is_tv_subscriber:是否订阅电视 is_movie_package_subscriber:是否有电影套餐 subscription_age:服务年限 bill_avg:过去3个月账单平均值 reamining_contract:客户合同还剩多少年 如果为空值:客户还没有合同。 有合同时间的客户必须使用他们的服务,直到合同结束。如果他们在合同期限结束前取消服务,他们将支付罚款。 service_failure_count:过去3个月因服务失败而致电呼叫中心的客户呼叫次数 download_avg:过去3个月平均下载量(GB) upload_avg:过去3个月平均上传量(GB) download_over_limit:大多数客户都有下载限制。如果他们达到这个限制,他们必须为此付费。此列包含过去9个月的"限制次数" churn:客户是否流失 问题描述 该数据集收集了使用服务的客户相关数据,并在客户流失与否时进行标记,可以使用这个数据集来进行数据分析,并创建一个流失模型来预测客户流失概率。 探索数据 上述表格展示了各特征在随机森林模型中的系数比

2023-02-15

宝洁营销渠道投入与收入的关系.ipynb

数据说明 Revenue 门店销售额 Reach 微信推送次数 Loval_tv 本地电视广告投入 Online 线上广告投入 Instore 门店内海报陈列等投入 Person 门店销售人员投入 Event 门店促销事件(cobranding 品牌联合促销 holiday 节假日 special 门店特别促销 non-event 无促销活动) 问题描述 对于快消品企业,能够对商超门店的销售额进行精准预测,尤其是能量化自身所能控制的各种促销因素产生的结果,是重要的数据应用 通过两个模型的系数值比较,可知本地电视广告投入(loval_tv)和门店销售人员投入(person)两个特征对门店销售额的影响程度最高,门店内海报陈列等投入(instore)次之。这意味着如果想提升门店的销售额,需要在这三个渠道上增加投入。

2023-02-15

百货商场用户画像描述与价值分析.ipynb

数据说明 两个表包含了如会员卡号,消费产生时间,性别,出生时间,商品编码,销售数量,商品售价,消费金额,商品名称,此次消费的会员积分,收银机号,单据号,柜组编码,柜组名称,等级时间等 15 个特征。 数据集分为两部分,.xlsx结尾的是会员信息表,.csv结尾的是销售流水表。其中,会员信息表共有将近19万条记录,销售流水表共有接近189万条记录,其包括2015-01-01到2018-01-03之间所产生的数据。 问题描述 本项目主要围绕着“百货商店会员用户画像描绘与价值分析”内容进行,结合目前百货商场的数据情况,可以实现以下目标: 借助百货商场会员用户数据,对会员用户进行分群。 对不同的会员用户类别进行特征分析,比较不同类别会员用户的会员用户价值。 对不同价值的会员用户类别提供个性化服务,制定相应的营销策略。

2023-02-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除