- 博客(159)
- 收藏
- 关注
原创 亚马逊销售数据分析(数据集+相关案例+代码)
https://download.csdn.net/download/yousuotu/92465662
2025-12-17 10:13:33
137
原创 基于Python实现亚马逊销售数据分析与预测
亚马逊销售数据集生动地展现了现代商业的一个横截面,揭示了消费者行为和订单履行的趋势。在本笔记本中,我们将探索数据的各个方面——从清理和可视化到开发一个预测交易总额的模型。
2025-12-26 14:13:01
874
原创 基于 Python 实现 2020-2024年亚马逊可视化销售分析
RFM 分析凸显了客户数量与收入贡献之间存在的严重失衡。一小部分高度活跃的客户贡献了绝大部分的收入,因此留存策略变得至关重要。中等水平的客户群体代表着最大的增长机遇,在此群体中采取有针对性的措施能够显著提升客户的终身价值。活动积极性低的客户群体应有选择地进行营销,以平衡营销成本和潜在回报。总的来说,RFM 框架为以客户为中心的决策提供了清晰且基于数据的基础。
2025-12-16 11:03:46
1088
原创 车辆方向数据集 - 物体检测
五类车辆分别是: [汽车、公共汽车、卡车、摩托车、自行车] 三种方向类型分别是: [前、后、侧] 因此车辆方向数据集共有 15 类车辆,其方向为 car_back、car_front、car_side、bus_back、bus_front 等。每行包含图像中车辆的类和边界框坐标。车辆方向数据集中 的所有车辆都标有车辆类别(五个类别)及其方向(三种类型)。将vehicle.part01.rar-vehicle.part24.rar放置再同一目录下,双击vehicle.part01.rar即可进行自动解压。
2025-08-22 21:18:02
480
原创 1951 至 2022 全球新生儿死亡率数据集
包含属性:参考区域,地理区域,指标,指标,性别,性别,财富五分位数,财富五分位数,数据来源,国家注释,单位度量,度量单位,时间段,OBS值,参考周期,下限,上限,OBS状态,观察状态。新生儿死亡率是指在特定年份或时期出生的儿童在出生后的前 28 天内死亡的概率,如果按照该时期的年龄特异性死亡率(以每 1000 名活产婴儿表示)。新生儿死亡(出生后前 28 天内活产婴儿的死亡)可细分为早期新生儿死亡(发生在出生后前 7 天)和晚期新生儿死亡(发生在出生后第 7 天之后但第 28 天之前)。
2025-06-13 11:46:45
289
原创 长江中游经济区“水-能源-粮食”系统压力与城市绿色转型质量适配性评价数据集(2012-2021)
该数据集基于系统压力指数模型、TOPSIS综合评价法和Tapio脱钩模型,融合《中国统计年鉴》《中国能源统计年鉴》《中国环境统计年鉴》《中国城市统计年鉴》《中国农村统计年鉴》及2012-2021年湖北、湖南、江西三省相关统计年鉴、生态环境统计公报等数据,研发了长江中游经济区“水-能源-粮食”系统压力与城市绿色转型质量适配性评价数据集(2012-2021)。数据集内容包括:(1)2012-2021年长江中游经济区三省(湖北、湖南、江西)的“水-能源-粮食”系统压力指数结果数据;数据集存储为.xlsx格式。
2025-06-13 10:51:01
302
原创 基于POLARIS方法计算辽东湾冬季通航水域无冰级船舶运营风险指数数据集(2021-2022)
该数据集利用2021年至2022年冬季辽东湾晴天的高分4号卫星可见光、近红外波段的遥感数据反演辽东海冰厚度,由黄渤海航路指南获取了12个辽东湾通航水域多边形矢量,根据极地操作限制评估风险指数系统(POLARIS)方法获取辽东湾通航水域无冰级船舶的运营风险指数(RIO)数据集。该数据集内容包括:(1)辽东湾12个通航水域多边形矢量数据;(2)2021-2022冬季44个晴天的12个辽东湾通航水域RIO数值(表格首行为晴天的日期、编号为1-12的通航水域)。
2025-06-12 11:02:45
276
原创 融合多源遥感与机器学习的太原市多层土壤总氮含量数据集
采用随机森林回归(RF)、分类回归树(CART)与梯度提升回归树(GBRT)三种机器学习方法进行建模反演,并以ISRIC SoilGrids的土壤总氮数据集为参考,结合均方根误差(RMSE)和决定系数(R²)进行交叉验证。数据集内容为2020年太原市多层(包括6个深度层次:0-5 cm、5-15 cm、15-30 cm、30-60 cm、60-100 cm 与 100-200 cm)土壤总氮含量数据集,空间分辨率为30 m,以.tif格式存储,共18个数据文件。
2025-06-12 11:02:16
337
原创 塔里木河流域绿洲土壤样点理化性质数据集
该数据以塔里木河流域绿洲进行了实地调查,土地利用类型涵盖了农田、林地、草地和荒地,土壤采样包括0-25cm、25-50cm两个深度,共计622个采样点。在中国科学院新疆生态与地理研究所公共技术服务中心实验室做了测试分析,得到塔里木河流域绿洲土壤理化性质数据集(2023)。数据集内容包括:(1)622个调查样点的地理位置;(2)样点处土壤的理化性质,包括钠饱和度、阳离子交换率、有机碳含量、全氮含量等;(3)样点处土地利用类型。数据集存储为.shp和.xlsx格式,由15个数据文件组成。
2025-06-11 14:05:35
186
原创 乳腺癌发病率空间分布数据集(2014-2016)
该数据集收录的2014-2016年全国各肿瘤登记处乳腺癌发病率进行整理,通过ArcGIS软件对中国县级市乳腺癌发病率进行矢量化和空间可视化。使用描述性统计与空间统计分析作为研究方法,探究中国乳腺癌发病率的区域差异、空间分布和变化趋势,得到中国县级乳腺癌发病率分布数据集(2014-2016)。该数据集内容包括中国2014-2016年下列数据:(1)县级乳腺癌发病率数据;(2)县级乳腺癌发病率分组统计数据;(3)东、中、西部乳腺癌发病率统计数据。数据集存储为.shp和.xlsx格式,由25个数据文件组成。
2025-06-11 11:58:36
238
原创 海河流域夏季降水贡献率数据集(1961-2015)
该数据集利用海河流域148个地面气象台站1961-2015年逐日降水资料,计算了流域各台站逐年夏季和季内各月降水量占同年海河流域总降水量的比例,并且根据台站在流域内各河系的分布,基于区域平均统计了流域内9条河系逐年夏季降水量占同年海河流域总降水量的比例,得到海河流域夏季降水贡献率数据集(1961-2015)。数据集内容包括:(1)海河流域1961-2015年夏季和夏季内各月148个气象台站逐年降水贡献率;(2)海河流域1961-2015年夏季9河系的降水贡献率。
2025-06-10 11:32:33
185
原创 全球城市扩展模拟数据集(1992-2050)
重建了全球1992-2020年城市扩展过程;利用土地利用情景变化动力学-城市模型,模拟了五种社会经济路径下全球2020-2050年城市扩展过程,得到全球1992-2050城市扩展模拟数据集。基于历史数据的精度评价表明,该模型模拟结果的Kappa系数为0.88。本数据集内容包括:(1)1992-2020年逐年全球历史城市建成区范围;(2)2025-2050年每五年全球未来城市建成区预测范围。数据集的空间分辨率为1 km,存储格式为.tif,一共由383个数据文件组成。
2025-06-10 11:21:05
173
原创 青藏高原水土保持功能等级评估数据集(2001-2023)
该数据集利用定量指标法,计算了高原水土保持能力指数,并评估了青藏高原水土保持功能,对其分级,得到青藏高原水土保持功能等级评估数据集(2001-2023)。数据集内容包括两部分:(1)青藏高原水土保持能力指数数据;(2)青藏高原水土保持功能等级评估数据。数据的时间频率为年,空间分辨率为1 km。数据集存储格式为.tif,由46个数据文件组成。
2025-06-10 11:17:34
247
原创 中国142座历史文化名城空间分布数据集
因其深厚的历史文化底蕴,而具有极高的文化、科学和保护价值。作者基于国务院1982年、1986年、1994年先后公布的三批国家历史文化名城名单和后续增补的历史文化名城名单(截至2023年,全国共有142座国家历史文化名城),通过Google地图对142座城市的空间点位进行采集、编辑和验证,补充历史文化名城的属性信息,得到中国142座历史文化名城空间分布数据集。该数据集内容包括:中国142座国家历史文化名城的名称、批次、地理位置、市级行政区名称、市级行政区类别、省级行政区名称、省级行政区类别等信息。
2025-06-09 10:28:52
386
1
原创 长期施肥下红壤温湿度及电导率数据集
本数据集由1个数据文件,7张表单组成,分别为“试验点位信息”表、"试验前土壤基本理化性质“表、“试验设计”表、“土壤温湿度及电导率原始数据”表、“土壤温湿度及电导率”表、“本地气象数据”表和“玉米关键生育期土壤pH”表。其中“土壤温湿度及电导率”表记录了2023年1月1日至12月31日的土壤水分、温度和电导率数据,“土壤温湿度及电导率原始数据”表则为每半小时记录一次土壤水分、温度和电导率的原始数据。“本地气象数据”表记录了同年每一天的气温、风速、气压和降水量等气象数据。
2025-06-07 11:08:21
410
原创 面向无人机海岸带生态系统监测的语义分割基准数据集
然而,目前该领域仍面临一个挑战,即缺乏公开的专门面向海岸带生态系统的语义分割基准数据集。受到自然环境和人为因素的共同影响,海岸带外部形态变化快,目前的卫星遥感和常规的人工测量、船载作业等监测方式已难以满足实时观测的要求。因此本文首先利用无人机对海岸带典型生态群落进行拍摄、采集和标注,构建了面向海岸带生态系统的基准数据集,名为OUC-UAV-SEG。接着,通过统计的方法,对OUC-UAV-SEG进行定量分析,并对数据集中存在的挑战进行了深入探讨。海岸带生态系统、遥感、无人机(UAV)、基准数据集、语义分割。
2025-06-06 17:20:53
559
原创 宁乡地-气-碳-水相互作用综合观测数据集
中国科学院大气物理研究所东部季风区地-气-碳-水循环综合观测平台宁乡站位于湖南省长沙市宁乡县双江口镇杨柳桥村。宁乡综合观测平台通量观测塔高 20 m,观测下垫面相对平坦均质以阔叶和针叶林为主,冠层高度约 7.5 m。宁乡综合观测平台始建于2012年8月,并持续开展了气象基本要素观测、碳水通量观测、地下水位变化观测至今。该综合观测数据集包括每小时分辨率的气象基本要素、每半小时和小时分辨率的碳通量数据、每半小时和小时分辨率的地下水埋深数据。东部季风区、气象数据、碳通量、地下水。
2025-06-06 17:10:24
255
原创 中国 31 个省份的经济政策不确定性 (EPU) 指数数据集
第三,我们计算了 31 个省份中每个省份的年度目标文章总数,并将其除以当年包含关键词“经济”的报纸中的目标文章总数,得到 EPU 在 31 个省份的文章比例。第四,我们通过使用每个省份的标准差来标准化 31 个省份的 EPU 文章比例,以获得 31 个省份的 EPU 指数。:Yu, J., Shi, X., Guo, D., Yang, L., 2021.经济政策不确定性 (EPU) 和企业碳排放:使用中国省级 EPU 指数的证据,能源经济学,第 94 卷,第 105071 期。
2025-06-05 10:09:23
546
原创 MySQL 索引原理
索引(Index)是帮助MySQL高效获取数据的数据结构(有序)。在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法,这种数据结构就是索引MySQL的索引是在存储引擎层实现的,不同的存储引擎有不同的结构,主要包含以下几种哈希索引就是采用一定的hash算法,将键值换算成新的hash值,映射到对应的槽位上,然后存储在hash表中排好了顺序,也支持范围查询,支持组合索引等,查询效率利用二分法效率也比较高。
2025-06-04 11:13:56
496
原创 Netty内存池之内存分配算法
全程 Dynamic memory allocation,又称为堆内存分配,简称DMA。简单来说就是想要多少内存空间,操作系统就给你多少。在大部分场景下,只有在程序运行时才知道所需内存空间大小,提前分配的内存大小空间不好把控,分配太多造成空间浪费,分配太少造成程序崩溃DMA就是从一整块内存中按需分配,对于已分配的内存会记录元数据,同时还会使用空闲分区维护空闲内存,便于在下次分配时快速查找可用的空闲分区,常见的的有三种查找策略:首次适应算法,循环首次适应算法,最佳适应算法该算法是由首次适应算法的变种。
2025-06-04 11:10:23
402
原创 Netty内存池之基础知识
内存是一块连续的空间在Linux世界,物理内存会被划分成若干个4KB大小的内存页,这是分配内存大小的最小粒度分配和回收都是基于page完成的page内产生的碎片称为内部碎片page外产生的碎片成为外部碎片内存分配器可以解决上面说到的四个核心问题,解决高效分配内存的同时又解决内存碎片化的问题内存分配器是一定和操作系统强相关的,因为真正管理硬件的是操作系统glibc(GNU C Library)是用于Linux系统的C库。
2025-06-03 10:25:45
875
原创 IM核心业务模块
就是好友与好友之间的关系有的用户要被添加必须要经过申请过程才可以多对多:微信的那种一个好友可以加入多个分组中一对多:QQ的那种一个好友只能被加入一个分组用户与群组是多对多关系需要三张表来(省略用户表就是两张表)实现设计核心是:群信息表,群成员表用户加入的所有群可以考虑新加一张表,比如A用户加入B群聊群聊中间表插入B->A,新建的表加入A->B。
2025-06-03 10:24:00
317
原创 IM系统的负载均衡
传统的Hash分库再扩容之后需要面临Hash规则改变,原本的数据要重新进行计算之后路由到新的库中,如果数据量庞大这将是一个毁灭性的问题。如果B节点被摘除,那么属于B节点的数据将会转移到顺时针最近的另一个服务器,移除节点不会导致产生大规模数据调整。SDK单地址:在SDK中写死某个网关的IP或者域名,缺点是更换地址需要重新打包SDK。让数据去对环取余然后确定一个Hash环上的位置,按照顺时针的规则找到最近的一个服务器。由于负载均衡算法的随机和轮询实现都很简单,所以这里我主要说一下一致性Hash。
2025-05-30 11:45:03
949
原创 基于Java 实现 IM 业务回调
在线状态回调资料关系链回调单聊消息回调群组系统回调POST /?},即时通信 IM 同时支持 HTTP/HTTPS 回调,其中 HTTPS 回调需要在App 后台的 WebServer 配置 CA 机构签发的证书或即时通信 IM 免费签发的证书。
2025-05-30 11:39:29
752
原创 IM系统概述
通过将请求放入消息队列。接入层:IM系统而言,必须得跟人家建立连接,这个连接建立的过程,接受请求,返回响应,网络通信的东西,都封装在这一层,接入层要支持TCP自定义协议与WebSocket协议接入两种方式。解耦和模块化:通过拆分,可以将不同的功能隔离开,每个系统负责实现自己特定的功能。应用层:IM系统可以支持很多业务的,客服系统,销售系统,类似钉钉的企业内部的IM应用,比如客服系统移动端版与网页版。功能层:IM系统提供很多功能,接收消息,推送消息,单聊,群聊,红包,离线消息,安全认证,类似于这样的功能。
2025-05-28 10:53:41
345
原创 CheckStyle插件
Checkstyle 是一种开发工具,可帮助程序员编写符合编码标准的 Java 代码。它使检查 Java 代码的过程自动化,从而使开发者免于完成这项无聊(但重要)的任务。这使得它非常适合想要强制执行编码标准的项目Checkstyle 可以检查源代码的许多方面。它可以发现类设计问题、方法设计问题。它还能够检查代码布局和格式问题CheckStyle 有着众多扫描规则,涵盖种类非常之多,容易让人眼花缭乱。这里提供一份开源项目 Hippo4j 正在使用的规则文件,如需个性化可参考官网进行修改"/>
2025-05-28 10:52:37
391
原创 Nacos入门
Nacos 是 Dynamic Naming and Configuration Service的首字母简称 ,就是注册中心+配置中心在定义上区分临时实例和持久化 实例的关键是健康检查的方式。临时实例使用客户端上报模式,而持久化实例使用服务端反向探测模式。临时实例需要能够自动摘除不健康实例,而且无需持久化存储实例。持久化实例使用服务端探测的健康检查方式,因为客户端不会上报心跳, 所以不能自动摘除下线的实例在大中型的公司里,这两种类型的服务往往都有。
2025-05-26 11:43:27
738
原创 Nacos集群
Naco1实现了CAP原则中的CP原则与AP原则,而在实现 Nacos集群数据一致性(CAP)的处理上,主要采用了Distro(阿里私有协议)以及RAFT(分布式共识)两种算法实现,其中Distro算法提供了AP支持,而RAFT算法提供了CP支持Nacos可以实现CP或AP的自由切换。
2025-05-26 11:41:33
822
原创 Netty对象池源码解析
基于FastThreadLocal实现存储对象的结构为数组Netty对象池就一个抽象类Recycler,只不过内部包裹了很多静态内部类如:Handle,DefaultHandle,Stack,WeakOrderQueue,Head,Link等这个很好理解,就是本线程获取了本线程的对象池中的对象使用完成后进行释放。
2025-05-24 10:11:09
1321
印度尼西亚学术词汇数据集(2文件,5+3列,131534+26956条记录)CSV
2025-09-01
日常习惯带来的疾病风险数据集(40 个特征,100000 人)CSV
2025-09-01
情绪分析数据集(6列,twitter 1600000 条推文)CSV
2025-09-01
采用多种 URL 分析方法网络钓鱼网站检测数据集(6文件)CSV
2025-09-01
足球球员和球队记录数据集(2.2M+ 记录)CSV
2025-09-01
(2016 - 2023)全国交通事故数据集(美国49州,770 万条事故记录)CSV
2025-08-30
用于二元分类的综合心理健康调查数据集(2文件,19+20列,93800+140700条记录)CSV
2025-08-29
用于预测活动和生物识别技术燃烧的卡路里的合成数据集(2文件,17列,250000+750000条记录)CSV
2025-08-29
简历数据集(24类,2484简历,4列,3444条记录)PDF+CSV
2025-09-01
金融交易数据集(5文件)CSV+JSON
2025-09-01
亚马逊美食评论数据集(9列,500000 条评论)SQLITE+CSV
2025-09-01
2015 - 2020 印度空气质量数据集(5文件)CSV
2025-09-01
信用卡交易欺诈检测数据集(2文件,1000 名客户与 800 家商家)CSV
2025-09-01
用于欺诈检测的合成金融数据集(11列,1048575条记录)CSV
2025-09-01
1750至今(气候变化)地球表面温度数据集(5文件)CSV
2025-09-01
跨国公司的人力资源数据集(12列,200 万条记录)CSV
2025-09-01
亚马逊对情绪分析的评论数据集 fastText
2025-08-30
在线出租房产信息数据集(75列,87946条记录)CSV
2025-08-29
用于水果新鲜度检测和质量评估的二元图像数据集(3类水果,是否新鲜,500+张高质量的常见水果图片)JPG
2025-12-30
亚马逊销售数据集(20列 ,10w+条记录)CSV
2025-12-16
计算机实验室设备检测图像数据集(2584 张原始高分辨率图像和 7753 张具有适当标记的增强图像)JPG+TXT
2025-09-03
扑克牌图像数据集(53类,7624 张训练图像、265 张测试图像和 265 张验证图像)JPG
2025-09-05
脑部 MRI 分割数据集(7860张图像)TIF
2025-09-05
脑肿瘤 MRI 数据集(4类, 7023 张人脑 MRI 图像)JPG
2025-09-05
猫狗分类数据集(12499 张猫图像和 12499 张狗图像)JPG
2025-09-03
垃圾图像分类数据集(13.9K+张图像,6类)JPG+CSV
2025-09-03
谷歌地图餐厅评论数据集(1100 条评论和每条评论的图片)CSV+PNG
2025-09-03
地毯图案数据集(2类,1136张图像)BMP+JPG
2025-09-03
道路问题检测数据集(9660 张高分辨率图像)RGB
2025-09-03
道路问题检测数据集(9660 张高分辨率图像)JPG
2025-09-03
2025年美国统一关税数据集(21版,43文件,9列)CSV+XLSX
2025-09-03
美国进出口银行资金交易数据集(34列,51753条记录)CSV
2025-09-03
美国手语字母的图像数据集(29类,87000 张 200x200 像素的图像)JPG
2025-09-03
第一人称视角人行横道分割数据集(6750张图像)JPG
2025-09-03
2022 年公共图书馆调查 (PLS)数据集 CSV+SPSS+SAS
2025-09-03
供应链温室气体和二氧化碳排放系数数据集(2文件,8列,1016+18287条记录)CSV
2025-09-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅