yousuotu-CSDN博客

原创车辆方向数据集 - 物体检测

五类车辆分别是： [汽车、公共汽车、卡车、摩托车、自行车] 三种方向类型分别是： [前、后、侧] 因此车辆方向数据集共有 15 类车辆，其方向为 car_back、car_front、car_side、bus_back、bus_front 等。每行包含图像中车辆的类和边界框坐标。车辆方向数据集中的所有车辆都标有车辆类别（五个类别）及其方向（三种类型）。将vehicle.part01.rar-vehicle.part24.rar放置再同一目录下，双击vehicle.part01.rar即可进行自动解压。

2025-08-22 21:18:02 443

原创 1951 至 2022 全球新生儿死亡率数据集

包含属性：参考区域，地理区域，指标，指标，性别，性别，财富五分位数，财富五分位数，数据来源，国家注释，单位度量，度量单位，时间段，OBS值，参考周期，下限，上限，OBS状态，观察状态。新生儿死亡率是指在特定年份或时期出生的儿童在出生后的前 28 天内死亡的概率，如果按照该时期的年龄特异性死亡率（以每 1000 名活产婴儿表示）。新生儿死亡（出生后前 28 天内活产婴儿的死亡）可细分为早期新生儿死亡（发生在出生后前 7 天）和晚期新生儿死亡（发生在出生后第 7 天之后但第 28 天之前）。

2025-06-13 11:46:45 192

原创长江中游经济区“水-能源-粮食”系统压力与城市绿色转型质量适配性评价数据集（2012-2021）

该数据集基于系统压力指数模型、TOPSIS综合评价法和Tapio脱钩模型，融合《中国统计年鉴》《中国能源统计年鉴》《中国环境统计年鉴》《中国城市统计年鉴》《中国农村统计年鉴》及2012-2021年湖北、湖南、江西三省相关统计年鉴、生态环境统计公报等数据，研发了长江中游经济区“水-能源-粮食”系统压力与城市绿色转型质量适配性评价数据集（2012-2021）。数据集内容包括：（1）2012-2021年长江中游经济区三省（湖北、湖南、江西）的“水-能源-粮食”系统压力指数结果数据；数据集存储为.xlsx格式。

2025-06-13 10:51:01 244

原创基于POLARIS方法计算辽东湾冬季通航水域无冰级船舶运营风险指数数据集（2021-2022）

该数据集利用2021年至2022年冬季辽东湾晴天的高分4号卫星可见光、近红外波段的遥感数据反演辽东海冰厚度，由黄渤海航路指南获取了12个辽东湾通航水域多边形矢量，根据极地操作限制评估风险指数系统（POLARIS）方法获取辽东湾通航水域无冰级船舶的运营风险指数（RIO）数据集。该数据集内容包括：（1）辽东湾12个通航水域多边形矢量数据；（2）2021-2022冬季44个晴天的12个辽东湾通航水域RIO数值（表格首行为晴天的日期、编号为1-12的通航水域）。

2025-06-12 11:02:45 232

原创融合多源遥感与机器学习的太原市多层土壤总氮含量数据集

采用随机森林回归（RF）、分类回归树（CART）与梯度提升回归树（GBRT）三种机器学习方法进行建模反演，并以ISRIC SoilGrids的土壤总氮数据集为参考，结合均方根误差（RMSE）和决定系数（R²）进行交叉验证。数据集内容为2020年太原市多层（包括6个深度层次：0-5 cm、5-15 cm、15-30 cm、30-60 cm、60-100 cm 与 100-200 cm）土壤总氮含量数据集，空间分辨率为30 m，以.tif格式存储，共18个数据文件。

2025-06-12 11:02:16 288

原创塔里木河流域绿洲土壤样点理化性质数据集

该数据以塔里木河流域绿洲进行了实地调查，土地利用类型涵盖了农田、林地、草地和荒地，土壤采样包括0-25cm、25-50cm两个深度，共计622个采样点。在中国科学院新疆生态与地理研究所公共技术服务中心实验室做了测试分析，得到塔里木河流域绿洲土壤理化性质数据集（2023）。数据集内容包括：（1）622个调查样点的地理位置；（2）样点处土壤的理化性质，包括钠饱和度、阳离子交换率、有机碳含量、全氮含量等；（3）样点处土地利用类型。数据集存储为.shp和.xlsx格式，由15个数据文件组成。

2025-06-11 14:05:35 159

原创乳腺癌发病率空间分布数据集（2014-2016）

该数据集收录的2014-2016年全国各肿瘤登记处乳腺癌发病率进行整理，通过ArcGIS软件对中国县级市乳腺癌发病率进行矢量化和空间可视化。使用描述性统计与空间统计分析作为研究方法，探究中国乳腺癌发病率的区域差异、空间分布和变化趋势，得到中国县级乳腺癌发病率分布数据集（2014-2016）。该数据集内容包括中国2014-2016年下列数据：（1）县级乳腺癌发病率数据；（2）县级乳腺癌发病率分组统计数据；（3）东、中、西部乳腺癌发病率统计数据。数据集存储为.shp和.xlsx格式，由25个数据文件组成。

2025-06-11 11:58:36 203

原创海河流域夏季降水贡献率数据集（1961-2015）

该数据集利用海河流域148个地面气象台站1961-2015年逐日降水资料，计算了流域各台站逐年夏季和季内各月降水量占同年海河流域总降水量的比例，并且根据台站在流域内各河系的分布，基于区域平均统计了流域内9条河系逐年夏季降水量占同年海河流域总降水量的比例，得到海河流域夏季降水贡献率数据集（1961-2015）。数据集内容包括：（1）海河流域1961-2015年夏季和夏季内各月148个气象台站逐年降水贡献率；（2）海河流域1961-2015年夏季9河系的降水贡献率。

2025-06-10 11:32:33 163

原创全球城市扩展模拟数据集（1992-2050）

重建了全球1992-2020年城市扩展过程；利用土地利用情景变化动力学-城市模型，模拟了五种社会经济路径下全球2020-2050年城市扩展过程，得到全球1992-2050城市扩展模拟数据集。基于历史数据的精度评价表明，该模型模拟结果的Kappa系数为0.88。本数据集内容包括：（1）1992-2020年逐年全球历史城市建成区范围；（2）2025-2050年每五年全球未来城市建成区预测范围。数据集的空间分辨率为1 km，存储格式为.tif，一共由383个数据文件组成。

2025-06-10 11:21:05 138

原创青藏高原水土保持功能等级评估数据集（2001-2023）

该数据集利用定量指标法，计算了高原水土保持能力指数，并评估了青藏高原水土保持功能，对其分级，得到青藏高原水土保持功能等级评估数据集（2001-2023）。数据集内容包括两部分：（1）青藏高原水土保持能力指数数据；（2）青藏高原水土保持功能等级评估数据。数据的时间频率为年，空间分辨率为1 km。数据集存储格式为.tif，由46个数据文件组成。

2025-06-10 11:17:34 235

原创中国142座历史文化名城空间分布数据集

因其深厚的历史文化底蕴，而具有极高的文化、科学和保护价值。作者基于国务院1982年、1986年、1994年先后公布的三批国家历史文化名城名单和后续增补的历史文化名城名单（截至2023年，全国共有142座国家历史文化名城），通过Google地图对142座城市的空间点位进行采集、编辑和验证，补充历史文化名城的属性信息，得到中国142座历史文化名城空间分布数据集。该数据集内容包括：中国142座国家历史文化名城的名称、批次、地理位置、市级行政区名称、市级行政区类别、省级行政区名称、省级行政区类别等信息。

2025-06-09 10:28:52 182

原创长期施肥下红壤温湿度及电导率数据集

本数据集由1个数据文件，7张表单组成，分别为“试验点位信息”表、"试验前土壤基本理化性质“表、“试验设计”表、“土壤温湿度及电导率原始数据”表、“土壤温湿度及电导率”表、“本地气象数据”表和“玉米关键生育期土壤pH”表。其中“土壤温湿度及电导率”表记录了2023年1月1日至12月31日的土壤水分、温度和电导率数据，“土壤温湿度及电导率原始数据”表则为每半小时记录一次土壤水分、温度和电导率的原始数据。“本地气象数据”表记录了同年每一天的气温、风速、气压和降水量等气象数据。

2025-06-07 11:08:21 387

原创面向无人机海岸带生态系统监测的语义分割基准数据集

然而，目前该领域仍面临一个挑战，即缺乏公开的专门面向海岸带生态系统的语义分割基准数据集。受到自然环境和人为因素的共同影响，海岸带外部形态变化快，目前的卫星遥感和常规的人工测量、船载作业等监测方式已难以满足实时观测的要求。因此本文首先利用无人机对海岸带典型生态群落进行拍摄、采集和标注，构建了面向海岸带生态系统的基准数据集，名为OUC-UAV-SEG。接着，通过统计的方法，对OUC-UAV-SEG进行定量分析，并对数据集中存在的挑战进行了深入探讨。海岸带生态系统、遥感、无人机（UAV）、基准数据集、语义分割。

2025-06-06 17:20:53 519

原创宁乡地-气-碳-水相互作用综合观测数据集

中国科学院大气物理研究所东部季风区地-气-碳-水循环综合观测平台宁乡站位于湖南省长沙市宁乡县双江口镇杨柳桥村。宁乡综合观测平台通量观测塔高 20 m，观测下垫面相对平坦均质以阔叶和针叶林为主，冠层高度约 7.5 m。宁乡综合观测平台始建于2012年8月，并持续开展了气象基本要素观测、碳水通量观测、地下水位变化观测至今。该综合观测数据集包括每小时分辨率的气象基本要素、每半小时和小时分辨率的碳通量数据、每半小时和小时分辨率的地下水埋深数据。东部季风区、气象数据、碳通量、地下水。

2025-06-06 17:10:24 227

原创高雄市12岁以下身心障碍儿童口腔保健合作院所名单数据集

序号、院所分级、合作医疗院所、市话、地址。儿童、口腔、保健、院所、名单。

2025-06-05 14:09:31 195

原创中国 31 个省份的经济政策不确定性（EPU）指数数据集

第三，我们计算了 31 个省份中每个省份的年度目标文章总数，并将其除以当年包含关键词“经济”的报纸中的目标文章总数，得到 EPU 在 31 个省份的文章比例。第四，我们通过使用每个省份的标准差来标准化 31 个省份的 EPU 文章比例，以获得 31 个省份的 EPU 指数。：Yu， J.， Shi， X.， Guo， D.， Yang， L.， 2021.经济政策不确定性（EPU）和企业碳排放：使用中国省级 EPU 指数的证据，能源经济学，第 94 卷，第 105071 期。

2025-06-05 10:09:23 460

原创 MySQL 索引原理

索引（Index）是帮助MySQL高效获取数据的数据结构（有序）。在数据之外，数据库系统还维护着满足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就可以在这些数据结构上实现高级查找算法，这种数据结构就是索引MySQL的索引是在存储引擎层实现的，不同的存储引擎有不同的结构，主要包含以下几种哈希索引就是采用一定的hash算法，将键值换算成新的hash值，映射到对应的槽位上，然后存储在hash表中排好了顺序，也支持范围查询，支持组合索引等，查询效率利用二分法效率也比较高。

2025-06-04 11:13:56 480

原创 Netty内存池之内存分配算法

全程 Dynamic memory allocation，又称为堆内存分配，简称DMA。简单来说就是想要多少内存空间，操作系统就给你多少。在大部分场景下，只有在程序运行时才知道所需内存空间大小，提前分配的内存大小空间不好把控，分配太多造成空间浪费，分配太少造成程序崩溃DMA就是从一整块内存中按需分配，对于已分配的内存会记录元数据，同时还会使用空闲分区维护空闲内存，便于在下次分配时快速查找可用的空闲分区，常见的的有三种查找策略：首次适应算法，循环首次适应算法，最佳适应算法该算法是由首次适应算法的变种。

2025-06-04 11:10:23 375

原创 Netty内存池之基础知识

内存是一块连续的空间在Linux世界，物理内存会被划分成若干个4KB大小的内存页，这是分配内存大小的最小粒度分配和回收都是基于page完成的page内产生的碎片称为内部碎片page外产生的碎片成为外部碎片内存分配器可以解决上面说到的四个核心问题，解决高效分配内存的同时又解决内存碎片化的问题内存分配器是一定和操作系统强相关的，因为真正管理硬件的是操作系统glibc（GNU C Library）是用于Linux系统的C库。

2025-06-03 10:25:45 799

原创 IM核心业务模块

就是好友与好友之间的关系有的用户要被添加必须要经过申请过程才可以多对多：微信的那种一个好友可以加入多个分组中一对多：QQ的那种一个好友只能被加入一个分组用户与群组是多对多关系需要三张表来（省略用户表就是两张表）实现设计核心是：群信息表，群成员表用户加入的所有群可以考虑新加一张表，比如A用户加入B群聊群聊中间表插入B->A，新建的表加入A->B。

2025-06-03 10:24:00 266

原创 IM系统的负载均衡

传统的Hash分库再扩容之后需要面临Hash规则改变，原本的数据要重新进行计算之后路由到新的库中，如果数据量庞大这将是一个毁灭性的问题。如果B节点被摘除，那么属于B节点的数据将会转移到顺时针最近的另一个服务器，移除节点不会导致产生大规模数据调整。SDK单地址：在SDK中写死某个网关的IP或者域名，缺点是更换地址需要重新打包SDK。让数据去对环取余然后确定一个Hash环上的位置，按照顺时针的规则找到最近的一个服务器。由于负载均衡算法的随机和轮询实现都很简单，所以这里我主要说一下一致性Hash。

2025-05-30 11:45:03 873

原创基于Java 实现 IM 业务回调

在线状态回调资料关系链回调单聊消息回调群组系统回调POST /?},即时通信 IM 同时支持 HTTP/HTTPS 回调，其中 HTTPS 回调需要在App 后台的 WebServer 配置 CA 机构签发的证书或即时通信 IM 免费签发的证书。

2025-05-30 11:39:29 685

原创 IM系统概述

通过将请求放入消息队列。接入层：IM系统而言，必须得跟人家建立连接，这个连接建立的过程，接受请求，返回响应，网络通信的东西，都封装在这一层，接入层要支持TCP自定义协议与WebSocket协议接入两种方式。解耦和模块化：通过拆分，可以将不同的功能隔离开，每个系统负责实现自己特定的功能。应用层：IM系统可以支持很多业务的，客服系统，销售系统，类似钉钉的企业内部的IM应用，比如客服系统移动端版与网页版。功能层：IM系统提供很多功能，接收消息，推送消息，单聊，群聊，红包，离线消息，安全认证，类似于这样的功能。

2025-05-28 10:53:41 328

原创 CheckStyle插件

Checkstyle 是一种开发工具，可帮助程序员编写符合编码标准的 Java 代码。它使检查 Java 代码的过程自动化，从而使开发者免于完成这项无聊（但重要）的任务。这使得它非常适合想要强制执行编码标准的项目Checkstyle 可以检查源代码的许多方面。它可以发现类设计问题、方法设计问题。它还能够检查代码布局和格式问题CheckStyle 有着众多扫描规则，涵盖种类非常之多，容易让人眼花缭乱。这里提供一份开源项目 Hippo4j 正在使用的规则文件，如需个性化可参考官网进行修改"/>

2025-05-28 10:52:37 352

原创 Nacos入门

Nacos 是 Dynamic Naming and Configuration Service的首字母简称，就是注册中心+配置中心在定义上区分临时实例和持久化实例的关键是健康检查的方式。临时实例使用客户端上报模式，而持久化实例使用服务端反向探测模式。临时实例需要能够自动摘除不健康实例，而且无需持久化存储实例。持久化实例使用服务端探测的健康检查方式，因为客户端不会上报心跳，所以不能自动摘除下线的实例在大中型的公司里，这两种类型的服务往往都有。

2025-05-26 11:43:27 701

原创 Nacos集群

Naco1实现了CAP原则中的CP原则与AP原则，而在实现 Nacos集群数据一致性（CAP）的处理上，主要采用了Distro（阿里私有协议）以及RAFT（分布式共识）两种算法实现，其中Distro算法提供了AP支持，而RAFT算法提供了CP支持Nacos可以实现CP或AP的自由切换。

2025-05-26 11:41:33 728

原创 Netty对象池源码解析

基于FastThreadLocal实现存储对象的结构为数组Netty对象池就一个抽象类Recycler，只不过内部包裹了很多静态内部类如：Handle，DefaultHandle，Stack，WeakOrderQueue，Head，Link等这个很好理解，就是本线程获取了本线程的对象池中的对象使用完成后进行释放。

2025-05-24 10:11:09 1294

原创论文解读: 2023-ChatLaw: Open-Source Legal Large Language Model with Integrated External Knowledge Bases

局限性：基于Ziya-LLaMA-13B-v1训练的模型，中文各项表现很好，但是逻辑复杂的法律问答效果不佳，需要用更大参数的模型来解决。然而，法律领域，由于其固有的重要性和对准确性的要求，是一个需要专门研究和发展专门法律模式的领域。Elo评分机制下，本文提出的方法已经超过了GPT4，其中构建了类似于国家司法考试的多项选择题来训练本文的模型，是其在2000条数据上超过GPT4的重要原因之一。1）整合不同来源的数据，数据集涵盖了广泛的法律数据，确保开发的模型能够有效地理解和解决各种法律场景。

2025-05-24 10:00:35 879

原创论文解读: 2023-Lost in the Middle: How Language Models Use Long Contexts

多文档问答和键值检索结果表明，当语言模型必须在长输入上下文中访问相关信息时，其性能会显著下降。在对文档或键值对进行上下编码时，只有解码器的模型无法查询标记，因为查询只出现在提示的末尾，而只有解码器的模型在每个时间步只能处理前面的标记。另一方面，编码器-解码器模型使用双向编码器对输入上下文进行上下编码，并且似乎对输入上下文中相关信息的位置变化更具鲁棒性——可以使用这种直觉，通过在数据之前和之后放置查询，启用文档的查询感知上下文化(或键值对),来提高仅解码器模型的性能。

2025-05-23 11:50:35 1033

原创论文解读: 2023-“Low-Resource” Text Classification: A Parameter-Free ClassificationMethod

URL:Code:文本分类作为自然语言处理（NLP）中最基本的任务之一，在神经网络的帮助下得到了显著的改进。然而，大多数神经网络都是数据饥饿的，其程度随着参数的数量而增加。必须针对不同的数据集仔细调整超参数，并且文本数据的预处理（例如，分词、删除停用词等）需要根据特定的模型和数据集进行调整。尽管复杂的深度神经网络能够捕捉潜在的相关性并识别隐式模式，但对于主题分类等简单任务来说，它们可能过于致命，而轻量的替代品通常就足够了。

2025-05-23 11:48:58 594

原创论文解读: 2018-Detection of spam reviews: a sentiment analysis approach

产品和服务的在线评论对于制造商和消费者都发挥着重要作用，因为它们拥有大量的用户意见和体验。正面评价比例高的产品会吸引更多的顾客，从而增加产品业务。与此同时，任何产品收到的负面评论比例较高，都会损害产品的声誉并导致财务损失。一些冒牌货脚注1将此视为通过发布垃圾评论来误导系统或客户的机会，以提升某些不受欢迎的产品或企业的排名，或者降低某些受欢迎的优质产品或企业的排名。为了实现这一目标，他们任命了一些个人（也称为垃圾邮件发送者），不仅为自己的产品创建综合正面评论，还为其竞争产品创建具有破坏性的负面评论。

2025-05-22 11:03:42 943

原创论文解读: 2018-Fake reviews detection based on LDA

随着在线评论的急剧增加，由于没有控制，任何人都可以在网络上写任何内容，垃圾评论随之而来。描述真实的购买后体验的评论可以帮助潜在消费者获得满意的商品，使商家有准确的定位。相反，垃圾评论会误导消费者和企业。因此，垃圾评论的检测变得越来越紧迫和重要。

2025-05-22 11:02:39 637

原创论文解读: 2023-Investigating the Factual Knowledge Boundary of Large

知识密集型任务需要大量的事实知识，并且经常依赖外部信息的帮助。最近，大型语言模型(LLM)(例如ChatGPT)在解决包括知识密集型任务在内的各种具有世界知识的任务方面表现出了令人印象深刻的能力。然而，仍然不清楚LLM能够多好地感知它们的事实知识边界，特别是当合并检索增强时它们如何表现。在这项研究中，我们提出了对LLM的实际知识边界以及检索增强如何影响开放域上的LLM的初步分析。特别地，我们关注三个主要的研究问题，并通过检验LLMs的QA性能、先验判断和后验判断对它们进行分析。

2025-05-21 11:57:48 738

原创论文解读: 2019-GANs for Semi-Supervised Opinion Spam Detection

（tensorflow实现）垃圾评论是电子商务、社交媒体、旅游网站、电影评论网站等中普遍存在的问题。统计数据显示，超过90%的消费者在购买前会阅读评论。据报道，购买的可能性随着评论的增加而增加。垃圾评论制造者利用这种经济收益，提供垃圾评论，影响消费者购买决策，从而影响产品销售。识别垃圾评论是一个分类问题，评论分为垃圾评论和非垃圾评论。识别垃圾评论的主要挑战之一是缺乏标记数据。目前只有少量标记数据附带标签。研究表明，未标记数据在与少量标记数据结合使用时可以在学习准确性方面产生相当大的改善。

2025-05-21 11:56:23 1189

原创论文解读: 2023-“Low-Resource” Text Classification: A Parameter-Free Cla

2025-05-20 11:29:04 1030

原创二分，前缀和，位运算，快排，归并

创建一个数组dp，表示 nums ，的前1数的和，前2个数的和 ......一般要自己寻找递推公式，例 dp[i]=dp[i-1]+nums[i]并不是数组有序才可以用二分算法，只要有二段性就可以使用。（异或）：相同的为0，不相同的为1，无进位加法。要注意前缀和数组的下标是从1还是从0开始。&（按位与）：有0就是0。|（按位或）：有1就是1。三路划分+随机选取key。给你一个数组 nums。

2025-05-20 11:25:54 466

原创 C++ 背包问题（动态规划）

很明显代表上一轮的 j 容量下最大的价值，也就是 f [ i-1 ][ j ]接下来还会出高精或者八大排序的算法题解，但由于作者精力有限，不能在短时间内肝出这么多的题解。由于水平有限，如果有路过的小伙伴或者大神看出本篇题解的问题或者不足，还请评论！动态规划就是把所有可能的组合不重不漏的列出来，然后循环取其中的最大值。可能你还会发现另一个问题，一个关于完全背包的问题的本质。尽量采用了不同的视角，不同的方式去描述和解决问题。可以注意到，与未优化的代码相比，背包的空间是由。

2025-05-17 10:29:22 792

原创 Windows 硬盘管理小技巧

浅谈一下问什么需要对硬盘进行管理首先是，身为程序员，我不能忍受不知道下载的东西放在哪这件事；其次，我有强迫症，习惯对文件进行分类；再者，我在学习了Linux操作系统的文件管理之后。被其文件管理方式深深的折服，然后就感觉自己的电脑乱的不能忍受；最后，就是为了避免所有文件都堆在C盘影响电脑运行。

2025-05-17 10:26:31 1008

原创响应式布局

基于HTML、CSS、JS、JQuery的开源、移动优先的前端框架。

2025-05-16 16:21:32 874

原创 HTTP协议这一篇就够了

我们来讲讲HTTP的网络通信过程上面我们知道了，HTTP协议工作于客户端和服务端之间，整个通信过程，浏览器会作为HTTP客户端通过URL向HTTP服务端即WEB服务器发送所有请求，Web服务器根据接收到的请求，会向客户端发送响应信息。

2025-05-16 16:17:58 1051

印度尼西亚学术词汇数据集（2文件，5+3列，131534+26956条记录）CSV

它的结构围绕来自印度尼西亚官方词典（KBBI）的 26,956 个词根组成。该数据集是在 2025 年 7 月至 8 月期间精心开发的，作为高级语言分析和语言习得的基础工具。每个单词的频率数据都是从干净的、1.1 亿字的正式和百科全书式语料库中计算得出的。该项目的一个关键发现是，这些词根中的一小部分构成了语言的核心：前 6,300 个词根占语料库中所有单词使用量的 97% 以上。该存储库提供了两个不同的文件以最大限度地提高可用性：一个包含所有词形及其词根的完整、精细的数据库，用于深入研究，以及一个单独的高级摘要文件，按频率对词根进行排名，以便快速参考。主要特点词典验证：该数据集中的每个单词都与权威词汇源相关联。它要么是官方印度尼西亚语词典（KBBI）中的直接条目，要么是 KBBI 词根的有效形态派生，可确保语言准确性并消除语料库噪声。语料库驱动的频率：单词频率不是基于直觉，而是从学术教科书、百科全书式文章和现代新闻媒体中超过 1 亿个实际使用的单词中凭经验得出的。词形还原（基于词根）结构：整个数据集是围绕词根（引理）智能构建的。这可以实现强大的形态分析，并允许通过研究词族来高效获取词汇。综合范围：该数据集包括语料库中发现的所有 26,956 个经 KBBI 验证的词根及其派生形式，提供了对现代印度尼西亚语词典的深入而广泛的了解。双文件格式：提供用于深入研究特定单词形式的精细单词级数据库，以及用于高级分析和优先学习的简单排名根列表。数据收集和方法该数据集是通过详细的多阶段数据处理管道创建的：语料库聚合：从三个不同的来源聚合了大约 2.5 亿个单词的原始多域语料库，以确保词汇多样性：学术语料库：来自印度尼西亚“Kurikulum Merdeka”的 381 本教科书。百科全书式语料库：印度尼西亚语维基百科的完整 XML 转储。真实世界语料库：从印度尼西亚 13 个主要新闻网站抓取的文章。清洁和隔离：原始语料库经历了积极的清洁阶段。删除了非印度尼西亚语单词、格式错误的标记和其他噪音。这个过程将原始语料库过滤成一个干净、高质量的语料库，其中包含 ~1.1 亿个印度尼西亚语单词。 KBBI 验证：这是最关键的质量保证步骤。干净语料库中的每个独特词形都根据官方的印度尼西亚州语（KBBI）进行了验证。任何不是直接 KBBI 条目或 KBBI 词根的可识别形态派生的单词都被丢弃。这确保了最终数据集中的每个条目都有权威依据。分析与增强：处理最终的过滤单词列表以生成数据集：所有词形都被词形还原为词根。对每个单独的词形进行频率计数。计算每个词根的聚合频率计数。这些数据通过KBBI对直接条目的定义进行了扩充。 1.IndoLeX_Database.csv 这是主要的粒度数据库。每一行表示语料库中找到的单个、唯一的、经过 KBBI 验证的词形式。列名称数据类型描述 word 字符串语料库中出现的特定词形（例如，）。perabaan frequency 整数语料库中这种特定词形式的频率计数。 category 字符串分类：（KBBI 官方条目）或（形态学推导）。kbbi_directkbbi_derived root 字符串基本词根（引理）它源自（例如，）。wordaba Definition 字符串官方 KBBI 定义（如果可用于 .注意：可能包含 HTML 标签。word 2.IndoLeX_Root_Frequencies.csv 这是一个高级摘要文件，包含每个词根的频率排名。该文件非常适合快速分析或生成优先研究列表。列名称数据类型描述 rank 整数词根的频率排名（1 是最频繁的）。 word 字符串词根（引理）。 frequency 整数此根及其所有派生形式的总聚合频率。

2025-09-01

日常习惯带来的疾病风险数据集（40 个特征，100000 人）CSV

该数据集包含来自 100,000 人的详细生活方式和生物识别信息。目标是根据习惯、健康指标、人口统计和心理指标预测患疾病的可能性。行数：100,000 人列：40 个特征 + 1 个目标目标：→二元分类：target healthy diseased 不平衡：~70% 健康，~30% 患病特征描述 age 个人年龄 bmi 体重指数 blood_pressure 收缩压（mm Hg） cholesterol 胆固醇水平（mg/dL） heart_rate 静息心率（bpm） glucose 血糖水平 insulin 血胰岛素水平 calorie_intake 每日平均卡路里消耗量 sugar_intake 每日糖摄入量（克） screen_time 每日屏幕使用时间（小时） stress_level 自我报告的压力水平（0-10 分） mental_health_score 自我报告的心理健康评分（0-10 分制） training_hours 每周训练/锻炼时间 gender 男/女 marital_status 单身，已婚，离婚，丧偶 diet_type 素食主义者、素食主义者、杂食动物、生酮饮食、原始人饮食 occupation 工作类型或就业状况 sleep_quality 主观睡眠质量 mental_health_support 获得心理健康资源 exercise_type 无，有氧运动，力量，混合 device_usage 设备使用水平 healthcare_access 轻松获得医疗保健 insurance 有没有健康保险 family_history 家族病史 sunlight_exposure 每日阳光照射（低/中/高） pet_owner 拥有宠物（是/否） caffeine_intake 咖啡因摄入量 meals_per_day 每天吃的餐数

2025-09-01

情绪分析数据集（6列，twitter 1600000 条推文）CSV

它包含使用 twitter api 提取的 1,600,000 条推文。这些推文已经过注释（0 = 负面，4 = 正面），它们可用于检测情绪。内容它包含以下 6 个字段：目标：推文的极性（0 = 负面，2 = 中性，4 = 正面） ids：推文的 ID （ 2087) date：推文的日期（2009 年 5 月 16 日星期六 23：58：44 UTC) flag：查询（lyx）。如果没有查询，则此值为 NO_QUERY。用户：发推文的用户（robotickilldozr) text：推文的正文（Lyx 很酷)

2025-09-01

采用多种 URL 分析方法网络钓鱼网站检测数据集（6文件）CSV

全面的网络钓鱼检测数据集集合，采用多种 URL 分析方法，用于网络安全机器学习研究。该合集包含 6 个具有不同特征提取方法和不同复杂程度的钓鱼检测数据集，适用于网络安全中的比较机器学习研究。数据集 1：传统钓鱼指标重点：经典 Web 安全功能特征：IP 地址、URL 长度、SSL 状态、重定向目标：二元分类（-1：合法，1：网络钓鱼）平衡：略有不平衡（0.796 比率）数据集 2：详细的 URL 解析重点：全面的 URL 组件分析功能：字符数、域分析、重定向、证书目标：二元分类（0：合法，1：网络钓鱼）值得注意：最大的功能集（112 个功能）数据集 3：Web 分析特征重点：网站内容和结构分析功能：HTML 元素、JavaScript、外部资源目标：多类（合法/网络钓鱼状态）值得注意的是：包括网络流量和域名年龄功能数据集 4：大规模工程重点：用于生产的可扩展特征提取特点：针对大规模部署优化的集目标：二元分类（0：合法，1：网络钓鱼）值得注意：最大的样本量（235K+ 样本）数据集 5：[需要预处理] 状态：包含格式问题（第 18259+ 行）所需作：使用函数修复clean_csv_file() 预期：类似的钓鱼检测结构数据集 6：平衡研究集重点：完美平衡的数据集，用于公平评估特征：URL 结构、表单分析、重定向模式目标：二元分类（0：合法，1：网络钓鱼）值得注意的是：完美的职业平衡（50/50 分割）

2025-09-01

足球球员和球队记录数据集（2.2M+ 记录）CSV

来自 Transfermarkt 的综合足球数据湖，干净且结构化，用于分析和机器学习。全球 41,000+ 玩家所有主要联赛的 1,400+ 俱乐部 10 个类别的 2.2M+ 记录 427K+ 市场估值 765K+ 玩家表现统计 280K+ 转移历史 78K+伤病&62K+国家队出场 681,000+ 队友关系所有内容均采用原始 CSV 格式 - 非常适合 EDA、ML 和高级足球分析。 player_injuries 列名称描述 player_id 玩家的唯一标识符 season_name 受伤发生的季节 injury_reason 受伤的原因或类型 from_date 受伤开始日期 end_date 受伤结束日期/重返比赛日期 days_missed 球员因伤缺席的总天数 games_missed 因伤缺席的比赛总数 player_latest_market_value 列名称描述 player_id 玩家的唯一标识符 date_unix 市值记录的时间戳（Unix 格式） value 玩家在该日期的市场价值（欧元） player_market_value player_id 玩家的唯一标识符 date_unix 市值记录的时间戳（Unix 格式） value 玩家在该日期的市场价值（欧元） player_national_performances 列名称描述 player_id 玩家的唯一标识符 team_id 国家队的唯一标识符 team_name 国家队名称 first_game_date 球员代表国家队首场比赛的日期 matches 国家队出场总次数 goals 国家队总进球数 player_performances 列名称描述 player_id 玩家的唯一标识符 season_name 演出发生的季节 competition_id 比赛的唯一标识符 competition_name 比赛名称 team_id 团队的唯一标识符 team_name 团队名称 nb_in_group 小组/阶段的比赛场次 nb_on_pitch 在球场上进行的比赛场数 goals 进球数 assists 助攻次数 own_goals 乌龙球数 subed_in 替换次数 subed_out 被替换出局的次数 yellow_cards 收到黄牌的数量 second_yellow_cards 导致红牌的第二张黄牌数量 direct_red_cards 直接收到红牌的数量 penalty_goals 点球进球数 minutes_played 总上场时间 goals_conceded 失球数（守门员） clean_sheets 没有失球的比赛场数 player_profiles 列名称描述 player_id 玩家的唯一标识符 player_slug 播放器的 URL 友好 slug player_name 玩家全名 player_image_url 玩家个人资料图片的 URL name_in_home_country 玩家在本国使用的姓名 date_of_birth 玩家的出生日期 place_of_birth 出生城市 country_of_birth 出生国 height 球员身高（厘米） citizenship 玩家的公民身份 is_eu 表示欧盟公民身份的布尔标志 position 主要比赛位置 main_position 场上主要位置 foot 惯用脚（左、右、双脚） current_club_id 当前俱乐部的唯一 ID current_club_name 当前俱乐部名称 joined 球员加入当前俱乐部的日期 contract_expires 合同到期日期 outfitter 俱乐部装备商/赞助商 social_media_url 玩家社交媒体的 URL player_agent_id 玩家代理的唯一 ID player_agent_name 玩家经纪人的姓名 contract_option 合同期权（延期、条款） date_of_last_contract_extension 最后一次合同延期日期 on_loan_from_club_id 球员租借的俱乐部的身份证 on_loan_from_club_name 球员租借的俱乐部名称 contract_there_expires 贷款合同到期日 second_club_url 玩家上一个/第二个俱乐部的 URL second_club_name 球员的前一个/第二个俱乐部的名称 third_club_url 球员第三俱乐部的网址 third_club_name 球员的第三俱乐部名称 fourth_club_url 球员第四俱乐部的网址 four

2025-09-01

（2016 - 2023）全国交通事故数据集（美国49州，770 万条事故记录）CSV

这是一个覆盖美国 49 个州的全国性车祸数据集。事故数据是从 2016 年 2 月到 2023 年 3 月收集的，使用多个 API 提供流交通事件（或事件）数据。这些 API 广播各种实体捕获的交通数据，包括美国和州交通部、执法机构、交通摄像头和道路网络内的交通传感器。该数据集目前包含大约 770 万条事故记录。

2025-08-30

用于二元分类的综合心理健康调查数据集（2文件，19+20列，93800+140700条记录）CSV

该数据集呈现了心理健康调查回复的综合且高度逼真的表示，使用在原始抑郁症调查/分析数据集上训练的深度学习生成模型精心制作。该数据集旨在模拟复杂的心理健康评估模式，同时保持参与者的匿名性，邀请人们探索心理数据建模、道德人工智能应用和现代分类技术。 train.csv：这是在心理健康预测任务中用于二元分类的训练数据集。每一行代表一个综合参与者档案，该模型源自根据真实心理健康调查数据训练的深度学习模型。最后一列是目标变量，指示受访者是否可能遇到心理健康问题（或）。Depressionep 列描述 id：每条记录的唯一标识符。名称：用于合成标识目的的占位符名称。性别：报告的参与者性别认同（例如，男性、女性、其他）。年龄：参与者的年龄（以岁为单位）。城市：合成或匿名的城市/居住地点。在职专业人士或学生：表明受访者是学生还是在职专业人士。专业：参与者的研究领域或专业（例如，医学、工程、艺术）。学业压力：自我报告的学业压力水平（例如，低、中、高）。工作压力：感知到的工作相关压力（更适用于专业人士）。 CGPA：代表学业成绩的累积平均绩点。研究满意度：对当前研究满意度的主观评分。工作满意度：自我评估对当前工作角色的满意度。睡眠时长：每天平均睡眠小时数。饮食习惯：饮食质量或模式（例如，均衡、不规律、不吃饭）。学位：攻读或获得的学位类型（例如文凭、学士、硕士）。你有过自杀念头吗？：表示参与者是否经历过自杀意念。工作/学习时间：每天花在工作或学习活动上的时间。财务压力：自我报告的财务压力（例如，无、轻度、严重）。精神疾病家族史：受访者是否有已知的精神健康障碍家族背景。抑郁症：目标变量 – 二进制标签，其中： e= 一类心理健康状况 p= 另一个类（为了保护隐私，标签是匿名的） test.csv：此文件包含心理健康调查参与者的匿名特征。它用于评估期间的推理。您的任务是根据提供的信息预测每行的缺失目标变量。列描述 id：每个参与者记录的唯一标识符。名称：参与者姓名的占位符（匿名或合成）。性别：参与者报告的性别（例如，男性、女性、其他）。年龄：受访者的年龄，通常以年为单位。城市：居住的城市或地区，可能是合成的。在职专业人士或学生：表明受访者目前是学生还是在职专业人士。职业：声明的专业或研究领域（例如工程、商业）。学业压力：自我报告的学业压力水平（例如，高、中、低）。工作压力：自我报告的与工作相关的压力水平（针对在职专业人士）。 CGPA：累积平均绩点——数字学业成绩指标。学习满意度：对当前学习程序满意度的主观衡量标准。工作满意度：对当前工作角色满意度的主观衡量标准（针对专业人士）。睡眠时长：每天平均睡眠时间。饮食习惯：报告的饮食质量或饮食模式（例如，均衡、不吃饭）。学位：目前攻读或获得的学位（例如文凭、学士、硕士）。你有过自杀念头吗？：二元或分类反应表明之前存在心理健康挑战。工作/学习时间：每天工作或学习的平均小时数。财务压力：经济负担或担忧程度（例如，严重、轻度、无）。精神疾病家族史：受访者是否有已知的心理健康问题家族史。

2025-08-29

用于脑肿瘤检测的脑部 MRI 图像数据集（253张图像）JPG

用于脑肿瘤检测的脑部 MRI 图像

2025-08-29

用于预测活动和生物识别技术燃烧的卡路里的合成数据集（2文件，17列，250000+750000条记录）CSV

该数据集是使用在真实世界卡路里燃烧预测数据集上训练的深度学习模型合成生成的。虽然整体分布和结构与原始数据集保持一致，但关键的统计细微差别已被故意更改，以引入挑战并防止对已知解决方案过度拟合。数据集文件 train.csv– 具有完整特征和连续目标变量的训练集。 test.csv– 具有相同输入特征的测试集（预测时保留目标）。 test.csv– 文件描述该文件包含用于评估“预测卡路里消耗”挑战中的模型性能的未标记测试数据。它包括每个人的生物识别和生理信息，目的是预测相应的燃烧卡路里数量（不包括在此文件中）。提交应提供与每行对应的变量的预测值。Calories 列描述列名称描述 id 测试数据集中每个样本的唯一标识符。用于对齐提交文件中的预测。 Sex 个体的生理性别。通常编码为分类（例如，“男性”或“女性”），由于生理差异，可能会影响卡路里消耗。 Age 个人年龄（以年为单位）。年龄影响新陈代谢和能量消耗。 Height 个人身高（以厘米为单位）。影响 BMI 并间接影响能量需求。 Weight 个人体重（公斤）。确定体力活动期间燃烧能量的关键因素。 Duration 身体活动或锻炼的持续时间（以分钟为单位）。影响燃烧卡路里的运动量的直接测量。 Heart_Rate 活动期间记录的心率（以每分钟心跳为单位）。反映体力劳动的强度。 Body_Temp 活动期间的体温（摄氏度）。可以指示代谢率或对劳累的生理反应。 train.csv– 文件描述该文件用作在“预测卡路里消耗”挑战中构建预测模型的训练数据集。它包含每个人的生物特征和生理特征的集合，以及相应的目标变量卡路里，它代表燃烧的总卡路里。这些数据是根据现实世界的分布综合生成的，为回归模型开发提供了现实的基础。列描述列名称描述 id 训练集中每个观测值的唯一标识符。用于索引和参考目的。 Sex 个人的生理性别（例如，男性或女性）。影响新陈代谢率和热量燃烧。 Age 个人的年龄（以年为单位）。代谢率一般会随着年龄的增长而降低，影响能量消耗。 Height 个人身高（以厘米为单位）。有助于身体成分指标，例如 BMI。 Weight 个人体重（公斤）。活动期间燃烧能量的关键决定因素。 Duration 身体活动或锻炼的持续时间（以分钟为单位）。较长的持续时间通常会导致燃烧更多的卡路里。 Heart_Rate 活动期间的心率，以每分钟心跳数（BPM）为单位。表示运动强度，与能量输出直接相关。 Body_Temp 活动期间的体温（摄氏度）。反映生理劳累和产热活动。 Calories 目标变量 — 活动期间燃烧的卡路里总数。这是模型旨在预测的值。

2025-08-29

简历数据集（24类，2484简历，4列，3444条记录）PDF+CSV

包含 2400+ 字符串和 PDF 格式的简历。存储在数据文件夹中的 PDF 区分为各自的标签作为文件夹，每个简历都以 pdf 格式位于文件夹内，文件名作为 CSV 中定义的 ID。在 CSV 中： ID：相应 pdf 的唯一标识符和文件名。 Resume_str ：仅包含字符串格式的简历文本。 Resume_html ：包含网页抓取时存在的 html 格式的简历数据。类别：简历用于申请的工作类别。目前的类别是人力资源、设计师、信息技术、教师、倡导者、业务发展、医疗保健、健身、农业、BPO、销售、顾问、数字媒体、汽车、厨师、金融、服装、工程、会计师、建筑、公共关系、银行、艺术、航空

2025-09-01

2015 - 2020 印度空气质量数据集（5文件）CSV

该数据集包含印度多个城市各个站点的每小时和每日水平的空气质量数据和 AQI（空气质量指数）。包含城市：艾哈迈达巴德、艾藻尔、阿马拉瓦蒂、阿姆利则、班加罗尔、博帕尔、布拉杰那讷格尔、昌迪加尔、钦奈、哥印拜陀、德里、埃尔讷古勒姆、古尔冈、古瓦哈提、海得拉巴、斋浦尔、乔拉波卡尔、高知、加尔各答、勒克瑙、孟买、巴特那、西隆、塔尔彻、特里凡得琅、维沙卡帕特南 city_day.csv：跨城市的每日空气质量数据 city_hour.csv：跨城市的每小时空气质量数据 station_day.csv：跨站点的每日空气质量数据 station_hour.csv：跨站点的每小时空气质量数据 stations.csv：全部列表

2025-09-01

信用卡交易欺诈检测数据集（2文件，1000 名客户与 800 家商家）CSV

这是一个模拟信用卡交易数据集，包含 2019 年 1 月 1 日至 2020 年 12 月 31 日期间的合法和欺诈交易。它涵盖了 1000 名客户与 800 家商家进行交易的信用卡。

2025-09-01

用于欺诈检测的合成金融数据集（11列，1048575条记录）CSV

缺乏关于金融服务的公开可用数据集，特别是在新兴的移动货币交易领域。金融数据集对许多研究人员来说很重要，尤其是对于我们在欺诈检测领域进行研究的我们来说。部分问题是金融交易本质上的私密性，这导致没有公开可用的数据集。我们提出了一个使用名为 PaySim 的模拟器生成的合成数据集，作为解决此类问题的方法。PaySim 使用来自私有数据集的聚合数据来生成类似于交易正常作的合成数据集，并注入恶意行为以稍后评估欺诈检测方法的性能。

2025-09-01

1750至今（气候变化）地球表面温度数据集（5文件）CSV

探索自 1750 年以来的全球气温在此数据集中，我们包含几个文件：全球陆地和海洋陆地温度（GlobalTemperatures.csv）：日期：平均陆地温度始于 1750 年，陆地最高和最低温度以及全球海洋和陆地温度始于 1850 年 LandAverageTemperature：全球平均陆地温度（摄氏度） LandAverageTemperatureUncertainty：平均值周围的 95% 置信区间 LandMaxTemperature：全球平均最高陆地温度（摄氏度） LandMaxTemperatureUncertainty：最高陆地温度的 95% 置信区间 LandMinTemperature：全球平均最低陆地温度（摄氏度） LandMinTemperatureUncertainty：最低陆地温度周围的 95% 置信区间 LandAndOceanAverageTemperature：全球平均陆地和海洋温度（摄氏度）陆地和海洋平均温度不确定性：围绕全球平均陆地和海洋温度的 95% 置信区间其他文件包括：全球各国平均陆地温度（GlobalLandTemperaturesByCountry.csv) 全球各州平均陆地温度（GlobalLandTemperaturesByState.csv) 全球主要城市土地温度（GlobalLandTemperaturesByMajorCity.csv) 全球城市土地温度（GlobalLandTemperaturesByCity.csv)

2025-09-01

跨国公司的人力资源数据集（12列，200 万条记录）CSV

该数据集包含跨国公司（MNC）员工的人力资源信息。它包括 200 万（20 万）名员工记录，其中包含有关个人标识符、工作相关属性、绩效、就业状况和薪资信息的详细信息。该数据集可用于人力资源分析，包括劳动力分布、流失分析、薪资趋势和绩效评估。此数据以 CSV 文件的形式提供。我们将使用 Pandas 分析这个数据集。该分析将对那些在人力资源领域工作的人有所帮助。这些是数据集中可用的主要特征/列： 1）未命名：0 – 索引列（自动生成，对分析没有用处，将被删除）。 2） Employee_ID – 分配给每个员工的唯一标识符（例如，EMP0000001）。 3） Full_Name – 员工的全名。 4）部门 – 员工工作的部门（例如 IT、人力资源、营销、运营）。 5） Job_Title – 员工的职称或角色（例如，软件工程师、人力资源经理）。 6） Hire_Date – 员工被公司雇用的日期。 7）位置 – 员工的地理位置（城市、国家）。 8） Performance_Rating – 绩效评估分数（数字量表，越高越好）。 9） Experience_Years – 员工拥有的专业经验年限。 10）状态 – 当前的就业状况（例如，活跃、辞职）。 11） Work_Mode – 工作模式（例如，现场、混合、远程）。 12） Salary_INR – 员工的年薪（印度卢比）。

2025-09-01

二手车数据集（26列，426880条记录）CSV

该数据集包含了几乎所有汽车销售相关信息，包括价格、状况、制造商、纬度/经度和其他 18 个类别等列。

2025-09-01

亚马逊对情绪分析的评论数据集 fastText

该数据集由数百万条亚马逊客户评论（输入文本）和星级评定（输出标签）组成，用于学习如何训练 fastText 进行情绪分析。fastText 监督学习教程需要以下格式的数据： __label__<X> __label__<Y> ... <Text> 其中 X 和 Y 是类名。没有引号，都在一行上。在这种情况下，类是和，并且每行只有一个类。__label__1__label__2 __label__1对应 1 星和 2 星评论，对应 4 星和 5 星评论。__label__2 （3 星评论，即中性情绪的评论未包含在原始评论中），审阅标题，后跟“：”和空格，位于文本前面。大多数评论都是英文的，但也有一些其他语言的，比如西班牙语。

2025-08-30

信用卡客户流失数据集（23列，10127条记录）CSV

该数据集由 10,000 名客户组成，他们提到了他们的年龄、薪水、marital_status、信用卡限额、信用卡类别等。有近 18 个功能。

2025-08-29

在线出租房产信息数据集（75列，87946条记录）CSV

此数据集包含有关 Airbnb 等平台上的短期租赁列表的详细信息。数据包括房源详细信息、房东信息、地理坐标、可用性和客人评论。

2025-08-29

医疗保健数据集（15列，55500条记录）CSV

该数据集背后的灵感植根于对实用且多样化的医疗保健数据的需求，用于教育和研究目的。医疗保健数据通常很敏感，并受隐私法规的约束，这使得访问以进行学习和实验具有挑战性。为了解决这一差距，我利用 Python 的 Faker 库生成了一个数据集，该数据集反映了医疗记录中常见的结构和属性。通过提供这些合成数据，我希望促进医疗保健分析领域的创新、学习和知识共享。 Dataset Information: 每列都提供有关患者、入院和所提供的医疗保健服务的具体信息，使该数据集适用于医疗保健领域的各种数据分析和建模任务。以下是数据集中每列的简要说明 - 名字：此列表示与医疗保健记录关联的患者姓名。年龄：患者入院时的年龄，以年表示。性：表示患者的性别，“男性”或“女性”。血型：患者的血型，可以是常见的血型之一（例如，“A+”、“O-”等）。医疗状况：该列指定与患者相关的主要医疗状况或诊断，例如“糖尿病”、“高血压”、“哮喘”等。入学日期：患者入住医疗机构的日期。医生：在患者入院期间负责护理的医生的姓名。医院：确定患者入院的医疗机构或医院。保险公司：此列指示患者的保险提供商，可以是多种选择之一，包括“Aetna”、“Blue Cross”、“Cigna”、“UnitedHealthcare”和“Medicare”。账单金额：患者入院期间为医疗保健服务开具的金额。这表示为浮点数。房间号：患者入院期间入住的房间号。录取类型：指定入院类型，可以是“紧急”、“选择性”或“紧急”，以反映入院情况。出院日期：患者从医疗机构出院的日期，基于入院日期和现实范围内的随机天数。药物：确定在患者入院期间给患者开处方或施用的药物。例子包括“阿司匹林”、“布洛芬”、“青霉素”、“扑热息痛”和“立普妥”。测试结果：描述患者入院期间进行的医学检查结果。可能的值包括“正常”、“异常”或“不确定”，表示测试结果。

2025-08-29

计算机实验室设备检测图像数据集（2584 张原始高分辨率图像和 7753 张具有适当标记的增强图像）JPG+TXT

数据集组成：共有 2,584 张原始高分辨率图像和 7,753 张具有适当标记的增强图像。在东西方大学充满活力的现实氛围中捕捉。使用 Oppo Reno8 Pro 智能手机获取的图像。计算机实验室设备类别： 10 个不同的类别，涵盖各种外观和形状。包括不同照明和背景条件下的通用计算机实验室设备。注释和格式：通过 Roboflow 平台进行注释，以获得精确的边界框标签。以 YOLO 格式提供，以方便对象检测基准测试。自述文件中提供了文件夹结构。

2025-09-03

扑克牌图像数据集（53类，7624 张训练图像、265 张测试图像和 265 张验证图像）JPG

这是一个非常高质量的扑克牌图像数据集。所有图像均为 jpg 格式的 224 X 224 X 3。数据集中的所有图像都经过裁剪，因此仅存在单张卡片的图像，并且卡片占据图像中 50% 以上的像素。有 7624 张训练图像、265 张测试图像和 265 张验证图像。训练、测试和验证目录被划分为 53 个子目录，53 种类型的卡中的每一种一个。该数据集还包括一个 csv 文件，可用于加载数据集。

2025-09-05

脑部 MRI 分割数据集（7860张图像）TIF

该数据集包含大脑 MR 图像以及手动 FLAIR 异常分割掩模。这些图像来自癌症成像档案馆（TCIA）。它们对应于癌症基因组图谱（TCGA）低级别神经胶质瘤收集中包含的 110 名患者，至少有液体减毒反转恢复（FLAIR）序列和基因组簇数据可用。肿瘤基因组簇和患者数据在文件中提供。

2025-09-05

脑肿瘤 MRI 数据集（4类， 7023 张人脑 MRI 图像）JPG

在上下文中应用深度学习方法来改善健康诊断正在提供有影响力的解决方案。根据世界卫生组织（WHO）的说法，正确的脑肿瘤诊断包括检测、脑肿瘤位置识别以及根据恶性肿瘤、等级和类型对肿瘤进行分类。这项使用磁共振成像（MRI）诊断脑肿瘤的实验工作涉及检测肿瘤，根据分级、类型和肿瘤位置识别对肿瘤进行分类。该方法已经进行了实验，即利用一种模型对不同分类任务的脑部 MRI 进行分类，而不是为每个分类任务使用单独的模型。基于卷积神经网络（CNN）的多任务分类用于肿瘤的分类和检测。脑肿瘤位置的识别也是使用基于 CNN 的模型通过分割脑肿瘤来完成的。该数据集包含 7023 张人脑 MRI 图像，分为 4 类：神经胶质瘤 - 脑膜瘤 - 无肿瘤和垂体。

2025-09-05

猫和狗分类图像数据集（10000张图像）JPG

用于训练 DL 模型的 Cats and Dogs 数据集

2025-09-03

猫狗分类数据集（12499 张猫图像和 12499 张狗图像）JPG

猫和狗分类数据集是一个标准的计算机视觉数据集，涉及将照片分类为包含狗或猫。该数据集作为来自大约 25,000 个更大的数据集的照片子集提供。该数据集包含 24,998 张图像，分为 12,499 张猫图像和 12,499 张狗图像。训练图像在猫和狗图像之间平均分配，而测试图像没有标记。这允许用户根据看不见的数据评估他们的模型。

2025-09-03

垃圾图像分类数据集（13.9K+张图像，6类）JPG+CSV

该数据集包含用于垃圾分类的平衡图像集合，分为六类：塑料、金属、玻璃、纸板、纸张和垃圾，它是由一个非常大的整体制作的，以实现更好的质量、平衡和性能。所有图像都是标准化的：大小调整为 256x256 像素，采用 RGB 格式，并清除重复项以提高质量和一致性。该数据集包括每类约 2,300 至 2,500 张图像，使其在训练机器学习模型方面具有良好的平衡性。它非常适合从事废物分类或环境人工智能项目的任何人，提供干净、多样化且即用型的数据。

2025-09-03

谷歌地图餐厅评论数据集（1100 条评论和每条评论的图片）CSV+PNG

数据包括 Google 地图上不同餐厅的评论。数据集中共有 1100 条评论和每条评论的图片。数据根据 4 个类别（口味、菜单、室内氛围、室外氛围）进行标记，供人工智能预测。该数据集的准备方式可用于文本处理和图像处理领域。数据集包含以下列：business_name、author_name、文本、照片、评级rating_category

2025-09-03

地毯图案数据集（2类，1136张图像）BMP+JPG

该数据集以正宗的伊朗地毯设计为特色，展示了两种基本的波斯地毯图案：Lechak-Toranj 和 Afshan。该系列包括原始地毯图像和使用专门的计算机视觉技术处理的增强版本，以突出独特的图案特征。 Lechak-Toranj （لچک ترنج）中央奖章（Toranj）设计：圆形、椭圆形或菱形四个对称的角图案（Lechak）即使去除部分元素也能保持图案同一性阿夫尚（افشان）自由流动的散落图案装饰品在表面上的定向运动非重复有机成分数据集特征包含原始地毯图像和每个原始图像的三个增强变体：灰度版本：强调结构构图拉普拉斯滤波：突出显示边缘和几何细节 Gabor 过滤：捕捉独特的纹理特征保留原始分辨率，用于真实的模式分析

2025-09-03

道路问题检测数据集（9660 张高分辨率图像）RGB

这个综合数据集包含 9,660 张高分辨率 RGB 图像，这些图像被分类用于道路基础设施问题检测。该数据集侧重于识别关键的城市基础设施问题，包括坑洼、道路损坏、路标破损、违规停车和环境清洁问题。它是专门为智慧城市基础设施监控中的计算机视觉和机器学习应用而组织和策划的。支持的任务和排行榜图像分类：对不同类型的道路基础设施问题进行分类对象检测：检测并定位图像中的特定道路问题多标签分类：图片可能包含多种类型的问题城市基础设施监控：智慧城市系统中的实际应用

2025-09-03

道路问题检测数据集（9660 张高分辨率图像）JPG

这个综合数据集包含 9,660 张高分辨率 RGB 图像，这些图像被分类用于道路基础设施问题检测。该数据集侧重于识别关键的城市基础设施问题，包括坑洼、损坏的道路、损坏的路标、违章停车和环境清洁问题。它是专门为智慧城市基础设施监控中的计算机视觉和机器学习应用而组织和策划的。垃圾街图片、城市垃圾数据集、道路问题地块坑洞人行道、涂鸦和破坏数据集、损坏的路标数据集、损坏建筑数据集、非法停车数据集、其他损坏的路标

2025-09-03

2025年美国统一关税数据集（21版，43文件，9列）CSV+XLSX

数据集是当前的 2025 年协调关税表加上当年的所有修订。它为进口到美国的所有商品提供了适用的关税税率和统计类别;它基于国际协调制度，这是用于描述大多数世界货物贸易的全球命名体系。

2025-09-03

茶树病害分类图像数据集（3类，2723张图像）JPG+TXT

该数据集包含茶树病害的图像和标签，涵盖藻斑病、褐枯病和灰枯病三类。该数据集用于病害检测。

2025-09-03

美国进出口银行资金交易数据集（34列，51753条记录）CSV

此文件包含 2006 年 1 月 10 日至最新报告期期间批准的所有授权。请注意，星号的营运资金交易在进出口银行授权失效期间根据原始授权协议延长。这些交易最初在失效前作为多年贷款授权，每年延长。此记录代表先前授权的延长。进出口银行在授权失效期间未授权新业务。

2025-09-03

美国手语字母的图像数据集（29类，87000 张 200x200 像素的图像）JPG

该数据集是美国手语字母图像的集合，分为 29 个文件夹，代表各个类别。训练数据集包含 87,000 张 200x200 像素的图像。有 29 个类，其中 26 个用于字母 A-Z，3 个用于 SPACE、DELETE 和 NOTHING 的类。这 3 个类在实时应用和分类方面非常有帮助。测试数据集仅包含 29 张图像，以鼓励使用真实世界的测试图像。

2025-09-03

第一人称视角人行横道分割数据集（6750张图像）JPG

该数据集支持人行横道分割，用于视障人士的辅助导航技术。它包括 3000 张合成图像和 300 张真实世界第一人称视角（FPV）图像，每张图像都配有二进制分割掩码。合成集是使用微调的稳定扩散模型生成的，提示涵盖一般和不同的环境条件（晴天、多云、雨天和夜晚）。真实世界的图像分布在相同的环境条件下，并从行人接近人行横道的视频记录中提取。每个人行横道从不同方向以不超过两个图像的形式出现，以确保多样性。所有图像均使用自定义工具手动注释，该工具将人行横道定义为四边形区域。该数据集按源（合成/真实）和环境条件进行组织，图像和掩码具有匹配的文件夹结构。它可用于训练和评估计算机视觉模型、探索合成数据增强以及改进视障行人的辅助系统。微调种子图像真实世界数据集合成数据集

2025-09-03

2022 年公共图书馆调查（PLS）数据集 CSV+SPSS+SAS

数据文件 – CSV （ZIP 3 MB）、SAS （ZIP 4 MB）和 SPSS （ZIP 5 MB）;提供数据文件文档和用户指南;研究简报：公共图书馆调查的方法改进。

2025-09-03

供应链温室气体和二氧化碳排放系数数据集（2文件，8列，1016+18287条记录）CSV

这些数据集包括 2017 年版北美行业分类系统（NAICS）定义的 1,016 种美国商品的温室气体（GHG）排放因子（Factors）。这些因素基于 2022 年的温室气体数据。除电力、政府和家庭外，所有 NAICS 定义的商品均以 6 位数级别给出了因子。与之前版本一样，每个记录都包含三种因子类型：无利润的供应链排放量（SEF）、供应链排放量的利润率（MEF）和有利润的供应链排放量（SEF+MEF）。一组因子提供了所有温室气体每 2022 美元（USD）的千克二氧化碳当量（CO2e），并使用 IPCC 第 5 次报告（AR5）中的 100 年全球变暖潜能值来计算当量。在此数据集中，每种商品都有一个 SEF、MEF 和 SEF+MEF。另一个因素数据集提供了每 2022 美元每种商品排放的每种独特温室气体的公斤数，而无需计算 CO2e。所有因素分母中的美元使用购买者价格。字段名称定义 2017 NAICS 代码 2017 年北美行业分类代码 2017 年 NAICS 冠军 2017 年北美行业分类描述温室气体温室气体名称单位选项是每美元公斤天然气或每美元公斤二氧化碳当量没有利润的供应链排放系数与商品生产从摇篮到生产点相关的直接和间接温室气体排放强度供应链排放系数的利润率从生产点到销售点的商品生产相关的直接和间接温室气体排放带利润率的供应链排放系数与商品生产从摇篮到销售点相关的直接和间接温室气体排放参考 USEEIO 代码 USEEIO 商品的唯一代码

2025-09-03

金融交易数据集（5文件）CSV+JSON

这个全面的金融数据集结合了跨越 2010 年代十年间的银行机构的交易记录、客户信息和银行卡数据。该数据集专为多种分析目的而设计，包括合成欺诈检测、客户行为分析和费用预测。数据集组件 1. 交易数据（transactions_data.csv) 详细的交易记录，包括金额、时间戳和商家详细信息涵盖整个 2010 年代的交易功能交易类型、金额和商家信息非常适合分析支出模式和构建欺诈检测模型 2. 卡信息（cards_dat.csv) 信用卡和借记卡详细信息包括卡限额、类型和激活日期通过card_id链接到客户帐户了解客户财务状况至关重要 3. 商家类别代码（mcc_codes.json) 业务类型的标准分类代码支持交易分类和支出分析带有描述的行业标准 MCC 代码 4. 欺诈标签（train_fraud_labels.json) 交易的二元分类标签表示欺诈易与合法交易训练监督欺诈检测模型的理想选择 5. 用户数据（users_data) 有关客户的人口统计信息账户相关详细信息支持客户细分和个性化分析

2025-09-01

亚马逊美食评论数据集（9列，500000 条评论）SQLITE+CSV

该数据集包含对亚马逊优质食品的评论。数据跨越了 10 多年，包括截至 2012 年 10 月的所有 ~500,000 条评论。评论包括产品和用户信息、评级和纯文本评论。它还包括来自所有其他亚马逊类别的评论。 Reviews.csv：从 database.sqlite 中名为 Reviews 的相应 SQLite 表中提取 database.sqlite：包含表“评论” 数据包括：评论从 1999 年 10 月 - 2012 年 10 月 568,454条住客点评 256,059 位用户 74,258 件产品 260 位用户拥有> 50 条评论

2025-09-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

印度尼西亚学术词汇数据集（2文件，5+3列，131534+26956条记录）CSV

日常习惯带来的疾病风险数据集（40 个特征，100000 人）CSV

情绪分析数据集（6列，twitter 1600000 条推文）CSV

采用多种 URL 分析方法网络钓鱼网站检测数据集（6文件）CSV

足球球员和球队记录数据集（2.2M+ 记录）CSV

（2016 - 2023）全国交通事故数据集（美国49州，770 万条事故记录）CSV

用于二元分类的综合心理健康调查数据集（2文件，19+20列，93800+140700条记录）CSV

用于脑肿瘤检测的脑部 MRI 图像数据集（253张图像）JPG

用于预测活动和生物识别技术燃烧的卡路里的合成数据集（2文件，17列，250000+750000条记录）CSV

简历数据集（24类，2484简历，4列，3444条记录）PDF+CSV

2015 - 2020 印度空气质量数据集（5文件）CSV

信用卡交易欺诈检测数据集（2文件，1000 名客户与 800 家商家）CSV

用于欺诈检测的合成金融数据集（11列，1048575条记录）CSV

1750至今（气候变化）地球表面温度数据集（5文件）CSV

跨国公司的人力资源数据集（12列，200 万条记录）CSV

二手车数据集（26列，426880条记录）CSV

亚马逊对情绪分析的评论数据集 fastText

信用卡客户流失数据集（23列，10127条记录）CSV

在线出租房产信息数据集（75列，87946条记录）CSV

医疗保健数据集（15列，55500条记录）CSV

计算机实验室设备检测图像数据集（2584 张原始高分辨率图像和 7753 张具有适当标记的增强图像）JPG+TXT

扑克牌图像数据集（53类，7624 张训练图像、265 张测试图像和 265 张验证图像）JPG

脑部 MRI 分割数据集（7860张图像）TIF

脑肿瘤 MRI 数据集（4类， 7023 张人脑 MRI 图像）JPG

猫和狗分类图像数据集（10000张图像）JPG

猫狗分类数据集（12499 张猫图像和 12499 张狗图像）JPG

垃圾图像分类数据集（13.9K+张图像，6类）JPG+CSV

谷歌地图餐厅评论数据集（1100 条评论和每条评论的图片）CSV+PNG

地毯图案数据集（2类，1136张图像）BMP+JPG

道路问题检测数据集（9660 张高分辨率图像）RGB

道路问题检测数据集（9660 张高分辨率图像）JPG

2025年美国统一关税数据集（21版，43文件，9列）CSV+XLSX

茶树病害分类图像数据集（3类，2723张图像）JPG+TXT

美国进出口银行资金交易数据集（34列，51753条记录）CSV

美国手语字母的图像数据集（29类，87000 张 200x200 像素的图像）JPG

第一人称视角人行横道分割数据集（6750张图像）JPG

2022 年公共图书馆调查 （PLS）数据集 CSV+SPSS+SAS

供应链温室气体和二氧化碳排放系数数据集（2文件，8列，1016+18287条记录）CSV

金融交易数据集（5文件）CSV+JSON

亚马逊美食评论数据集（9列，500000 条评论）SQLITE+CSV

空空如也

2022 年公共图书馆调查（PLS）数据集 CSV+SPSS+SAS