【数据挖掘】电商数据合集

Amazonproduct co-purchasing network

https://www.heywhale.com/mw/dataset/5a698cdeafceb51770d610b4

女性用户网购服装反馈数据集

https://www.heywhale.com/mw/dataset/5aab7e09afaabd5e93e4df30

该数据集包含23000个顾客的网购评论及评价,基于真实的消费记录

ZARAUR 优衣库👔👔服装销售数据

https://www.heywhale.com/mw/dataset/5fbcd41fd69d6f0030fc7866

天猫订单成交【真实】数据

https://www.heywhale.com/mw/project/5e78a11198d4a8002d2c52bc

共收集了的28010条数据,用于订单转化率、销售分析

用户-商品行为数据集

https://www.heywhale.com/mw/dataset/5df8992d2823a10036acc945

包括20000用户的完整行为数据以及百万级的商品信息

淘宝云主题点击数据集

https://www.heywhale.com/mw/dataset/5da83092c83fb400420c3629

口红数据集

https://www.heywhale.com/mw/dataset/5c8b2204b4536a002bcd18ae

爬取了来自淘宝2019.3.15的口红相关的商品信息,包括商品名、价格、购买人数、店铺、店铺地理位置

4332条淘宝粽子数据集

https://www.heywhale.com/mw/dataset/5ef1ae13caa99b002d7176a6

黑五购物数据集

https://www.heywhale.com/mw/dataset/5c6b6ece336a0d002c18b49c

该数据集包括了五十多万条黑五消费记录,包括用户年龄、性别、婚姻状况、职业、购买金额等等信息

电商零售客户细分数据

https://www.heywhale.com/mw/dataset/61d668ed3debcb0022dd5d2d

这是一个跨国数据集,其中包含在 2010 年 1 月 12 日到 2011 年 9 月 12 日之间发生的英国某电商在线零售的交易数据

双十一淘宝直播大盘数据

https://www.heywhale.com/mw/dataset/618e1cadb7de000017e39e25

2021年10月20-11月11日:双十一淘宝直播大盘数据

阿里巴巴集团服务类商品11-12月份用户行为数据集

https://www.heywhale.com/mw/dataset/60e3b1d8be5f090017611215/file

商品子集都是偏服务类的商品,涵盖阿里巴巴集团十个主要的商品大类,例如汽车售后服务、摄影服务、餐饮、电影等,其特色是线上购买、线下服务

当当网书籍信息

https://www.heywhale.com/mw/dataset/6113a925fe727700176c4768/file

亚马逊全球跨境电商平台销售数据

https://www.heywhale.com/mw/dataset/60fd52239bcc2200172cea0f

京东联想电脑评论数据

https://www.heywhale.com/mw/dataset/60f147fb42cd8a0017861a34/file

某站电商平台订单数据

https://www.heywhale.com/mw/dataset/60ebf1893aeb9c0017bb0e6f

【亚马逊】183万+820万玩具和游戏相关数据集

https://www.heywhale.com/mw/dataset/5ec0014d0a6bbb002de8c702/file

中文淘宝评论数据集

https://www.heywhale.com/mw/dataset/60c30a7bd8575f0018447c11

从淘宝网站上抓取数据的评论数据,收录了从淘宝网站上收集到的十种商品的评论 

电子商务🛒260万电子产品在线购买数据集

https://www.heywhale.com/mw/dataset/5fb254080f7f970030d5bc30

数据集包含260万在线商店购买的产品,包含2020年4月至2020年11月从大型家用电器和电子产品在线商店购买的数据

淘宝用户行为研究

https://www.heywhale.com/mw/dataset/603e359c63d3c30015bdaf7f/file

数据集包含了2017年11月25日至2017年12月3日之间,有行为的约一百万随机用户的所有行为(行为包括点击、购买、加购、喜欢)

6K条京东万代奥特曼产品销售数据

https://www.heywhale.com/mw/dataset/601292a6ac79f40016a6ff00

6K条京东BANDAI万代奥特曼产品销售数据

6K条京东LEGO乐高产品销售数据

https://www.heywhale.com/mw/dataset/6012937dac79f40016a6ffaf

6K条京东万代高达产品销售数据

https://www.heywhale.com/mw/dataset/601293c8ac79f40016a6fff2

2020年美赛(MCM)C题 电商里的数据财富

https://www.heywhale.com/mw/dataset/600fdfcbe455800015be060f

2009-2019年Amazon 亚马逊畅销书50强

https://www.heywhale.com/mw/dataset/5ffd4e8a3441fd00153b28b2

2009年至2019年亚马逊畅销书50强中的数据集

巴西电商Olist订单数据

https://www.heywhale.com/mw/dataset/5fd461e31a34b90030b83809

本数据集为巴西电商Olist的交易订单数据,提供了该平台16年到18年近10万条订单交易记录,数据集包含9张数据表

亚马逊产品详细信息数据集

https://www.heywhale.com/mw/dataset/5ee05621b772f5002d73076c

3W条Amazon.Com的所有产品详细信息

【亚马逊】3k+14.8万礼品卡相关数据集

https://www.heywhale.com/mw/dataset/5ec09989b7c5170037f37c9f/file

本数据集仅适用于小型项目或课题。本数据集不包含原数据或评论,仅包括(用户,项目,评级,时间戳)以及附带14.8万条评分数据集

🎃🎃万圣节服装评论数据集

https://www.heywhale.com/mw/dataset/5f9fc35dca48e000300ee1db

来自Amazon的2020年万圣节服装评论数据集

2014-2018年美国超市数据集

https://www.heywhale.com/mw/dataset/5f72f2b554b7080031c15f48

数据集包含2014-2018年美国超市在线订单数据集

Olist巴西电子商务公共数据集

https://www.heywhale.com/mw/dataset/5f72e6a471c70000308507eb

Olist商店下订单的巴西电子商务公共数据集,该数据集包含2016年至2018年在巴西多个市场上制作的10万张订单的信息

电子商务夏季服装销售数据

https://www.heywhale.com/mw/dataset/5f3e4e19f30288002c712385

淘宝乐高数据集

https://www.heywhale.com/mw/dataset/5f422c9aa8359600378bb10e

淘宝商户店铺乐高商品的销售情况,数据集包括销售乐高的店铺信息、乐高的种类产品、销售省份等

电商用户历史数据集

https://www.heywhale.com/mw/dataset/5f4aeb926476cf0036f7c831/file

淘宝有线与无线耳机数据集

https://www.heywhale.com/mw/dataset/5f4b3ad16476cf0036f7e33c

京东口红数据集

https://www.heywhale.com/mw/dataset/5f44d57f835fe7002d994ce4

共3000条京东口红的商品数据,包括商品名称,商品价格,店铺名称,评价人数,商品标签

网上购物-孕妇🤰🤰服装点击数据集

https://www.heywhale.com/mw/dataset/5f44df59835fe7002d997b8d

该数据集包含在线商店中为孕妇提供服装的点击流信息。数据来自2008年的五个月,其中包括产品类别,照片,原产国和以美元表示的产品价格等

天猫600条眼影商品数据

https://www.heywhale.com/mw/dataset/5f4752c93410d90036a040dc

2020年七夕月天猫「眼影」相关数据

天猫600条香水商品数据

https://www.heywhale.com/mw/dataset/5f473f26e3517c00367169f2

2020年七夕月天猫「香水」相关数据

电商婴儿用户数据集

https://www.heywhale.com/mw/dataset/5e67342ff278cf002d532ffd

包含900多万儿童信息(生日和性别)的数据集,由在淘宝网或天猫购物中心分享信息的消费者提供提供

京东迪奥口红的商品评论数据集

https://www.heywhale.com/mw/dataset/5f44d706835fe7002d9954c2

某洁消费数据情况

https://www.heywhale.com/mw/dataset/5f35e1ecaf3980002cb9af7a

2019年-2020年 🇺🇸美国电子商品销售数据集

https://www.heywhale.com/mw/dataset/5f336831af3980002cb7d883

某红书销售情况

https://www.heywhale.com/mw/dataset/5f1e3fde94d484002d2f6715

数据集一共29452条数据,包括性别、年龄、以往累积的用户购买金额等

某方便食品厂商旗舰店脱敏数据

https://www.heywhale.com/mw/dataset/5f1f2407d278b1002c200e37

复购实战数据

https://www.heywhale.com/mw/dataset/5f0d648a597c0f002d5f3ab0

3K条京东手机评论数据集

https://www.heywhale.com/mw/dataset/5ece069a12fba90036cf2625

该数据集为3K条京东购物手机商品评论的相关数据,具体列包括了用户评论内容、时间、用户昵称等

淘宝用户行为数据集

https://www.heywhale.com/mw/dataset/5ef7024363975d002c9235d3/file

淘宝一个月的用户浏览、收藏、加购、购买数据

20W条淘宝文胸商品评论数据

https://www.heywhale.com/mw/dataset/5ee503b971a691002d5526c2

60万个来自Victoria's Secret维密的内衣产品数据

https://www.heywhale.com/mw/dataset/5ee71a9771a691002d5674df

内衣数据来自维多利亚的秘密Victoria's Secret和其他零售网站提取的60万多个内衣产品数据

网上购物者购买意向数据

https://www.heywhale.com/mw/dataset/5ec4aed83241a100378ddb3d

电商用户行为数据集

https://www.heywhale.com/mw/dataset/5ebdf7f93d696300a37180f0

1万条亚马逊乐器的评测/评论

https://www.heywhale.com/mw/dataset/5e980ce4ebb37f002c5feccc

CDNow网站用户消费数据集

https://www.heywhale.com/mw/dataset/5e6742bdf278cf002d533698

本次分析数据来源CDNow网站的用户在1997年1月1日至1998年6月30日期间内购买CD交易明细

6万多条中文电商评论数据

https://www.heywhale.com/mw/dataset/5e620784b8dfce002d803868

10个类别(书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店),共 6 万多条评论数据,正、负向评论各约 3 万条 

Amazon食品评论数据

https://www.heywhale.com/mw/dataset/5df35bae2823a10036ab9ac6

截止2012年10月份在Amazon网站上568454条食品评论数据,包括用户、评论内容、评论食品、食品评分等数据

亚马逊商品评论数据集

https://www.heywhale.com/mw/dataset/5dc4f86ead7dde00367e105c

英国已注册的非实体商店在线零售数据集

https://www.heywhale.com/mw/dataset/5d8b29a0e3ffb2002c45878f

数据集包含了在2009年12月1日至2011年12月9日期间在英国已注册的非实体商店的在线零售的所有交易

电子产品和价格数据集

https://www.heywhale.com/mw/dataset/5d2458b0688d36002c569661

这是一份包含超过15,000种电子产品的清单,其中包含Datafiniti产品数据库提供的10个独特字段的定价信息

女鞋价格数据集

https://www.heywhale.com/mw/dataset/5d146596708b90002c60e1bd

亚马逊产品评论数据集

https://www.heywhale.com/mw/dataset/5ce629ae0ee9cd002cd07e0c

电商女装评论数据集

https://www.heywhale.com/mw/dataset/5ce604dd0ee9cd002cd066e7

电子商务数据集

https://www.heywhale.com/mw/dataset/5ce4f2530ee9cd002ccff7ef

参考资料

https://mp.weixin.qq.com/s/Sx7jigb9fayle5cjVjWaMQ

<think>好的,我现在需要帮助用户解决关于RT-DETR模型训练的问题,特别是训练方法、参数调优的教程。首先,我得回忆一下RT-DETR的基本信息。RT-DETR是实时检测Transformer,结合了Transformer结构和目标检测,可能像DETR一样使用编码器-解码器,但优化了实时性。用户提到的引用里提到RT-DETR在官方PyTorch版中的模型加载和训练过程,还有相关注意力机制的应用,比如C2F模块中添加的各种注意力模块。 接下来,我需要整理训练RT-DETR的关键步骤。根据DETR的一般训练方法,可能需要调整学习率、优化器、数据增强等参数。但RT-DETR可能有自己的特点,比如更高效的编码器或者不同的解码策略。用户提供的引用3提到RT-DETR减少了复杂的后处理,这可能影响训练时的损失函数设计。 然后,参数调优部分需要考虑学习率调度,可能使用余弦退火或者预热策略。优化器方面,AdamW在Transformer模型中常用。批大小会影响内存使用和训练速度,可能需要梯度累积。数据增强方面,RT-DETR可能采用Mosaic或MixUp等增强方法,需要确认官方代码中的实现。 另外,用户提到的引用4提到了注意力机制的添加,这可能涉及模型结构的调整,比如在C2F模块中插入不同的注意力模块,如GAM或ParNet。这部分可能需要指导用户如何修改模型结构代码,并调整相应的超参数。 还要考虑损失函数的配置,RT-DETR可能使用匈牙利匹配的损失,包括分类和边界框回归损失。调优时可能需要调整损失权重,或者使用焦点损失来处理类别不平衡。 用户的引用1和引用2提到了自动训练工具和模型加载的具体方法,可能需要指导用户如何设置数据集路径、配置训练参数文件,以及启动训练脚本。比如在官方代码中,可能有类似train.py的入口,需要指定配置文件、数据集路径、超参数等。 最后,生成相关问题需要考虑用户可能的后续疑问,比如过拟合处理、评估指标、部署应用等,确保覆盖训练中的常见问题点。</think>以下是对RT-DETR模型训练方法及参数调优的详细说明: ### 一、RT-DETR训练核心步骤 1. **模型初始化** 采用Transformer编码器-解码器结构,加载预训练权重加速收敛。初始化时需注意: ```python model = RTDETR(config_path) # 加载配置文件 model.load_pretrained(weights_path) # 如COCO预训练模型[^3] ``` 2. **数据准备** 数据集需转换为COCO格式,通过`dataset = COCODataset(data_yaml)`加载。支持Mosaic数据增强(9图拼接)和MixUp混合增强[^2]。 3. **关键训练参数配置** ```yaml # train_config.yaml batch_size: 16 # 根据GPU显存调整 base_lr: 0.0001 # 初始学习率 warmup_epochs: 5 # 学习率预热 epochs: 300 # 总训练轮次 optimizer: AdamW # 带权重衰减的优化器 label_smoothing: 0.1 # 缓解过拟合 ``` ### 二、参数调优策略 #### 1. 学习率动态调整 - **余弦退火策略** 采用`CosineAnnealingLR`调度器: $$ lr_t = \eta_{min} + \frac{1}{2}(\eta_{max}-\eta_{min})(1+\cos(\frac{T_{cur}}{T_{max}}\pi)) $$ 其中$\eta_{max}$为初始学习率,$T_{max}$为周期长度。 #### 2. 注意力机制优化 在C2F模块中集成注意力层(需修改模型结构): ```python class C2F_Attn(nn.Module): def __init__(self, c1, c2): super().__init__() self.cv1 = Conv(c1, c2, 3) self.attn = GAMAttention(c2) # 选择GAM/ParNet等[^4] ``` #### 3. 损失函数调参 调整匈牙利匹配损失权重: ```yaml loss_weights: class: 1.0 # 分类损失 bbox: 2.5 # 边界框回归损失 giou: 1.2 # GIoU损失 ``` ### 三、训练启动命令示例 ```bash python train.py \ --config configs/rtdetr.yaml \ --data data/coco.yaml \ --hyp hyp.finetune.yaml \ --batch-size 32 \ --device 0,1 # 多GPU训练 ``` ### 四、性能优化技巧 1. **混合精度训练** 添加`--amp`参数减少显存占用,提速约30% 2. **梯度累积** 设置`--accumulate 4`模拟更大batch_size 3. **早停机制** 当验证集mAP连续10轮不提升时终止训练
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浪荡子爱自由

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值