批量插入数据时防重复的实用技巧

场景

业务上经常遇到批量插入数据的场景,比如上传Excel、或者做数据同步(一次保存几十上百条记录)。保存的时候需要保证幂等性,比如订单号相同的数据不能存在多条。

  • 简单的处理方式就是加上一个每次save前先查询下,存在则插入,否则更新或不处理该条数据。
  • 增加某个字段的唯一索引,插入时记录中如果重复则会显式抛出MySQL的异常,需要自行处理异常。
    这两种方案弊端都很明显,就是数据量小时可以接受,数据量大时速度巨慢,而且数据库的交互次数很多,占用数据库连接。

解决方案

1.使用insert ignore into 语句

SQL示例
insert ignore into table (field1, field2, ...) values (property1, property2, ...), (property1, property2, ...);
与普通insert语句没有区别,只是会忽略存在的记录,根据主键或唯一键判断。
tips:若根据业务字段去重,需要先建好相应的唯一索引。

2 .使用insert into … on duplicate key update 语句

示例
insert into table (field1, field2, ...) values (property1, property2, ...), (property1, property2, ...) on duplicate key update field1=values(field1), field2=values(field2), ...;

与上面insert ignore into 语句类似,只不过该语句的功能如下

  1. 表中存在该记录,则根据update后面指定的内容进行更新相应的字段值;
  2. 表中不存在该记录,则直接插入

判断记录重复的依据依然是主键primary key或唯一键 unique key。特别注意的点是 如果主键是自增的,使用该语句插入时,无论是否新增记录都是使自增起始值+1.

使用Mybatis时,XML动态mapper如下:

<insert id="batchSaveOrUpdate" parameterType="list">
    insert into user (name, sex, email)
    values
    <foreach collection="list" item="item" index="index" separator=",">
        (
            #{item.name},
            #{item.sex},
            #{item.email}
        )
    </foreach>
    ON duplicate KEY UPDATE email=values(email)
</insert>

tips:若根据业务字段去重,需要先建好相应的唯一索引。

  • 0
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: Python是一种强大的编程语言,可以轻松地将Excel数据表中的数据按照自定义的规则批量导入数据库中。实现这个功能需要使用Python的开源库——pandas、xlrd和sqlalchemy。 首先,我们需要安装这些库。在Python环境中使用pip命令进行安装。 接下来,我们需要导入这些库,并使用pandas读取Excel数据表中的数据。使用read_excel方法读取Excel文件,并将数据存储到DataFrame对象中。 然后,我们需要使用SQLAlchemy创建数据库连接,并创建需要将数据导入数据表。这可以通过使用create_engine函数创建SQLAlchemy Engine对象,并使用pandas提供的to_sql方法将数据写入数据库表中。 最后,我们需要在代码中实现逻辑来确定如何读取Excel数据表中的数据,以及如何将其映射到数据库表中的列。这可以通过使用pandas的DataFrame和SQLAlchemy的Table对象来实现。 总的来说,使用Python将Excel表中的数据批量导入数据库中是一个很容易的任务,只需要使用一些简单的函数和库,就可以完成这个任务。这个过程可以帮助用户快速地导入数据,从而简化其重复性工作。 ### 回答2: Python是一种经常用于数据处理和分析的编程语言,它提供了许多现成的库和模块来方便地将不同格式的数据导入数据库中。而在导入数据时,Excel数据表通常是一种常见的格式,这种格式的数据可以通过Python来批量导入数据库中。 为了实现这一目的,需要使用Python中的pandas库来读取Excel数据表,并将其转换为DataFrame格式,然后使用pandas库中的to_sql()方法将DataFrame中的数据批量插入数据库中。要执行此操作,需要安装和配置相应的数据库连接器,如MySQLdb或psycopg2等。 首先,需要通过Python中的pandas库创建一个DataFrame对象来加载Excel数据表。可以使用read_excel()方法读取Excel文件中的数据,并将其转换为DataFrame格式。必要时,可以通过pandas库的方法来处理数据,例如清除或填充缺失值,并对数据进行格式转换。 然后,可以使用pandas库的to_sql()方法创建一个数据库连接,并将DataFrame中的数据批量插入数据库中。需要提供有关数据库连接的详细信息,例如主机名称、端口、数据库名称、用户名和密码等。此外,还需要指定要将数据插入的表名和数据列名。 这样,Excel数据表的数据就可以通过使用Python和pandas库批量导入数据库中。这个过程可以自动化,并在每次需要更新数据库中的数据时使用。这可以大大减少手动处理数据的工作量,并提高数据的处理效率和准确性。 ### 回答3: 在进行数据处理过程中,Python的excel模块可以很好地对Excel数据表进行读取和处理。通过使用Python中的pandas模块,我们可以轻松地将Excel数据表中的数据批量导入数据库中。 首先,我们需要使用pandas读取Excel文件,并将数据存储在一个pandas的dataframe对象中。然后,我们可以使用Python的SQLAlchemy模块来连接我们的数据库,并在其中创建一个表格。接下来,我们将使用dataframe对象中的数据将其插入到数据库表中。 在这个过程中,我们可以使用一些技巧将数据转换为数据库中需要的格式,例如使用pandas的DatetimeIndex来将日期时间格式化为数据库中正确的格式。 总体来说,使用Python将Excel数据表中的数据批量导入数据库是非常简单和高效的。这个过程可以大大提高数据处理的效率,并支持更好的数据分析和可视化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值