【Mysql】大批量(百万级)数据插入数据库应该怎么做(提高效率)？ - 博客

[{"createTime":1735734952000,"id":1,"img":"hwy_ms_500_252.jpeg","link":"https://activity.huaweicloud.com/cps.html?fromacct=261f35b6-af54-4511-a2ca-910fa15905d1&utm_source=V1g3MDY4NTY=&utm_medium=cps&utm_campaign=201905","name":"华为云秒杀","status":9,"txt":"华为云38元秒杀","type":1,"updateTime":1735747411000,"userId":3},{"createTime":1736173885000,"id":2,"img":"txy_480_300.png","link":"https://cloud.tencent.com/act/cps/redirect?redirect=1077&cps_key=edb15096bfff75effaaa8c8bb66138bd&from=console","name":"腾讯云秒杀","status":9,"txt":"腾讯云限量秒杀","type":1,"updateTime":1736173885000,"userId":3},{"createTime":1736177492000,"id":3,"img":"aly_251_140.png","link":"https://www.aliyun.com/minisite/goods?userCode=pwp8kmv3","memo":"","name":"阿里云","status":9,"txt":"阿里云2折起","type":1,"updateTime":1736177492000,"userId":3},{"createTime":1735660800000,"id":4,"img":"vultr_560_300.png","link":"https://www.vultr.com/?ref=9603742-8H","name":"Vultr","status":9,"txt":"Vultr送$100","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":5,"img":"jdy_663_320.jpg","link":"https://3.cn/2ay1-e5t","name":"京东云","status":9,"txt":"京东云特惠专区","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":6,"img":"new_ads.png","link":"https://www.iodraw.com/ads","name":"发布广告","status":9,"txt":"发布广告","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":7,"img":"yun_910_50.png","link":"https://activity.huaweicloud.com/discount_area_v5/index.html?fromacct=261f35b6-af54-4511-a2ca-910fa15905d1&utm_source=aXhpYW95YW5nOA===&utm_medium=cps&utm_campaign=201905","name":"底部","status":9,"txt":"高性能云服务器2折起","type":2,"updateTime":1735660800000,"userId":3}]

一：在数据库中进行操作

1.合并sql语句(一个sql插入单条数据转为一个sql插入多条数据)

一个sql插入一条数据：
insert into table_name(id,name) values(1,"小明"); insert into
table_name(id,name) values(2,"小红");
一个sql插入多条数据:
insert into table_name(id,name) values(1,"小明")(2,"小红");
原因：合并后减少了日志生成量

2.在事务中进行插入操作

原因：单条sql执行时mysql内部会自动创建事务进行提交，所以通过自主创建事务，减少mysql执行sql时创建事务的消耗。

3.有序插入

无序插入
inser into table_name(id,name) value(1,"小明"); inser into table_name(id,name)
value(3,"小红"); inser into table_name(id,name) value(2,"小鹏");
有序插入
inser into table_name(id,name) value(1,"小明"); inser into table_name(id,name)
value(2,"小鹏"); inser into table_name(id,name) value(3,"小红");
原因：无需插入会增大维护索引的成本

二：Java代码向数据库中插入数据

整体策略：通过多线程分批次对大量数据进行插入操作实现高效插入。

1.比如数据量为10w，将10w条数据分为10个1w条，然后通过创建多（10）个线程，对这10个1w数据进行插入操作。

2.通过遍历数据去进行插入操作实际上就是一条一条的插入，每执行一次insert就要向数据库传一条sql，数据库编译sql，然后执行，这里用的是
Statement。这样做插入效率明显很低，所以我们需要采用批量插入大方式去进行，这里需要用到PreparedStatement。两者的区别在文章末。

例：
Connection conn = DriverManager.getConnection(); conn.setAutoCommit(false);
PreparedStatement ps = conn.prepareStatement( "INSERT into employees values (?,
?, ?)"); for (n = 0; n < 10000; n++) { ps.setString(name[n]);
ps.setLong(id[n]); ps.setInt(salary[n]); ps.addBatch(); //添加批处理 }
ps.executeBatch(); //执行批处理

3.由上例可以看出每10000条数据进行一次事务的提交，也就是说事务的粗粒度太大，数据库每次面临一万条数据的插入，压力也会很大，所以我们可以再将上述案例进行优化，每一百条数据进行一次事务的提交。

4.最后如果想要查看数据库中已经插入的数据条数，通过执行sql语句效率也会比较低，可以通过在内存中设置一个n，来记录插入数据条数，当然，在多线程的情况下，需要对n进行加锁操作。

Statement和PreparedStatement的区别：

选择PreparedStatement还是Statement取决于你要怎么使用它们. 对于只执行一次的SQL语句选择Statement是最好的. 相反,
如果SQL语句被多次执行选用PreparedStatement是最好的.
PreparedStatement的第一次执行消耗是很高的. 它的性能体现在后面的重复执行.

简单来说：

statement是每次执行都会向数据库发送sql，然后数据库进行预编译然后执行。

PreparedStatement是通过AddBatch()将多次执行操作都放在一起，然后再向数据库发送sql，然后数据库编译执行。

技术

Java1212 篇
Python927 篇
开发语言608 篇
c语言463 篇
算法461 篇
MySQL438 篇
数据库394 篇
前端387 篇
更多...