Pytorch dataloader中的num_workers (选择最合适的num_workers值) - 博客

[{"createTime":1735734952000,"id":1,"img":"hwy_ms_500_252.jpeg","link":"https://activity.huaweicloud.com/cps.html?fromacct=261f35b6-af54-4511-a2ca-910fa15905d1&utm_source=V1g3MDY4NTY=&utm_medium=cps&utm_campaign=201905","name":"华为云秒杀","status":9,"txt":"华为云38元秒杀","type":1,"updateTime":1735747411000,"userId":3},{"createTime":1736173885000,"id":2,"img":"txy_480_300.png","link":"https://cloud.tencent.com/act/cps/redirect?redirect=1077&cps_key=edb15096bfff75effaaa8c8bb66138bd&from=console","name":"腾讯云秒杀","status":9,"txt":"腾讯云限量秒杀","type":1,"updateTime":1736173885000,"userId":3},{"createTime":1736177492000,"id":3,"img":"aly_251_140.png","link":"https://www.aliyun.com/minisite/goods?userCode=pwp8kmv3","memo":"","name":"阿里云","status":9,"txt":"阿里云2折起","type":1,"updateTime":1736177492000,"userId":3},{"createTime":1735660800000,"id":4,"img":"vultr_560_300.png","link":"https://www.vultr.com/?ref=9603742-8H","name":"Vultr","status":9,"txt":"Vultr送$100","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":5,"img":"jdy_663_320.jpg","link":"https://3.cn/2ay1-e5t","name":"京东云","status":9,"txt":"京东云特惠专区","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":6,"img":"new_ads.png","link":"https://www.iodraw.com/ads","name":"发布广告","status":9,"txt":"发布广告","type":1,"updateTime":1735660800000,"userId":3},{"createTime":1735660800000,"id":7,"img":"yun_910_50.png","link":"https://activity.huaweicloud.com/discount_area_v5/index.html?fromacct=261f35b6-af54-4511-a2ca-910fa15905d1&utm_source=aXhpYW95YW5nOA===&utm_medium=cps&utm_campaign=201905","name":"底部","status":9,"txt":"高性能云服务器2折起","type":2,"updateTime":1735660800000,"userId":3}]

num_workers是Dataloader的概念，默认值是0.
是告诉DataLoader实例要使用多少个子进程进行数据加载(和CPU有关，和GPU无关)

如果num_worker
设为0，意味着每一轮迭代时，dataloader不再有自主加载数据到RAM这一步骤（因为没有worker了），而是在RAM中找batch，找不到时再加载相应的batch。缺点当然是速度慢。

当num_worker不为0时，每轮到dataloader加载数据时，dataloader一次性创建num_worker个worker，并用
batch_sampler将指定batch分配给指定worker，worker将它负责的batch加载进RAM。

num_worker设置得大，好处是寻batch速度快，因为下一轮迭代的batch很可能在上一轮/上上一轮...迭代时已经加载好了。
坏处是内存开销大，也加重了CPU负担（worker加载数据到RAM的进程是CPU复制的嘛）。num_workers
的经验设置值是自己电脑/服务器的CPU核心数，如果CPU很强、RAM也很充足，就可以设置得更大些。

num_worker小了的情况，主进程采集完最后一个worker的batch。此时需要回去采集第一个worker产生的第二个batch。如果该worker此时没有采集完，主线程会卡在这里等。（这种情况出现在，num_works数量少或者batchsize
比较小，显卡很快就计算完了，CPU对GPU供不应求。）

即，num_workers的值和模型训练快慢有关，和训练出的模型的performance无关

Detectron2的num_workers默认是4

选择最合适的num_workers值

最合适的num_works值与数据集有关

最好是跑代码之前先用这段script跑一下，选择最合适的num_workers值
from time import time import multiprocessing as mp import torch import
torchvision from torchvision import transforms transform = transforms.Compose([
torchvision.transforms.ToTensor(), torchvision.transforms.Normalize((0.1307,),
(0.3081,)) ]) trainset = torchvision.datasets.MNIST( root='dataset/',
train=True, #如果为True，从 training.pt 创建数据，否则从 test.pt 创建数据。 download=True,
#如果为true，则从 Internet 下载数据集并将其放在根目录中。如果已下载数据集，则不会再次下载。 transform=transform )
print(f"num of CPU: {mp.cpu_count()}") for num_workers in range(2,
mp.cpu_count(), 2): train_loader = torch.utils.data.DataLoader(trainset,
shuffle=True, num_workers=num_workers, batch_size=64, pin_memory=True) start =
time() for epoch in range(1, 3): for i, data in enumerate(train_loader, 0):
pass end = time() print("Finish with:{} second, num_workers={}".format(end -
start, num_workers))

可以看到，这个服务器24个CPU, 最合适的num_workers值是14

技术

Java1212 篇
Python927 篇
开发语言608 篇
c语言463 篇
算法461 篇
MySQL438 篇
数据库394 篇
前端387 篇
更多...