解决pytorch load huge dataset(大数据加载)

Eilene ·

更新时间:2024-11-13

· 346 次阅读

问题

最近用pytorch做实验时，遇到加载大量数据的问题。实验数据大小在400Gb，而本身机器的memory只有256Gb，显然无法将数据一次全部load到memory。

解决方法

首先自定义一个MyDataset继承torch.utils.data.Dataset，然后将MyDataset的对象feed in torch.utils.data.DataLoader()即可。

MyDataset在__init__中声明一个文件对象，然后在__getitem__中缓慢读取数据，这样就不会一次把所有数据加载到内存中了。训练数据存放在train.txt中，每一行是一条数据记录。


import torch.utils.data as Data
from tqdm import tqdm
class MyDataset(Data.Dataset):
def __init__(self,filepath):
number = 0
with open(filepath,"r") as f:
# 获得训练数据的总行数
for _ in tqdm(f,desc="load training dataset"):
number+=1
self.number = number
self.fopen = open(filepath,'r')
def __len__(self):
return self.number
def __getitem__(self,index):
line = self.fopen.__next__()
# 自定义transform()对训练数据进行预处理
data = transform(line)
return data
train_dataset = MyDataset(filepath = "train.txt")
training_data = Data.DataLoader(dataset=train_dataset, batch_size=32,num_workers=1)

注意

1、num_workers只能设置为1。因为MyDataset初始化时只有一个文件对象，在dataloader时num_workers=1只用一个线程去操作文件对象读取数据。如果num_workers>1, 会出错，多个线程同时操作同一个文件对象，得到的数据并不是你想要的。

2、每一个epoch结束以后，需要重新声明train_dataset和training_data。因为一个epoch结束以后，文件对象已经指向文件末尾，下一个epoch取数据时，什么也得不到。

3、因为这里__getitem__()只是顺序的从文件中取出一行，而与index无关，那么在DataLoader时，即使参数shuffle指定为True，得到的数据依然是顺序的，即该方法无法shuffle数据。

补充：Pytorch加载自己的数据集(使用DataLoader读取Dataset)

1. 我们经常可以看到Pytorch加载数据集会用到官方整理好的数据集

很多时候我们需要加载自己的数据集，这时候我们需要使用Dataset和DataLoader

Dataset：是被封装进DataLoader里，实现该方法封装自己的数据和标签。

DataLoader：被封装入DataLoaderIter里，实现该方法达到数据的划分。

2.Dataset

阅读源码后，我们可以指导，继承该方法必须实现两个方法：

_getitem_()

_len_()

因此，在实现过程中我们测试如下：


import torch
import numpy as np
# 定义GetLoader类，继承Dataset方法，并重写__getitem__()和__len__()方法
class GetLoader(torch.utils.data.Dataset):
# 初始化函数，得到数据
    def __init__(self, data_root, data_label):
        self.data = data_root
        self.label = data_label
    # index是根据batchsize划分数据后得到的索引，最后将data和对应的labels进行一起返回
    def __getitem__(self, index):
        data = self.data[index]
        labels = self.label[index]
        return data, labels
    # 该函数返回数据大小长度，目的是DataLoader方便划分，如果不知道大小，DataLoader会一脸懵逼
    def __len__(self):
        return len(self.data)
# 随机生成数据，大小为10 * 20列
source_data = np.random.rand(10, 20)
# 随机生成标签，大小为10 * 1列
source_label = np.random.randint(0,2,(10, 1))
# 通过GetLoader将数据进行加载，返回Dataset对象，包含data和labels
torch_data = GetLoader(source_data, source_label)

3.DataLoader

提供对Dataset的操作，操作如下：


torch.utils.data.DataLoader(dataset,batch_size,shuffle,drop_last，num_workers)

参数含义如下：

dataset：加载torch.utils.data.Dataset对象数据

batch_size：每个batch的大小

shuffle：是否对数据进行打乱

drop_last：是否对无法整除的最后一个datasize进行丢弃

num_workers：表示加载的时候子进程数

因此，在实现过程中我们测试如下（紧跟上述用例）：


from torch.utils.data import DataLoader
# 读取数据
datas = DataLoader(torch_data, batch_size=6, shuffle=True, drop_last=False, num_workers=2)

此时，我们的数据已经加载完毕了，只需要在训练过程中使用即可。

4.查看数据

我们可以通过迭代器（enumerate）进行输出数据，测试如下：


for i, data in enumerate(datas):
 # i表示第几个batch， data表示该batch对应的数据，包含data和对应的labels
    print("第 {} 个Batch \n{}".format(i, data))

输出结果如下图：

结果说明：由于数据的是10个，batchsize大小为6，且drop_last=False，因此第一个大小为6，第二个为4。每一个batch中包含data和对应的labels。

当我们想取出data和对应的labels时候，只需要用下表就可以啦，测试如下：


# 表示输出数据
print(data[0])
# 表示输出标签
print(data[1])

结果如图：

以上为个人经验，希望能给大家一个参考，也希望大家多多支持软件开发网。

大数据 LOAD 数据 Dataset pytorch

1024 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

CSS 选择器

Liana 2021-05-05

548

详解css栅格系统在项目中的灵活运用

Ursula 2020-04-01

908

thinkphp5.1框架实现格式化mysql时间戳为日期的方式小结

Naomi 2020-03-18

805

python实现Linux异步epoll代码

Bella 2020-07-24

638

利用kernel提供的接口打印进程号(pid)

Cynthia 2020-09-01

568

vuex页面刷新数据丢失解决方法详解

Psyche 2023-07-20

216

Vue3中是如何实现数据响应式示例详解

Winola 2023-07-20

1347

sessionStorage多Tab标签页数据共享问题分析

Gella 2023-07-20

数据结构之带头结点的单链表

Grizelda 2023-07-20

1827

C++各种输出数据类型详解

Janna 2023-07-20

623

Golang基于Vault实现敏感数据加解密

Ophelia 2023-07-21

1848

用Python进行数据清洗以及值处理

Crystal 2023-07-21

283

Python常用的数据清洗方法详解

Laila 2023-07-21

1301

Python multiprocessing.value实现多进程数据共享的示例

Aine 2023-07-21

1131

深入探究python中Pandas库处理缺失数据和数据聚合

Bliss 2023-07-21

191

Python中Pandas库的数据处理与分析

Lillian 2023-07-21

155

pandas删除重复数据简单方法

Tertia 2023-07-21

311

详解C#如何将枚举以下拉数据源的形式返回给前端

Olive 2023-07-21

797

Flutter中跨组件数据传递的方法总结

Angie 2023-07-21

906

python简单几步实现时间日期处理到数据文件的读写

Nora 2023-07-24

926

我要提问

致谢

帮助他人，成就自己。

人生最大成功就是伸出热情而温暖的双手，尽自己所能去帮助身边的每一个人，只要无私的奉献，就会收获到美好的生活。

1024问感谢每一位朋友的帮助和支持。

软件开发网提供编程的基础软件技术培训教程,软件开发编程实例讲解Go,Node,HTML,CSS,Javascript,Python,Java,Ruby,C,PHP,MySQL等软件开发编程语言以及数据开发的基础知识，也提供大量的软件开发在线实例、从入门到精通就在1024问。

育儿网微养生全球行美食街育儿菜谱大全海南旅游女性养狗百科星座