大数据时代的数据集蒸馏，大型数据集上的首次成功-大数据–飞度网络科技 - 专业的全球云服务器、服务器租用托管、云安全服务、全球域名注册提供商

大数据时代的数据集蒸馏，大型数据集上的首次成功

来源:互联网日期:2023/12/1 16:23:52 阅读量:(0)

11 月 30 日，全球第一所人工智能大学——穆罕默德·本·扎耶德人工智能大学（MBZUAI），在 arXiv 预印平台发布了题为《大数据时代的数据集蒸馏》（Dataset Distillation in Large Data Era）的文章。

数据蒸馏应用及当前挑战

数据集蒸馏（Dataset distillation）引起了计算机视觉和自然语言处理各个领域的广泛关注。

数据集蒸馏的目的是从大型数据集中生成较小但具有代表性的子集，从而可以有效地训练模型，同时评估原始测试数据分布以实现良好的性能。

随着数据和模型规模的不断增长，这种数据集蒸馏概念在大数据时代变得更加重要，因为数据集通常非常庞大，带来存储、计算和处理方面的挑战。

一般来说，数据集蒸馏可以提供公平的竞争环境，使计算和存储资源有限的研究人员能够参与最先进的基础模型训练和应用程序开发，例如在当前的大数据和大模型政权中负担得起的 ChatGPT 和 Stable Diffusion。此外，通过使用蒸馏数据集，有可能减轻一些数据隐私问题，因为原始的、个人可识别的数据点可能会被排除在蒸馏版本之外。

最近，在各个研究和应用领域采用大型模型和大数据已成为显著趋势。然而，许多先前的数据集蒸馏方法主要针对 CIFAR、Tiny-ImageNet 和下采样 ImageNet-1K 等数据集，发现将其框架扩展到更大的数据集（例如完整的 ImageNet-1K）具有挑战性。这表明这些方法尚未完全按照当代的进步和主流方法论发展。

提取各种大规模数据集，优于所有先前方法

许多先前的工作旨在与原始数据集的各个方面保持一致，例如匹配训练权重轨迹、梯度、特征/BatchNorm 分布等。

在该研究中，研究人员展示了如何提取各种大规模数据集，以实现优于所有先前方法的最佳精度。

在此，MBZUAI 研究人员将注意力扩展到 ImageNet-1K 数据集之外，以 224×224 的传统分辨率进入完整 ImageNet-21K 的未知领域。这标志着在处理如此庞大的数据集以进行数据集蒸馏任务方面的开创性努力。其方法利用简单而有效的课程学习框架。精心解决每个方面，并制定强大的策略来有效地训练完整的 ImageNet-21K，确保捕获全面的知识。

具体来说，根据先前的研究，该方法最初训练一个模型，将原始数据集中的知识封装在其密集参数中。然而，研究人员引入了一个精炼的训练方案，超越了 Ridnik 等人在 ImageNet-21K 上的结果。