六、 分类检测数据集生成
分类检测工具 专门用于构建深度学习分类模型所需的训练数据集。它支持在导出前进行实时数据增强、多格式转码以及灵活的样本地图划分,能够一键生成符合主流框架要求的目录结构。
¶
1. 功能核心流程¶
分类工具按照以下逻辑顺序执行操作:
-
读取:扫描输入目录下按文件夹分类的原始图片。
-
增强:根据配置对每一类样本进行镜像、旋转或色彩变换。
-
转码:将所有生成的样本统一转换为指定的图像格式。
-
分发:根据设定的比例将数据分拨至
train(训练集)和val(验证集)文件夹。
2. 数据增强配置¶
在生成之前,您可以勾选以下增强算子。系统将基于原始图片,按照您设定的 「图数」 进行变换扩充:
| 增强算子 | 物理逻辑 | 工业应用建议 |
|---|---|---|
| 横向镜像 | 左右翻转(Y轴对称)。 | 适用于区分工件的左/右侧型号。 |
| 纵向镜像 | 上下翻转(X轴对称)。 | 适用于无固定放置方向的传送带物料。 |
| 旋转一周 | 360° 随机角度旋转。 | 圆形工件必备,解决点标样板的旋转不变性。 |
| 色度/对比度 | 随机亮度与色彩偏移。 | 模拟生产现场光照波动及相机曝光差异。 |
3. 生成参数设置¶
图像输出格式¶
您可以根据存储空间或后续训练框架的要求选择目标格式:
-
BMP / PNG:无损格式,推荐用于高精度工业缺陷分类。
-
JPG:压缩格式,适合大规模数据集,节省磁盘空间。
-
原格式:不进行重编码,直接保留输入文件的原始后缀。
训练集与验证集比例¶
- 逻辑说明:比例数值代表分配给训练集的百分比。
- 分包示例:若设为 80,则 80% 数据进入
train文件夹,20% 进入val文件夹。 - 特殊设置:若设为 100,则系统不进行切分,全部输出为训练集。
4. 操作步骤¶
- 配置路径:
- 输入目录:选择包含原始分类文件夹(如
OK/,NG/)的根路径。 - 输出目录:指定生成后的数据集存放位置(建议新建空文件夹)。
- 输入目录:选择包含原始分类文件夹(如
- 设定图数:在界面输入每个类别最终希望生成的图片总数。
- 执行生成:确认格式和比例后,点击 [开始生成]。

5. 生成后的目录结构预览¶
完成生成后,您的输出目录将呈现如下结构:

dataset_20260415_114920/
├── train/ # 训练集路径 (Train)
│ ├── OK/ # 增强后的正常样本
│ └── NG/ # 增强后的缺陷样本
└── val/ # 验证集路径 (Val)
├── OK/ # 自动划分的验证样本
└── NG/ # 自动划分的验证样本
├── Label # 包含类别信息
├── train_list # 训练集的图片列表
├── val_list # 验证集的图片列表
开发经验分享
在工业分类任务中,样本均衡至关重要。如果您的原始 NG 样本只有 20 张,而 OK 样本有 200 张,请将 NG 增强至 200 张左右,这样能有效防止模型产生类别偏向。