跳转至

六、 分类检测数据集生成

分类检测工具 专门用于构建深度学习分类模型所需的训练数据集。它支持在导出前进行实时数据增强、多格式转码以及灵活的样本地图划分,能够一键生成符合主流框架要求的目录结构。

class.png

1. 功能核心流程

分类工具按照以下逻辑顺序执行操作:

  1. 读取:扫描输入目录下按文件夹分类的原始图片。

  2. 增强:根据配置对每一类样本进行镜像、旋转或色彩变换。

  3. 转码:将所有生成的样本统一转换为指定的图像格式。

  4. 分发:根据设定的比例将数据分拨至 train(训练集)和 val(验证集)文件夹。


2. 数据增强配置

在生成之前,您可以勾选以下增强算子。系统将基于原始图片,按照您设定的 「图数」 进行变换扩充:

增强算子 物理逻辑 工业应用建议
横向镜像 左右翻转(Y轴对称)。 适用于区分工件的左/右侧型号。
纵向镜像 上下翻转(X轴对称)。 适用于无固定放置方向的传送带物料。
旋转一周 360° 随机角度旋转。 圆形工件必备,解决点标样板的旋转不变性。
色度/对比度 随机亮度与色彩偏移。 模拟生产现场光照波动及相机曝光差异。

3. 生成参数设置

图像输出格式

您可以根据存储空间或后续训练框架的要求选择目标格式:

  • BMP / PNG:无损格式,推荐用于高精度工业缺陷分类。

  • JPG:压缩格式,适合大规模数据集,节省磁盘空间。

  • 原格式:不进行重编码,直接保留输入文件的原始后缀。

训练集与验证集比例

  • 逻辑说明:比例数值代表分配给训练集的百分比。
  • 分包示例:若设为 80,则 80% 数据进入 train 文件夹,20% 进入 val 文件夹。
  • 特殊设置:若设为 100,则系统不进行切分,全部输出为训练集。

4. 操作步骤

  1. 配置路径
    • 输入目录:选择包含原始分类文件夹(如 OK/, NG/)的根路径。
    • 输出目录:指定生成后的数据集存放位置(建议新建空文件夹)。
  2. 设定图数:在界面输入每个类别最终希望生成的图片总数。
  3. 执行生成:确认格式和比例后,点击 [开始生成]

classdata.png


5. 生成后的目录结构预览

完成生成后,您的输出目录将呈现如下结构:

classcomplete.png

dataset_20260415_114920/

├── train/              # 训练集路径 (Train)

│   ├── OK/       # 增强后的正常样本

│   └── NG/       # 增强后的缺陷样本

└── val/                # 验证集路径 (Val)

    ├── OK/       # 自动划分的验证样本

    └── NG/       # 自动划分的验证样本

├── Label         # 包含类别信息

├── train_list    # 训练集的图片列表

├── val_list      # 验证集的图片列表

开发经验分享

在工业分类任务中,样本均衡至关重要。如果您的原始 NG 样本只有 20 张,而 OK 样本有 200 张,请将 NG 增强至 200 张左右,这样能有效防止模型产生类别偏向。