六、分类检测数据集生成

分类检测工具 专门用于构建深度学习分类模型所需的训练数据集。它支持在导出前进行实时数据增强、多格式转码以及灵活的样本地图划分，能够一键生成符合主流框架要求的目录结构。

¶

1. 功能核心流程¶

分类工具按照以下逻辑顺序执行操作：

读取：扫描输入目录下按文件夹分类的原始图片。
增强：根据配置对每一类样本进行镜像、旋转或色彩变换。
转码：将所有生成的样本统一转换为指定的图像格式。
分发：根据设定的比例将数据分拨至 train（训练集）和 val（验证集）文件夹。

2. 数据增强配置¶

在生成之前，您可以勾选以下增强算子。系统将基于原始图片，按照您设定的 「图数」 进行变换扩充：

增强算子	物理逻辑	工业应用建议
横向镜像	左右翻转（Y轴对称）。	适用于区分工件的左/右侧型号。
纵向镜像	上下翻转（X轴对称）。	适用于无固定放置方向的传送带物料。
旋转一周	360° 随机角度旋转。	圆形工件必备，解决点标样板的旋转不变性。
色度/对比度	随机亮度与色彩偏移。	模拟生产现场光照波动及相机曝光差异。

3. 生成参数设置¶

图像输出格式¶

您可以根据存储空间或后续训练框架的要求选择目标格式：

BMP / PNG：无损格式，推荐用于高精度工业缺陷分类。
JPG：压缩格式，适合大规模数据集，节省磁盘空间。
原格式：不进行重编码，直接保留输入文件的原始后缀。

训练集与验证集比例¶

逻辑说明：比例数值代表分配给训练集的百分比。
分包示例：若设为 80，则 80% 数据进入 train 文件夹，20% 进入 val 文件夹。
特殊设置：若设为 100，则系统不进行切分，全部输出为训练集。

4. 操作步骤¶

配置路径：
- 输入目录：选择包含原始分类文件夹（如 OK/, NG/）的根路径。
- 输出目录：指定生成后的数据集存放位置（建议新建空文件夹）。
设定图数：在界面输入每个类别最终希望生成的图片总数。
执行生成：确认格式和比例后，点击 [开始生成]。

5. 生成后的目录结构预览¶

完成生成后，您的输出目录将呈现如下结构：

dataset_20260415_114920/

├── train/              # 训练集路径 (Train)

│   ├── OK/       # 增强后的正常样本

│   └── NG/       # 增强后的缺陷样本

└── val/                # 验证集路径 (Val)

    ├── OK/       # 自动划分的验证样本

    └── NG/       # 自动划分的验证样本

├── Label         # 包含类别信息

├── train_list    # 训练集的图片列表

├── val_list      # 验证集的图片列表

开发经验分享

在工业分类任务中，样本均衡至关重要。如果您的原始 NG 样本只有 20 张，而 OK 样本有 200 张，请将 NG 增强至 200 张左右，这样能有效防止模型产生类别偏向。

六、 分类检测数据集生成

¶