小视获奖 ACCV 2022 国际细粒度图像分析挑战赛 | 细粒度图像分类如何让机器看得更清？-小视科技（江苏）股份有限公司

小视获奖 ACCV 2022 国际细粒度图像分析挑战赛 | 细粒度图像分类如何让机器看得更清？

公司新闻 2023-02-02 5278 阅读

近日，ACCV 2022国际细粒度图像分析挑战赛最终成绩公布，小视科技参加了网络监督的细粒度识别赛道，在133支参赛队伍中脱颖而出，夺得第4名。

ACCV 2022 细粒度图像分析挑战赛是由南京理工大学和澳大利亚University of Wollongong等主办的国际性赛事。本赛事涉及的细粒度图像分析，其目标是对包含5000个子类别共80多万张网络图像进行细粒度级别的图像定位、识别及检索，在真实场景下有着广泛的应用价值。

AI生产落地过程中，我们同样面临细粒度化场景的算法任务，如何提升算法精度也是一个值得持续探索的课题。

小视获奖方案让我们找到了新灵感，不仅深化了我们对细粒度识别的理解，也有望加深产研结合，推进算法落地。

一、技术方案

主办方提供的数据中存在大量无关噪声数据，如图表、文本和地图，这无疑对训练结果产生影响。我们通过引入特征提取机制，建立噪声图像特征库进行特征匹配，筛选出近5万张噪声数据，提升训练集的纯净度。

筛选出的噪声样本

针对数据集中目标尺度变化差异大的问题，我们选取SwinTransFormer作为主干网络，利用多头注意力和移动窗口掩码机制，显著地提取目标特征，同时均衡训练速度和精度。

训练过程采用多种数据预处理方式，包括Resize、Flip、Mixup、Cutmix、AutoAugment、RandomErase，增加模型的泛化性。

我们加入了Sub-CenterArcface损失函数进行辅助监督Fintune模型，类内区分多个类别中心，降低噪声样本对算法的影响，促进模型进一步收敛；引入动态的Margin，对数据量少的类别给予更多的关注，降低长尾效应的影响。在训练后期我们发现辅助监督头的精度超过了主头的精度。

我们改进了数据采样器，使用Re-Balancing Sampler增加了数据量少类别的学习，通过差异化的训练模型，增强模型之间的互补性。

通过给测试集打上伪标签训练，进行动态化均衡处理，我们保证了预测类别的公平性。在此基础上进行自蒸馏，以进一步提高精度。

在测试阶段，我们使用了FiveCrops和 HorizontalFlip的TTA测试方法，单模型的精度提升明显。最终使用两个SwinTransFormer模型融合，提交比赛结果。

二、方案对比：小视方案 & 冠军方案

我们与冠军方案均选择了动态Margin和知识蒸馏的技术路线，融合模型数量分别为2个与17个。

在参数量是冠军模型的0.0395倍、计算量为0.04倍的情况下，我们之间的精度差距为2.87%。

微信截图_20230113151721-1.png

同时，我们与第二、第三名之间的差距在0.33%以内。这显示出，我们的模型在效率上的优势，可更好地实现生产任务的转化。、

三、生产运用

本次比赛丰富了我们在细粒度分类场景下的技术储备，有助于提升细粒度化算法的精度，推进视频结构化在校园、工地、工厂等真实场景的落地，如学生奔跑打架识别、加油站抽烟打电话预警、工厂中睡岗行为告警等。