公司新闻

新闻中心

汇集全面、前沿、深度的小视科技官网资讯与媒体聚焦报道

首届CVPR 2023大模型挑战赛 | 小视科技位列“前三”,把脉智能交通难题

公司新闻 2023-06-30 5137 阅读

近日,小视科技在第一届CVPR 2023 WorkShop 大模型挑战赛中,与全球七十多个队伍激烈角逐,取得了A榜第一名、B榜第三名的优异成绩。


首届CVPR 2023大模型挑战赛 小视科技位列“前三”,把脉智能交通难题1.jpg


CVPR 2023 1st foundation model challenge - TRACK 2 排行榜中,小视科技MiniModel脱颖而出


本次挑战赛是今年百度在CVPR 2023上举办的首届大模型workshop。竞赛以智能交通为方向,小视科技所在的赛道聚焦对场景文本图像的理解与感知,旨在提升交通场景中文本图像检索的精度。


01 大模型,如何服务智能交通?


ChatGPT大热,让我们第一次感受到了大模型的魅力,语言机器人可以像老朋友一样与你聊天。那么,大模型又会在智能交通领域做哪些事?


交通场景中存在大量检索车辆、行人的需求,高性能的图像检索能力对于交通执法、治安治理具有十分重要的作用。


首届CVPR 2023大模型挑战赛  小视科技位列“前三”,把脉智能交通难题4.jpg


传统图像检索方式标注成本较高,并且不方便进行类别拓展。随着多模态大模型技术的发展,文本与图像的表征统一和模态转换已有广泛的研究和应用,已经能够有效利用互联网上的海量图像-文本描述数据训练foundational model。这不仅可以降低下游微调任务成本,模型本身也具有较强的Zero-shot(零样本学习)能力,能够更好地识别新事物。该模型进一步提升图像检索准确度和灵活性,服务智能交通。


02 小视算法方案


本次竞赛数据集包含行人、车辆等交通参与者和大量噪声数据,任务难度提升。车辆数据差异较大,监控视角与非监控视角均有,对基础模型的迁移能力要求也很高。


车辆数据差异极大


我们使用多模态统一特征表达优化技术完成了本次交通场景检索任务。


我们的方法聚焦在数据处理、模型结构、训练策略、模型融合,额外加入了模型生成数据和开源数据,进一步提升foundation model在领域内的表征能力。我们使用多个异构模型进行later fusion,并对检索结果重新排序。


此外,我们在训练时使用prompt增强技术来优化分词歧义并增强属性特征表征能力,使用loss截断抑制噪声数据,使用冻结参数来抑制过拟合。


首届CVPR 2023大模型挑战赛  小视科技位列“前三”,把脉智能交通难题7.png


我们采用数据仿真和生成等方法去发挥foundational model的潜力,采用新颖的模型集成方法,以loss截断抑制噪声数据、prompt增强等技巧提升下游检索任务的精度。


采用多模态对比学习的技术路线,充分发挥大模型的能力,在应对场景变化和同时处理多种场景时有非常好的表现。这一方案充分发挥多模态统一特征表达优化技术的潜力,能够更好地应用于真实的交通场景中,具有较高的实际使用价值。


首届CVPR 2023大模型挑战赛  小视科技位列“前三”,把脉智能交通难题8.png


此外,这些方法在其它场景中也有一定的参考价值。小视团队将继续深入研究多模态大模型技术,探索更多的垂类场景应用,让更多人感受到前沿AI技术带来的新体验、新生活。