小视科技:视频智能理解是“大体量”的人工智能

2019-01-23

围绕人类生活的其他事物相比,人工智能半个多世纪历时并不算长。从一开始的神学家,科学家讨论,到后来的所有行业都布局人工智能,人工智能技术高度普及,高调而全面的进入人类的生活。属于人工智能的这部“简史”,高效而垂直。现代社会很快从已经达成共识的“万物互联”走向探索“万物智能”,人工智能将更加浸入式、碎片化地嵌入生活。

在人工智能的众多类别中,哪一项应用范围广泛,最为“包罗万象”?4月25日,在由镁客网主办,苏州市科学技术局指导的以“AI创新带来的智能革命”为主题的M-TECH论坛上,小视科技联合创始人,上海交通大学副教授倪冰冰指出,视频智能理解是“大体量”的人工智能。视频智能包含人脸识别、动作识别、物体检测、媒体制作、视频推荐等内容。这项技术也正在与市场相结合,在安防监控、辅助驾驶和社交媒体中探索新的发展空间。甚至成为了一些行业的技术制高点,并引导着行业的发展方向。

倪冰冰教授认为,目前,智能视频也面临着诸多挑战。例如:时序问题突出、目标尺度变化大、视频体量大等等。面临亟待解决的难题,小视科技的AI研发团队提出了几大创新。

一是行为识别。基于时序特征金字塔,提取多时间尺度运动特征,通过深度递归神经网络-LSTM提取多时间尺度运动特征。这一研究获得了由谷歌、斯坦福等国际顶尖人工智能研究机构主办的,国际较大规模视频行为识别竞赛,挑战难度较高的THUMOS’15行为检测国际竞赛中,获得视频检测小组国际第一名。

二是行人重识别。从双路LSTM网络入手,取代传统的取帧、识别方法,解决跨摄像头行人重识别的问题。目前此项技术已在跨相机客流实时分析系统中应用。支持客流大数据的展示和百路以上监控视频,行人重识别准确率超过95%。

三是群体计数。针对人像大小变化大,单一分辨率模型无法适应的问题,基于单路CNN卷积神经网络人群密度估计算法,自适应多路CNN卷积神经网络人群密度估计算法,通过Switchable-CNN,实现自适应子网选择,解决Model Averaging问题。其典型应用案例是世博会场景下的人数统计系统。

四是将轻量化深度网络运用于人脸识别、活体检测。目前已运用到人脸识别门禁闸机,智能访客机等安防产品中。

倪冰冰教授在发言还提及到了视频从识别到生成的问题。“视频智能内容制作是人工智能的新战场”。

以上这些技术创新,已经分别在商圈客流实时分析、实时行人、车辆检测,智能医疗影像等领域实施和应用,并获得了良好的反馈。作为新工业革命的最新驱动力,人工智能不仅在走科技的前沿,同时也在全面下沉。下沉至产业,细分市场,和场景结合,去解决问题,这也正是小视科技力求的行业+AI的发展方向。

凤凰科技