智能视频理解,照亮真实生活

2019-01-23

经历了从对宇宙浩瀚充满好奇,敬畏如神祗,到提出戴森球构想为地球文明汲取能量,人类的认知今时不同往日,对科学的探索也发生了马里亚纳海沟式的跨越。深度学习提高图片识别精准度,开启AI热潮;Alpha go闯入视野;自动驾驶影响传统汽车产业……在被称为“科学的极致”的人工智能面前,人们憧憬、欣喜、焦虑、恐慌。一如回到了我们祖先曾站立的卡拉尼什立石阵前,抬起头观测月亮朔望晦弦的夜晚。


追求真理和改造世界的雄心驱动着科学家们不断追问宇宙的终极问题。10月27日,《麻省理工科技评论》和DeepTech深科技联合在北京主办了“全球科技青年论坛”,为科学界人士创造了到场论道的机会。“全球科技青年论坛”打破了过往科学界陈旧的论资排辈传统,也不局限于某些热门的技术领域。论坛召集了一批拥有着改变未来力量的创新者。小视科技联合创始人,上海交通大学教授、博士生导师倪冰冰受邀出席。优秀科学家、创业者,与当代一流互联网科技公司的领军人物共话科技之美,探讨人工智能如何触及和改变现代生活的各个方面。



业界对计算机视觉技术的研究分析已经有几十年的积淀。随着视频在人们生活中所占分量越来越重,视频的智能理解也成为计算机视觉中的前沿领域。在深度学习技术出现之后,这一领域产生了突破式的发展,变得更加精准,更具有实际应用的价值,IBM、GOOGLE都曾为视频智能理解的深入研究发布视频数据集。倪冰冰指出,视频智能理解是体量最大的人工智能,影响到人脸识别、动作识别、物体检测、媒体制作、视频推荐等生活中的各方各面。



目前来看,视频智能理解还面临着诸多挑战。比如时序信息利用问题,识别视频里面的目标(人、车、物),因运动、姿势、光照以及设备分辨率等原因,识别难度大,如何汇聚帧间信息;视频目标(人、车、物)尺寸跨度大,单一模型极易欠拟合;YouTube等视频网站每秒钟承受着200hrs体量的视频上传,如何将大型深度学习模型,压缩为轻量化模型,使其支持移动应用等。


倪冰冰和小视科技AI研究院提出从时间尺度建模、空间尺度建模、网络模型优化、视频生成等角度应对视频智能理解的挑战。小视科技AI团队的成员们基于时序特征金字塔,对时间轴提出分尺度建模,通过深度递归神经网络-LSTM提取多时间尺度运动特征。这一研究在由谷歌、斯坦福等国际顶尖人工智能研究机构主办的,最大规模、挑战难度最高的THUMOS’15行为检测国际竞赛中,获得视频检测小组国际第一名。面对摄像头下普遍的“找人” 难题,团队从双路LSTM网络入手,取代传统的取帧、识别方法,使跨摄像头行人重识别的效果达到最优。目前此项技术已在跨相机客流实时分析系统中应用,支持客流大数据的展示和百路以上监控视频,行人重识别准确率超过95%。对于网络视频的处理,人们更倾向于在手机端上进行。这就要求对视频进行网络模型的优化。倪冰冰和小视科技AI研究院着手利用计算速度快、网络轻量化、精度保持好的残差二值网络压缩算法进行压缩。将轻量化深度网络运用到人脸识别、活体检测技术中,令门禁闸机、智能访客机能够存储更大容量的人脸图像,以更快速度运行。



在视频内容制作的新战场,小视科技AI研究院大胆地提出了“无中生有”的概念。未来的动画是否可以离开画师,自动生成?小视频是否不用现场拍摄?在跨模态的空间中,如何实现特征的高效匹配?怎样能给AI看图像就生成背景音乐,看篮球比赛就生成自动解说?以上这些,都离不开好的识别和生成的相辅相成。小视推出了基于骨骼的视频生成技术,基于单人行为的视频生成结果,交互行为视频生成技术,交互运动视频生成结果等。并将上述运用到广播电视、媒体艺术、短视频、网络直播和交互系统中。视频智能生成技术,正在从各个切口嵌入和改变人们的生活。



倪冰冰表示,下一阶段的研究目标,是以安防识别、无人驾驶、智能医疗为研究对象,希望能让视频的智能识别与智能生成“左右互搏”,通过AI分析视频,为这些领域提供成熟的解决方案,提高人们的驾驶、安防等场景中的安全性,尽最大可能的保障生命安全。