数字图书馆

CCIS 2019演讲实录丨澎思科技申省梅：深度学习视频智能化会为产业带来哪些影响？

发布时间：2019-12-26

由中国人工智能学会联合国际电气与电子工程师协会（IEEE）北京分会发起的2019年第六届IEEE云计算与智能系统国际会议（CCIS 2019），于12月19日-21日在新加坡顺利召开。会议以高规格、高水平的特色深受国际同行关注，形成了“小而美”的会议风格，是中国人工智能学会建设世界一流学会、深化国际交流与合作、提升我国人工智能世界影响力系列举措中一项重要的国际活动。

12月19日，来自澎思科技（PENSEES）首席科学家、新加坡研究院院长，前松下新加坡研究院副院长申省梅，对深度学习视频智能化带来的产业影响做了介绍。

今年下半年，一部叫《蜻蜓之眼》的电影办了一场艺术展。和“传统”的电影相比，这是一部既没有摄影师，也没有演员的剧情片，其影像全部来自公共渠道的拍摄视频。

据统计，到2020年全世界将有10亿个摄像头在使用。另一个统计数据则显示，中国目前约有1.76亿个摄像头，三年之后这个数字将是6亿。
一个事实是，由于存储空间的问题，其中很大一部分视频都只能被丢掉。

机器视觉在过去几年已经被探索过，但直到最近几年，人工智能和深度学习才为这个行业带来了新的变化。现在，我们看到，机器视觉被深度学习推向了一个新的水平，同时带来了新产品、新应用、新业务，甚至是全新的行业。

微信图片_20210901095016.png

申省梅

申省梅，澎思科技（PENSEES）首席科学家、新加坡研究院院长，前松下新加坡研究院副院长。

作为计算机视觉与深度学习领域顶级科学家，申省梅领导超40人的算法研究团队，获得十余项计算机视觉领域国际顶级竞赛冠军，累计专利300余项，致力于监控与安全、智慧城市、自动驾驶、智能机器人以及AI 工厂自动化解决方案等领域的相关技术的开发部署和落地。

申省梅曾联合新加坡国立大学LV组参加PASCAL VOC（视觉物体分类）连续三年获奖，在美国国家技术标准局（NIST）主办的非受限条件下人脸识别竞赛IJB-A获得了人脸验证（verification）与人脸辨认（identification）的双项冠军，在微软百万名人识别竞赛MS-Cele-1M人脸挑战赛获双项冠军。

演讲要点：

人工智能时代，计算机视觉是落地应用场景最丰富、增长最快的领域。

纵观人工智能技术在图像和视频处理上的应用历程，可以概括成四类：第一类是视频图像的恢复与增强，第二类是目标检测、跟踪与识别，第三类是视频结构化，第四类是视频智能压缩、视频摘要。

计算机视觉与其他人工智能技术，将为整个智能视图行业带来颠覆性变化，也会产生一种全新的商业模式。

以下为申省梅演讲全文，AIPharos月光社进行了不改变原意的编辑：

我今天演讲的主题是《深度学习视频智能化带来的产业影响》。最近，关于人工智能的话题很热，但我们最近也听到人工智能是否进入了寒冬的观点。不论你如何看待人工智能，你都会发现整个行业将因人工智能而改变。

以安防行业为例，我们来看看设备和应用是如何随着人工智能技术的进步而发展的。你可以看到，第一阶段我们只有模拟摄像机，没有任何当今非常普遍的数字化存储。当时，我们只能用磁带式摄像机录制模拟视频。在座的大多数同学都很年轻，也许你从来没用过磁带录像机，那种感觉就像被动地看着周围，完全没有所谓的智能。甚至就连回放，都很难做到精准定位，工作量既单调又冗长。

到了第二阶段，我们有了数字视频录像，因为我们有了图像与视频的压缩标准，例如JPEG、MPEG1、MPEG2。此后，互联网技术的进步为行业带来了巨大发展，出现了IP摄像机和NVR。即使今天，许多公司、运营商、政府机构、供应商仍在将NVR网络摄像机配合不同类型的软件一起使用，称之为内容管理软件。此后，技术上并未取得很大的突破。但是，摄像机的分辨率越来越高，从SD到HD，甚至4K、8K。这意味着，我们需要多大的空间进行存储与比对，以及传输前所未有的数据量。同时，云计算与云存储技术也变得越来越成熟，功能越来越强大，为用户提供越来越多的服务应用。

那么下一个阶段会是什么？我们看到人工智能技术的应用非常有前景。摄像机在发展，嵌入了人工智能技术的摄像头不再是被动地看。澎思科技的摄像头就结合了人工智能技术与大数据分析，可以进行人脸捕捉，包括检测、跟踪、质量评估、人脸识别等人无法做到的工作。当然，PMD也可以植入到摄像机中。

据英伟达预测，到2020年全世界会有10亿个视频摄像头在使用，另一个统计显示中国现在已经有1.76亿个摄像头，3年之后可能会有6亿摄像头。因此，我们想知道如何保存与存储如此庞大的数据，以及如何查看与搜索如此庞大的视频内容。基本上，很多视频内容就被删掉了。我们有时也想快速、轻松地从大量的摄像机中搜索目标。但当你搜索一个目标时，你需要搜索超过200个、甚至2000个摄像头拍摄的内容。

我们想知道人工智能技术是如何帮助我们实现实时检测并自动进行态势分析的。这就是我们所提到的，视频压缩确实有助于减少传输带宽和存储空间的占用，但随着摄像机数量的增加和分辨率的增加，这些问题仍然难以得到很好的解决。或许你会说，我们将使用5G与云存储，但这离我们的实际要求还有很长一段路要走。因为，要存储24小时的视频内容，或者传输一个完整的高清视频，仍然需要更快的宽带。

随着人工智能技术，特别是计算机视觉的快速发展，我们相信解决方案就在眼前。在人工智能时代，计算机视觉是增长最快的领域。

很多知名的研究人员，如Geoff Hinton和Yann LeCun，开发了诸如CNN网络。CNN就是计算机视觉技术应用的典型代表。如果不是李飞飞和他的团队开发出了大型DataSet ImageNet，今天我们不会使用AlexNet, GoogleNet, ResNet等众多模型网络，来解决不同的问题。直到今年，CVPR大会意识到这项科研成果在AI产业中的重要影响，授予李飞飞及其团队10年前提交的论文为“最具影响力论文奖”。

很多大公司未来的重点有两方面，一方面是提高摄像机的分辨率，另一方面是图像压缩。他们希望开发廉价的压缩技术，规范了新标准，试图降低视频的大小，但我们仍然认为这远远不够。虽然传输技术在提升与改进，但无论云存储与VR如何发展，他们仍在使用物理存储空间。这与人类的大脑非常不同，因为从来没有一个人说“大脑放不下新东西，接收不了新东西”。内存经过处理后，当需要存储高质量的视频时，就必须对其进行压缩。这样，当安保人员在控制中心回放时，只能看到非常模糊的图像，既看不清车牌号，也看不清人脸。

澎思科技试图利用人工智能技术解决这些问题，当然，不仅仅是解决问题，我们还需要更多创新的解决方案来为这个行业带来颠覆性改变。为了更好地理解人工智能技术在图像和视频处理上的应用，我把视频图像智能化概括成四个类别：第一类是视频图像的恢复与增强，第二类是目标检测、归类与分析。第三类是视频结构化。这对在座的许多人，甚至对这个国家其他地方的许多人来说，都是一件新鲜事。最后一类也非常新，我们会在以后看到，是视频压缩。但它不是标准的视频压缩，它是视频内容智能压缩，与对视频内容进行全部压缩相比，它更像视频摘要，即我们基于对视频内容的理解进行压缩。

首先，我们来看看图像恢复对我们有哪些帮助。图像质量差不仅是图像压缩造成的，还可能由模拟摄相机等原因造成，我在中国以外的国家仍然能看到很多模拟摄像机。中国发展的很快，模拟摄像机就被数码摄相机取代了。但在新加坡，甚至是欧洲国家，他们仍然在使用模拟摄像机，低分辨率的摄像机不但不清楚，甚至镜头也无法匹配。所以，这里我想谈谈光线不好、捕捉距离远、移动物体模糊条件下，造成的图像质量差。

下面介绍一个几个月前做的项目，这基于人脸识别的超分辨率和深度学习技术。我们知道，当脸部很小的时候，要从很远的地方捕捉它，即使是用深度学习技术也不能处理小于50*30分辨率的图像，更不用说通常一个人的脸是12*14分辨率。为此，我们找到了一种超分辨率技术，让图像中的人脸变得更清晰。

基于超分辨率技术，人脸识别的清晰度从75%提高到了97%。现在，即使是在摄像头中很小的、非常模糊的人脸，使用超分辨率后，都能识别出来。

另外一个情况是光线条件差，所以我们叫图像暗光增强。下面有两组图片，可以看到左右两边完全不一样，左边的人脸完全看不到，甚至检测不到人脸。之后，我们使用深度学习技术进行了改善。深度学习通常能提升图像质量，但复杂性很高。我们正在研究如何使用深度学习，在低光照模型中进行优化，以便放入硬件。

除了上述领域，我们还需要处理运动模糊图像，无论是物体移动还是摄像机移动，或者设备本身的延时，都会造成运动图像模糊。那么，第二类的目标识别有什么好处呢？如果不立即恢复，目标不清楚的情况下，我们就很难应用第二个类别。基于我们可以检测到的图像，我向大家展示一个例子，说明目标识别对我们的业务有哪些帮助。如果一辆车引发交通事故并逃离了现场，我们可以很快地调用107,100个摄像头，仅仅基于车辆的外观，在没有车牌号的情况下也能很快地找到这辆车，这是澎思科技的最新技术之一，打破了车辆Re-ID的世界纪录。

另一个是跨摄像头的行人Re-ID。大多数时候，我们可以进行人脸识别。但在很多情况下，由于不同的姿势或脸背对镜头，我们无法进行人脸识别。在这种情况下，我们根据人体特征，来判断身体特征和面部特征，从而很快地找到这个人。这是我们做的一些测试，黄色框中这个人根本连脸都看不到，他出现在不同的角落，但我们通过他身体的特征，会知道这是同一个人，ID是55，另外一个人ID是25。

今年7月和8月，澎思科技先后在行人再识别三大数据集Market1501、DukeMTMC-reID、CUHK03，视频行人再识别三大数据集PRID-2011，iLIDS-VID，MARS打破了世界记录。12月，澎思科技车辆再识别技术在非受限场景数据集VERI-Wild上的成绩刷新世界纪录，并打破了VCIP 2019车辆再识别大型挑战赛的最好成绩。

也许很多人对人脸识别感兴趣。人脸识别技术对约束条件下的人脸，例如一张护照照片，通过深度学习识别率可达到99.9%。虽然识别度达到了90%多，但在真实的摄像头和动态环境下，这项技术仍然有很大的提升空间。

澎思科技的面部识别在IJB-C数据集的测试中达到了97%。更重要的是，经过测试，我们的产品在真实的应用数据集上也有很强的竞争力。我们竞争对手的识别率是72%，而我们达到了92%，如果使用轻量级模型，这个比例也仍然可以达到89%。

今年11月刚刚结束的ICCV上，澎思科技参加了轻量级人脸识别挑战赛，在三个赛道都获得了第一名。可以看到，澎思科技的不同产品均在使用最新的人脸识别技术，这就是公司的发展速度。一旦我们的结果出来并修复了版本，就会迅速部署不同的产品，包括服务器平台、边缘设备，甚至所有摄像头。

第三个类别是视频结构化。视频结构化包括人脸要素、人体要素、车辆要素、非机动车要素、被识别出来的物体要素，以及人车行为描述要素。我们希望看到手动观看视频所带来的变化，这需要大量的精力，且非常繁琐。目前澎思科技的视频结构化技术可以做到人脸128种要素的结构化，位居行业第一。

最后一部分，我们将讨论视频摘要的应用。有基于视频内容的智能压缩，因为存储视频内容需要巨大的空间。我可以给你们看一些例子，基于视频内容，比如100小时的视频可以被压缩成1小时的视频。这就效率和商业价值而言，它非常具有前景。

在中国，诸如腾讯、百度、阿里巴巴等大公司都在做人工智能技术。就技术而言，澎思科技作为后发者，在技术层面已经跟他们处于同一水平，发展迅速。

澎思科技从成立之初就坚持“行业+AI”的发展策略，都是提出面向场景应用的解决方案、面向业务的算法开发。其价值在于以低成本的设备与有效的技术，快速满足客户需求。因此，客户提出需求，我们就可以快速响应，考虑他们是否需要智能平台服务，或者边缘设备，或者是AI智能摄像头。

澎思新加坡研究院团队专注于算法开发，我们的立场是，人工智能技术发展得如此之快，可以说，每隔几周，就可以看到新的技术取代目前的技术，所以我们必须保持快速的步伐。另一件事是，我们必须让我们的硬件可编程，这意味着他们可以快速迭代。基于此，我们的算法池在选择上也很灵活地包括了高端、低端等多种版本，用不同的平台和算法来满足不同客户的需求。

今年10月份，澎思科技在深圳安博会上展示了全系列软硬件产品和解决方案，其中还包括一款面向安防场景研发的AI创新型产品——澎思无人巡逻车，吸引了很多客户的兴趣。它不是简单代替人力的工作，而是在夜间、周末或者人力不足的情况下实现自动巡逻，综合分析采集到的视频和音频信息，一旦发现异常情况，进行迅速的处理，提高自动巡逻的智能性和精确性，提高警力覆盖范围。

今天，视频智能化已经影响了整个行业，这不仅仅是对安防行业，而是所有需要摄像头与视频内容的行业。未来，视频智能化与其他人工智能技术，将为整个行业带来颠覆性变化，从边端的智能硬件设备、到后端的软件算法，再到存储等。人工智能技术的发展将为整个行业带来一种全新的商业模式，也会产生像谷歌、亚马逊、苹果这样的新玩家。

转自 AIPharos月光社

中国人工智能学会

演讲实录

CAAI会士专栏

GAITC 2021 演讲速记

GAITC 2020 演讲速记

GAITC 2019 演讲速记

GAITC 2018 演讲速记

GAITC 2017 演讲速记

GAITC 2016 演讲速记

CCAI 2022 演讲速记

CCAI 2021 演讲速记

CCAI 2020 演讲速记

CCAI 2019 演讲速记

CCAI 2018 演讲速记

CCAI 2017 演讲速记

CCAI 2016 演讲速记

CIIS 2020 演讲速记

CIIS 2019 演讲速记

CIIS 2018 演讲速记

CIIS 2017 演讲速记

CIIS 2016 演讲速记

CCIS 2019 演讲速记

CAAI人工智能大讲堂 2018

吴奖 2018 演讲速记

WRC 2017 演讲速记

CIEC 2016 演讲速记

2016“探寻大师足迹”系列第二站

2016“探寻大师足迹”系列第一站

CAAI AIDL 第八期（2019）

CAAI AIDL 第七期（2019）

CAAI AIDL 第二期（2017）

CAAI AIDL 第一期（2017）

CCIS 2019演讲实录丨澎思科技申省梅：深度学习视频智能化会为产业带来哪些影响？