中国人工智能学会

Chinese Association for Artificial Intelligence

GAITC 2017 智能驾驶分论坛实录丨Joyce Farrell:图像系统模拟

发布时间:2017-05-30

微信图片_20210913130840.png

Joyce Farrell
斯坦福大学图像系统研究中心执行主任、教授、博士

以下是Joyce Farrell教授的演讲实录:

我先跟大家介绍一下斯坦福的图像系统工程中心,我是这里的执行主任,这是斯坦福的工程技术学院和相应的公司一起建立的中心,我们希望能够推进人与人之间的交互,当然也是利用这个图像系统,我们其中一个重要的任务,就是要推进多学科的培训研究和合作,这对我们很关键,我们整个大学的所有教授在神经科学和计算机科学,工程心理学等方面都有他们自己的建树,而且我们也在实现跨学科的研究我在施乐工作了一段时间,当时研究了图像的交汇界面,那会已经认识到了多学科,高素质人才之间合作的重要性,我们当时有不同专长的人才相互合作,建立了HP惠普的研究室,而且我们所有的不同学科的科学家不断地在提升我们的图像系统,我们当时还征询了一些心理学专家的意见。


我离开HP以后做了一段时间的咨询,我也在帮助企业做手机,我们很清楚一点,必须有款学科的团队一起合作,我记得当时去了一个企业,他们给我展示了一张图像,看了以后就问这个图像有什么问题,当时我看到一个团队正在就过程管理进行讨论,我又和光学相关的主任进行了讨论,也和感应器方面的主任进行了交流,还有显示器方面的相关领导进行了交流,我发现他们各自为战,没有太多的交流,我们需要有一个工具让他们一起合作。因为不同的团队,他们有自己的小世界,比如说感应、视觉、光纤、显示器等等,它们应该都是一体的。因此,我们开发了一个图像系统工程工具箱,我们可以把它当做一个模型来推进图像的处理,而且可以让工程师在这个系统上进行沟通。我们也把这个系统介绍给了很多做手机摄像器的公司,而且可以让他们不同团队相互交流,调整图像处理的系统,调整他们的摄像头,我们发现只要有硬件的源头,他们就可以做出一个模拟器。还有手机,包括苹果、华为等等涉及的摄像器,这些都可以模拟整个图像系统处理过程,而且我们也可以从中研究怎么样改变其中的一个部分,就造成整个效果的改变,我一会跟大家详细讲这个问题,这里先指出下一代的图像处理系统,光域360度环绕式拍摄的摄像机,还有头戴摄像器。我们先讲一下电子数码摄像机的图像系统,再讲讲新的图像系统和它们的原形,我先给大家讲工具箱,还有手机的摄像器,我们将利用这个系统开发一个基于机器学习的手机摄像器。很多企业也在用更新的项目实现这种平衡,就是像素、分辨率、动态、范围、滤镜等等,都在实现平衡,我希望能够表现出来图像系统模拟的强大力量。当然,我们也希望把这个进程扩展到其他的图像系统,比如说视频,还有汽车的智能。之后我会跟大家讲更多的应用领域,大家就明白我们为什么要去开发这些工具了。

最开始,我们认为必须要去评估所有的图像系统的部件,我们就建了很多模型单元,进行了计算模拟。我们对光学元件,对感应器ISP和显示器,和人的视觉系统的属性都进行了一些模拟。这是另外一个实验,我们需要有一个非常有意义的单元,有一些单元是非常有意义的,有一些单元是没有意义的,我们要用非常有意义的单元进行描述。比如说我们描述一个场景的时候,我们就会描述这个场景当中每一个因素,百分之百进行一些描述。我们就会将这个场景当中所有物体都进行描述,我们就会看到所有的物理的单元都会在这个单元里展示出来,我们可以看到光电的情况,所有的物理单元都会展示在描述当中,这些都是非常有用有意义的单元。我们还做了其他的事情,比如改变了照明的一些辐射源等等。

我们现在来到光学元件方面,这也是连接到传感器,我们也有一个模型,这里我不跟大家详细展示了,我给大家发送一个软件的链接,大家可以点开链接,在这个图形当中对光子进行描述,在这个场景当中光学元件展示出来,我们就可以对光学元素进行模拟,就可以将辐射源展示出来。可以看到,所有的光子以什么样的速度照射到屏幕上。

接下来我们看一下描述传感器方面的内容,也会对光伏进行捕获,会对传感器每个像素进行描述。我们会将这些传感器当中的光子进行描述,所有的这些内容都来进行计算,我们可以计算出传感器的像素和光伏等等。另外,我们还会将噪音的源头纳入到计算当中,可以看到在这个场景当中,这些噪音是从哪里来的,所以这些所有的属性都会纳入到我们的建模当中。我们从这个传感器来到图像处理这部分,这是苹果公司和其他公司考虑的问题,他们会对一些丢失的传感器的值进行连接,并且对色彩进行转化,并且降噪,他们采取了很多措施制造出非常高质量的图像。我们需要对图像的质量进行优化,这也是很多公司非常关注的问题,后面我会给大家讲讲我们的图像处理系统是如何运作的。

有了这个图像以后就要展示出来,就有一个显示器,在这个显示器上面也会对这个场景进行显示,我们就会知道光源是从哪里来的,我们会对光子进行计算,这也是属于物理单元的一部分。也就是说,每秒钟,每纳米,每平方米有多少光子打到了显示屏当中,这些因素都会显示出来。这部分我不详细讲了,大家可以从显示屏转换到人类的视觉系统的处理当中,这是一个非常复杂的内容,如果大家感兴趣的话,我在另外的项目当中给大家介绍人类视觉系统的运作。

刚才也提到了,我们有一个完整的图像处理系统,在这里举个例子,这个图像处理系统是基于机器学习的,我们可以定制化的定律图像处理,可以进行一些新型的图像处理的工具也是有可能的,因为我们可以进行模拟,找到一些例子进行图像的处理。我们可以对图像处理系统进行模拟,这样可以产生出新的图像处理的方法,在这里发表了很多的论文,如果大家有兴趣我给大家一些链接,可以看到一些算法,如何使用这些图像处理系统。现在人们花了很多时间建立这种图像处理的系统,我们可以看到,有一些光的过滤器,还有一些传感器等等,摄像头就会有非常清晰的图像效果出来。另外,人们还可以使用一些其他的方法来处理图片,我们可以得到非常高质量的图片,像素也是非常高的,而且我们还可以对一些光源进行过滤,这样的话我们的图像质量就会非常清晰。但是我们也存在这些问题,目前还没有图像处理的产品出来,所以我认为所有的图像处理都是要非常个性化的。刚才我给大家介绍了系统,我们有一些多光谱的图像处理的系统,这也是我们的动机。我们要开始进行系统的建立,将所有的像素和光子都能够显示出来,再将光谱的照射描述出来,所以从场景开始,也是从场景结束的。不仅仅是对传感器进行模拟,而且对光学元件也进行模拟,我们对场景进行模拟,我们可以告诉大家,模拟出来的场景是什么样的,在显示屏上显示出来我们有一个场景,我们就会知道理想的效果是什么,从摄像头出来的图片的效果是怎样的,然后就会进入到传感器当中,这是我们模拟预测的结果,摄像头出来图片的效果。可以使用不同的图片,有一些是我们获得的图片,有一些是理想化的图片,有一些是像素非常高的图片。可以将像素纳入到RGB系统当中,我们在使用这个系统的时候也会进一步改进,也会找到最佳的图片效果是如何处理出来的。

我们比较一下,过去的传统图像处理系统也是从RGB开始的,我们再进行一些图像处理的过程,就会有一些校正,这是所有人都会做的。我们会对光影进行校正,然后就会进行个性化的处理,降噪,算法的计算等等。所有的算法都会进行优化,总结成两个步骤,一个是我们要选择正确的像素,对图像进行处理,这也是当地的系统,可以根据这个算法进行图像的处理,所以总结起来它一共包括两个简单的步骤。

我给大家总结一下,我们设计这个系统的原因呢,大家可以看到,右边是RGBW的输出,它的图像是非常灰暗的,光亮度在降低,但是可以从低的光亮度增加到高的光亮度,我们才能看到一个清晰的图片,这也就是为什么我们需要RGBW的原因,有了这个图像处理系统,就可以增加图像的光亮度,但是如果我们使用传统的模式,就不能增加图像的光亮度。我们是基于模拟进行这个系统的建立,也会在真实的场景当中应用这个系统,包括一些传感器和光学元件,我们也在其他的系统当中运用了这个原理,但是基本的观点,就是我们需要制造原形,这是非常重要的。如果没有模拟,这个系统就无法建立。

这是一个非常好的系统,我们再看下一个步骤,就是我们现在需要的步骤。目前系统的应用还是有一些局限性,有一些特定的情况是很难捕获图片,视频的问题也是比较困难的。另外,我们需要一些深度的信息,还有一些生活化的场景,也需要它们进行图片的捕获,这是我们目前受到的极限性,这是展示出来的例子,我们在获取信息的时候遇到的问题,我们需要使用新的图像处理的系统,左手给大家展示的是36度全面视频的图像系统,我们可以使用特定的摄像头寻找解决方案。我们需要在建立系统之前进行模拟,需要对场景进行模拟,我们可以在模拟当中,在这个场景当中去设置一些摄像头,另外我们还需要获得3D的功能,这个新的图像处理系统就能够捕获和展示3D的信息,所以第一件事情就是增加一些有意义的单元,然后就可以进行3D图像展示,可以使用一些工具箱进行图像的展示和视频的拍摄。最终有这样一个检测的系统流程,从光学元件到传感器,到显示屏,再到人类的视觉系统等等。还有模型的演示,我之后会更多跟大家讲解,这里有更多的图片,第一代我之前也讲过,就是基于第一代学生,包括肖博士,他在斯坦福也工作过一段时间。第二代,这是我们更年轻的一批学生,这些都是图像系统模拟当中的一些专家。

大家可能注意到了,我们这里做的就是把光学系统当中的图景取出来,用3D的图像效果进行渲染,进行再追踪,或者用不同的图像作为我们常规的感应器模拟的基础。因此,我们也制作出了3D的网格,和表面质感和色彩方面的模型,还有景深地图等等,这种混合器可以让我们实现3D的虚拟场景的模拟,我们可以控制光线,可以控制色彩光线的位置,还有摄像头的位置,可以发现光线的平谱分布,还可以利用模型调整镜头,我们建立了这个模型,用了混合器,用PBRT提升光学成像,这也是我们尝试做的。当然我们也可以改变场景的光照,也可以改变相继的镜头,比如这里有一个光域,我们用了光域图像系统,还可以改变场景的光照,这些都是我们做过的调整。在这个基础上,我们就有了一个光学成像,它可以考虑景深。

现在我们来看平谱上另外一段,就是就不同的感应器进行建模,比如光域的中心,不同的成像感应器,还有我之前跟大家展示过的不同模型,这种感应器滤镜,可以通过模拟排除噪音,我在这里讲一讲我们如何利用第二代的图像系统,如何应用它,Trisha为我们设计了光学系统,还有360度的环绕成像系统,她创造了一个3D场景,比如说Facebook的镜头可以进行调整,比如平谱系统,还有不同的单元都可以进行模拟,还有光学中心也可以建模。这里我给大家展示一些模拟状况,比如在Facebook系统当中,大家会看到不同的广角感应器照出来的照片效果,虚拟的场景更加写实,大家就知道出来的照片是什么样的,这里我们得到了不同的图像过后,就可以建立一个立体的光域光域照片,也还可以把不同的照片调整变成全景照片,所有这些算法我们也在进行实验。我们也知道理想的全景的照相机应该是怎么样的,如果我们用软件进行计算评估的话,你会发现改变相继的数量或者使用软件改变镜头的种类等等,都可以在模拟当中进行,去观察它的效果,最后的图像质量也会受到影响。

另外一个例子,这是Blasinski教授做的项目,光线是怎么通过媒体进行传播的,我们了很多模型,包括PBRT,光线如何被水折射和散射,因此我们建立了这样的模型,没有水的时候图像将会是什么样的质量,如果有水的话,图像的质量会不一样,大家可以看到这种长波光线都会被吸收,照出来的图像质量就有一点不一样,我们在这方面也会给大家介绍很多论文。

下一步的应用是怎么样的呢,就是利用环境因素,之前跟大家讲过,我们怎么样用环境对于设备进行模拟,产品是用于人类消费的,当然机器学习应用也更需要我们有更多的观察。我们现在知道了现状如何,可能大家比我更清楚,也就是有非常多的训练极可以让我们利用,我们可以培训机器,培训算法,让它们学会识别鱼,还有一些测试图像,让它们识别鱼。当然我们在这里可以让机器人进行深度学习,可以让它们辨认看到场景当中的人物和动物等等,当然也对这些场景进行刚学的处理,这是都是基于GRB图像的。这张图片的具体来源不清楚,我们不知道镜头到底是什么样的质量,什么样的类型,也不知道图像处理算法是怎样的,感应器企业是哪一家,什么都不知道,你也不知道它怎么样进行调整过后会影响机器学习最终的效果和能力。另一方面,自动驾驶方面深度学习的意义,应用非常重要,因此我们在这里装了很多的感应器,这里就有,如果在危险的驾驶条件下或者是环境比较差的环境下比较差,我们都可以进行模拟,现在越来越多的人开始用3D图像模型,建立这种模拟系统进行机器学习,特别是这种自动驾驶汽车,还有自动驾驶的智能,我们认为这个特别好,可以制造这种虚拟的场景。还有图像上相关的标记,还有不同的地点,相关的信息都可以收集的更足,但是我们唯一的限制就是在于它是RGB格式的,还有帖头和光学,我们和吉林大学进行了合作,我们加上平谱光学的工具,之后对感应器的设计进行了模拟和建模,对于深度学习和人工智能的设备进行了测试,所有这些都可以让我们看到这里有一个3D的场景,这是我们得出的结果。我们在这里只要装上照相机,我们就可以发现在不同的场景下,照出来照片的性质也是不同的,我们也可以猜测这个相机可能捕捉照片的样子,还可以改变成像感应器的性能,还可以改变镜头的效果,所有这些都是我们进行的模拟。比如在雾天进行测试,看一下机器学习,算法是什么样的,那有什么挑战呢,3D场景来源很多,但是没有统一的标准,在VR领域工作的人很清楚,我们有非常多的3D的内容,但是没有一个统一的,可以在实际状况之下应用的标准,这是一个大问题。如果我们想增加光谱反射方面的要素,我们必须要让它有一个物理的单位,比如以米为单位,这就是我们的挑战之一。

还有就是在计算硬件方面的条件,当然人力方面有调整,我们可以提升图像的硬件,但是这要求我们去具体其他具体分析,去个性化我们的系统,我们希望有专业人士在这方面努力。未来我们要建立大的,可靠的图书馆,可以叫数据库,当然我们也希望加快光线的跟踪,同时维持我们的计算的清晰度,也希望建立更加活跃的社区,非常感谢。

邓伟文/主持人:刚才您提到了图像模拟过程,一方面是为了人的感知,另一方面是机器学习,但是否还有一个方面就是为图像处理算法,包括识别、检测等。这个从Volts到Bits的过程有什么区别吗?

Joyce Farrell:我们的目标是要输出不同的图像,当然可以保证不同场景之下输出的图像尽量一致。我们希望能够对场景当中的物品进行标记,用汽车智能去实现,这方面我们还不是专家,但是我们希望有更加细腻的数据极,帮助我们运行这个系统,当然也有一些同事现在希望能够实现全景视觉,他们也在推进成像感应器的开发,以及进一步的应用,但是我们必须要思考怎么样具体的去应用,而且要符合大家的需求。

邓伟文/主持人:另外一个问题是,你讲到了人工标注的挑战。对于模拟图像和场景,因为我们有模型,是否我们可以完成自动标注?

Joyce Farrell:对,我们可以进行自动标注,这也是它的优势和价值所在,谢谢。

邓伟文/主持人:我们与斯坦福大学在图像系统模拟方面也有非常紧密的合作。

(本报告根据速记整理)

CAAI原创 丨 作者Joyce Farrell教授
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会