|

MINIEYE联合创始人王启程:无人驾驶中视觉识别的那些事儿

阿尔法·2016-09-25 13:30
0 0 0

在9月24日牛车网举行的“汽车智能沙龙”上,国内学术前沿专家、自动驾驶领域创业者、知名投资人和权威分析师就“无人驾驶,未来何时到来”进行了精彩的介绍和讨论。其中MINIEYE联合创始人王启程发表了题为“无人驾驶中视觉识别的那些事儿”的主题演讲,详尽介绍了视觉在目标识别中的定位和特点,在场观众对于视觉识别有了更加深刻的理解。

以下为现场演讲内容实录:

大家好!我是MINIEYE联合创始人王启程,MINIEYE是一家专注于车载视觉感知技术的公司,我今天分享的主题也和我们所做的事情非常一致,是“无人驾驶中基于视觉的目标识别技术”。

一、视觉目标识别的产生背景

相信大家对无人驾驶都不陌生,除了比较高调的百度、Google以外,图中这些公司都在无人驾驶领域有一些动作和布局。不管是Google还是百度这样一步到位实现无人驾驶的飞机,还是像传统的汽车厂商一样从L1到L4逐步地推进,这两种路线中视觉的模块是高度一致的,也就是采用多传感器融合的方式,在这当中我们用的传感器有GPS等等。

在这个过程当中视觉不可或缺,主要有两个原因,首先是Camera相对于Lidar和Radar更高分辨率,更高分辨率意味更多数据和更详细的细节,细节是无人驾驶中很重要的东西。除了更多的细节以外,我们的Camera还可以提供更多维度的信息,除了形状轮廓信息以外,我们还能提供目标的纹理、颜色、灰度等等,这也使我们可以通过Camera进行更好的目标识别,识别车道线、交通标线、信号灯等的一个原因。

对于这样一个高速场景或者比较干净的工况,只用Lidar和Radar可能满足无人驾驶对环境的需求,但是换一个比较复杂的场景,这种城市环境Camera是不可或缺的。在这种复杂环境下实现一个目标识别是非常困难的,需要很高的门槛,这也是为什么现在这么大一个市场Mobileye处在相对垄断的一个原因。在这种场景下识别目标需要非常专业的视觉团队来做,否则我们只能得到五六十分非常低端的东西,没有办法满足前端的需求。

二、视觉目标识别的发展历程

用视觉来做目标识别,从提出概念到实际应用解决一些实际的问题,经过了长达50年的技术演进。最早这个概念由MIT的教授在1966年提出的,他把摄像头和计算机连接在一起,希望计算机能够自动识别摄像头拍到的内容,这在当年是一个非常有挑战性的任务,好在经过这么多年的技术推进,我们可以完成一些实际中的任务。

在这样一个长达50年的技术进展中我们发现几个趋势,首先,Learning在目标识别中扮演越来越重要的角色。这里我通过一个大家比较熟悉的人脸检测的例子来进一步的说明,在九十年代之前人脸是怎么检测的呢?我们通过经验去构建一个人脸的模型,像这样,人脸会有两个眼睛,会有左右的轮廓,通过这样构建出来的模型去识别人脸,它的好处很显然是物理含义比较直观,它的缺点在于可推广性不强,识别一个正面的人脸可以做到,但是如果角度或者光照稍微变化一下,可能就没有办法很好的工作了。

进入九十年代以后,这个行业最重要的一个进展是把“学习”的概念引入到了目标识别中来,在这里我们不再是直接定义一个模型,而是先定义一些基本的特征。再收集1000个或者1万个人脸样本,对底层的特征进行训练,将那些能够有效表达人脸的特征学习出来,然后再用这些特征去描绘我们的人脸。显然这种方式它的可推广性会强一些,但是它也有增加的问题,就是我们的底层特征还是人工来挑选的,如果我们挑选的特征不合适就就有可能没有办法很好工作。比如我们使用人脸检测常见的H特征去检测人体就有问题,就需要换个特征。

进入2010年以后,大家比较熟悉一个概念叫“深度学习”,深度学习最重要的特点是把之前我们需要去人工定义的底层特征也用学习的方式来得到。回顾一下之前的三个阶段,可以说在这个过程中,“学习”这个东西扮演越来越重要的角色,从开始我们人工去定义模型,到最后人工只定义特征,由机器来学习模型,到最后连特征都是由机器学习得到。

另外一个趋势是我们识别的内容更加精细,最开始我们使用Image Classification,它可以识别有车和摩托车,如果我们想更进一步知道车在图像中的哪个位置,就要用到Bounding-box detection,它知道有车,帮我们标出车的位置。如果想更进一步得到更多细节,想知道这个图像中像素是属于哪个目标,我们用到Pixel Labeling,它把行人、车辆、路面都标出来了。从实用角度来说,我们认为在驾驶辅助阶段Bounding-box detection就已经非常好用了,但是随着汽车无人化进程的推进,Pixel Labeling是趋势,因为它提供更多细节,细节是我们无人驾驶对环境感知最需要的。

三、视觉目标识别面临的挑战

目标识别作为一个通用的技术有很多应用,可以用在安防、考勤等等,在车载场景就为目标识别提出了更多的挑战。这种挑战只来自于两个矛盾,首先是准确性和类别内差的矛盾,准确性很好理解,比如用来识别人脸的一个考勤系统,它没识别出来,并不会产生什么后果,但是在车载的场景如果没有识别出前面的车,那可能就撞上去了,会造成人身和财产的损失,所以准确性在环境中最为重要。什么是类别内差?是我们要识别的目标之间的差异,以考勤系统来说,人脸和人脸之间的差异并不太大,无非都是眼睛、鼻子、嘴,但是在车载环境下人可能有不同的姿态,行人可能会有遮挡,有不同的光照,还有不同的天气情况,甚至有时候会遇到一些奇葩的目标,这些复杂的目标内差会给我们的准确性提出非常大的挑战。

另一个矛盾在于实时性和计算资源之间的矛盾,大家都知道交通事故的发生一般都是零点几秒的事,为了有效预防交通事故,要求系统数据处理速率至少要在30帧以上。而相应的前装汽车电子设备,一般要求要使用汽车级芯片,相对于成熟的消费级芯片而言的计算能力更弱一些,价格也更贵,如何在不影响实施前提下尽量减少预算为前提的需求,这也是非常大的挑战。

介绍到这里,谢谢大家!

点赞|0 收藏|0
免责声明:牛车网是广大网友共同参与的一家汽车行业网络交流平台,任何组织或者个人(包括专家)均可在牛车网旗下WEB网站或者APP移动端发布文章和帖子,其内容无法一一证实,所以牛车网对这些内容不承担责任。如果网站内容中存在版权和真实性等问题,请及时与我们联系,我们会在第一时间调查并做相应的删除处理。server@niuche.com
推荐文章
参与讨论

登录牛车网

还没有账户,去注册 第三方登录: