2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了宝安区政府的大力指导,是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流盛会,旨在打造国内人工智能领域最具实力的跨界交流合作平台。
6月30日,2018 全球人工智能与机器人峰会(CCF-GAIR)继续进行。在上午的计算机视觉专场中,臻识科技联合创始人兼CEO任鹏发展了主题为《边缘计算赋能智慧城市》的主题演讲。
依托自身在嵌入式成像系统设计技术上的优势经验以及多年在AI算法的耕耘积累,通过边缘计算技术的产品转化(智能相机),臻识科技致力于为智慧城市体系中的各大垂直应用领域:智能交通(ITS)、智能安防(IVS)、智慧商业、智能制造(FA)提供更加智能化的前端成像设备及解决方案。
在演讲中,任鹏介绍了臻识科技的智能相机。什么是全智能相机?任鹏认为,不同行业对于智能相机的要求多种多样,满足一个场景应用感知需要的相机才是全智能的相机。为了能够打造全智能相机,这其中也会遇到很多的困难,任鹏概括为成像、算法、制造三大方面。
在成像方面,任鹏认为,比较难的问题是智能相机的成像评测缺乏标准,但是成像一定要满足算法的需要,其次再来满足人的感官需要。
在算法方面,臻识科技的做法是先明确需求,确定数据集、性能指标、成本指标,同时进行嵌入式平台的方案选型和评估,接下来进行PC的仿真、算法的实现,最后是嵌入式平台的移植优化以及算法落地。
在制造方面,臻识科技通过视觉和控制的结合,用“智能”制造“智能相机”。现在,臻识科技的相机生产线上已经实现部分自动化,任鹏表示,今后将会在这方面继续投入精力。
以下为任鹏的现场演讲文稿,
任鹏:大家上午好!今天主要跟大家探讨我们在做一款智能相机的过程中碰到的困难以及尝试。
我们的产品很简单,就是智能相机。可能在座的都用过我们的产品。我们的产品虽然很小,但是分布在整个城市的各个区域,改善了人们停车的体验,让整个停车的过程变得更加便捷,这也符合智慧城市的理念,就是以人为本。
但是如何从一个概念变成落地的东西呢?这就需要感知能力的提升,这也就有了云计算和边缘计算的概念。前端的智能相机是边缘计算里面的一个重要存在。
什么才是智能相机呢?有一个提法是我们的相机在不同的场景里都可以用,在我们的理解里,这可能是理想的状态,它并不符合整个行业路径发展的需要。
比如说在智能交通领域,停车场需要的相机是什么样的?它可能需要对车辆身份接近99.9%的准确度,因为它涉及到支付,所以对识别率的要求比较高,对车速限制比较高。卡口则相反,对识别率的要求要低一点,而对车速限制比较低。对交通的流量控制、信号灯的规划等等,这些领域对车辆的识别又有另外的需求。所以单从交通领域,它就已经细分出很多场景。
再比如说安防领域,像平安城市、雪亮工程、社区楼宇、工地、校园、医院等等场景,其实每一个场景对于相机的需求是不一样的。所以我们的定义里面,满足一个场景应用感知需要的相机才是全智能的相机,这里的感知主要描述的是它能去达到或者超越人的需求。
这里有一个金字塔的描述,最底层是像素,中间层是对象,再上一层是行为。
目前在智慧城市领域,大部分的应用都还停留在中间这一层,就是对象层,而且很多场景里面底层的应用(像素层)问题都还没有完全解决。以前面几位嘉宾举的例子来说,比如说一个人脸前端抓拍、云端识别的应用,如果我们前端抓到了人脸,它是不清楚的、模糊的,其实对这个系统的识别是非常有压力的。比如说有的应用是前端的人脸识别,云端根据识别的结果再来做决策,如果前端的识别老是出问题、有误报,也会影响整个智慧城市运作的效率以及决策的准确度。
当然要实现这样一个全智能的相机有很多难点,从我们的经验出发,从下面三个点展开:成像、算法、制造。
成像方面,比较难的问题是智能相机的成像评测是没有标准的,如果有标准的话,大家工作的方式就是朝这个标准努力,比如说手机相机有一些专业的评测机构定下了一些标准,安防相机也会有一些指标,比如说解析度、灰阶、白平衡等等。但是智能相机的标准是什么呢?我们的成像什么样才算好的?最后我们定出了一个标准,首先我的成像要满足算法的需要,其次再来满足人的感官需要。这是一个很主观的概念。
在做一款相机的时候,我们先要解决它的硬件、结构、热设计、光学等等问题,当解决完这些之后,相机的ISP是一个核心的问题,普通场景的ISP的核心是拍照或者摄影时,感知这个场景是什么就可以了,包括最近有一些手机厂家,他们的相机里加入了一些场景的识别功能。目的就是识别场景之后,能选择一组更适合这个场景的ISP参数,然后让成像更好。
但是智能相机的目的是把这个场景里我所有关注的物体拍清楚,它基于的东西就是物体,所以智能相机的ISP的核心是基于物体的感知。这又变成了一个是先有鸡还是先有蛋的问题。一个场景里只有一个物体还好,但如果有多个物体,对当前很多ISP的架构设计是需要有颠覆性的。
在安防场景下,很多应用需要低快门的实现,因为有运动模糊的出现,我们要拍出更清晰的目标,所以我们的快门限得比较低,很多时候会限定在5毫秒以下,有的场景甚至会采用全局快门的相机。在这种场景下,我们还要面对场景照度比较低,反差的场景比较大。其实这是很困难的,比如说我站在这里,我看门口,因为有强光打着我,其实我是看不到外面的情况,在相机上也是一样。
所以我们现在解决这些问题的时候更多地是采用场景的细分、物体的识别,然后再通过经验上的东西指导ISP的设计,以达到理想的效果,这也是一个阶段性平衡的效果。
上面一排是同一个场景,不同的相机不同的ISP调整出来的效果,下面这个是一个宽动态的场景抓拍的效果,这两个场景快门都是在5毫秒以下,其实是很有挑战的。
这是一个人脸抓拍的场景,人脸抓拍识别的难度是很大的。当然刚才旷视和云从都讲到了,他们的识别算法很厉害,但是对这种只有20到30像素,不同的光照下、不同姿态的识别是非常有挑战的,整个系统的识别率其实并不高。这还是在白天,到了晚上,对这个场景的要求会更高一些。
如果我们的人脸抓拍的相机抓拍到的人脸图片都像一寸标准证件照的图片,其实这个识别问题会变得比较简单。
这上面两幅图,大家感觉哪幅图会好识别一些?可能大家认为是左边的图好识一些,确实也是这样,左边的图是我们产品的效果,通过我们的努力,我们在很多场景里面,通过我们相机抓拍的图片,直接把人脸识别系统的识别率提升了5%到10%。当然我们的相机也是全帧率、全画幅。
讲完了成像,再讲讲算法。算法不是面对所有场景的不同算法,我今天讲的主要是在嵌入式设备上,智能相机的开发过程中算法要解决的一些问题。
首先是一个基本流程,我们在做智能相机的时候,首先会明确需求,确定数据集、性能指标、成本指标,同时我们会做嵌入式平台的方案选型和评估,接下来我们会做PC的仿真、算法的实现,最后才是做嵌入式平台的移植优化以及算法落地,基本上都是这样的套路。
难点有很多,首先是数据,数据上面我们吃过的亏比较多。举个例子,当时我们在一款相机产品升级换代的时候,因为传感器停产了,我们进行了升级,传感器的变更造成了ISP的变更,最后造成成像风格的变化,最后造成整个系统识别率的下降,其实这也可以理解为是网络过拟合造成的问题。
数据的多样性、均衡性以及适应场景的能力,以及它和硬件本身传感器成像的关联都是非常关键的。我们也提出一个论断,一个公司本身的数据管理水平直接反映了算法水平,也反映了对场景的理解水平。
比如说像学术界的一些测试,数据集是定义清楚的,做起来比较容易,但是现实场景里面数据集是不确定的,在项目实施过程中它是在不断变化的,因此也提出了更高的要求。
第二件事是方案选型。我们团队评测了市面上大概80%的芯片方案,我们对芯片方案的定义做了两个界定:
一个是要满足5瓦以下的功耗,功耗太高了不行,它对整个系统的热设计有很大的挑战。
第二,我们做的是实时的业务。今年市面上主流的芯片方案的算力大概是50到150GFLOPS,到明年我们预估这个指标会达到200到500G。这和很多芯片厂家宣传的不太一样的,我们的研发同事也投诉的会比较多一些,因为芯片厂家宣传芯片算力很强,但是实际拿过来测试,发现效果并不令人满意,这里面确实存在很多问题。
我们在做嵌入式落地的时候常用的套路,当一个算法实现之后,我们要做上板的优化,一般会先做算法的近似,然后做指令集的优化,内存、缓存的优化等等。但是在深度学习这个领域,内存的带宽瓶颈是一个非常大的问题,如果没有革命性的突破,芯片的发展还是符合一个摩尔定律规律的,能力不会一年翻10倍、20倍。
芯片厂家其实很难跟上算法厂家的节奏,比如算法厂家在做算法的时候,可能每个月算法都有一些变化,都有一些革新和尝试,但是芯片是很难的,生产一个芯片的周期到正式量产、成熟的产品化可能需要一年的时间,周期是很长的,所以这是一个长期的瓶颈。
一个产品需要满足行业普世的需要,它不会专门为你这个产品来做,所以很多独特的网络结构上专门做优化,它的性能会提升很多,这种性能提升可能在50%甚至到100%,但是在当前的芯片上要实现这种灵活性的适应是很难的。
有的提法是说数据越来越多,芯片的算力越来越强,是不是产品做起来就越来越容易了?我们的判断不是这样。比如说当我们的产品在一个场景落地之后,客户的需求是在不断升华、不断细化的,当然这也比较符合人性。在很长的一段时间内,算力还是不能满足需求的增长。所以我们就会关注网络,当然这里我不具体讨论网络的结构,我只提我们在做这种嵌入式产品时,对网络的理解。
因为算力不够,在有限的性能下,我们的假定有两点:一是更好地学习和充分挖掘性能特征,并且在一个产品上,我们对这些特征在不同的环节更好地复用,可以大大降低计算的复杂度;二是非端到端的架构,在产品里面我们对每一步、每一个环节是可控的,在这个可控的基础上一步步优化和挖掘网络性能的边界。这是在算法上我们的一些尝试和心得。
第三是如何制造。我们光把这个东西设计出来不行,我们还得把它造出来。
供应链是一个比较头疼的问题,原来我们没有进行制造,做了之后我们也能深刻理解现在很多手机厂家所谓的饥饿营销,其实也是身不由己。当解决了一些供应链的问题,然后就是如何把产品制造出来。
我们现在通过视觉和控制的结合,用“智能”制造“智能相机”。这是我们现在的相机生产线上的自动化流程,当然整条流水线我们还没有全部实现自动化,但是这是我们要努力的方向。
最后提一提未来的方向。
我们的判断是,双目的视觉会是一个非常重要的方向,这是我们2017年10月份安防展推出的一款用于停车停车场行业的“瞾”系列产品。这款产品的特点是将深度信息和物体的检测结合,在停车场里达到了接近百分之百的车辆检出率,这对行业是有颠覆意义的。
除了深度的应用,当前在安防上,我们也在尝试通过多个传感器的融合,来达到在很低照度下实现更好的成像效果,从而突破人的感知能力。