人类主要通过视觉认知世界,大脑皮层70%的活动都在处理视觉信息。因此,视觉也被视为实现通用人工智能的一个重要研究领域。
在4月20日至22日举行的“VALSE视觉与学习青年学者研讨会”,就吸引了来自计算机视觉领域的众多知名***、学者及包括BAT、华为、科大讯飞、滴滴、快手、美图、商汤等40家工业界代表在内,3000余人参加。
聚力维度受邀展示人工智能2D自动转3D平台“峥嵘”,并被与会者亲切地评为工业界“视觉研究领域的一股清流”。
人工智能2D转3D
峥嵘平台由聚力维度的科幻成真实验室历时3年之久研发完成,主要用于画面品质达院线级标准的3D内容制作。
《阿凡达》上映之后,3D电影在大众领域从“陌生”转为“熟悉”。很多人都看过3D电影,但仅有很少人知道3D电影如何制作。
主流的3D电影制作采用2D转3D方式。因为使用3D双目摄像机实拍,不仅成本高、周期长、移动不便,而且在拍摄特写、逆光、运动等镜头上也有限制。
峥嵘平台的诞生则彻底颠覆了传统2D转3D技术。
用传统2D转3D技术制作一帧立体画面,是一个繁琐且耗时间的过程,要经过图像分割、灰度绘制、背景补图、渲染合成至少4个步骤。
举例来说,将一张正对镜头的面部特写图片制作成立体图片,一个人类立体设计师需要先用传统3D转制软件里的分割工具,将人物的面部从鼻尖、鼻翼、颧骨、耳根再到头发,像用ps抠图一样分别依次分割;再给分割出来的每一层依次赋予灰度值,也就是赋予单个部分立体感;然后将单张图片依据左右眼视角进行平移,并将平移后的空白部分补充完整;***后将左右视角图与灰度图渲染合成。
繁琐如此,也才仅仅得到一帧图片中一张人物面部的立体图像,更别提含有多人以及多层次背景的影视场景。
然而,使用人工智能2D转3D平台峥嵘,则只需将这张图片上传给平台,就可以实时得到一张结构精细的立体图。
用机器做人的视觉
在大会的demo展示区,参观的人群熙熙攘攘。40家工业界企业,都拿出了自家在计算机视觉领域的看家本领。
有做摄像传感的,有做图像智能搜索的,有的用于车辆检测,有的用于人脸打卡,有的用于***服务……各家所做的方向大同小异。很多学者看了一圈后说,基本上就是检测、检测还是检测。
聚力维度科幻成真实验室所展示的人工智能2D转3D 平台峥嵘,被现场众多学者评为“一股清流”。
峥嵘平台主要基于人工智能技术,其核心是从单目图像中***出整个场景的三维结构。
与应用在安防、自动驾驶、***、***领域的目标检测或目标分割等技术相比,峥嵘平台是在用机器做人的视觉。
首先,其输出的结果是影视画面,与安防、***、***等应用相比,主要服务于人类的观看体验。
其次,人眼对所观看的影视画面要求很高,并希望从中获得愉悦感。峥嵘平台输出的影视画面需要做到三维空间关系精细、稳定且漂亮。
如果每张图片的立体结构不一致,合成的完整视频就有可能造成同一人物在同一场景、位置出现抖动。即便很轻微,也可能使人眩晕。
但在安防或自动驾驶领域,机器锁定目标后,并不必清晰的将其呈现给人看。检测框围绕目标的轻微抖动是被允许的,只要不影响***终结果判断。
第三,峥嵘平台不仅要像人类一样能“看”到影视内容,并且要立体化影视内容中的万事万物,三维重建影视画面中的所有类别。
在VALSE2018大会上,一位做相关研究的讲者就在报告中谈到:通过单目图片重建一个类别的三维结构很简单,多个类别也不难,但实现所有类别很难。
可见,用计算机视觉技术来满足人的视觉享受,是一个艰难的历程。
***人工智能影视制作
目前,聚力维度的人工智能2D转3D平台峥嵘已经成功上线。
基于峥嵘平台研发的3D***技术,能对电视剧、综艺甚至时效性强的新闻、体育赛事等进行实时3D转换。3D浏览器,已在三星的一款裸眼3D笔记本装机测试,它能将所有普通网页实时转换成3D网页。
除了2D转3D,聚力维度也在围绕前期拍摄、后期制作、***动画等可以用人工智能优化甚至颠覆的影视制作方向进行研究,致力开创人工智能影视制作新纪元。
目前的整个影视制作行业,还处于手工作坊时代,只不过初步用机器取代了“锤子”,仍需要大量劳动力从事生产工作。
相信,随着人工智能技术的发展,影视制作行业有希望跨过工业革命,从手工作坊直接走向智能化时代。