旗下微信矩阵:

全球首份AR报告:2万字深度告诉你它为什么比VR还酷

从当前来看,更多的公司选择从VR领域进行切入,各大研究公司、投行针对VR领域的研究报告也层出不穷,相比之下,AR领域却稍显平淡。这份报告中,将对AR的发展趋势、未来的挑战、应用领域、可能创造和颠覆的市场进行分析和预测。
2016-04-26 08:09 · 腾讯科技 孙实

第二章 AR的工作原理

  ━━━━━

本章导读:在本章中,我们将解读AR的工作原理、关键技术,并以SixthSense(第六感)AR系统为例,更直观地还原AR工作方式。

  AR介于VR和真实世界之间,VR创造逼真的虚拟世界,AR则将图形、声音、触感和气味添加到真实的世界中。

  在介绍AR的工作原理之前,我们先通过一个例子,让大家有一个简单的认识。

  在2009年2月的TED大会上,帕蒂•梅斯和普拉纳夫•米斯特莱展示了他们研发的AR系统。该系统属于麻省理工学院媒体实验室流体界面小组的研究成果之,他们称之为SixthSense(第六感)。它依靠众多AR系统中常见的一些基本元件来工作:摄像头、小型投影仪、智能手机和镜子。

  这些元件通过一根类似绳索的仪器串连起来,然后戴在佩戴者的脖子上。用户还会在手指上戴上四个不同颜色的特殊指套,这些指套可以用来操纵投影仪投射的图像。

  SixthSense设备利用简单的、现成的元件来组成AR系统,它的投影仪可以将任何平面变成一个互动的显示屏。SixthSense设备利用摄像头和镜子来捕捉周围的环境,然后将这种图片传给手机,然后将这些信息从投影仪投射到用户面前的任何平面上,不管这种平面是一个手腕,一面墙,还是一个人。由于用户将摄像头佩戴在胸前,因此SixthSense设备能够增强他所看到的一切。例如,如果他在一个杂货店里挑选了一罐汤,SixthSense设备将能够搜索这罐汤的相关信息,例如成分、价格和营养价值甚或用户评论,然后将它们投射到平面上。

  利用手指上的指套,用户可以在投射的信息上执行各种操作,这些操作将会被摄像头捕捉到,然后通过手机来处理。如果他希望了解这罐汤的更多信息,例如与之竞争的同类产品,那么他可以用手指与投射画面进行互动,从而获取更多的信息。SixthSense设备还能够识别一些复杂的手势,例如你在手腕上画一个圆圈,SixthSense设备就能够投射一款手表来显示当前的时间。

AR的系统结构

  一个典型的AR系统结构

  一个典型的AR系统结构由虚拟场景生成单元、透射式头盔显示器、头部跟踪设备和交互设备构成。其中虚拟场景生成单元负责虚拟场景的建模、管理、绘制和其它外设的管理;透射式头盔显示器负责显示虚拟和现实融合后的信号;头部跟踪设备跟踪用户视线变化;交互设备用于实现感官信号及环境控制操作信号的输入输出。

  首先透射式头盔显示器采集真实场景的视频或者图像,传入后台的处理单元对其进行分析和重构,并结合头部跟踪设备的数据来分析虚拟场景和真实场景的相对位置,实现坐标系的对齐并进行虚拟场景的融合计算;交互设备采集外部控制信号,实现对虚实结合场景的交互操作。系统融合后的信息会实时地显示在头盔显示器中,展现在人的视野中。

AR的关键技术

  目前AR技术的技术难点在于:精确场景的理解、重构和高清晰度、大视场的显示技术。

1、对现实场景的理解和重构

  在增强现实系统中,首先要解决“是什么”的问题,也就是要理解、知道场景中存在什么样的对象和目标。第二要解决“在哪里”的问题,也就是要对场景结构进行分析,实现跟踪定位和场景重构。

物体的检测和识别技术

  物体检测和识别

  物体检测和识别的目的是发现并找到场景中的目标,这是场景理解中的关键一环。广义的物体检测和识别技术是基于图像的基本信息(各类型特征)和先验知识模型(物体信息表示),通过相关的算法实现对场景内容分析的过程。在增强现实领域,常见的检测和识别任务有,人脸检测、行人检测、车辆检测、手势识别、生物识别、情感识别、自然场景识别等。

  目前,通用的物体检测和识别技术,根据不同的思路可以分为两种:一种是从分类和检测的角度出发,通过机器学习算法训练得到某一类对象的一般性特征,从而生成数据模型。这种方法检测或者识别出的目标不是某一个具体的个体,而是一类对象,如汽车、人脸、植物等。这种识别由于是语义上的检测和识别,所以并不存在精确的几何关系,也更适用于强调增强辅助信息,不强调位置的应用场景中。如检测人脸后显示年龄、性别等。另外一种识别是从图像匹配的角度出发,数据库中保存了图像的特征以及对应的标注信息,在实际使用过程中,通过图像匹配的方法找到最相关的图像,从而定位环境中的目标,进一步得到识别图像和目标图像的精确位置,这种识别适用于需要对环境进行精确跟踪的应用场景。

  就现阶段而言,识别检测技术的难点之一是技术的碎片化。这一方面是由于每一类对象都会有其独有的特征,而不同特征的提取和处理都需要实现一一对应,这对识别检测是一个巨大的挑战。另一方面,图像本身还受到噪声、尺度、旋转、光照、姿态等因素的影响。近几年来,随着深度学习技术的不断成熟,检测和识别方法也越来越统一,而性能也在不断提高中。


【本文由投资界合作伙伴腾讯科技授权发布,本平台仅提供信息存储服务。】如有任何疑问,请联系(editor@zero2ipo.com.cn)投资界处理。