电脑读懂肢体语言——体感操控技术的全面认识
重力监控,走出体感的第一步
手,是人类各种创造性活动的天然工具,而自古以来手势就是一套特定的语言系统,在人的交流中发挥着重要的作用。不过要单纯的电脑识别一个看似简单动作却是一个很复杂的过程。体感控制技术的工作就是让电脑要能在这些众多可能性中识别动作的最终含义——让电脑理解你!
那么怎么才能做到这一点呢?我们都知道,一个初生婴儿很难区分出一个手语的含义,但我们通过多年的学习和训练可以在几分之一秒内做到。而体感控制技术也以类似的方法被创造出来,陀螺仪就是其中技术关键的突破点,它观察身边的世界,注意你的动作变化。借助重力监控,让系统来通过手势的“力度”识别手语:借助“加速度计-陀螺仪”组合,再通过测量设备的位移变化结合软件实现指令操作。
如Wii Remote手柄、一些支持体感操作的电视、就是采用这种方式来读懂你的手语。不过,这种手势输入控制方式只能提供简单的指令操作,严格来说并不是人机交互范畴—一因为系统只会进行简单“识别”而不是“思考”。这时以微软Kinect为代表的新一代手势控制方式的出现向传统智慧提出了挑战——从感应向感观方向过渡。
结构光模式,让体感系统长眼睛
直接让电脑“看见”手势无疑是最直接的指令控制方式。为了实现这一目标,计算机视觉技术一直在努力向堪比人类大脑的智能方向发展,以更好地了解场景,因为如果不能解释周围的世界,计算机就无法与人实现自然交流对接。不过让电脑看见很容易,但如何感受到动作的意思就相对复杂得多。
人眼能看到3D对象,能自然识别(x,v,z)坐标轴,从而能够看到一切事物,而大脑能够以3D影像的形式表达这些坐标轴。机器无法获得3D视觉的一大挑战就是第三坐标——Z轴坐标的获取。
针对这个问题,开发人员开发出了结构光模式用来测量或扫描3D对象,让电脑像人一样拥有3D视觉。在该类系统中,可在整个对象上照射结构光模式,光模式可使用激光照明干扰创建,也可使用投影影像创建。一旦系统捕捉到操作者的肢体动作,就会进行分析与比较,一旦与设定的动作相一致,就执行已设定的操作。不过结构光模式的结构复杂、成本高的缺点让它难以在消费级市场普及,后来开发人员在这基础上推出了成本更低的“Light coding”扫描模式。
Light coding,顾名思义就是用光源照明给需要测量的空间编上码,说到底还是结构光技术。但与传统的结构光方法不同的是,他的光源打出去的并不是一副性变化的二维的图像,而是一个具有三维纵深的“体编码”。这种光源叫做激光散斑(laserspeckle),是当激光照射到粗糙物体或穿透毛玻璃后形成的随机衍射斑点。这些散斑具有高度的随机性,而且会随着距离的不同变换图案,这样识别设备就可以轻易判定出图像中哪部分才是移动物体,并进行分析与比较。
Kinect引出的人机交互方式
微软正是在Light coding这种技术基础上,推出了基于XBOX360游戏主机的体感设备——Kinect。
为了教会Kinect辨识,微软专门开发了一个复杂的人工智能系统:数以TB计的数据被输入到集群系统中来教会Kinect以级技术来辨认手、脚以及它看到的其他身体部位。
Kinect会评估模型输出的每一个可能的像素来确定关节点,通过这种方式Kinect能够基于充分的信息最准确地评估人体实际所处位置,然后利用对用户动作的最佳推测来作出相应操作。
目前微软正在努力重塑现有计算机上的人机交互方式,其中的一个目标是把Kinect该款成功的游戏外设部署在他们无所不在的视窗操作系统上面,微软称为“Kinect for Windows”。
不过,基于Light coding技术仍无法完全摆脱固有的缺点——受摄像头及设备性能的制约,分辨率和精度都不太理想,如Kinect的识别精度在4mm左右、分辨率在160×120像素~640×480像素之间,这就要求使用者在控制时需要有较大的动作幅度。这时时差测距技术(TOF)的出现,为体感控制的发展提供了新的思路。
TOF传感,体感控制的第六感官
时差测距传感器系统是一种光雷达(LIDAR)系统,同样可从发射极向对象发射光脉冲。接收器则可通过计算光脉冲从发射器到对象,再以像素格式返回到接收器的运行时间来确定被测量对象的距离,并通过相应运算来获得整个场景,确定3D范围影像。这种不用“看”就能知道手语的方式,似乎让电脑等设备拥了的第六感观,更为神奇。
近期受大家关注的LeapMotion Leap3D手控设备就采用TOF系统。该产品内置传感器和红外线,利用传感器捕捉物体反射的红外线来实现动作检测:LED光扫描系统,就像是超市的扫描枪一样,形成一个光线网,一旦光网内的手指移动就会引起红外线反射,Leap3D探知手指所在位置和移动方向的同时,利用双摄像头进行立体拍摄,这就可以对红外区域探知的移动进行重点分析和检测出三维动作。TOF系统除了可以光波扫描外,声波也是其中一个采样方式。微软研究院联合华盛顿大学研发的“SoundWave”系统就是利用声波代替光波来实现手势识别的。
相对于Kinect这类采用结构光技术方案,TOF系统软件复杂程度通常较低,很容易利用已有的、已经商品化的硬件将电脑变成手势识别接口。不过这种控制方式也存在一个缺点,那就是手势操控距离较短,如LeapMotion的Leap只有在50厘米以内才能够实现手势操控,这就意味着失去了“远程手势操控”的能力。
从市场来看,Windows版Kinect设备预计将在今年上半年上市,售价为249美元。如果你认为微软不够厚道,那么LeapMotion所推出的Leap 3D或许就是不错的选择。这台小巧的设备可以感应8立方英尺内的任何动作,甚至可以同时识别不同手指间以及铅笔的差别,即便是0.01毫米的细微动作变化也能被Leap捕捉到,最重要的是售价仅70美元。
手,是人类各种创造性活动的天然工具,而自古以来手势就是一套特定的语言系统,在人的交流中发挥着重要的作用。不过要单纯的电脑识别一个看似简单动作却是一个很复杂的过程。体感控制技术的工作就是让电脑要能在这些众多可能性中识别动作的最终含义——让电脑理解你!

那么怎么才能做到这一点呢?我们都知道,一个初生婴儿很难区分出一个手语的含义,但我们通过多年的学习和训练可以在几分之一秒内做到。而体感控制技术也以类似的方法被创造出来,陀螺仪就是其中技术关键的突破点,它观察身边的世界,注意你的动作变化。借助重力监控,让系统来通过手势的“力度”识别手语:借助“加速度计-陀螺仪”组合,再通过测量设备的位移变化结合软件实现指令操作。
如Wii Remote手柄、一些支持体感操作的电视、就是采用这种方式来读懂你的手语。不过,这种手势输入控制方式只能提供简单的指令操作,严格来说并不是人机交互范畴—一因为系统只会进行简单“识别”而不是“思考”。这时以微软Kinect为代表的新一代手势控制方式的出现向传统智慧提出了挑战——从感应向感观方向过渡。
结构光模式,让体感系统长眼睛
直接让电脑“看见”手势无疑是最直接的指令控制方式。为了实现这一目标,计算机视觉技术一直在努力向堪比人类大脑的智能方向发展,以更好地了解场景,因为如果不能解释周围的世界,计算机就无法与人实现自然交流对接。不过让电脑看见很容易,但如何感受到动作的意思就相对复杂得多。

针对这个问题,开发人员开发出了结构光模式用来测量或扫描3D对象,让电脑像人一样拥有3D视觉。在该类系统中,可在整个对象上照射结构光模式,光模式可使用激光照明干扰创建,也可使用投影影像创建。一旦系统捕捉到操作者的肢体动作,就会进行分析与比较,一旦与设定的动作相一致,就执行已设定的操作。不过结构光模式的结构复杂、成本高的缺点让它难以在消费级市场普及,后来开发人员在这基础上推出了成本更低的“Light coding”扫描模式。
Light coding,顾名思义就是用光源照明给需要测量的空间编上码,说到底还是结构光技术。但与传统的结构光方法不同的是,他的光源打出去的并不是一副性变化的二维的图像,而是一个具有三维纵深的“体编码”。这种光源叫做激光散斑(laserspeckle),是当激光照射到粗糙物体或穿透毛玻璃后形成的随机衍射斑点。这些散斑具有高度的随机性,而且会随着距离的不同变换图案,这样识别设备就可以轻易判定出图像中哪部分才是移动物体,并进行分析与比较。
Kinect引出的人机交互方式
微软正是在Light coding这种技术基础上,推出了基于XBOX360游戏主机的体感设备——Kinect。
为了教会Kinect辨识,微软专门开发了一个复杂的人工智能系统:数以TB计的数据被输入到集群系统中来教会Kinect以级技术来辨认手、脚以及它看到的其他身体部位。

目前微软正在努力重塑现有计算机上的人机交互方式,其中的一个目标是把Kinect该款成功的游戏外设部署在他们无所不在的视窗操作系统上面,微软称为“Kinect for Windows”。
不过,基于Light coding技术仍无法完全摆脱固有的缺点——受摄像头及设备性能的制约,分辨率和精度都不太理想,如Kinect的识别精度在4mm左右、分辨率在160×120像素~640×480像素之间,这就要求使用者在控制时需要有较大的动作幅度。这时时差测距技术(TOF)的出现,为体感控制的发展提供了新的思路。
TOF传感,体感控制的第六感官
时差测距传感器系统是一种光雷达(LIDAR)系统,同样可从发射极向对象发射光脉冲。接收器则可通过计算光脉冲从发射器到对象,再以像素格式返回到接收器的运行时间来确定被测量对象的距离,并通过相应运算来获得整个场景,确定3D范围影像。这种不用“看”就能知道手语的方式,似乎让电脑等设备拥了的第六感观,更为神奇。

近期受大家关注的LeapMotion Leap3D手控设备就采用TOF系统。该产品内置传感器和红外线,利用传感器捕捉物体反射的红外线来实现动作检测:LED光扫描系统,就像是超市的扫描枪一样,形成一个光线网,一旦光网内的手指移动就会引起红外线反射,Leap3D探知手指所在位置和移动方向的同时,利用双摄像头进行立体拍摄,这就可以对红外区域探知的移动进行重点分析和检测出三维动作。TOF系统除了可以光波扫描外,声波也是其中一个采样方式。微软研究院联合华盛顿大学研发的“SoundWave”系统就是利用声波代替光波来实现手势识别的。
相对于Kinect这类采用结构光技术方案,TOF系统软件复杂程度通常较低,很容易利用已有的、已经商品化的硬件将电脑变成手势识别接口。不过这种控制方式也存在一个缺点,那就是手势操控距离较短,如LeapMotion的Leap只有在50厘米以内才能够实现手势操控,这就意味着失去了“远程手势操控”的能力。
从市场来看,Windows版Kinect设备预计将在今年上半年上市,售价为249美元。如果你认为微软不够厚道,那么LeapMotion所推出的Leap 3D或许就是不错的选择。这台小巧的设备可以感应8立方英尺内的任何动作,甚至可以同时识别不同手指间以及铅笔的差别,即便是0.01毫米的细微动作变化也能被Leap捕捉到,最重要的是售价仅70美元。
- 上一篇:MD的中文解释
- 下一篇:DLNA不能用?PSV绕道无线看高清