硅谷网讯 现阶段,人类与电脑的交流多依赖于打字、鼠标点击和触控。尽管也有一些语音助手,但人类不是只通过语言交流。所有了解青少年犯罪的人都知道,人类交流时一半依赖于肢体语言,如果没有肢体语言,交流将十分困难且费力。
来自卡耐基梅隆大学机器人研究所(CMU RI)的科学家们,正在研发一款可以读懂肢体语言、甚至是手指动作的电脑系统。这一系统可以实时工作,还可以同时理解一群人的动作,可以让人类与机器的交流更自然。
这一系统的关键在于让电脑识别人类的姿势。人类姿势有很多细节,甚至每根手指的位置不同都能传达不同的信息,交流对象可能忽略这些细节。尽管现在有讲解面部表情和身体位置的大型数据库,但还没有针对手势和姿势的数据。
卡耐基梅隆大学副教授Yaser Sheikh带领团队,结合多种方法解决这一问题。一种方法是为电脑提供更多数据,让两名研究生站在镜头前,摆出了上千种不同的姿势和手势。第二种方法是颠覆电脑识别姿势的传统方法。过去电脑是先观察整个人,再一点点理解手势,新系统则让电脑先观察独立的手、胳膊、腿、脸,再把他们拼成一个人。团队发现,这种方法特别有利于识别一群人的肢体语言。第三种方法是使用卡耐基梅隆大学的全景工作室(Panoptic Studio),这间工作室为两层圆顶状,内有500台摄像机。在这里工作,电脑可以瞬间从上百种不同角度观察姿势。
机器人研究所的博士生Hanbyul Joo认为,在全景工作室工作,一次就能从500种角度观察手部。通常情况下,手部太小,所以一般相机难以捕捉手动作的细微变化,但在实验中,研究人员使用了31台高清相机,建立数据库。
团队现在正在研究,如何让2D模型转换为3D,用来更好地识别动作。研究的最终目的,是通过这一系统,用一个摄头、一台电脑也能读懂一群人的肢体语言。如果这项技术足够成熟,将可应用于多个领域。比如,新系统可以让人与机器的交流更简单,可以让无人驾驶汽车判断行人是否要过马路,可以帮助诊断行为障碍,还可以追踪捕捉运动员的动作、理解他们的行为。
|