手语研究的方向与现状

乐求学人气：2.52W

摘要：介绍国内外手语研究的主要方向及研究现状，手语识别的各种方法、手语合成的组成部分、手语网络通信的实现技术以及手的运动约束问题。

手语是聋哑人使用的语言。它是由手形动作辅之以表情姿势而构成的比较稳定的表达系统，是一种靠动作/视觉进行交际的特殊语言。

人类交互往往声情并茂，除了采用自然语言（口语、书面语言）外，人体语言（表情、体势、手势）也是人类交互的基本方式之一。与人类交互相比，人机交互就呆板得多，因而研究人体语言理解，即人体语言的感知，及人体语言与自然语言的信息融合对于提高计算机的人类语言理解水平和加强人机接口的可实用性的极有意义的。手语是人体语言的一个非常重要的组成部分，它是包含信息量最多的一种人体语言，它与语言及书面语等自然语言的表达能力相同，因而人机交互方面，手语完全可以作为一种手段，而且具有很强的视觉效果，它生动、形象、直观。

手语的研究不仅有助于改善和提高聋哑人的生活学习和工作条件，为他们供更好的服务。同时也可以应用于计算机辅助哑语教学、电视节目双语播放、虚拟人的研究、电影制作中的特技处理、动画的制作、医疗研究、游戏娱乐等诸多方面。另外，手语的研究涉及到教学、计算机图形学、机器人运动学、医学等多学科。因此，手语的研究是一个非常有意义的课题。这里将结合国内外手语研究的相关方向，对手语的识别、手语的合成、手语的网络通信、手的'运动约束这几方面作一下综述。

1 手语的识别

手语的识别不但具有深远的研究意义，而且具有广阔的实际应用前景，至少表现在以下几个方面：（1）能够使得聋哑人，尤其是使得文件程度比较低的聋哑人，使用手语和正常人交流；（2）从认知科学的角度，研究人的视觉语言理解的机制，提高计算机对人类语言的理解水平；（3）利用手势控制VR中的智能化；（4）机器人的示范学习；（5）虚拟现实系统中的多模式接口等。

从手语输入设备来看，手语识别系统主要分为基于数据手套的识别和基于视觉（图像）的手语识别系统。基于数据手套的手语识别系统，是利用数据手套和位置跟踪测量手势在空间运动的轨迹和时序信息。这种方法的优点是系统的识别率高。缺点是打手语的人要穿戴复杂的数据手套和位置跟踪器，并且输入设备比较昂贵。利用数据手套等典型传感设备的方法，台湾大学的Liang等人利用单个VPL数据手套作为手语输入设备，可识别台湾手语课本中的250个基本词条，识别率为90.5%。CMU的Christopher Lee和Xu在1995年完成了一个操纵机器人的手势控制系统。Kadous用Power Gloves作为手语输入设备，识别有95个孤立词构成的词汇集，正确率为80%。基于视觉的手势识别是利用摄像机采集手势信息，并进行识别。该方法的优点是输入设备比较便宜，但识别率比较底，实时性较差，特别是很难用于大词汇量的手语录的识别。在基于视觉的方法方面，具有代表性的研究成果包括：1991年富士通实验室完成了对46个手语符号的识别工作。Davis和Shah将戴上指间具有高亮标记的视觉手套的手势作为系统的输入，可识别7种手势。Starner等在对美国手语中带有词性的40个词汇随机组成短句子识别率达到99.2%。Grobel和Assam从视频录像中是取特征，采用HMM技术识别262个孤立词，正确率为91.3%。此外，Vogler与Metaxas将两种方法结合用于美国手语识别，交互采用一个位置跟踪器及三个互相垂直的摄像机作为手势输入设备，完成了53个孤立词的识别，识别率为89.9%。

从识别技术来看，以往手语识别系统主要采用基于人工神经网络（ANN）及基于隐Markov模型（HMM）等方法。神经网络方法具有分类特性及抗干扰性，然而由于其处理时间序列的能力不强，目前广泛用于静态手势的识别。著名的Fels的GloveTalk系统采用神经网络方法作为识别技术。对于分析区间内的手语信号，通常采取HMM方法进行模型化。HMM是众周知并广泛使用的统计方法，一般拓扑结构下的HMM具有非常强的描述手语信号的时空变化能力，在动态手势识别领域一直占有主导地址，如卡内基·梅隆大学的美国手语识别系统及台湾大学的台湾手语识别系统等均采用HMM作为系统的识别技术。另外，Grobel与Assam利用HMM识别由戴有色手套的用户通过摄像机输入的262个孤立手语词，正确率为91.3%。然而正是由于HMM拓扑结构的一般性，导致这种模型在分析手语信号时过于复杂，使得HMM训练和识别计算量过大。尤其是在连续的HMM中，由于需要计算大量的状态概率密度，需要估计的参数个数较多，使得训练及识别的速度相对较慢。因而以往手语识别系统所采用的HMM一般为离散HMM。

TAGS：手语