1.4 多媒体的关键技术
除多媒体数据压缩技术以外,多媒体的关键技术还有数据存储技术、数据库技术、网络与通信技术、信息检索技术及虚拟现实技术等。
1.4.1 多媒体数据存储技术
多媒体的音频、视频、图像等信息虽经过压缩处理,但仍需相当大的存储空间。此外,多媒体数据量大且无法预估,因而不能用定长的字段或记录块等存储单元组织存储,这大大增加了存储结构的复杂度。只有在大容量存储技术问世后,才真正解决了多媒体信息存储的空间问题。
光盘存储器CD-ROM以存储量大、密度高、介质可交换、数据保存寿命长、价格低廉以及应用多样化等特点成为多媒体计算机的存储设备。利用数据压缩技术,在一张CD-ROM光盘上能够存取约74min全运动的视频图像或者十几个小时的语音信息或数千幅静止图像。DVD(Digital Video Disc)是1996年年底推出的光盘标准,它使得基于计算机的数字视盘驱动器能从单个盘片上读取4.7~17GB的数据量,而盘片的尺寸与CD相同。蓝光光碟(Blue-ray Disc,BD)是DVD之后的新一代光盘格式之一,用以存储高品质的影音以及高容量的数据存储。蓝光光碟的命名是由于其采用波长为405nm的蓝紫色激光来进行读写操作(DVD光碟采用波长为650nm的红色激光进行读写操作,CD光碟则是采用波长为780nm的近红外不可见激光进行读写数据)。一个单层的蓝光光碟的容量为25GB或是27GB,足够录制一个长达4小时的高解析度影片。
硬盘(Hard Disk Drive,HDD)是计算机最主要的存储设备,由一个或者多个铝制或者玻璃制的碟片组成。目前硬盘容量从几百吉字节(GB)到十几个太字节(TB)不等。按原理可以将硬盘分为:机械硬盘(HDD)、固态硬盘(SSD)以及混合硬盘(SSHD)3种。按接口可以将硬盘分为:IDE、SATA、SCSI和光纤通道FC四种,IDE、SATA接口硬盘多用于家用产品中,也部分应用于服务器,SCSI接口的硬盘则主要应用于服务器市场,而光纤通道FC只应用在高端服务器上,价格昂贵。
U盘是USB(Universal Serial Bus)盘的简称,是闪存的一种,有时也称作闪盘。当前U盘的存储容量小的有几个吉字节(GB),大的可以达到1~2TB。U盘与硬盘的最大不同是,它不需物理驱动器,即插即用,且其存储容量远超过软盘,便于携带。现在的U盘都支持USB 2.0标准,最高的传输速率为20~40MB/s,而一般文件的传输速度大约为10MB/s。
除了常用的硬盘、U盘和光盘等存储设备之外,近年来还出现了如NAS和SAN等先进的存储设备。NAS(Network Attached Storage,网络附加存储)是连接在网络上具备资料存储功能的装置,也称为网络存储器或者网络磁盘阵列。SAN(Storage Area Network,存储区域网络)是一种通过光纤集线器、光纤路由器、光纤交换机等连接设备将磁盘阵列、磁带等存储设备与相关服务器连接起来的高速专用子网。它可实现大容量存储设备间的数据共享、高速计算机与高速存储设备间的高速互联,具有灵活存储设备配置要求、数据快速备份等功能,提高了数据的可靠性和安全性。
随着多媒体技术的发展,多媒体数据的多样性、地理位置的分散性,重要数据的安全、共享、管理等都对数据存储技术提出了更多的挑战。
1.4.2 多媒体数据库技术
多媒体的数据量巨大,种类繁多,每种媒体之间的差别十分明显,但又具有种种信息上的关联,这些都给数据与信息的管理带来了新的问题。多媒体数据的管理就是对多媒体数据的存储、编辑、检索、演播等操作。目前对多媒体数据的管理主要有以下几种方法。
1.文件系统管理方式
为了方便用户浏览多媒体数据,出现了很多图形、图像浏览工具软件。文件系统管理方式存储简单,当多媒体数据较少时,浏览查询还能接受,但演播的数据格式受到限制。当多媒体数据的数量和种类相当多时,查询和演播就不方便了。所以,文件系统管理方式一般只适用于小的项目管理或较特殊的数据对象,所表示的对象及相互之间的逻辑关系比较简单,如管理单一媒体信息,像图片、动画等。文件系统的树形目录的层次结构也能反映数据之间的部分逻辑关系,因此,用文件系统管理多媒体数据前应根据具体情况建立合理的目录结构。
2.关系数据库的方式
用关系数据库存储多媒体资料的方法一般有以下3种。
① 用专用字段存储多媒体文件。
② 多媒体数据分段存储在不同的字段中,播放时再重新构建。
③ 文件系统与数据库相结合,多媒体数据以文件系统存储,即若关系中元组的某个属性是非格式化数据,则以存储非格式化数据的媒体类型、应用程序名、媒体属性、关键词等代替,这是一种比较简单的实现方式。
3.面向对象数据库的方式
面向对象数据库的方式最适合于描述复杂对象,通过引入封装、继承、对象、类等概念,可以有效地描述各种对象及其内部结构和联系。面向对象数据库的方式是将面向对象程序设计语言与数据库技术有机地结合起来,是开发多媒体数据库系统的主要方向。
面向对象数据库系统更适合于多媒体,它具有以下特点。
1)面向对象模型支持“聚合”与“概括”的概念,从而能够更好地处理多媒体数据等复杂对象的结构语义。
2)面向对象模型支持抽象数据类型和用户定义的方法,便于系统定义新的数据类型并支持相关操作。
3)面向对象数据库系统的数据抽象、功能抽象与消息传递的特点使对象在系统中是独立的,具有良好的封闭性,封闭了多媒体数据之间的类型及其他方面的巨大差异,并且容易实现并行处理,也便于系统模式的扩充和修改。
4)面向对象数据库系统的类、类层次和继承性,不仅减少了冗余和由此引起的一系列问题,还非常有利于版本控制。
5)面向对象数据库系统中实体是独立于值存在的,因而避免了关系数据库中讨论的各种异常。
6)面向对象数据库系统的查询通常是沿着系统提供的内部固有联系进行的,避免了大量的查询优化工作。
面向对象的数据模型比较复杂,在实现技术方面,还需要解决模拟非格式化数据的内容和表示、反映多媒体对象的时空关系、允许有类型不确定对象存在等问题。
1.4.3 多媒体网络与通信技术
在日常上网的过程中,经常与五彩缤纷的网页交互。从本质上分析,在网页上看到的文字就是一种超文本,而在网页中嵌入的动画、图片、视频等是一种超媒体。
1.超文本
超文本是一种新型的信息管理技术,它以结点为单位组织文本信息,在结点与结点之间通过表示它们之间关系的链加以连接,构成表达特定内容的信息网络。超文本组织信息的方式与人类的联想记忆方式有相似之处,从而可以更有效地表达和处理信息。
2.超媒体
超文本与多媒体的融合产生了超媒体。允许超文本的信息结点存储多媒体信息(图形、图像、音频、视频、动画和程序),并使用与超文本类似的机制进行组织和管理,就构成了超媒体。超媒体强调的是对多种媒体信息的组织、管理,面向对这些信息的检索和浏览。超媒体技术广泛应用于与各种信息查询有关的方面,如教学、信息检索、字典和参考资料、商品介绍展示、旅游和购物指南及交互式娱乐等。
3.流媒体技术
互联网的普及和多媒体技术在互联网上的应用,迫切要求能解决实时传送视频、音频、计算机动画等媒体文件的技术,在这种背景下,产生了流式传输技术即流媒体。通俗地讲,在互联网上的音视频服务器将声音、图像或动画等媒体文件从服务器向客户端实时连续传输时,用户不必等待全部媒体文件下载完毕,而只需延迟几秒或十几秒,就可以在用户的计算机上播放,而文件的其余部分则由用户计算机在后台继续接收,直至播放完毕或用户中止操作。这种技术使用户在播放音视频或动画等媒体的等待时间成百倍地减少,而且不需要太多的缓存。
流媒体技术是多媒体和网络领域的交叉学科。流媒体是从英语Streaming Media中翻译过来的,流媒体指“流化”(Streaming)过的媒体。到目前为止,Internet上最通用的流媒体系统包括MicrosoftWindows Media Player、Apple QuickTime、Real Networks等,Windows Media Player、Real Networks等流式媒体播放器已经成为PC的标准配置。
4.流媒体的播放方式
(1)单播
在客户端与媒体服务器之间需要建立一个单独的数据通道,从一台服务器送出的每个数据包只能传送给一个客户机,这种传送方式称为单播。每个用户必须分别对媒体服务器发送单独的查询,而媒体服务器必须向每个用户发送所申请的数据包拷贝。这种巨大冗余给服务器带来沉重的负担,响应需要很长时间,甚至会停止播放。
(2)组播
组播是指在网络中将数据包以尽力传送(best-effort)的方式发送到网络中的某个确定结点子集,以实现网络中点到多点的高效数据传送。组播自1988年提出已经经历多年的发展,许多国际组织对组播的技术研究和业务开展进行了大量的工作。尽管目前端到端的全球组播业务还未大规模地开展起来,但是具备组播能力的网络数目正在增加。一些主要的ISP(网络服务提供商)已运行域间组播路由协议进行组播路由的交换,形成组播对等体。在IP网络中多媒体业务日渐增多的情况下,组播有着巨大的市场潜力,其业务也将逐渐得到推广和普及。
组播技术涵盖了地址方案、成员管理、路由和安全等各个方面,其中,组播地址的分配方式、域间组播路由以及组播安全等仍是研究的热点。
5.流媒体的网络环境
多媒体网络与通信技术是多媒体计算机技术和网络通信技术结合的产物。与普通数据通信不同,多媒体数据传输对网络环境提出了苛刻的要求,由于多媒体数据对网络的延迟特别敏感,所以多媒体网络必须采用相应的控制机制和技术,以满足多媒体数据对网络实时性和同步性的要求。
由于公共交换电话网(PSTN)信息传输速率较低,适合传输话音、静态图像和低质量的视频图像等;局域网(LAN)传输延迟大,只适用于文本、图形、图像等非连续媒体信息的数据传输;窄带网N-ISDN能实现综合业务的传输,基本速率接口和基群速率接口能满足压缩视频、音频信号的带宽要求,它是支持可视会议、可视电话和传输静止画面的一种有效技术;宽带网B-ISDN以异步转移模式(ATM)作为传输与交换方式,充分利用光纤提供巨大的信道容量进行各种综合业务的传输与交换,因其有电路交换延迟小、分组交换效率高及速率可变的特点,成为多媒体通信核心技术之一。
1.4.4 多媒体信息检索技术
多媒体技术和Internet的发展给人们带来了海量的多媒体信息,导致超大型多媒体信息库的产生,所以凭借关键词难以形象和准确地对多媒体信息进行检索。要有效地帮助人们快速、准确地找到所需要的多媒体信息成了多媒体技术待解决的核心问题之一。
基于内容的信息检索(Content-Based Retrieval)作为一种新的检索技术,是对多媒体对象的内容及上下文语义环境进行检索,如对图像中的颜色、纹理、形状或视频中的场景、片断进行分析和特征提取,并基于这些特征进行相似性匹配。基于内容的查询和检索是一个逐步求精的过程,检索经历了一个特征调整、重新匹配的循环过程。
基于内容的检索系统结构如图1-15所示,由特征分析子系统、特征提取子系统、数据库、查询接口、检索引擎和索引过滤等子系统组成,同时需要相应的知识辅助系统支持特定领域的内容处理。下面对部分子系统进行简要说明。
图1-15 基于内容的检索系统结构
1)特征分析:该子系统负责将需要入库的媒体进行分割或节段化,标识出需要的对象或内容关键点,以便有针对性地对目标进行特征提取。特征标识可通过用户输入或系统定义。
2)特征提取:对用户提供或系统标明的媒体对象进行特征提取处理。提取特征时需要知识辅助子系统的协助,与标准化的知识定义直接有关。
3)数据库:数据库包含多媒体数据库(简称媒体库)和特征数据库(简称特征库),分别存储多媒体数据同对应的特征数据,它们之间存在着一定的对应关系。特征数据库中包含了由用户输入的和预处理自动提取的特征数据,通过检索引擎组织与媒体类型匹配的索引来达到快速搜索的目的。
4)查询接口:即人机交互界面,由于多媒体内容不具有直观性,查询基于示例方式,必须提供可视化手段,可采用交互操纵、模板选择和样本输入三种方式提交查询依据。
5)检索引擎:检索要将特征提取值和特征库中的值进行比较,得到一个相似度。不同的媒体具有不同的相似度算法,这些算法也称为相似性测度函数。检索引擎使用相似性测度函数集进行比较,从而确定与特征库的值最接近的多媒体数据。
6)索引过滤:在大规模多媒体数据检索过程中,为了提高检索效率,常在检索引擎进行匹配之前采用索引过滤方法,取出高维特征用于匹配。
1.基于内容的图像检索
20世纪90年代,研究者们提出了基于内容的图像检索(Content Based Image Retrieval,CBIR),这种方法成为现有图像检索技术研究的主流。就图像特征的作用域而言,CBIR系统可分为基于全局特征的检索和基于区域特征及其空间关系的检索。基于全局特征的检索不区分图像的前景和背景,通过整幅图像的视觉特征进行图像相似度匹配;而基于区域特征及其空间关系的检索需先进行图像分割,图像的整体相似性不仅要考虑到分割出的区域间的相似性,还要考虑区域空间关系的相似性。CBIR的主要特点是只利用了图像本身包含的客观的视觉特征,图像的相似性不需要人来解释,体现在视觉相似性上。这导致了CBIR不需要或者仅需要少量的人工干预,在需要自动化的场合取得了大量的应用。在各种网站的搜索引擎中,图像检索系统成为重要工具;医学CT、X射线检索系统中,可以为医生诊断提供重要的参考;商标检索系统中,可在收录了已注册商标库中查找是否有与欲注册商标类似的商标,防止雷同;公安系统中,根据嫌疑犯面部特征在照片库中查找类似人员等。
基于内容的图像检索常用的关键技术有颜色特征提取、纹理特征提取、形状特征提取、相关反馈技术等。
2.基于内容的视频检索
视频是多媒体数据库中的一种重要数据,它由连续的图像序列组成。视频主要是由镜头组成的,每一个镜头包含一个事件或一组连续的动作。要对视频序列进行检索,可以通过全局和局部两种特征来进行。全局特征包括视频的名字、制作人、拍摄时间、地点等,这些可由人工注释。局部特征包括镜头关键帧的颜色、纹理等。要获得局部特征,首先必须将视频序列分割为镜头,在镜头中找到若干关键帧来代表镜头的内容,再提取关键帧的视觉特征和运动参数并存入特征库中作为检索的依据。为完成镜头分割,必须检测出镜头的切换点。镜头的切换有两种方式:一种是突变,即镜头间没有过渡;另一种是渐变,即镜头间是缓慢过渡的,包括淡入、淡出、慢转换、扫描等。
基于内容的视频检索常用的关键技术有关键帧抽取与镜头分割、视频结构重构等。
基于内容的视频检索是一个新兴的研究领域,国内外都在探索和研究,虽然已有一些基于内容的检索算法,但存在着算法处理速度慢、检索率低、应用局限性多等问题。随着多媒体内容的增多和存储技术的提高,对基于内容的视频检索的需求将日益上升。
3.基于内容的音频检索
由于音频媒体可以分为语音、音乐和其他声响,基于内容的音频检索自然也必须进行分类。音频内容可分为样本级、声学特征级和语义级。从低级到高级,内容的表达是逐级抽象和概括的。音频内容的物理样本可以抽象出如音调、旋律、节奏、能量等声学特征,进一步可抽象为音频描述、语音识别文本、事件等语义。
基于内容的音频检索中,用户可以提交概念查询或按照听觉感知来查询,即查询依据是基于声学特征级和语义级的。音频的听觉特性决定其查询方式不同于常规的信息检索系统。基于内容的音频查询是一种相似查询,它实际上是检索出与用户指定的要求非常相似的所有声音。查询中可以指定返回的声音数或相似度的大小,还可以强调或忽略某些特征成分,甚至可以利用逻辑运算来指定检索条件。
作为一门交叉学科,基于内容的多媒体信息检索不仅需要利用图像处理、模式识别、计算机视觉、图像理解等多领域的知识做铺垫,还需要人工智能、数据库管理技术、人机交互等知识对媒体数据进行表示,从而设计出可靠、高效、人性化的检索系统。
1.4.5 虚拟现实技术
虚拟现实(Virtual Reality,VR)是利用数字媒体系统生成一个具有逼真的视觉、听觉、触觉及嗅觉的模拟现实环境,受众可以用人的自然技能与这一虚拟的现实环境进行交互,与在真实现实中的体验相似。虚拟现实是多种技术的综合,包括实时三维计算机图形技术、广角立体显示技术,对观察者的头、眼和手的跟踪技术,以及触觉/力觉反馈、立体声、语音输入/输出技术等。
虚拟现实具有以下3个重要特征,分别是沉浸感(Immersion)、交互性(Interaction)和构想性(Imagination),常被称为虚拟现实的3I特征。
1.沉浸感
沉浸感是指用户感受到被虚拟世界所包围,好像完全置身于虚拟世界之中一样。虚拟现实技术最主要的技术特征是让用户觉得自己是计算机系统所创建的虚拟世界中的一部分,使用户由观察者变成参与者,沉浸其中并参与虚拟世界的活动。
2.交互性
交互性是指用户对模拟环境内物体的可操作程度和从环境得到反馈的自然程度。交互性的产生,主要借助于虚拟现实系统中的特殊硬件设备,如数据手套、力反馈装置等,使用户能通过自然的方式,产生与在真实世界中一样的感觉。虚拟现实系统比较强调人与虚拟世界之间进行自然的交互,交互性的另一个方面主要表现在交互的实时性。
3.构想性
构想性指虚拟的环境是人想象出来的,同时这种想象体现出设计者相应的思想,因而可以用来实现一定的目标。虚拟现实虽然是根据现实进行模拟,但所模拟的对象却是虚拟存在的,它以现实为基础,却可能创造出超越现实的情景。所以它可以充分发挥人的认识和探索能力,从定性和定量等综合集成的思维中得到感性和理性的认识,从而进行理念和形式的创新,以虚拟的形式真实地反映设计者的思想、传达用户的需求。
虚拟现实之所以能让用户从主观上有一种进入虚拟世界的感觉,而不是从外部去观察它,主要是采用了一些特殊的输入/输出设备,如数据头盔、数据手套等。
数据手套(Data Glove)是一种能感知手的位置及方向的设备,如图1-16所示。通过它可以指向某一物体,在某一场景内探索和查询,或在一定的距离之外对现实世界发生作用。数据手套把光导纤维和三维位置传感器缠绕在一个轻的、有弹性的手套上。每个手指的关节处都有一圈光导纤维,每个手指的背部连有传感器,用以测量手指关节的弯曲角度。数据手套手背上有一个探测器,用来监测用户手的位置和方向,并根据用户手指关节的角度变化,捕捉手指、大拇指和手腕的相对运动。当数据手套与相应的软件配合时,由应用程序来判断用户在VR中操作时手的姿势,从而为VR系统提供了可以在虚拟世界中使用的各种信号。数据手套允许手去抓取或推动虚拟物体,或由虚拟物体作用于手(即手的反馈)。
头盔显示器(Head Mounted Display,HMD)是专为用户提供虚拟现实中景物的立体显示器,通常固定在用户的头部,用两个LCD或CRT显示器分别向两只眼睛显示图像,如图1-17所示。这两个显示屏中的图像由计算机分别驱动。屏上的两幅图像存在着细小的差别,类似于“双眼视差”。大脑将融合这两个图像获得深度感知,因此头盔显示器具有较好的沉浸感,但分辨率较低、失真大。
图1-16 数据手套
图1-17 头盔显示器
头部位置跟踪设备是头盔显示器的主要部件。通过头部位置跟踪设备,用户的运动感觉和视觉系统能够得以重新匹配跟踪,计算机随时可以知道用户头部的位置及运动方向。头部跟踪设备还能增加双眼视差和运动视差,这些视觉线索能改善用户的深度感知。
虚拟现实技术的实现需要相应硬件和软件的支持。现在对虚拟现实环境的操作已达到了一定的水平,但毕竟同人类现实世界中的行动有一定的差别,还不能十分灵活、清晰地表达人类的活动和思维,因此,这方面还有大量的工作要做。