跨媒体技术的发展和挑战

2021-05-25 13940 互联网管理论文

随着移动智能终端设备的广泛应用和普及,大量的视频、音频、文本以及各种传感数据构成了目前移动互联网领域中信息共享的主体内容。移动化带来的改变是信息的激增,人们正在借助移动智能终端上的各种传感器———时间、位置、麦克风、摄像头、温度传感和NFC(近场通讯)采集信息并重新绘制这个世界。然而,信息的爆炸式增长给知识的获取带来了极大的难度,也因此造成了知识的相对匮乏。在此过程中,用户对信息的采集和分享与传统方式有着显著的不同:首先,信息的采集带有显著的时间特征和空间特征;其次,在数据分享过程中携带了用户偏好信息;最后,完整分享这些数据对网络带宽和数据存储服务提出了巨大的挑战。目前,人们从移动互联网领域获得知识的渠道主要还依赖于信息搜索,一种是以百度和谷歌为代表的传统文本搜索的服务,另一种是以苹果的Siri为代表的新型跨媒体(声音和文本)移动搜索体验。

跨媒体技术发展现状

目前,为了实现同时对多种媒体类型的信息检索,国内外学者的研究工作主要集中在以下几个领域:1)基于“词袋”模型建立多媒体对象知识库此类方法大多通过对多媒体对象的语义信息进行人工标注得到先验知识,结合“词袋”模型等为海量多媒体信息建立知识库,从而借助知识库的桥梁作用实现跨媒体检索。显然,此种方法很大程度上还是一种变相的基于关键字的检索,需要人工标注大量的关键字训练样本集,虽然它在一定程度上避开了特征向量异构和语义鸿沟的问题,但是人工标注耗时耗力且缺乏统一性与客观性,多媒体对象的语义信息往往不能够得到恰当描述,因而检索的准确性往往不尽如人意。2)基于文档链接关系或Web链接关系建立多媒体对象之间的语义关系。此类方法通过分析多媒体文档之间的链接关系或者Web网页中的链接跳转关系建立多媒体对象之间的语义关系网(跨媒体关联图、交叉参照图模型等)从而实现多媒体对象之间的相互检索。该方法有效地避免了媒体对象之间的语义鸿沟,但是对链接关系的依赖性太强,不具有一般性。3)建立辅助空间解决特征向量异构问题。此类方法为解决不同类型媒体对象之间特征向量异构的问题,在计算特征向量和相似性的度量时,一些方法是基于数据集中所有数据间的距离度量的,但是在实际跨媒体数据集中:一方面,计算和存储所有对象间的距离尺度是不现实的;另一方面,距离度量不能有效解决现实生活中的问题。因此,一些学者提出采用典型相关性分析(CCA)、主成分分析(PCA)、独立成分分析(ICA)等技术对特征向量进行降维处理,使得异构的特征向量在一个辅助空间中具有可比性,从而进行多媒体对象之间的相似性度量。此种方法往往在对特征向量进行降维处理的过程中产生“维度灾难”。4)基于机器学习、神经网络等方法获取多媒体对象间的语义关系。此类方法主要是通过机器学习或神经网络领域的融合分析、流形学习、线性迭代与映射、概率模型、支持向量机、监督分类、非监督分类等方式对异构数据之间的关联关系进行挖掘,进而实现不同模态多媒体数据之间的相互检索。总的说来,该类方法检索效果不错,但往往计算量比较大,实现过程比较复杂。5)索引。此类方法一般是通过对多媒体数据进行一定预处理得到相互之间的相似关系,进而根据相似关系为海量多媒体对象建立索引,以提高检索时的效率。这是一种辅助型的方法,更多的是关注如何有效地减少检索所需要的时间,提高跨媒体检索的效率,对多媒体对象之间的相似度度量未关注。6)基于Ontology的检索。此类方法是建立在基于内容检索的基础上,用Ontology存储多媒体对象语义信息的新型检索模式。检索过程中结合多媒体对象的底层特征与On-tology表达的语义信息进行跨媒体检索。该方法对多媒体对象的语义信息及空间关系表达与处理具有强大的优势,同时,Ontology模型能使检索系统更加智能化与人性化。然而,现有的跨媒体信息检索技术的研究对象主要是已采集好的各种媒体数据,较少考虑多用户分享中的数据冗余、网络带宽约束等移动互联网环境下面临的新问题和挑战。

用户标注和地理本体在跨媒体中的应用

移动终端能够帮助人们以各种方式记录现实世界,同时也造成了数据的异构性、语义的异质性以及存储、传输这些数据对网络和硬件的挑战。随着智能终端处理能力的不断加强,目前已可以实现在智能终端上对采集的图像和影音数据进行编辑和特征提取。采用本地提取特征再进行网络分享的方法将大大降低网络带宽的使用。另一方面,由于不同用户在对相同内容进行记录时可以选择不同的媒体类型作为载体,上传并分享这些内容特别是影音图像资源会占用较多的服务器存储空间。因此,提取资源中的语义信息并通过简单推理进行信息聚合,能够较好地降低移动互联网环境下信息分享的数据冗余问题。本体论作为语义模型的新方法,主要用于知识的共享、交互和重用方面,它具有良好的概念层次结构和逻辑推理。通过对领域知识的理解、描述和推理,能够更好地实现信息共享和重用的目的。当运用到信息检索领域时,具有以下4个优点[3]:(1)本体关于领域知识的共同理解和描述可以使得现代网络中的信息组织形式从传统的基于语法逐步转向基于语义;(2)本体对于概念及其之间关系的精确描述可以极大地提高信息检索时的查全率和查准率;(3)采用形式化的描述方式使其能被计算机所理解以及更好地满足海量网络信息组织的需要;(4)本体能够很好地支持逻辑推理,使得信息检索系统更加智能化和人性化。地理本体是将本体论引入到地理信息科学中,它除了具有本体所具有的优点外,在处理对象空间位置及空间关系方面具有无法取代的独特优势。随着以Web2.0技术为代表的社交网络的发展,用户的需求从简单的、被动的信息获取逐步升级为主动参与到信息管理、信息交互的过程中。用户期待一种不需要精确的预定义的集成框架甚至不需要原始信息的本地副本,实现多维、海量信息的快速、低代价的获取。用户标注方法在特征提取和语义分析过程中借助人的认知过程,提取源数据中的知识,对信息检索的准确率提升有着至关重要的作用。而地理本体,作为一种半自动化的语义推理模型,可以有效降低不同用户标注带来的差异性,同时更准确地描述移动互联网环境下信息的时间和空间特征。采用这2种方法相结合建立本地特征索引副本,能够有效降低数据传输对网络带宽的需求和存放数据对存储空间的需要。

1用户标注

受限于移动终端的大小、网络通信能力有限,不适宜采用传统的方式对采集的图像、视频等多媒体数据进行完整上传和统一计算。实现在本地的特征提取和用户标注,可以大大减少网络通信,节省用户分享的代价。OpenCV作为传统的视频、图像处理工具,目前已被广泛应用在iOS和Android为代表的移动终端上,并能获得较好的特征提取速度和分析结果。另外,随着摄像头、麦克风、NFC等传感器的发展,基于手机的增强现实技术也取得了长足的进步,为用户的信息标注提供了新的手段和方法。采用用户标注和特征提取等方法[4],结合移动终端对现实世界的时间、位置感知,提交较少的描述信息或特征信息,降低了信息和内容分享的门槛。如图1所示,采用增强现实和用户标注[10]技术后,用户仅需上传简单的标注、位置信息和提取的语义、图像内容特征即可实现内容的分享。对查询用户来说,需要检索的信息仍然是充分的。

2地理本体

地理信息科学中的本体论研究是高度跨学科的交叉研究,与地理信息的认知、表达、互操作,尺度和不确定性密切相关,其最重要的一点是研究空间信息的语义理论。基于地理本体的语义检索[5][6]是通过本体构建概念层次空间实现的检索,它利用本体明确建立了研究对象的概念、属性、空间位置等各种关系,并且可以通过逻辑推理发掘隐含在概念之间的不明确、非直接的信息,从而可以实现语义的智能信息检索。在跨终端、跨媒体环境中,地理本体模型提供了一个统一的语义管理平台。在移动互联网环境下,地理本体模型构建完成后,可以基于多种格式标准进行发布,用户本地采集的数据通过用户标注、特征提取等方式按照层次、概念和推理结果向现有的本体模型中进行映射,构建新的结点和数据内容。这样,用户采集的多媒体数据可以分布式地存放在各自的终端上,通过更新本体模型建立快速、有效的索引,提供统一的跨媒体、跨终端的服务标准,有效降低分享和检索带来的网络资源消耗和源数据的冗余存放。为了帮助本体开发人员和领域专家对领域知识进行建模,斯坦福大学主导开发了一个基于java的开源本体编辑工具Protégé[13]。该工具使得构建本体知识库的过程易于操作和管理,降低了本体构建的高昂成本和维护代价。它不但支持复杂的知识表示,还支持简单的逻辑推理。Protégé支持对多种推理引擎的调用,如Jena,Racer,FaCT,Pellet等,由于Protégé本身是在Jena的基础上开发的,ProtégéOWLAPI相当于对Jena的包装,为了支持推理,Protégé接口中包含了Jena的开源开发包,将Jena推理功能嵌入到了Protégé的API中。Jena提供了可扩展的类包提供基于规则的推理机,包括RDF推理机,OWL推理机等,在基于规则的推理机中包含了一般的推理功能,这些方法都遵循W3C发布的标准。

跨媒体技术的发展和挑战

1多模态信息检索系统

1)麻省理工学院“基于图片的问答系统”。该系统作为多模态、跨媒体检索领域的先驱,支持用户以更加直接的方式检索不同类型媒体数据,以克服传统搜索引擎依赖于文本匹配的检索方式。整个系统通过3层架构实现对图像和文本的交互检索:(1)模版问答(templatebased),根据图像的预分类信息进行检索;(2)历史库问答(internalrepositorybased),根据内建的历史问答库进行检索;(3)用户指导问答(humanbased),当检索内容过于复杂时采用用户指导的交互方式进行检索[7]。2)新加坡国立大学的“多媒体问答系统”(mul-timediaquestion-answering)。该系统解决了网络跨媒体搜索中的三个主要问题:(1)大规模的可视化概念标注,用于区分一种媒体实体是否包含一个或多个预定义概念标签的;(2)支持大规模KNN内容搜索的索引方法;(3)用户反馈的交互检索方法[8]。3)I-SEARCH项目。该项目有欧洲多个研究机构和包括Google,EMC2在内的多个IT领军企业共同合作研发。该项目旨在研发一种针对多模态内容数据的通用框架提供索引、共享、查询和检索等功能。目前,该项目已经取得较好的成果,能够结合现实世界信息有效管理和利用多种类型的媒体数据和多模态数据,包括文本、2D图像、草图、视频、3D对象和音频文件等。整个项目较好的解决了多媒体查询和检索、相关反馈、多模态交互、个性化设置和可视化分析等诸多方面的难题[11]。图3为I-SEARCH系统原理架构图、整个系统主要包括三层:描述符提取层、检索交互层和可视化表现层。

2跨媒体检索面临的挑战

多媒体检索领域中面临的挑战可以归结为“7个千年问题”:语义鸿沟、机器学习、人机交互、多媒体水印、数据挖掘、性能评估以及基于互联网的多媒体标注与检索[12]。随着网络技术的发展和智能终端的普及,跨媒体在移动互联网搜索领域将越来越重要。今后几年值得关注的几个问题如下:1)在多媒体的语义理解过程中,结合地理本体在处理空间和语义推理方面的优势,提高语义理解的性能和检索的精度。同时,用户的反馈和交互知识仍然起着重要作用,是不可或缺的。2)实现移动互联网环境下的个性化检索,通过手机用户偏好和情景信息感知用户意图,提高检索精度,目前,个性化检索技术已成为下一代搜索引擎提供服务的突破所在[13]。3)多种媒体流的同步问题。每种模态的多媒体信息有其自身的粒度级别,如视频的帧级别、剪辑级别,图像的像素级别、区域级别等。不同模态的媒体以其自身的粒度等级作为一个处理单元[14],因此在连续的跨媒体检索中如何实现同步、同期化处理多模态数据而不丢失语义信息是一个新的研究领域。4)由于移动智能终端的计算能力和网络传输能力有限,多媒体数据的源数据只能是分布式的存放在不同用户的终端上,能否建立快速、有效的索引,提供统一的跨媒体、跨终端的服务标准,将是制约移动互联网环境下跨媒体信息共享服务发展的瓶颈。

结论

本文对现有跨媒体数据的智能处理和信息检索研究中的若干问题进行了综述,并针对移动互联网环境这一典型应用领域进行了讨论分析,讨论了基于用户标注和地理本体的实现方法。最后分析了目前的典型应用系统并指出了未来研究的发展方向。(本文作者:张旭、罗诗妍、金京培、裴海英 单位:韩国仁荷大学数据库实验室、重庆邮电大学计算机科学与技术学院)

期刊汇频道 树人论文网期刊汇频道
树人论文网是正规的发表支持服务网站.主要从事国内外期刊论文、国内外教著学术支持服务。
  • 27973 文章总数
  • 16855论文总数
  • 11121期刊总数