树人论文网一个专业的学术咨询网站!!!
树人论文网

一种基于时序关系网络的逻辑推理方法

来源: 树人论文网发表时间:2021-05-15
简要:摘要逻辑推理是人类智能的核心,是人工智能领域一个富有挑战性的研究课题。人类的IQ测试问题是衡量人类智商水平高低和逻辑推理能力的常用手段之一,如何让计算机学习拥有类似

  摘要逻辑推理是人类智能的核心,是人工智能领域一个富有挑战性的研究课题。人类的IQ测试问题是衡量人类智商水平高低和逻辑推理能力的常用手段之一,如何让计算机学习拥有类似人类的逻辑推理能力是一个非常重要的研究内容,其目的是使计算机从给定的图像中直接学习逻辑推理模式,而无需事先为计算机设计先验推理模式。基于此目的,提出了一种新的数据集Fashion-IQ,该数据集中的每个样本包含7张输入图片和1个标签,这7张图片分别为3张包含一种或多种逻辑的问题输入图片和4张选项输入图片,目的是利用机器学习3张问题输入图片中包含的逻辑来预测下一张图片,从而选择正确的选项。为了解决这个问题,提出了一种时序关系模型。针对每个选项,该模型首先使用卷积神经网络提取前3张输入图片和选项图片的空间特征;接着采用关系网络将这4个空间特征两两组合;然后采用LSTM提取前3张问题输入图片和该选项的时序特征,将时序特征与组合好的空间特征相结合得到时序-空间融合特征;最后对前3张输入图片与每个选项得到的时序-空间融合特征进行进一步推理,采用softmax函数进行打分,得分最高的选项就是正确答案。实验结果证明,该模型在此数据集上实现了比较高的推理准确度。

一种基于时序关系网络的逻辑推理方法

  本文源自张姝楠; 曹峰; 郭倩; 钱宇华, 计算机科学 发表时间:2021-05-14《计算机科学》由国家科技部主管,国家科技部西南信息中心主办,系“中文科技核心期刊”、“中国科技论文统计与分析用期刊”、“中国科学引文数据库来源期刊”、“中国期刊方阵双 效期刊”、“中国计算机学会会刊”、“重庆市优秀期刊”。

  关键词:逻辑推理;IQ测试;推理模式;时序关系网络;时序-空间融合特征

  逻辑推理是人类智能的核心[1],也是人工智能领域的一个重要而富有挑战性的研究课题[2]。近年来,研究人员在图像分类[3]、检测和分割[4]等标准识别任务方面取得了显著进展,但当前的识别系统缺乏推理能力,人工智能的目标之一是开发具有类似人类逻辑推理能力的机器,因此有必要来深入理解机器中的学习和推理。智商(IQ)测试是定义和测试人类计算和逻辑理解能力的最常用方法之一[5],也是评估人类智力的公认方法。我们想要从视觉智商测试的角度出发来研究机器的推理问题。

  深度学习方法最近在一些重要任务上实现了超人水平的性能,如人脸识别[6]和大词汇量连续语音识别(LVCSR)[7],尽管以上任务可能与人类智能有关,但它们没有直接测试智力。

  文献[8]使用深度神经网络的方法来解决旨在测试人类智力的视觉智商(IQ)测试问题,其取得了较好的表现。但是,该工作创建的数据集比较简单,样本是一些简单的线条或者几何形状,如图1所示,在实际的IQ测试的运用中存在局限性,我们需要探索更多具有挑战性的模式,因此本文基于Fashion-MINIST数据集中的复杂样式的图案(该数据集中的样本是在现实生活中收集的衣服裤子等实物照片经处理而成的灰度图,在颜色、形状等方面具有较高的复杂性),设计了一个更为复杂的IQ测试数据集,让机器来学习推理图像间的逻辑模式。

  文献[8]采用传统深度学习卷积神经网络来学习图像间的逻辑模式,虽然结果表现较好,但深度学习架构往往是功能强大的可视化处理器,它们可能不是推理对象间关系的最佳选择。文献[9]提出了用关系网络RN来做视觉问答推理问题,将RN作为一个模块插入到深度学习架构中,以计算对象间的关系,进而提高神经网络在解决关系推理任务时的性能,最后提高了神经网络在VQA问题上的准确度。IQ测试任务往往具有时序性,但是RN模型在处理与时序有关的图像逻辑推理任务时表现不佳。本文提出了一种基于时序关系网络的逻辑推理模型,来推理与时序有关的图像逻辑模式,该网络主要把LSTM提取的时序特征和卷积神经网络提取的空间特征两两组合嵌入到模型中进行进一步的推理。

  智商测试测量不同的技能,包括言语智力、数学能力、空间推理、分类能力、逻辑推理等[8]。本文的研究将重点放在发现图像描述的IQ测试问题中的逻辑模式上,设计的问题包括给定一系列实物图片,并在它们之间进行相关变换,如图像间的旋转问题、尺寸问题、翻转问题、数量变化问题以及这些问题的相关组合问题等,类似大部分的IQ测试题,该问题存在多个候选答案,其中只有一个候选答案是正确答案,本文提出时序关系网络来解决这样的图像描述的IQ测试问题,并与其他模型方法进行对比。每个问题的示例包括3张问题图片和4张候选图片,其中这3张问题图片是依次按照某种变换产生的,模型通过推理问题图片之间存在的逻辑模式而选出最有可能的候选答案。

  本文在以下变换的一系列图像中训练了网络。

  (1)旋转:相比先前的图案,每个图案都以恒定的角度进行旋转。

  (2)尺寸:相比先前的图案,每个图案都以固定的缩放因子进行扩大或缩小。

  (3)翻转:每个图案依次旋转并翻转到水平方向或垂直方向上。

  (4)数量:每张图片比上一张图片包含更多的图案,如图片包含两个小图案,则第二张和第三张图片将分别包含3个小图案和4个小图案。

  (5)组合:将以上的变换加以组合,如每个图案在依次旋转的同时也依次放缩,图案之间的变换可能是2种、3种或4种基本变换的组合,共有11种组合方式。

  本文进行了大量的实验,测试了几种不同的模型在此类图像描述的IQ测试问题中的性能,在包含以上所有变换的数据集上训练了网络。这项研究使我们更进一步地将机器学习智能与人类智能进行比较,帮助我们理解机器的推理能力。

  1相关工作

  1.1相关视觉推理任务

  Raven提出渐进矩阵Raven’sProgressiveMatrices(RPM)(见图2)[10],为考生提供非语言选择题来进行智力测验。给定8个形状,受试对象必须识别出丢失的部分,RPM背后的前提很简单:必须推理感知上明显的视觉特征(如形状位置或线条颜色)之间的关系,以选择完成矩阵的图像。RPM对抽象的言语、空间和数学推理能力具有很强的诊断力,甚至可以区分受过高等教育的人群[11]。文献[12]提出通过计算解决Raven的渐进矩阵问题。这项工作的重点是使用简单的分类器找到用于解决Raven渐进矩阵的特征表示。尽管他们的研究是第一个将这些问题作为计算问题解决的研究,但他们并未发布足够的实验结果来验证其方法。本文方法是不同的,使用神经网络与分类器一起自动学习表示,而不是手工制作特征表示并且本文方法更通用。

  文献[13]提出自动解决智商测试的口头推理部分这一任务,使用手工功能的机器学习方法能够自动解决以同义词和反义词以及单词类比为特征的口头推理问题。这条工作线与本文的研究有关,因为它解决了“类比”问题,即受试者需要掌握单词之间的转换规则并对其进行概括。它是处理语言转换,而不是视觉转换,本文研究的是序列图像间的视觉推理任务。

  文献[14]分析了DNN学习算术运算的能力。在这项工作中,网络学习了基于端到端视觉学习的数字加法的概念,这表明了在没有先验基本概念(例如“数字”或“加法”)的情况下学习算术转换的可能性。这为本文研究让机器在不接受先验推理模式的前提下从图像中直接学习逻辑模式提供了参考。

  文献[15]提出了一种用于视觉推理的模型,该模型包括一个程序生成器和一个执行引擎,该程序生成器构造要执行的推理过程的显式表示,该执行引擎执行生成的程序以产生答案。但是,这样的推理需要为模型提前提供一些推理模式或推理过程的显式表示,这与人类的实际推理是不相符的。本文研究旨在让模型直接从图像中学习逻辑推理模式,而无需事先设计先验推理模式,这将更符合人类的推理过程。

  1.2关系网络RN

  关系网络RN[9]是一种神经网络模块,是一种用于计算对象间关系的专用模块,可以被嵌入到广泛的深度学习架构,以显著提高神经网络在解决需要丰富关系推理任务时的性能。其明确关注于关系推理,其计算关系的能力被融入RN架构而无需学习,可以整合图像中提取出的所有对象之间的关系并进行处理,以找到图像间的逻辑模式。RN为灵活的关系推理提供了更强大的机制。

  关系网络适用于推理对象间的关系,但是在处理与时序有关的图像逻辑推理任务时表现不佳,本文提出了一种基于时序关系网络TemporalRelationNetwork(TRN)的逻辑推理模型,来学习推理与时序有关的图像逻辑模式。

  2创建数据集

  本文评估了多选题模式的IQ测试场景:模型接收7个输入图像,3个上下文面板和4个候选答案选项。在训练时,它会收到与正确答案相对应的索引。模型选择最可能的选项作为模型的答案。

  用以下方式形成问题:对于每个样本问题,共设置旋转、尺寸、反射、数量、组合5种变换。然后,从Fashion-MINST[16]数据集中随机选择一张图片。我们将选择的变换应用于选择的图片中,依次产生前3张上下文面板。接着使用该变换产生正确的候选答案选项,以及使用不正确的变换产生另外3张错误的候选答案选项。

  本文的数据集中每张图片的大小都是64×64的灰度图,而Fashion-MINST[16]数据集中每张图片的大小是28×28的灰度图,因此从该数据集中随机选择一张图片后,需要对该图片进行预处理,再进行相关的操作。

  (1)旋转Ro:随机选择一个角度θ∈[0..2π],并将图案旋转θ。错误的答案是通过不同角度进行旋转或不同操作而产生的。旋转变换Ro的示例如图3(a)所示。

  (2)尺寸Re:随机选择比例参数μ∈[0.5..1.5],并将图案进行缩放。错误的答案是通过不同的缩放比例或不同的操作而产生的。尺寸变换Re的示例如图3(b)所示。

  (3)翻转Fi:将随机选择的图案翻转到水平或垂直方向上,错误的答案是通过不同方向进行翻转或不同操作而产生的。翻转变换Fi的示例如图3(c)所示。

  (4)数量Ad:随机选择一个图案使它的数目依次递增,错误答案将显示错误的数目。数量变换Ad的示例如图3(d)所示。

  (5)组合:将以上4种变换进行组合,如将旋转和尺寸变换同时应用到图案中来生成每个选项,有Ro_Re,Ro_Fi,Ro_Ad,Re_Fi,Re_Ad,Fi_Ad,Ro_Re_Fi,Ro_Re_Ad,Ro_Fi_Ad,Re_Fi_Ad,Ro_Re_Fi_Ad这11种变换的组合。旋转和尺寸变换组合Ro_Re的示例如图3(e)所示,旋转和数量变换组合Ro_Ad的示例如图3(f)所示,旋转和翻转变换组合Ro_Fi的示例如图3(g)所示,尺寸和翻转变换组合Re_Fi的示例如图3(h)所示,尺寸和数量变换组合Re_Ad的示例如图3(i)所示,翻转和数量变换组合Fi_Ad的示例如图3(j)所示,旋转、尺寸和数量变换组合Ro_Re_Ad的示例如图3(k)所示,旋转、尺寸和翻转变换组合Ro_Re_Fi的示例如图3(l)所示,旋转、翻转和数量变换组合Ro_Fi_Ad的示例如图3(m)所示,尺寸、翻转和数量变换组合Re_Fi_Ad的示例如图3(n)所示,旋转、尺寸、翻转和数量4种变换组合Ro_Re_Fi_Ad的示例如图3(o)所示。根据上述规则,在每种变换上自动生成5万张用于训练的图像和1万张用于测试的图像。

  3实验与结果

  本文将在Fashion_IQ数据集上比较时序关系网络TRN和WReN模型、ResNet模型、LSTM模型的推理准确度。

  3.1模型与实验设置

  首先将图像序列输入到模型中,让模型在不知道图像间关系和图像内容的意义的前提下自动学习出其内在的逻辑模式,从而选择出正确的候选答案。所有模型均以7张图像为输入,这些图像都是大小为64×64的灰度图,这7张图像中前3张是上下文面板,后4张是候选答案面板,模型从这4张候选答案面板中选择最可能的选项作为模型的答案。模型均使用交叉熵损失作为优化函数,使用SGD作为优化器,批处理大小为128,最后在测试集上报告准确性。

  (1)LSTM模型。本文使用标准的LSTM网络结构,由于LSTM是按顺序地接收输入数据,而本文要处理的IQ测试问题就与序列有关,输入图片之间的前后顺序若改变将无法推理出正确的答案,因此将每个图片先压平为一个向量,再按顺序将向量输入到LSTM中,在LSTM层之后连接一个使用softmax函数的全连接层作为输出层。模型的详细参数如表1所列。

  (2)ResNet模型。本文使用标准的ResNet-50模型架构,网络的最后一层使用softmax激活函数的全连接层作为输出层。模型的详细参数如表2所列。

  (3)WReN模型。WReN模型[17]使用关系网络模块RN[9]来推理每个图像之间的关系,模型输出每个候选答案图像的得分,再使用softmax函数将得分最高的选项作为正确答案。WReN模型如图4所示。该模型先通过CNN独立处理每个上下文面板和一个候选答案选择面板,以生成4个向量嵌入;然后将这组嵌入传递给RN模块,其输出是单个sig-moid单元,共有4个候选答案,因此要经过4次这样的传递;最后通过softmax函数来确定模型的预测答案。该模型的详细参数如表3所列。

  表3中用[x,y,z,w]来表示CNN每一层卷积核的个数,如x表示第一层的卷积核个数,y表示第二层的卷积核个数,z表示第三层的卷积核个数,w表示第四层的卷积核个数。

  (4)TRN模型。IQ测试问题具有以下两种特点:首先在每一张图片内的目标之间存在空间逻辑关系,如图片内部目标之间的位置排列;其次在图片与图片之间存在时序逻辑关系,如果将图片的前后顺序颠倒,那么图片之间的时序逻辑关系将发生混乱,以至于无法推理出正确的答案。LSTM模型是一种改进之后的循环神经网络,可以解决长时依赖问题,具有推理序列依赖关系的能力和长时记忆功能,可以保存先前学习到的信息使得推理更具有准确性,使得模型可以更关注于有序性的目标推理。因此,本文提出TRN模型,使用RN模块将CNN提取出的3张上下文图片和1个候选答案图片的空间特征两两组合,接着采用LSTM提取出3张上下文图片和1个候选答案图片之间的时序特征,将时序特征与RN模块组合好的空间特征相结合得到时序-空间关系特征,并进行进一步的推理,得到该候选答案的得分,共有4个这样的候选答案,最后使用softmax函数将得分最高的候选答案作为正确答案。TRN模型可以表示为:sk=LRN(γk)=f(∑y,z∈γkgθ(y,z))

  其中,γk={x1,x2,x3}∪{ck}∪{lk},ck表示第k个候选答案面板通过CNN处理得到的向量,xi表示第i个上下文面板通过CNN处理得到的向量,lk表示第k个候选答案和3个上下文面板通过LSTM处理所得到的向量,f和gθ是MLP。gθ的输出称为“关系”,gθ的作用是推断两个对象间的关系。f将这些关系进行整合,然后输出结果。

  TRN模型的结构与图像间的推理问题能够很好地匹配,使用gθ形成了上下文面板和候选答案面板之间以及上下文面板之间成对关系的表示,使用f整合了上下文面板和候选答案面板之间以及上下文面板之间关系的信息以提供“得分”。

  TRN模型先通过CNN独立处理每个上下文面板和一个候选答案选择面板,以生成4个向量嵌入;再加上上下文面板和该候选答案面板通过LSTM处理后得到的向量嵌入,将这组嵌入传递给RN,其输出是单个sigmoid单元,编码相关答案选择面板的“得分”score1。4个候选答案经过4次这样的传递,最后通过softmax函数来确定最终的预测答案。TRN模型如图5所示,其详细参数如表4所列。

  3.2实验结果及分析

  本文实验先创建了多选题模式的图像描述的IQ测试数据集———Fashion_IQ数据集,使用ResNet,LSTM,WReN模型以及TRN模型进行实验,通过对比这几种模型的准确度来验证模型的有效性。

  (1)同一个变换的不同模型之间准确度的比较

  1)从单一变换的准确度来进行比较

  从表5和图6-图9可以看出,本文的TRN模型在单一变换上的准确度都在80%以上,与其他3个模型相比,TRN模型的总体准确度最好。对于旋转变换Ro,TRN模型的准确度达到了82%,远高于其他3个模型的准确度,这说明本文模型将LSTM提取的时序特征和CNN提取的空间特征相结合进行推理的方法对于解决旋转类的问题是有效的,该模型学习到了旋转变换之间的逻辑关系。对于尺寸变换Re,TRN模型和ResNet模型、LSTM模型的准确度都达到了90%以上,比WReN模型更能学好尺寸变换的逻辑关系。对于翻转变换Fi,TRN模型和WReN模型的准确度都达到了99%,而其他两种模型的准确度只有20%左右,说明TRN模型学习到了翻转变换之间的逻辑关系。对于数目变换Ad,除了ResNet模型的准确度为75%,其他模型的准确度都达到了99%,这说明TRN模型、WReN模型和LSTM模型都能很好地学习到数目变换的逻辑关系。总体而言,本文提出的TRN模型能更好地学习出图像间单一变换的逻辑关系。

  2)从组合变换的准确度来比较

  本文提出的TRN模型在所有组合变换上的准确度最低是61.9%,而其他3种模型最低的准确度都是30%左右。并且TRN模型在大多数组合变换上的准确度都超过了其他3种模型,在所有11种组合变换上TRN模型在其中7种组合变换上都达到了最高的准确度,尤其是旋转和翻转的组合变换Ro_Fi,TRN模型的准确度达到了78%,远高于其他3种模型的准确度。其他3种模型在组合变换上准确度低的原因可能是在单个变换上的准确度较低所导致的。另外,在4种变换组合时,TRN模型的精度是最高的,这说明提出的TRN模型在解决复杂变换推理任务时的鲁棒性最强。总体而言,本文提出的TRN模型能更好地学习出图像间组合变换的逻辑关系。

  (2)同一个模型的不同变换之间准确度的比较

  1)从单一变换的准确度来比较

  从图10所示的旋转Ro、尺寸Re、翻转Fi、数量Ad4种基本变换来看,旋转变换准确度最低,尺寸和翻转变换的准确度都较高,数量变换的准确度最高,基本达到了100%,这与人类做此类IQ测试题时的难易程度是一致的,旋转变换更难被观察出来。神经网络在推理旋转变换问题时,需要推断出更多的参数,以定义旋转矩阵,即中心点坐标和角度,这比尺寸、翻转和数量变换更为复杂,如尺寸变换只需要推断出尺寸因子这一个参数即可。

  2)从组合变换的准确度来比较

  翻转和数量变换组合Fi_Ad的准确度最高,这是因为基础变换中翻转变换和数量变换的准确度是最高的,而旋转和尺寸变换组合Ro_Re、旋转和翻转变换组合Ro_Fi以及尺寸和数量Re_Ad的准确度相对而言较低,这是因为旋转变换本身的学习难度较大,导致其相关组合变换的准确度较低,而Re_Ad变换准确度较低的原因是这两种变换组合在一起时由于图案变小可能导致尺寸因子很难被推断出来。对于3种及以上的变换组合而言,由于变换的组合复杂性,其准确度会比简单的变换组合的准确度低一些。

  从以上的实验结果来看,本文提出的时序关系网络TRN相比其他3种网络模型,能够有效提高模型在解决多选模式的IQ问题时的准确度。其次,在这些变换中,不同变换及其组合的准确度高低和人类在做此类IQ测试多选题的难易程度也是一致的。这说明本文模型学习到了图像间的逻辑模式。

  结束语本文的目的在于测量使用神经网络来做基于图像描述的IQ测试题类问题的能力,本文先是创建了基于此类问题的数据集———Fashion_IQ数据集,并且使用ResNet,LSTM,WReN模型以及提出的时序关系网络TRN在此数据集上进行对比实验。实验结果验证了TRN模型相比其他模型,可以提高在此IQ测试数据集上进行推理的准确度,并且该模型的确学习到了图像间的逻辑模式。

  在未来的工作中,可以尝试把本文提出的模型应用到其他问题中,如可以应用到更为复杂的IQ测试问题模式中。另外,今后将探索如何提高模型的泛化能力,希望可以使模型在遇到不熟悉的属性问题时仍能把先前推理出的逻辑模式更灵活地迁移到新问题中。