基于 FTM 算法的 GPU 加速分析

来源：树人论文网发表时间：2020-12-10

简要：摘要：为保障GPU加速方案的可行性，提升GPU的计算效率。本文结合FTM算法的应用参数，提出将FIM算法应用在GPU加速中的运行试验方案。借此在CUDA程序支撑下，控制FIM算法的计算时限，优

　　摘要：为保障GPU加速方案的可行性，提升GPU的计算效率。本文结合FTM算法的应用参数，提出将FIM算法应用在GPU加速中的运行试验方案。借此在CUDA程序支撑下，控制FIM算法的计算时限，优化GPU的加速设计，为我国数值模拟技术的创新发展奠定基础。

科学与技术

　　本文源自科学与技术【2020年第23期】《科学与技术》杂志是经国家新闻出版总署批准，中国科学技术协会、新疆阿勒泰地区科协主管，新疆阿勒泰地区科协主办的学术性期刊。

　　关键词：FTM算法;GPU加速;计算;CUDA

　　引言：FIM算法在实际运用中，存在较为突出的计算耗时、并行性能薄弱等问题，而GPU运算能力的开发为FIM算法带来更多可能性。因此，文章以GPU加速为思路，对FTM算法提升GPU计算效率的可行性展开分析，旨在通过GPU加速目标的实现，验证FTM算法与图像处理器运算功能的融合价值。

　　一、FTM算法的应用参数

　　现代社会中，图像处理器GPU在各领域的实践价值不断凸显，其运算能力在浮点运算技术开发中明显增强。在GPU利用过程中，CUDA是支撑GPU的核心软件，能够简化GPU运算流程，增强GPU计算能力[1]。FTM算法与GPU联合运用，是利用该算法的数学方程特性，高精度的捕捉GPU运动界面的数据，优化计算资源配置，其在GPU加速中的应用参数，主要体现在FTM算法中的N-S控制方程中。在将N-S控制方程渗透在GPU加速计算中时，运动界面的表面张力可集中在同一界面中，需要将其作为体积力乘δ函数，并给出GPU加速界面中的动量方程(1)。

　　(1)

　　公式(1)中，Xf表示GPU界面的实际位置，ρ为图像数据运算中的密度场，μ为粘度场，k为计算界面的平均曲率。在利用该公式，计算出界面上的“表面张力”后，可对应的完善FTM算法应用中的函数迭代精度、扩散项、流项的最小值，为GPU加速打好基础。

　　二、GPU加速中的CUDA架构

　　GPU中含有的CUDA组分为该程序的主机、核心设备。当CUDA主机通过内核函数，将CPU转换为GPU时，程序中的CPU的主要功能在于辅助GPU的海量运算任务，比如建立计算逻辑模型、支撑数据串行计算与并行计算等[2]。另外，GPU加速中的CUDA程序，其在内核函数运行期间，其任务执行的最小单位通常为线程，可在GPU计算中读取共享内存。但是由于CUDA架构中缓存器的存储空间有限，使得该程序中常量、共享、纹理等存储器储存大小无法满足GPU加速要求，所以在应用FTM算法时，需要结合各类存储器的功能优势，灵活的完善GPU的运行性能。

　　三、基于FTM算法的GPU加速方法

　　(一)引入共享内存，划分计算区域

　　FIM算法在将N-S控制方程中的表面张力单项提取后，可利用差分将扩散项、计算临时速度、对流项等数值引入GPU加速运算中[3]。具体来说，首先，运用速度离散方程，缓解海量数据的计算压力，并将该方程中的数据量转移至计算网格内完成计算工作。在此期间，为实现GPU的并行加速计算目标，需将CUDA架构中的最小单位线程作为计算节点。从而在计算网格过大后，以线程为节点对计算区域进行划分。相关人员在CUDA程序运行中，利用线程将FIM算法中的计算区域构建为线程块，分解GPU计算数据，有效改善着GPU的计算性能。

　　比如在使用“五点差分”时，GPU加速过程中计算节点(x，y)时，需要同时访问该节点周边计算区域的各个元素(x，y-1)、(x，y+1)、(x+1y)，且节点中的数据访问次数要求较高，平均访问次数为5次。但是利用五点差分直接访问全局内存中的计算数据时，GPU的整体计算效率较低，原因在于全局内存中数据读写速度受限，使得GPU计算速度难以提升，制约着FIM算法的合并访存。若引入共享内存，GPU运算时的访问速度明显加快，其在FIM算法的作用下，可一次性读取计算节点中的各个元素，并以多个线程为单位，同步访问各节点的共享内存，提升GPU计算效率。

　　在此期间，若计算区域中，共享内存内所存储的节点数据仅与CUDA程序中的线程块相对应，GPU加速计算时，同样需要方位线程周边数据。然而由于各线程块未能建立通信渠道，其数据共享功能不足时，GPU加速时依然需要访问“全局内存”，并根据FIM算法中的逻辑语句，评估各节点与线程块的位置关系，明确计算区域的分支[4]。但是在GPU具体运算时，线程为执行单位时，FIM算法中计算区域多由线程束组成，而线程束是由程序中的32个最小单位线程构成。之后，GPU可利用线程束控制对应的线程，计算各节点的实际数据。通常情况下，FIM算法应用中，线程束、线程接收到同一执行指令后，CUDA程序在完成各分支的计算工作时，各节点数据计算效率不佳，需要在线程设定时，提前利用共享内存划分计算区域，从而提高该程序运行效率，为FIM算法、GPU运算速度的有效提升创造条件。

　　(二)应用迭代处理，提升访存效率

　　在利用FIM算法，对GPU进行加速处理时，该算法在数据加速计算中所用的压力泊松方程，以及粘度场、密度场分析中，均需利用SOR迭代处理完成求解工作。然而FIM算法中，其迭代处理并行性不佳，需要将原有的SOR迭代法转变为红黑迭代法，提升FIM算法在GPU加速中的并行性。

　　具体来说，实现CPU加速时，红黑迭代法可在计算区域中，直接将运算数据划分为红黑两组。计算过程中，红黑两组数据会在计算网格中处于相互环绕的状态，并且在黑色组中的数据Q1更新后，周围红色组在计算中其物理参数可逐渐修正。基于此种迭代处理模式，计算Q1、Q2等数据时，红色组、黑色组的数据计算可并行完成，便于GPU在FIM算法的压力数值求解中快速完成计算任务。

　　另外，在GPU加速中提升FIM算法访存效率时，同样可通过迭代处理将数据分组，从而使红色组、黑色组的数据存储地址具有连续性，并在提升GPU访存效率的基础上，避免CUDA程序的存储空间增大[5]。同时在GPU利用FIM算法完成黑色组、红色组的数据计算后，可根据数据运算精确度分析迭代处理需求。在迭代处理后评估迭代处理需求时，GPU、CPU在数据处理中的通信频次会逐渐减少，GPU计算效率相应提升。但是在GPU、CPU通信次数设定值较大时，其通信频次的改变对计算效率的影响较弱，会导致FIM算法的数据计算时间延长，改变GPU的加速效果。因此，为实现GPU加速目标，提升访存效率，应根据图像处理中的数据计算要求，准确分析数据节点的迭代处理次数，避免因迭代次数过多而影响GPU加速效果。

　　四、结语

　　综上所述，计算机在各领域中的渗透，数值模拟、运算技术优势愈发突出。GPU在实际运行中所涉方程数量较多，利用FIM算法实现GPU的加速，是为进一步提升GPU运行速度，保证GPU在串行、并联计算中的数据计算精度。因此，相关人员在GPU的加速处理中，应深度挖掘FIM算法在计算密集场景中对数据的并行处理价值，提升GPU的计算效率。

　　作者简介：李登科，男，汉族，河南驻马店，在读硕士，华北水利水电大学

　　研究方向：GPU并行加速

　　参考文献：

　　[1]李贝贝,李志华,班晓征.GPU加速卷积反投影算法的滤波并行化方法[J].传感器与微系统,2019(05):75-78.

　　[2]任衍青,逯志宇,王大鸣.基于GPU加速遗传算法的直接定位研究[J].计算机应用研究,2019(005):1084-1087.

　　[3]李国昌.基于LoRa技术和GPU加速的台区拓扑辨识方法[J].电测与仪表,2019(21):96-103.

　　[4]丛敏章.可视化算法的GPU加速研究[D].2018(01):1-6.

　　[5]李聪,郭大波,刘小文.基于GPU加速的一种新图像特征匹配算法[J].计算机科学与应用,2019(1):9-18.

上一篇：计算机辅助翻译软件在翻译实践中的可操作性研究

下一篇：基于FTM算法的GPU加速分析

您身边的学术顾问

基于 FTM 算法的 GPU 加速分析

多对一·精细化服务