摘要:针对现阶段遥感目标检测精度低、速度慢、模型参数量大的问题,提出基于改进YOLOv7-tiny的FNM-Net轻量级遥感目标检测网络。首先,引入轻量级特征提取网络Faster-Net替换原有主干网络,避免网络对特征图的冗余覆盖;其次,引入焦点调制模块,提出空间信息整合模块(SIIM)来构建新型路径聚合网络,解决特征融合过程中信息冗余和忽略层内特征的问题;然后,针对遥感目标尺度变化大的特点提出多细粒度检测头;最后,采用基于层自适应幅度剪枝(LAMP)评分的剪枝方法,修剪权值较小的连接,减少参数量和计算量并提高检测速度。该方法在公开数据集RSOD上进行验证,结果表明,相比基线模型,参数量减少 51.2% ,计算量(FLOPs)减少 55.2% ,检测速度提升 6.5f/s ,mAP提升 2.1% 。同时,在NWPUVHR-10数据集上验证了其泛化能力。
摘要:为了解决道路裂缝自动化检测中目标分布尺度广、特征复杂多样以及需要处理大批量数据集的问题,提出一种基于YOLOv8n的轻量化道路裂缝检测算法GCW-YOLO。首先,将全局注意力机制引入到主干网络中,以增强道路裂缝特征的提取和融合能力;其次,采用Wise-IoU损失函数更换原本的损失函数来获得更好的特征聚焦,降低预测中的特征与分类损失;最后,将轻量化网络结构GhostNet引入残差计算模块,用于提高模型的特征提取效率,降低计算复杂度。实验在自制的高速公路裂缝病害数据集共计15116张图片上进行训练与预测,并在公开数据集上验证算法的泛化性能。实验结果显示,所提算法平均精度均值达到 63.5% ,相较于原始模型提高 6.0% ,算法在空间和时间效率上分别提升 3.0% 和 8.5% ,检测速度达到 250f/s 。对比实验结果表明,GCW-YOLO算法综合了轻量化和检测精度,并表现出良好的泛化性,在道路养护方面具有良好的实用价值和推广前景。
摘要:针对现有特征提取方法在复杂场景下难以有效提取出完整目标区域的问题,提出一种基于HSV空间非线性颜色增强以及连通区域构造的方法。首先,依据目标颜色特征分析直方图分布特性得到目标提取多级阈值;其次,对不同光照条件导致目标提取效果差的情况,通过构建不同光照下色调和明度的非线性映射关系进行增强提取;最后,对提取图像中连通性较差的区域提出最近邻骨架连接方法,提升目标区域的连通性,使其构成完整目标轮廓。通过多场景目标提取的检测对比实验,相较于形态学处理方法,所提方法总体平均检测精确率提升 0.102 6 ,因此,利用文中目标提取方法能够提高复杂场景下无人探测平台的目标检测准确率。
摘要:卷积神经网络(CNN)深度学习架构在生物医学图像分割方面取得了重大突破,并已广泛应用于实际场景。细胞核图像的分割精度对病理诊断有着至关重要的作用。针对现有细胞核分割算法在细胞核边缘的分割上仍旧存在着一定程度的模糊、粘连等问题,文中提出一种改进型U-Net网络图像分割算法,该模型使用三重注意力模块提高特征关注度,再结合特征融合模块、AG门模块、轻量级的Inception模块等提高模型准确率。在公开数据集 DSB2018上验证文中的算法,IoU、DSC等评价指标分别达到 81.85% 和 90.00% ,实验结果表明,与其他分割模型相比,文中提出的算法效果更好,分割结果图与真实标记在吻合度上体现出明显优势。
摘要:为了提升低光照条件下的图像质量,文中针对可见度降低和色彩失真等问题,结合Retinex理论的图像处理技术与先进的神经网络算法,创新性地提出一种图像增强框架。该框架由图像分解网络和图像增强网络两部分组成。图像分解网络负责将原始图像分解为照明分量和反射分量;图像增强网络则通过自然图像质量评价器(NIQE)进行参数优化和y校正,调整照明分量的亮度和对比度,进而与反射分量重新融合,提高整体图像质量。在标准数据集LOL和LOL-V2上的测试表明,该方法在峰值信噪比(PSNR)和结构相似性(SSIM)两个关键指标上,均优于多数现有图像增强算法,验证了其在低光照图像增强领域的有效性和实用性。
摘要:为使人脸图像缺失的语义特征填补更真实,细节信息恢复更明显,文中提出一种基于卷积注意力模块(CBAM)和上下文信息聚合转换(ACT)网络的人脸图像修复方法。该方法保留基准模型的两个分支,在语义和图像滤波分支中引入CBAM层能够捕获填充图像缺失区域的关键细节信息,基准残差块更换为ACT残差能够保留缺失区域外的丰富细节,捕获丰富的上下文信息,使得该分支对图像的语义信息填补更准确,能够有效去除伪影和丰富图像细节。在核预测分支中引入这两个模块能够增强提取图像特征时的感受野和上下文推理感知,使滤波核的动态预测更精确。该方法在CelebA-HQ数据集上进行验证,定量指标PSNR、SSIM 均有改善,定性修复结果呈现更加清晰自然。研究证实该方法对人脸图像修复有较好的效果。
摘要:针对小目标检测任务中目标占图片比例小、语义信息少,因此检测中常出现漏检、误检等问题。文中提出一种改进RT-DETR的小目标检测模型,在保证实时性的前提下提高检测性能。首先,对RT-DETR模型中的主干网络进行改进,设计部分重新参数化卷积模块,提高了特征提取效率;然后,引入高效多尺度注意力机制,结合空间和跨空间信息聚合的方法,在AIFI编码器中使用HiLo注意力机制,减少了计算成本,提高了检测算法的鲁棒性;最后,在 FloW-Img 水上小目标数据集上开展实验,结果显示,改进后的RT-DETR模型相较于基线RT-DETR模型在漏检率和误检率方面均有所降低。在测试集上,算法的 mAP@0.5 指标达到了 0.841,mAP@0.5:0.95 指标为 0.394 。相比基线RT-DETR模型, mAP@0.5 和 mAP@0.5:0.95 分别提升了 5.5% 和 3.7% 。检测效果优于基线模型与YOLO系列目标检测模型。
摘要:游戏中的目标具有复杂的形状、颜色、纹理等特征,而且目标会出现在不同的视角、尺度和姿态下,这些都增加了目标辨识的难度。级联式逆残差网络能够强化目标的多维特征,即使在目标存在遮挡、变形等情况下也能有效识别目标,为此文中提出一种基于级联式逆残差网络的游戏图像多模态目标精准辨识方法。构建由卷积层和基于深度可分离卷积设计的级联逆残差模块构成的主干网络,利用该网络初步提取输入的游戏图像特征,通过通道重排操作加强通道间信息交流,采用特征加强网络对主干网络学习到的特征图作上采样,结合多通道特征融合实现多模态目标特征的提取,通过可实现分类和回归任务的预测网络输出目标位置、方向等信息,从而实现游戏图像多模态目标精准辨识。实验结果表明,该方法可实现游戏图像角色、文字、场景元素等目标的辨识,训练损失仅为0.05左右 -score指标达到0.967,游戏图像多模态目标辨识效果好。
摘要:文中基于显著性特征的多视角动作图像识别方法,自动学习并提取出运动员动作的关键特征,有助于教练为运动员制定更科学、更个性化的训练计划。将人体骨架序列对齐到统一的时空坐标系中,计算距离图和角度图以捕捉骨架的空间特征,生成人体运动特征图;构建 CNN+CA 模型,将处理后的多视角动作视频帧生成感兴趣区域(ROI)拼接图,再将其输入到CNN中,提取多视角融合特征,并在CA模块中突出那些对于动作图像识别最为关键的区域;通过序列匹配算法将多视角动作识别问题转化为预测标签序列的匹配问题,为待识别动作图像分配动作类别标签,实现准确的多视角动作图像识别。实验结果表明:该方法不仅能够有效处理来自不同视角的动作图像,还能够准确识别出篮球运动员的多种动作。
摘要:针对新能源接入背景下移动通信传输网络能源供应不稳定、网络运行异常的问题,提出新能源接入下移动通信传输网络控制方法,其中基于能源协作的移动通信传输网络信息传输控制模型,利用混合能源采集系统采集能源,以最大化信息传输速率、最小化能源损耗和污染物排放量为目标函数,确保蜂窝系统和D2D用户成功通信。同时,为避免移动通信传输网络中蜂窝系统和D2D用户之间存在干扰,基于延迟接受算法预处理蜂窝系统的D2D通信资源,实现蜂窝系统和D2D用户之间的干扰控制,完成新能源接入下的移动通信网络高效与高质量传输。实验结果证明,该方法的能源采集效果佳,可有效达成信息传输速率最大化、能源损耗和污染物排放最小化目标,同时避免网络中蜂窝系统和D2D用户间干扰,具备优秀的移动通信传输网络控制效果。
摘要:针对现有较远距离雷达生命体征信号提取较难的问题,在传统变分模态分解(VMD)基础上提出自适应参数VMD(IAPVMD)的体征监测算法,以提取远距离的微弱生命体征能量信息,并利用MUSIC算法进行谱峰搜索,成功提取体征信号。实验结果在检测距离为 2m 处理窗口长度为1s时,于一段时间内呼吸平均绝对误差均低于 10% ,心率平均绝对误差均低于 6% ,且使用多种方法对比10名检测者体征估计值时,所提方法体现了更好的稳定性和准确率。基于不同距离结果对比,所提方法在 2m 以上数据结果中表现最好,证明了所提方法的有效性。
摘要:分布式深度学习中的计算节点需要频繁地与服务器进行梯度数据交换,从而产生较大的通信开销。针对上述问题,文中提出一种基于样本重要性的分布式深度学习通信优化策略。主要包括三个设计内容:首先,通过验证性实验探索数据样本的重要性分布;其次,通过交叉熵损失评估数据样本的重要性;最后,结合网络状态感知机制,以端到端的网络时延作为网络状态的反馈指标,计算节点动态调整传输梯度的压缩比,在保证模型收敛的同时减少网络通信量,进而提高分布式深度学习的训练效率。实验结果表明,所提方法在不同规模的分布式训练场景下能够有效提高通信效率。与现有的梯度压缩策略相比,所提方法最多可以减少 40% 的分布式训练时间。
摘要:多输入多输出(MIMO)正交频分复用(OFDM)雷达通常采用等间距子载频交错(ESI),实现不同发射天线信号在频域的正交。然而,ESI存在距离依赖性的角度误差问题。针对该问题,文中提出一种基于距离分复用(RDM)MIMOOFDM雷达的目标参数估计方法。首先,建立RDMMIMOOFDM雷达信号模型,获得发射端在距离维的正交波形,使得雷达接收机的天线孔径得到明显扩展,提升角度分辨率;其次,在距离-速度处理和角度估计之间,提出一种二值掩码方法分离不同发射波形,代替了传统的带通滤波器,同时抑制噪声干扰,改善成像质量;最后,仿真验证所提方法的正确性和有效性,结果表明,与ESI相比,所提方法可以有效去除距离依赖性的角度误差,提升成像分辨率和角度参数估计精度。
摘要:基于用户行为建模的推荐系统被广泛应用于召回、排序等阶段,包括序列推荐、会话推荐等。在序列推荐中,可能由于过长的序列设定而引入了一些与下次行为不相关的行为记录,而基于会话的推荐则着重于中短期推荐,在捕捉长期兴趣或一般性兴趣上存在局限性。文中提出一种融合时间和行为顺序信息的序列推荐系统(T-BOI),从而适用于长、短期兴趣推荐。所提方法利用T-BOI中的特征表示单元模块、行为权重单元模块、行为序列表示模型、行为类别输出单元模块进行处理,得到最终预测结果。通过在公开数据集上对所提方法与部分先进模型的推荐性能进行比较,结果表明该推荐系统具有良好的推荐效果。
摘要:当今世界的网络安全问题日益突出,入侵检测技术作为网络安全领域的重要组成部分得到迅速发展。目前,BP神经网络广泛应用于入侵检测。但传统BP神经网络权值选取不精确、学习效率低以及易陷入局部极小值,针对以上缺点,文中提出一种基于改进的灰狼算法优化BP神经网络的入侵检测方法。改进的灰狼算法通过改变线性控制参数,以及在灰狼位置更新公式中加入反余切惯性权重策略,以扩展狼群的搜索范围,从而避免陷入局部最优解。利用改进的算法优化BP神经网络的初始权值和阈值,将优化的BP神经网络应用于入侵检测。实验结果表明,改进的灰狼算法具有更好的稳定性、寻优效率和寻优精度,改进的入侵检测方法不易陷入局部极小值,泛化能力强,预测精度高和可靠性好。
摘要:为了增强利用残差网络提取的目标特征,在ATOM50算法基础上提出了一种基于改进的ResNet网络和特征融合的目标跟踪算法。在ResNet-50骨干网络中使用结合无批处理归一化和位置感知循环卷积的增强瓶颈块,有效增强了全局信息的捕获能力,并减缓了跟踪过程中的偏移累积;对提取的特征采用注意力特征融合模块,通过融合浅层特征的细节和深层特征的语义信息,进一步增强特征对目标的表达能力。利用OTB2015、VOT2018和LaSOT数据集对所提算法进行验证,在OTB2015上成功率和精确度分别达到了 70.2% 和 91.1% ,与基准算法 ATOM50 相比,成功率和精确度分别提升了 1.2% 和1.5% ;在VOT2018数据集上,期望平均重叠率提升了 4.4% ;在LaSOT数据集上,成功率和精确度分别提升了 2.4% 和 2.9% ;在OTB2015数据集上的平均跟踪速度达到 34.3f/s ,确保了实时跟踪。
摘要:针对当前恶意软件检测模型中使用的特征简单、检测准确率低,以及受到类别不平衡的困扰而无法稳定收敛的问题,文中提出一种基于深度特征融合的恶意软件检测模型。首先,对获取的原始流量捕获文件进行清洗,去除异常的数据包;然后,利用网络流量基本信息提取库将网络流量按会话的形式进行切分,获取流的相关信息,进而提取出所需的统计特征;接着,通过全连接层和自编码器对统计特征进行深度处理,有效消除噪声影响并生成更具鲁棒性的特征;最后,采用一维卷积神经网络和长短期记忆网络联合提取时空特征,获取全面的潜在信息,在显著提升模型检测准确率的同时解决模型收敛不稳定的问题。该模型在StratosphereIPS和USTC-TFC2016的混合数据集上进行了训练与测试,并且将该模型与其他五种模型进行了对比,对于二分类任务,该模型取得了 99.48% 的准确率和 97.82% 的 F1 分数;对于多分类任务,取得了93.16% 的准确率和 92.69% 的 F1 分数。测试结果表明,文中模型有效解决了类别不平衡带来的无法稳定收敛的问题。
摘要:针对医疗短文本存在特征稀疏、语义歧义和提取短文本特征不充分等问题,提出融合双通道特征的医疗短文本分类模型(EBDF)。该模型利用预训练模型得到动态词向量,使模型包含更丰富的语义信息;之后利用BiLSTM获取全局文本特征信息和DPECNN获取深层次的局部文本特征信息,为了提高模型的鲁棒性和泛化能力,采用FGM对抗训练算法对数据进行扰动;最后,将双通道的特征信息进行特征融合获得最终的文本表示。EBDF模型在三个医疗领域和两个通用领域的短文本数据集上与效果较好的模型相比,准确率提升约 0.57%~6.16%,F1 值提高约 0.65%~5.80% 。
摘要:文中针对在复杂噪声和混响的室内环境下,广义互相关时延估计精度不高导致声源定位效果不理想的问题,提出一种基于相位变换(PHAT)加权函数改进的广义二次互相关时延估计算法。在广义二次互相关的基础上,综合考虑不同通道对时延估计的影响,使用改进的PHAT函数对二次互相关函数进行加权。以LabVIEW为软件环境,结合五元麦克风阵列和数据采集卡设计了声源定位系统,分别使用广义互相关、广义二次互相关算法和改进算法进行声源定位实验和分析。实验结果表明,相比于传统的广义互相关和广义二次互相关算法,文中改进算法的抗噪抗混响能力更强,在复杂噪声环境下时延估计更准确,声源定位精度也更高。
摘要:针对强化学习在鱼群行为策略中存在没有摆脱规则的限制、奖励函数依赖于先验规则、无法完全刻画物体行为策略的局限性,文中提出一种基于生成对抗模仿学习(GAIL)的方法,从鱼类集群运动轨迹数据中恢复个体运动轨迹策略。设计鱼类个体的状态和动作表示,利用全连接神经网络表达鱼类个体运动的决策过程,并在实验中使用一个学习者及多个使用Vicsek模型导航的教师个体进行验证。实验结果表明,GAIL方法能够有效恢复鱼类个体的轨迹行为策略,提供了一种高效的策略学习途径,能够应用于其他生物集群行为的研究和模拟。通过对集群行为的深入分析,揭示了个体间的互动规律和群体动态,为人工智能在生物行为研究中的应用提供了新的思路。
摘要:随着社交媒体和网络内容的快速发展,反讽的使用已成为网络交流和信息传播中的常见现象。然而,传统的文本分析方法往往无法准确捕捉反讽的含义,单靠文本信息具有局限性和不稳定性的问题。文中构建了一个中文多模态反讽数据集,其中包含5964条带标注的数据样本,包括文本和图像两种模态。图像在多模态反讽检测任务中发挥着重要作用。为了充分挖掘图像中隐含的信息,文中使用图像字幕生成模型ViT-GPT2-image-captioning为每个图像生成对应的图像描述,以此对图像进行知识增强,进而增强对图像的理解和认知。针对多模态数据在融合过程中存在的模态间信息关联性不足以及数据缺失等问题,提出融合模态信息的模态间注意力网络模型CMANet进行反讽检测。通过在数据集上进行实验验证,结果表明所提CMANet模型对比基线模型 F1 分数提高了 1.49% ,准确率提高了 1.89% 。
摘要:由于传统无线电平台存在灵活性差、不可定制性以及干扰性差等不足,文中设计并验证了一种基于ZYNQ-7000系列的主控芯片以及AD9361射频芯片的射频收发系统。该系统采用零中频结构,可支持的工作频率范围为 70MHz~6GHz ,支持的通道带宽范围为 200kHz~56MHz ,适用于多种应用场景。在设计单元中,逻辑(PL)部分在FPGA上生成基带信号以及实现AD9361数据协议转换,总线部分利用AXI_Stream实现PL端流数据批量存储到PS端的DDR中。在验证单元中,通过使用频谱仪对射频输出信号的频率进行检验,结果表明其符合混频原理。此外,通过测量PL端到PS端的数据传输速率,提出一种自适应DMA传输速率调节机制。该机制能够根据单次传输的数据量动态调整传输速率,结果显示,数据传输速率与传输数据量呈正比关系,且维持在约 312.5Mb/s ,满足系统性能要求。
摘要:在数字全息图采样重构的研究过程中,全息图像中的噪声会对重建结果产生影响。现有的压缩全息没有考虑到数字全息图像的稀疏性和纹理特征分布,采样率没有合理分配。故文中提出一种基于自适应分块压缩感知的数字全息图降噪方法,以光场强度作为图像纹理细节的度量,基于预采样信息将全息图像分为不同信息块,并计算自适应采样率,通过压缩感知实现噪声全息图像的自适应欠采样重构。数值仿真实验结果显示,将该方法应用到不同的重建算法中,在采样率超过0.4时可以有效提高全息图像信噪比与相似度。可见与传统重建算法相比,所提方法充分利用数字全息图像的稀疏性与纹理特征,合理分配不同噪声子块采样率,有效提高了光学重建的目标图像质量。
摘要:锂离子电池组的不一致性会导致电池组容量降低,使用寿命缩短,甚至会带来安全问题。因此,必须引入有效的均衡技术来减轻不一致的影响。为提高锂离子电池组的均衡速度,文中提出一种串联电池组双层均衡的方法:底层电路采用基于传统Buck-Boost电路结构改进的单电感均衡电路结构;顶层电路采用电感电容串联均衡电路结构;以电池SOC为均衡目标变量,基于差值-均值法建立与拓扑结构相适应的双层均衡控制策略。根据所提出的双层均衡方法,在Matlab/Simulink实验平台中搭建6节三元锂离子电池的均衡实验。实验结果表明,相较于传统 Buck-Boost均衡方法,双层均衡方法在静置、充电和放电三种电池工作状态中的均衡速度分别提升 14.5%,15.2% 和 13.2% ,验证了该方法可以提高电池组的均衡速度。
摘要:文中面向岛型FPGA的低功耗设计,提出一种基于独立线长预测的低功耗聚类算法。通过建立考虑拓扑结构、通路级差与重汇聚影响的线长预测模型,实现对互连线动态功耗的有效估算,并将高功耗互连优先聚类至逻辑块内,降低全局功耗。实验表明,该方法在多个基准电路上相比传统P-T-VPack算法可显著减少动态功耗,特别是在时钟网络功耗方面效果更优。
摘要:针对我国盲人群体基数大,但缺少有效且经济实惠的导盲手段,盲人出门安全难以保障等问题,文中基于树莓派4B设计了一款多功能导盲系统,可实现障碍物检测和识别、步行导航和远程定位、语音播报等功能。该系统融合超声波传感器和摄像头并结合基于YOLOv8的视觉目标检测算法实现障碍物的检测和识别,通过GPS模块实现步行导航和远程定位,家人可实时查询盲人位置信息,从而保障盲人的出行安全。同时,所有导盲指令均通过语音播报形式辅助盲人导盲,提升了其使用的实用性。实测结果表明,该系统能对 4m 内障碍物进行检测,并可对15种常见障碍物进行识别,具有较高的检测精度和识别准确度以及具有可靠的路径规划和定位效果,可满足导盲安全需求。