×
注意!页面内容来自https://www.ecice06.com/CN/article/advancedSearchResult.do,本站不储存任何内容,为了更好的阅读体验进行在线解析,若有广告出现,请及时反馈。若您觉得侵犯了您的利益,请通知我们进行删除,然后访问 原网页
文本生成图像任务中的文本编码器不能深度挖掘文本信息导致后续生成的图像语义不一致。针对该问题提出一种DXC-GAN文本生成图像方法。引入Transformer系列中的XLNet(Xtra Long Network)预训练模型替换原始文本编码器捕获大量文本的先验知识实现对上下文信息的深度挖掘。添加CBAM(Convolutional Block Attention Module)注意力模块使生成器更加关注图像中的重要信息从而解决生成图像细节不完整和空间结构错误问题。在判别器中引入对比损失与模型中匹配感知梯度惩罚和单向输出结合使得相同语义图像之间更加接近不同语义图像之间更加疏远从而增强文本与生成图像之间的语义一致性。实验结果表明: 与DF-GAN相对比DXC-GAN在CUB数据集上的IS(Inception Score)与FID(Fréchet Inception Distance)分别提升了4.42%和17.96%;在Oxford-102数据集上IS为3.97FID为37.82;相较于DF-GANDXC-GAN在鸟类图像生成方面有效避免了多头少脚等畸形问题同时在花卉图像生成上也显著减少了花瓣残缺等图像质量问题; 此外DXC-GAN还增强了文本与图像的对齐性显著提升了图像的完整度和生成效果。
语料库查询语言(CQL)是一种用于在语料库中进行检索和分析的查询语言自然语言自动生成CQL指将用户以自然语言表达的查询需求自动转换为标准的CQL语句大大降低了用户使用语料库的门槛。虽然大语言模型(LLM)可以较好地完成自然语言生成任务但是在CQL生成任务中效果还不是很理想。为此提出一种基于LLM上下文学习的语料库查询自动生成方法T2CQL。首先基于CQL的编写规则总结出一套简洁全面的文本到CQL(Text-to-CQL)语法知识作为LLM实现Text-to-CQL自动转换的基础以弥补LLM在此领域知识储备的不足。然后基于选定的嵌入模型选取与当前自然语言查询最接近的前k个文本-CQL样本对以帮助LLM理解语法知识并作为参照。最后采用生成结果校准策略来减轻LLM在生成CQL时的偏差通过校准模型偏差提升模型生成CQL语句的性能。实验使用多个LLM在包含1 177条数据的测试集上进行测试。实验结果表明T2CQL方法显著提升了LLM在完成Text-to-CQL自动转换任务时的性能最优的执行准确率(EX)达到了85.13%。
语音生成说话人脸视频是当前一个研究热点涉及音频和视觉两个模态的处理需要着重解决说话时唇部运动和输入音频对齐的问题。针对该问题提出一种端到端的语音控制说话人脸视频生成对抗模型主要包括模态仿射融合的生成器、视觉质量判别器和唇形同步判别器基于仿射融合的生成器通过模态仿射融合模块(MAFBlock)在人脸特征解码过程中添加音频信息有效地融合音频信息和人脸信息使得音频能够更好地控制说话人脸视频生成。引入空间注意力和通道注意力机制增强模型对于局部区域的关注。基于双判别器提高模型生成质量和唇形同步率唇形同步判别器用于约束唇部运动对音频和唇形进行相似性判断在不改变整体轮廓和脸部细节的前提下更精细地控制唇部动作生成视觉质量判别器判断生成图片的真实性提高生成图片质量。在两个视听数据集上与多个现有的代表性模型进行对比实验结果表明: 该模型在LRS2验证集上具有8.128的LSE-C分数和6.112的LSE-D分数相比于Baseline分别提升了4.3%和4.4%;在LRS3验证集上具有7.963的LSE-C分数和6.259的LSE-D分数相比于Baseline分别提升了6.2%和6.9%。
大语言模型(LLM)在对话、推理和知识保留能力方面展现了显著优势但在处理电力领域知识密集型任务时仍面临事实准确性不足、知识更新难以及高质量领域数据集匮乏的问题。针对这些挑战引入一种改进的检索增强生成(RAG)策略该策略融合了混合检索策略和经过微调的生成模型提供了更高效的知识捕获和更新能力。基于对现有方法的深入分析针对电力领域的知识问答(QA)任务提出了元数据驱动的RAG框架Meta-RAG该框架包含数据准备、模型微调和检索推理3个阶段。数据准备阶段包括文档转换、元信息抽取与增强及文档解析模块在此阶段借助元信息的提取与增强确保了电力规范文档的高效索引和结构化处理并且构建了电力领域的EleQA(Electricity Question Answering)数据集这是一个包含19 560个问答对的电力规范问答数据集。在模型微调阶段通过多问题生成、思维链提示生成和监督指令微调数据集构建模块优化了模型在特定电力问答任务上的推理能力。在检索推理阶段则采用混合编码和重排序策略结合检索和生成模块进一步提高了答案的准确性和合理性。通过一系列实验Meta-RAG的有效性得到验证。与Self-RAG、Corrective-RAG、Adaptive-RAG、RA-ISF等基线模型相比Meta-RAG具有更高的回答准确率和检索命中率其中基于Qwen1.5-14B-Chat模型的Meta-RAG达到了整体准确率0.804 3高于其他方法。消融实验和文档召回实验结果表明文档检索对框架性能影响最大失去检索能力整体准确率下降了0.292 8。
大语言模型在机器翻译任务中已经展现出一定水平通过提供翻译提示模型能够生成译文。然而受预训练语料质量和语言分布的限制大语言模型生成的译文仍存在一些低质量翻译问题如错译、漏译、幻觉和脱靶翻译等。为了减少大语言模型的低质量翻译提出基于译文易错词纠正机制的大语言模型机器翻译方法。首先使用原始训练集的模型译文和参考译文定义大语言模型在特定语向的译文易错词然后根据译文中的易错词及其纠正词构建易错词纠正数据集利用易错词纠正数据集微调另外一个小型预训练模型得到纠正模型。在推理阶段使用纠正模型对大语言模型译文中的易错词进行纠正纠正后再由大语言模型完成自回归解码最终得到更高质量的译文。实验采用Llama2-7B模型在WMT2022测试集的中↔英、德↔英和俄↔英6个语向中进行了验证。结果显示与未经纠正的译文相比X-英翻译语向的平均COMET(Crosslingual Optimized Metric for Evaluation of Translation)和平均SacreBLEU(Bilingual Evaluation Understudy)分别提高了0.018 7和1.26分英-X语向的平均COMET和平均SacreBLEU分别提高了0.087 9和7.67分。实验证明了易错词纠正机制能够有效提高文本翻译质量。
脓毒症是一种由感染导致的危重症是重症监护室(ICU)中患者死亡的主要原因之一。然而在脓毒症治疗环境中实际数据较难获取存在临床数据匮乏的问题。为克服这些挑战提出一种具有梯度惩罚的顺序耦合医疗Wasserstein生成对抗网络(SC-med WGAN)与现有工作侧重单步生成不同强调对脓毒症患者状态和药物剂量的顺序生成以更好地模拟临床数据的生成过程。该模型由两个耦合生成器组成在统一模型中协调患者状态和药物剂量的生成。模型采用混合损失技巧引入特征匹配损失和皮尔逊相关系数作为附加项既考虑单个变量的实际分布也考虑变量之间随时间的相关性。在包含17 898位脓毒症患者信息的重症监护医疗信息标记(MIMIC-Ⅲ)数据集上测试并在贫血数据上进行验证证明模型的准确性和鲁棒性。实验结果表明该模型顺序生成的数据在质量和真实性上优于其他模型揭示了患者状态和药物剂量数据的生成具有明显的相互影响这一临床事实。
在医疗健康领域中现有的问题分类方法存在文本特征表示能力弱的问题并且对于多类别问题忽视了不同关键词特征的权重从而影响了分类的准确性。为了解决这些问题提出一种基于多特征融合与混合神经网络的医疗健康问题分类方法(MPC-MFF-HNN)旨在提高医疗健康问题分类的准确性。首先该方法结合RoBERTa-wwm-ex模型和Word2Vec模型对文本信息进行字符级和单词级的向量表示以获得丰富的多特征信息从而弥补单一特征表示方法的不足使得模型在处理复杂的医疗健康文本时能够更全面地理解和表征文本语义; 其次通过多头注意力机制结合改进的文本卷积神经网络(TextCNN)和双向门控循环单元(BiGRU)设计了一种混合神经网络模型MHA-APTC-BiGRU其采用多层次特征提取方法能够有效提取包含关键词权重的深层次文本特征; 最后分类器将语义增强的特征向量作为输入用于问题类别的分类。在真实公开数据集上的实验结果表明与其他基线算法相比该方法在精确率、召回率和F1值指标上均显著提升在医疗健康问题分类方面表现出更优越的性能。
针对现有模型对车辆特征提取不足和预测场景单一的问题提出了一种在多场景下融合多特征的车辆轨迹预测模型MTF-GRU-MTSHMA。该模型由编码器模块、多特征提取模块、多特征融合模块和轨迹预测模块组成。在编码器模块利用门控循环单元(GRU)对车辆历史信息进行编码得到车辆的历史状态; 在多特征提取模块考虑目标车辆区域内周围车辆之间的空间关联性通过多维度空间注意力机制挖掘周围车辆的深层特征并引入三重注意力机制对编码后的状态向量进行特征提取; 在多特征融合模块将提取到的多种特征进行线性拼接并输入到多特征融合网络中进行融合; 在轨迹预测模块对GRU进行改进提出混合示教门控循环单元(MTF-GRU)并作为解码器通过引入示教率来控制解码模式以提高解码性能将融合后的特征输入到解码器中生成未来轨迹。在NGSIM数据集上进行的仿真实验结果表明与最优基准模型相比所提模型在直线道路、十字路口以及环岛道路场景下的均方根误差(RMSE)分别提高了8.16%、10.31%和8.37%证明了所提模型的有效性。
随着多模态学习的不断发展图像检索领域也面临新的机遇和挑战。现有的服装检索模型大多基于卷积神经网络或者Transformer的单模态模型实现忽略了图像对应的丰富文本信息模型能学习到的特征相对单一。为此提出一种基于多提示和图文对比学习的服装检索方法。引入图像文本多提示学习引导多模态大模型FashionCLIP学习服装的多维高语义多模态特征为提高模型的检索能力以及充分挖掘多模态模型的检索潜力分两阶段优化模型。第一阶段冻结图像和文本编码器通过图像文本交叉熵损失函数优化文本提示; 第二阶段冻结文本提示和文本编码器通过三元组损失、分类损失和图像文本交叉熵损失函数优化图像提示和图像编码器。在淘宝直播多模态视频商品检索数据集WAB上的域内检索和跨域检索实验结果表明: 该方法在域内检索的均值平均精度(mAP)和Rank-1相对于传统方法至少提升6.1和3.5百分点在跨域检索的mAP和Rank-1相对于传统方法至少提升8.4和6.4百分点检索性能得到了显著提升证明了图文对比学习在服装检索领域的潜力。
目前图文检索已经成为跨模态领域的一个重要研究方向但现有的将多种模态特征聚合的方式面临着模态间特征对齐不充分和模态内语义表征损失的两大挑战。针对跨模态检索领域模态内特征信息的表征问题提出一种基于交叉注意力与特征聚合的跨模态图文检索模型。该模型包含图文特征提取、交叉注意力、特征池化、特征融合等模块结合三元组损失函数挖掘图文局部信息以获得具有深层次语义关系的图文特征表示。模型采用注意力融合策略通过可学习权重参数调控图像与文本细粒度特征的融合。设计一种特征池化模块分别聚合图像区域特征和文本序列特征并通过神经网络学习权重参数结合多重相似度共同指导模型学习该模块可以灵活地处理图文变长序列的特征增强模型对跨模态信息的捕捉能力。在公共数据集MS COCO和Flickr 30k上进行对比实验结果表明与多种图文检索模型相比该模型在同类方法中检索性能更高其在语义特征池化降维方面具有优势为跨模态特征融合提供了新思路。
针对自动驾驶场景中行人和车辆的目标识别与定位问题提出一种四维(4D)毫米波雷达与视觉融合的CDCAM-BEV算法以提高目标检测的精度。首先设计雷达柱体网络将4D雷达点云编码为伪图像并通过正交特征变换(OFT)将单目图像转换为鸟瞰图(BEV)特征; 其次基于交叉注意力机制设计共同信息提取模块(CICAM)和差异信息提取模块(DICAM)充分挖掘雷达和图像的公共信息和差异信息; 最后基于CICAM和DICAM设计BEV特征融合模块实现图像信息和雷达信息在BEV空间的特征级融合。在VOD数据集上进行实验将CDCAM-BEV算法与其他5种三维(3D)目标检测算法进行对比。实验结果表明CDCAM-BEV在多个模式下检测性能均优于其他算法。在3D模式下CDCAM-BEV的平均检测精度比排名第二的Part-A2高出3.65百分点; 在BEV模式下比排名第二的PointPillars高出5.04百分点; 在平均方向相似度(AOS)模式下比排名第二的Part-A2高出2.62百分点。结果显示CDCAM-BEV在各模式下均表现出卓越性能能够有效融合图像和4D雷达点云特征显著提高目标检测的精度和可靠性。
有序分类属于分类的一种,其要求类标签存在自然顺序,在很多领域例如电影分级、年龄估计都得到了广泛的研究。目前,大部分有序分类方法假设所有样本都被标记。但由于数据的特殊性,在实践中往往难以收集大量的标记数据,影响有序分类的性能。针对以上问题,提出一种结合额外信息的半监督有序分类框架。首先,利用未标记样本的顺序关系生成额外的偏序信息,并将偏序信息构建为有向图网络;然后使用图神经网络(GNN)聚合邻居信息,丰富节点表示,同时捕捉节点间的顺序关系,利用学习到的表示恢复偏序信息间的全局排名;接着使用高斯混合加权的方法对数据特征根据全局排名进行加权,并使用聚类方法为全局排名赋予伪标签,从而将这些信息合并到有序信息中;最后,使用有监督学习的有序分类模型进行年龄估计。在FGNET、Adience、UTKFace 3个数据集上的实验结果表明,该框架使用较少的标记数据便能够取得可靠的性能,在平均绝对误差(MAE)、准确率(Accuracy) 2个指标上相较于半监督学习基线方法均有提升:MAE在3个数据集上分别降低了0.05、0.04、0.04,Accuracy在3个数据集上分别提高了4.8、4.5、3.5百分点。
近年来,深度学习技术在恶意流量检测方面的应用越来越广泛。然而,对抗样本攻击给基于深度学习的恶意流量检测带来了巨大挑战。针对这一问题,提出一种基于集成学习与异常检测的对抗流量检测方法,用于发现针对恶意流量检测系统的对抗样本攻击。首先,为每一类恶意流量类别训练一个二分类集成学习器。对于集成学习器的每一个基模型,采用不同数据子集和特征子集训练,扩大基模型之间的差异性,以增加对抗样本跨越所有模型决策边界的难度。其次,将不同二分类集成学习器中基模型预测输入样本为正常样本的比例作为集成学习模型的信心得分,并将不同二分类集成学习器的信心得分输入孤立森林模型,通过孤立森林模型进行异常检测获得异常得分。最后,将获得的异常得分与在正常样本上获得的异常得分的阈值进行比较,判断样本是否为对抗样本。实验结果表明,该方法在NSL-KDD和CICIDS2017数据集的特征空间和受限空间上分别取得了最高0.986 9、0.989 6、0.999 1、0.999 8的受试者工作特征曲线下面积(AUC)值,优于对比方法。
联邦学习作为目前深度学习最为常用的隐私保护框架被众多机构广泛应用。此框架中的各个参与方通过上传模型参数数据实现本地数据不离本地达到共享数据的目的。但在联邦学习中各个参与方频繁上传及接收参数时易出现隐私泄露问题。为解决这一问题提出一种基于个性化梯度裁剪的联邦学习隐私保护算法(AADP_FL)。该算法根据参与方不同网络层历史数据的L1范数计算出各层的裁剪阈值对梯度数据进行裁剪以限制梯度范围预防梯度爆炸及梯度消失。同时计算各层的贡献度根据各层贡献度为每层分配隐私预算进而添加个性化噪声。参与方在上传数据时加入适量的噪声以掩盖上传数据的具体内容进而隐藏各个参与者的贡献率保护各个参与方的数据安全。经过一系列实验证明AADP_FL算法的准确率相较于常用的个性化梯度裁剪方法提升3.5百分点以上相比于传统的联邦学习框架也能保持较高的准确率。同时该算法在保持较高准确率的同时能严格保护参与方数据的隐私安全使得模型性能与数据隐私性达到均衡状态。
由于参与联邦学习联合训练的客户端并非完全可信从而带来联邦学习模型的版权泄露风险而当前由中央服务器嵌入水印的方法面临许多难题例如难以适用于安全联邦学习架构、溯源能力不足、服务器计算负担过重等。针对上述问题提出一种基于正交约束的可溯源安全联邦学习版权保护方案FedSOW。首先服务器复制待嵌入水印的卷积层形成双层通道作为初始化水印层; 然后根据施密特正交化原理设计正交约束规则并以不同的规则约束局部模型水印层的输出特征; 最后客户端通过训练反向引导水印层形成具有不同正交结构的可溯源局部模型。实验结果表明与现有的水印方案相比FedSOW具有较好的水印持续性确保能在安全联邦学习框架的训练过程中进行版权验证在可溯源性、保真度和抗攻击能力等方面表现出卓越的性能。
针对现有文本隐写分析模型难以学习和提取载密数据中真实存在的多层有效信息的问题提出一种基于层次感知匹配的文本隐写分析方法HAM-Stega。该方法利用隐写数据中的文本信息与标签信息之间相对距离的匹配关系以层次感知的方式获取文本与粗粒度、细粒度标签之间的特征匹配关系以此设计联合嵌入损失函数和匹配学习损失函数引导文本特征表示进行分类学习得到最终的层次分类信息。实验结果表明HAM-Stega在更符合现实场景的多分布混合数据集Large上的检测精度比对比模型提高了1.25~7.42百分点表明该模型在混合数据集上具有有效的隐写分析检测能力。同时HAM-Stega对于隐写数据中存在的其他多层有效信息(载密文本的隐写算法、嵌入率、语料类型等)可以进行提取和检测其在层次分类指标Macro-F1和Micro-F1上相较于预训练的BERT模型分别提高了5.41和4.36百分点。
近年来无线网络在医疗、工业、教育、军事等领域得到广泛的应用,但同时也面临着更大的安全威胁。传统的密码学验证存在一系列问题,包括计算资源有限、量子计算威胁和身份验证信息易篡改等。为解决此类问题,提出一种基于物理层信息的设备指纹验证方案,利用基于信道状态信息(CSI)的指纹特征进行设备识别,防止恶意Wi-Fi连接。该方案综合考虑了静止设备和可移动设备两种不同终端状态的情况,旨在解决终端识别精度低和稳定性较差的问题。对于静止设备,由于认证情况的干扰较少,采用CSI幅值信息矩阵作为认证指纹;对于移动设备,由于CSI信息会随设备的移动而发生变化,直接提取指纹信息不再适用,通过提取I/Q相位误差构建特征指纹进行设备识别。采用自主设计的基于置信度的单分类支持向量机(SVM)串联模型(OSCL)、基于置信度的孤立森林(iForest)串联模型(IFCL)模型分别对两种方案构建的指纹进行训练,实现了对目标设备的识别。在静止设备识别中,所提方案准确率达到99%;在移动设备识别中,准确率达到74%。该方案可以起到对基于密码学的设备识别方案很好的补充作用,同时训练阶段仅使用正向数据对模型进行训练,很好地解决了异常设备指纹信息不可预测的情况。
针对目前基于硬件指纹的网络设备识别方法采集和提取特征效率低下以及基于流量特征的设备分类方法仅考虑已有类型而不能对异常设备进行检测的问题提出基于设备时延和混合深度学习模型的网络设备检测方法。该方法基于全球导航卫星系统(GNSS)高精度授时技术提取纳秒级精度网络设备处理时延特征构建贝叶斯卷积自动编码器模型BCNN-AE包含特征提取模块、特征重构模块和复合预测模块实现了对于已知网络设备类型的识别和未知网络设备类型的检测具体为: 首先采用GNSS高精度授时技术实现对于网络流量处理时延的纳秒级精度测量并构建设备时延分布特征向量; 接着特征提取模块使用贝叶斯卷积提取时延分布特征信息特征重构模块使用自动编码器(AE)学习时延特征向量的压缩重构表示; 最后复合预测模块基于不确定性阈值和重构误差阈值进行综合判断实现已知类型识别和未知/异常设备类型检测。在实验室仿真环境下采集的数据集和公开数据集Aalto上的实验结果表明采用设备时延能够实现不同网络设备类型的准确表示并且BCNN-AE模型除了能取得比基线模型更高的识别准确率之外还能够实现对于未知/异常设备类型的检测。
针对红外场景下的船舶图像检测准确率低和计算量大的问题提出一种用于红外船舶目标检测的改进YOLOv7-tiny模型。首先在主干网络采用轻量级模型PP-LCNet极大降低网络参数量与计算量。然后改进Fused-MBConv模块和坐标注意力(CA)机制构建ELAN-FM-C模块将其引入特征融合层全面关注特征层的空间信息和通道信息获取更大感受野。接着使用基于最小点距离的边界框相似度比较的MDPIoU损失函数简化了计算过程提高了轻量级模型对红外目标的检测能力。然后设计R-BiFPN结构来融合更多有效特征提高了轻量级模型对不同尺度目标的检测效果。最后利用知识蒸馏技术进一步提高了模型的检测精度。在艾睿光电红外海上船舶数据集上的验证结果表明相比原始YOLOv7-tiny模型改进模型检测的均值平均精度(mAP)提高了3.3百分点、参数量和计算量分别降低了23.0%和30.3%、模型大小减小了21.7%。在公开船舶数据集SeaShips和Ship Images上的验证结果表明与主流和最新检测模型相比改进模型具有良好的泛化性和鲁棒性并且在检测精度和轻量化方面表现更优。
现有的真实图像风格迁移算法在追求提升图像的真实感和风格化强度的同时通常未充分考虑算法模型尺寸和计算效率问题因此很难适用于低算力设备。为解决这一问题提出一种轻量级真实图像风格迁移算法。使用ShuffleNet V2轻量级网络替代VGG19作为特征提取器并引入块式训练和跳跃连接技术旨在大幅度减少参数量提高图像的风格迁移速度。同时为了更好地平衡迁移图像的内容和风格设计混洗门控通道注意力机制(SGCAM)和通道对齐策略(CAWCT)。SGCAM将通道混洗和门控机制巧妙结合不仅增强了生成图像的真实感还进一步保持了算法轻量化的优势。CAWCT通过引入二值化操作对白化后的内容特征和风格特征进行相似性匹配显著提升了生成图像的风格化强度。实验结果表明所提算法的参数量仅为PhotoWCT2的14.8%迁移一张1 000×750像素的图像只需4.22 s比PhotoWCT2少0.79 s同时生成图像的质量和风格化强度均得到明显提升结构相似性(SSIM)和峰值信噪比(PSNR)指标分别提高0.031 dB和0.066 dB内容损失(Content loss)、Gram损失(Gram loss)和风格损失(Style loss)指标分别降低0.227、0.138×10-5和0.116。
现有的低光图像去噪方法主要使用Transformer和卷积神经网络(CNN)的特征提取和去噪机制会面临两个问题: 基于局部窗口的自注意力机制未能充分捕捉图像中的非局部自相似性; 通道维度上的自注意力计算未充分利用图像的空间关联性。针对上述问题在基于窗口划分的视觉Transformer方法上提出一种超像素引导的策略其可以自适应地选择相关窗口进行全局交互。首先设计基于窗口交互的Top-N交叉注意力机制(TNCA)动态选择与目标图像窗口最相似的前N个窗口并在通道维度上聚合图像窗口的信息充分考虑图像非局部自相似性; 其次通过超像素分割引导的方式显著提升窗口内局部特征的表达力同时在通道维度上增强空间特征的关联性; 最后构建一个层次化的自适应交互超像素引导的Transformer去噪网络(AISGFormer)。实验结果表明AISGFormer在SIDD和DND真实图像数据集上的峰值信噪比(PSNR)分别为39.98 dB和40.06 dB与其他先进网络相比分别提升了0.02 dB~14.33 dB和0.02 dB~7.63 dBAISGFormer更能交互局部与全局的信息和细节自适应地利用自相似性来抑制区域相似噪声。
针对黑色素瘤的医学图像分割以U-Net为骨干提出一种新的医学图像分割网络SEHC-Net。设计一个感知及边缘增强模块(SEBM)的新结构来处理分割形状不规则、大小多样和边界模糊的黑色素瘤图像。SEBM可以扩大特征的感受野增强模型提取目标边缘信息和进一步捕捉像素之间联系的能力。此外提出层级补偿模块(HCM)来解决信息拼接过程中长连接导致的信息冗余问题以弥补主流分割网络在特征提取阶段不能在空间上下文信息和高级语义信息之间充分平衡的缺陷。同时为了缓解由于引入以上两种结构导致的参数量增加问题引入GoogleNet中的Inception思想减小网络原始的编解码卷积模块中的卷积核尺寸从而在降低模型参数量的同时增加模型的宽度和深度并增强捕获像素间关联的能力提升分割算法的性能。在ISIC2018黑色素瘤数据集上进行验证的结果表明所提出的分割算法的交并比(IoU)、敏感度、精确率、Dice系数和准确率分别达到了79.54%、86.29%、90.92%、84.39%和94.83%有效提升了黑色素瘤的分割性能。
图像分类作为计算机视觉的基础任务目前在大规模数据集上的研究已取得显著成效。然而在低样本量数据条件下传统的深度学习方法受制于过拟合问题影响模型的泛化能力。为此设计一种新颖的小样本图像分类方法用于提升模型在样本数据稀缺时的分类性能。该方法基于显著位置相互作用Transformer与目标分类器借鉴ViT(Vision Transformer)模型的结构和优势引入具有显著位置选择的相互作用多头自注意力(HI-MHSA)模块同时增加对多头自注意力模块中各个注意力头之间的交互强化模型对输入图像中显著区域的关注节省计算资源并通过目标分类器的监督指导进一步提升模型的学习效率和准确性。实验结果表明在miniImageNet、tieredImageNet以及CUB数据集上该方法在5-way 1-shot任务中分类准确率分别约为67.09%、72.07%和79.82%在5-way 5-shot任务中分类准确率分别约为83.54%、85.62%和90.35%。实验结果显示该方法在小样本图像分类任务中具有优秀的性能和高度的实用性。
目前细粒度图像分类任务面临着标注困难、样本数量稀缺以及类别差异微小等挑战。为了应对这些问题提出一种基于邻域融合和特征增强的小样本细粒度图像分类方法。首先利用离散余弦变换(DCT)和通道注意力机制分别捕获图像的全局信息和局部信息并将这2种特征在通道维度上进行拼接这种结合空间域和频率域的特征提取方法不仅增强了样本特征的多样化还提高了模型的泛化能力; 其次引入特征增强模块计算查询样本与支持类原型之间的相关性生成自适应权重以指导查询信息补充支持样本图像的细致学习这一过程有效地捕捉了同类别图像之间的差异同时抑制不同类别图像的局部相似性; 最后使用双相似性度量模块衡量支持类原型与待分类样本图像之间的相关分数实现更精准的图像分类。实验结果表明在Mini-ImageNet、CUB-200-2011、Stanford Dogs和Stanford Cars 4个公开数据集的5-shot任务中该方法的准确率分别达到了79.22%、87.47%、79.23%和83.71%相较于对比方法性能更优。
无人机(UAV)航拍图像中的目标通常具有尺度密集、易被遮挡且多为小目标等特点这导致检测过程中容易出现漏检和误检。为应对上述挑战基于YOLOv5s提出了针对小目标检测的SNA-YOLOv5s算法。首先引入空间深度转换卷积(SPD-Conv)模块替换原模型的跨步卷积层避免细节信息丢失增强小目标特征提取能力; 其次设计新型平均快速空间金字塔池化(AGSPPF)模块引入平均池化操作缓解池化层在提取特征信息的同时会导致部分信息丢失的问题提升模型的特征提取能力; 再次新增针对小目标的大尺度检测分支捕捉浅层特征中丰富的细节信息提升模型对小目标的检测能力; 最后将归一化注意力机制(NAM)嵌入骨干网络对特征信息进行加权处理抑制无效的特征信息。在VisDrone2019数据集和NWPU VHR-10数据集上的训练测试结果表明该算法的均值平均精度(mAP)分别达到了42.3%和96.5%与基线模型YOLOv5s相比分别提高了8.4和2.6百分点。通过与其他基于深度学习的主流模型对比实验进一步验证了该模型的鲁棒性和精确性。
人体关键点检测在运动行为识别、人机交互等领域的应用越来越广泛。为进一步提高人体关键点检测的精度减少计算量和参数量以跳远运动为例提出一种多尺度特征提取的关键点检测算法并结合该算法实现智能距离检测。首先构建LJDataset数据集填补当下跳远运动数据集的不足; 然后基于YOLOv8训练框架提出一种参数量低、计算量小的新模型SRMpose该模型使用StarBlock搭建骨干网络设计MRB(Multi-channel Residual Block)、半耦合检测头SRMhead模块来提取特征引入轻量化采样算子ADown和DySample提高特征图的处理效率; 最后在LJDataset、MPII、COCO数据集上进行实验验证。实验结果表明与YOLOv8n-pose相比SRMpose模型在3个数据集上的[email protected]和[email protected]∶0.95分别提高了2.2和1.4百分点、3.6和2.6百分点、1.9和1.2百分点参数量平均提高了3.3%GFLOPs平均减少了21.7%。此外在COCO、LJDataset数据集上与YOLOv8s相比SRMpose的参数量平均减少了48.3%GFLOPs平均减少了59.6%而[email protected]分别降低了1.4百分点和提升了0.3百分点证明SRMpose在保证模型性能的前提下有效减少了参数量和计算量。在LJDataset数据集上将模型验证数据集调整为COCO验证集结果表明SRMpose与YOLOv8s的性能差距小于1百分点证明了SRMpose的综合性能优势和泛化能力也表明LJDataset数据集具有一定的复杂度可以覆盖大部分人体关键点识别特征。
情绪识别是人机交互(HCI)与情感智能领域的重要前沿课题之一。然而目前基于脑电(EGG)信号的情绪识别方法主要提取静态特征无法挖掘情绪的动态变化特性难以提升情绪识别能力。在基于EGG构建动态脑功能网络的研究中常采用滑动窗口方法通过依次构建不同窗口内的功能连接网络以形成动态网络。但该方法存在主观设定窗长的问题无法提取每个时间点情绪状态的连接模式导致时间信息丢失和脑连接信息不完整。针对上述问题提出动态线性相位测量(dyPLM)方法该方法无需使用滑窗即可自适应地在每个时间点构建情绪相关脑网络更精准地刻画情绪的动态变化特性。此外还提出一种卷积门控神经网络(CNGRU)情绪识别模型该模型可进一步提取动态脑网络深层次特征有效提高情绪识别准确性。在公开情绪识别脑电数据集DEAP(Database for Emotion Analysis using Physiological signals)上进行验证所提方法四分类准确率高达99.71%较MFBPST-3D-DRLF提高3.51百分点。在SEED(SJTU Emotion EEG Dataset)数据集上进行验证所提方法三分类准确率达到99.99%较MFBPST-3D-DRLF提高3.32百分点。实验结果证明了所提出的动态脑网络构建方法dyPLM和情绪识别模型CNGRU的有效性和实用性。
近年来基于生理信号测量的情感识别研究逐渐兴起其中瞳孔直径(PD)被认为是一种有潜力的生理指标可以直观反映出个体的情感状态变化。然而瞳孔信号的降噪处理以及情感识别精度仍然面临挑战。为了解决上述问题提出一种双重滤波的降噪方法以及一种基于机器学习的数字化分类方法旨在对PD信号进行有效去噪的同时保留与情感相关的细微特征以及提高对受试者不同情感状态评估的准确率。首先设计基于听觉与视觉刺激的情感诱导实验引导受试者的情感状态从平静到惊吓、压力以及愉悦同时使用了眼动仪采集其PD信号在连续时间段内的数据。为应对数据中的噪声采用三次样条插值法弥补由眨眼及设备系统噪声引起的信号缺失再采用卡尔曼滤波与小波去噪对原始数据进行双重预处理。然后利用从瞳孔数据中提取的4个关键特征用5种分类算法对受试者的情感状态进行分类并比对了各个模型的性能指标达到84.38%的平均准确率。其中多层感知器(MLP)的效果最佳达到了87.07%的最高准确率。最后通过接收者操作特征(ROC)曲线对比了4种特征在区分不同情感状态方面的性能。
谣言源的准确识别能够抑制谣言的传播扩散减少谣言对社会公众的影响。目前的谣言源识别模型忽略了节点之间影响力的差异性导致在聚合邻居特征信息时权重相同从而降低了谣言源识别的准确性。提出一种基于图注意力网络(GAT)的多谣言源识别模型——MRSDGAT。首先在一个完成谣言传播的社交网络中利用用户状态、谣言来源突出性和中心性将社交网络中的用户节点表示成向量通过此向量构建出节点的特征矩阵。然后通过GAT挖掘节点之间的相互影响力计算节点的影响力权重并按照节点间的影响力权重聚合节点特征信息。接着在注意力层之间引入残差连接以缓解梯度消失问题提高识别多个谣言源的能力。最后模型输出的值为每个节点作为源节点的概率值概率值越大表明该节点作为源节点的可能性越大。实验结果表明在Karate数据集上MRSDGAT模型的F1值比基线GCNSI模型提升了14.09、13.32、13.10百分点比基线LPSI模型提升了23.41、22.59、24.21百分点识别性能更优。
基于图神经网络(GNN)的推荐系统可以提取用户与项目之间的高阶连通性。协同过滤(CF)是一种经典的推荐算法在进行多层图卷积堆叠的过程中由于用户和项目的嵌入会变得相似导致出现过平滑问题。针对这一问题提出一种采用双重图注意力机制生成子图的图神经网络协同过滤推荐算法(DAC-GCN)。将具有共同兴趣的用户聚类生成子图以避免将高阶邻居的负面信息传播到嵌入学习中并预先采用图注意力机制对节点嵌入进行预处理提升对重要节点的关注度以改善子图生成结果。另外在子图传播过程中再次引入图注意力机制强化子图内的节点区分度从而改善子图内嵌入信息的传播降低过平滑的影响提升推荐效果。最后以3个公开的数据集为测试对象以归一化折损累积增益(NDCG)与召回率为评估指标对所提算法进行测试实验结果验证了该算法的有效性和优越性。