【论文速读】 | DeGPT:通过大语言模型优化反编译器输出

图片

本次分享论文为:DeGPT: Optimizing Decompiler Output with LLM

基本信息

原文作者:Peiwei Hu, Ruigang Liang, Kai Chen

作者单位:中国科学院信息工程研究所;中国科学院大学网络空间安全学院

关键词:反向工程,大语言模型,反编译器输出优化

原文链接:

https://dx.doi.org/10.14722/ndss.2024.24401

开源代码:

https://github.com/PeiweiHu/DeGPT

论文要点

论文简介:此论文提出了DeGPT框架,旨在通过大语言模型(LLM)优化反编译器输出,改进其可读性与简洁性,从而更好地辅助逆向工程师理解二进制文件。通过引入三角色机制(裁判、顾问、操作员)与微片段语义计算(MSSC)技术,DeGPT在不改变原始函数语义的前提下,显著提升了反编译器输出的分析效率和理解深度。

研究背景:反向工程是理解和分析未知二进制文件(如恶意软件)的关键技术。反编译器作为反向工程中的重要工具,能将低级汇编代码转换为高级程序语言代码。然而,现有反编译器输出存在命名无意义、结构冗余、缺乏注释等问题,降低了代码理解效率。

研究贡献:

1.提出一个新的基于LLM的端到端优化框架,通过重构语义信息和代码结构简化来提高反编译代码的可读性。

2.设计了一种三角色机制,最大化利用LLM的潜力进行代码优化。

3.引入MSSC技术,确保优化操作不改变原始代码的功能语义。

引言

DeGPT框架的核心思想是利用大语言模型的强大能力来优化反编译器的输出,使其更加易于理解和分析。尽管反编译器已经能够将二进制代码转换为高级语言代码,但由于缺乏有效的语义信息恢复能力,如变量命名和注释添加,这些输出往往难以被直接利用。DeGPT通过一种创新的三角色机制(裁判R_ref、顾问R_adv、操作员R_ope)和微片段语义计算(MSSC)方法,旨在克服现有方法的局限性,优化反编译输出的结构和语义信息,提高逆向工程师对二进制文件的理解。

背景知识

反向工程是通过分析软件的二进制形式来理解其工作原理和逻辑结构的过程。反编译器是反向工程中不可或缺的工具,它能够将低级别的汇编代码转换成更易于理解的高级程序语言代码。然而,由于反编译过程中的语义信息丢失,反编译器输出的代码往往缺乏有效的命名和注释,使得逆向工程师难以快速理解代码的意图和结构。

论文方法

理论背景: DeGPT利用大语言模型(LLM)的强大能力来优化反编译输出,通过增加语义信息和改进代码结构来提高代码的可读性和理解度。

方法实现: DeGPT采用三角色机制(裁判、顾问、操作员)来指导LLM进行优化操作,确保优化过程不改变代码的原始功能语义。同时,引入了微片段语义计算(MSSC),通过比较优化前后代码的功能行为,确保优化操作不会引入语义误差。

图片

实验

实验设置:实验在多个数据集上进行,包括实用命令行工具、恶意软件、音频处理库和算法实现等不同类型的软件。

实验结果:DeGPT在不同数据集上显示出显著的优化效果,包括降低认知负担24.4%,以及在变量命名和注释添加方面的显著改进,62.9%的注释能为逆向工程师提供实用的语义帮助。

论文结论

DeGPT框架成功地优化了反编译器输出,通过改进代码的可读性和结构简洁性,在不改变原始函数语义的前提下,显著提高了逆向工程师分析二进制文件的效率和准确性。这项工作展示了大语言模型在软件逆向工程领域的巨大潜力和应用价值。

原作者:论文解读智能体

润色:Fancy

校对:小椰风

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/521974.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

硬件工程师入门基础知识(四)多层陶瓷电容应用(一)

多层陶瓷电容应用(一) 1.多层陶瓷电容器在电子电路中的主要作用以及对应的典型电路图有哪些?1.1 滤波电容1.2 退耦电容1.3 旁路电容1.4 耦合电容1.5 积分电容1.6 微分电容2.多层瓷介电容器能否超类别温度使用?3.瓷介电容器的工作电压如何选择?1.多层陶瓷电容器在电子电路中…

WPF —— ToolBar、Checkbox控价详解

一 : ToolBar 1 ToolBar介绍 ToolBar(工具栏)是WPF中的一个控件,用于在界面上创建一个水平或垂直的工具栏,以便放置和组织多个按钮或其他控件。ToolBar通常用于提供快速访问常用功能的方式,类似于传统桌面…

Word论文格式怎么设置 Word论文查重功能在哪里 论文格式要求及字体大小 论文查重怎么查 WPS论文查重准确吗

Word文档是由Microsoft Word处理软件创建和编辑的文档。Word文档通常用于创建各种类型的文档,如信函、报告、简历、论文等。本篇文章将为大家介绍Word论文格式怎么设置以及Word论文查重功能在哪里。 一、Word论文格式怎么设置 一个好的论文格式,是论文…

VMware虚拟机

1、虚拟机介绍 虚拟机(Virtual Machine)是一种软件,可以用来模拟具有完整硬件功能的完整的计算机系统的软件,并且可以和主机环境隔离开,互不影响。也就是,在实体计算机中能够完成的工作都可以通过虚拟机实…

【kerberos】hadoop集群使用keytab认证的逻辑

一、背景: haoop的kerberos认证核心是org.apache.hadoop.security.UserGroupInformation类。 UserGroupInformation一般有两种:(1)apache原生的(2)cdh hdp改良过的,即cloudera改良过的。 由此衍…

openJDK17官方镜像报Error loading shared library libfreetype.so

新项目使用openJDK17做的,做完后打包成docker镜像到服务器上运行 docker镜像基础镜像用的是openjdk:17-jdk-alpine 运行后加载验证码的时候报:Error loading shared library libfreetype.so 搜了一圈没找到哪里有共用的带字体库的jdk17镜像&#xff0…

idea2023和历史版本的下载

1.idea中文官网 idea官网历史版本下载(https://www.jetbrains.com.cn/idea/download/other.html)

kafka报文模拟工具的使用

日常项目中经常会碰到消费kafka某个topic的数据,如果知道报文格式,即可使用工具去模拟发送报文,以此测试代码中是否能正常消费到这个数据。 工具资源已上传,可直接访问连接下载:https://download.csdn.net/download/w…

光谱下的养殖业:数据可视化的现代变革

在数字化时代,数据可视化在养殖业中崭露头角,为这一传统行业注入了新的活力。无论是家禽养殖还是水产养殖,数据可视化都以其直观、高效的特点,为养殖业带来了全新的发展机遇。下面我就以可视化从业者的角度,简单聊聊这…

Zynq—AD9238数据采集DDR3缓存千兆以太网发送实验(二)

Zynq—AD9238数据采集DDR3缓存千兆以太网发送实验(前导) Zynq—AD9238数据采集DDR3缓存千兆以太网发送实验(一) Zynq—AD9238数据采集DDR3缓存千兆以太网发送实验(三) 五、实验目的 本次实验使用电脑上的…

IPSEC VPN安全介绍以及相关实验

目录 一、IPSEC相关的安全服务 二、IPSEC的安全协议 三、实验 IPSEC一组协议集合,用于确保在IP网络上进行通信时的安全性和保密性。它提供了一种标准化的方法,用于对IP数据包进行加密、身份验证和完整性保护。IPSEC通常用于建立虚拟私人网络VPN连接&am…

通俗易懂讲解Redis的哨兵模式

redis的哨兵模式,就是用于在一主多从的集群环境下,如果主服务器宕机了,它会自动的将从服务器中的一台设为新的master,并且将其余的slave的配置文件自动修改,这样就切换出一套新的主从服务,不需要人工干预,且不会影响服务的使用。 背景 在生产环境中,为了保证redis服务…