机器语言大模型MLM开启邀测

在人工智能技术的浪潮中,大模型的革命性突破正不断重塑我们对自然语言的理解和处理能力。然而,作为万物智能互联时代机器运行的底层语言,机器语言一直是我们人类认知的盲区。现在,这一领域迎来了新的曙光。

2023年12月28日,清华大学NISL实验室VUL337团队联合零一万物、华清未央共同研发的“Machine Language Model”(MLM)作为全球首家推出的机器语言大模型正式开启邀测,邀请业内专家进行测试。继12月1日MLM首次在业界亮相后,这是我们首次向广大用户开放试用的机会。欢迎大家踊跃参与,共同见证和探索MLM的潜力与未来。

七年磨一剑,团队内部迭代了多个智能模型,此刻推出的MLM模型“以魔法打败魔法”,通过机器语言大模型帮助我们理解网络空间的底层运行逻辑。

体验机器语言大模型“MLM”

长按识别或扫描二维码进入官方网站

*建议使用PC或Mac以获得最佳体验效果。

关于我们

“MLM”是面向机器语言领域的专用大模型,基于创新的模型架构和采集的大数据自主预训练得到,初步提供了全面的智能化软件逆向分析能力。机器语言构成了网络空间机器执行的各类软件,包括可执行程序、二进制文件和闭源软件等,是信息时代的基石。MLM模型能深入剖析这些软件,实现从结构到语义层面的全面解读,推动软件安全分析、性能优化、功能拓展等技术的发展。

在操作层面,目前公开邀请测试的MLM模型提供了部分关键功能,支持“在线体验”和“IDA插件”两种使用模式。用户可以通过web界面或者插件上传待分析可执行程序,然后获得模型生成的软件函数列表、函数反汇编片段和易于理解的类C语言函数。此外,邀测的MLM模型还支持基于自然语言的语义解释和代码搜索,并可以基于语义对软件中无符号的函数进行智能重命名。

通过分析一个Example示例程序(图1),我们可以直观地看到“MLM”的强大功能:

图1: 待分析的Example示例程序,其功能是验证用户名和口令

用户可以通过MLM的web界面上传示例程序(图2),也可以通过“IDA插件”实现类似功能。值得注意的是,当前插件版提供的功能更丰富。

图2: 通过“在线体验”版MLM上传示例程序

用户可以通过自然语言搜索具有特定语义的关键代码(图3)。例如,该程序功能是验证用户名和口令,猜测它可能包含一些密码算法来进行验证。因此,分析人员可以输入自然语言“Crypto”搜索具有相关语义的函数。

图3: MLM基于语义搜索定位关键函数功能

选取目标函数后,MLM模型可以反汇编该函数(原始的机器码字节),输出其汇编代码。通常情况下,分析人员可以阅读汇编码来理解函数语义,但是该过程非常枯燥且要求极高。幸运的是,我们的MLM模型可以自动将汇编码进一步反编译,生成清晰、简洁的类C/C++语言代码(图4)。简单地阅读该代码的逻辑后,可以看出来,该函数功能是判断用户名是否等于admin,以及判断用户口令的MD5散列值是否等于21232f297a57a5a743894a0e4a801fc3。

图4: MLM生成的类C语言代码

值得注意的是,业内当前最领先的IDA PRO软件也支持反编译,生成的类C语言代码(图5)。两者相比执行,MLM的输出更为准确、直观易懂。例如,MLM模型准确识别出了MD5函数、给函数内的局部变量进行了命名、恢复了类型,且恢复了C++的标准输出语句,极大便利了分析人员。

图5: IDA PRO反编译生成的类C语言代码


当然了,阅读类C/C++代码也是有技术门槛的,MLM还贴心地为我们提供了代码语义解释功能(图6)。模型可以直接为函数生成一段自然语言的文本,描述函数的主要功能。根据我们的测试,MLM模型在机器语言/汇编代码的语义解释上的表现非常不错,表现非常出色和丝滑,领跑各类其他大模型,欢迎大家来找茬

图6: MLM生成的代码语义解释


MLM还有更多好玩有用的功能等待进一步开放,也欢迎大家在使用过程中给我们提需求。目前,我们开放上线的“MLM”模型已支持10MB以内的x86、x64的PE、MACHO、ELF格式的可执行程序。使用“IDA插件”模式的用户请在注册后由网页端下载IDA插件并获取访问token。我们目前处于小范围“邀测期”,欢迎大家申请试用。我们将对所有申请进行审核,根据算力资源情况逐步开放。通过审核后,用户即可体验“MLM”机器语言大模型。请注意,作为中立的技术服务提供商,我们强调合法、合规、合理地使用此服务,请关注我们在官方网站上的服务声明。

MLM模型的推出,为用户提供了前所未有的高效、直接、智能化的软件理解和分析能力,突破了传统技术对源代码或者调试信息、专家知识的依赖。它有望成为对抗各类安全威胁——包括漏洞攻击、恶意代码(僵木蠕、后门、勒索软件等)、版权侵权、供应链风险等软件安全挑战——的利器,成为发现隐私泄露、数据安全风险的利器,甚至成为软件优化、改造、生成的利器。它可改变软件分析的工作模式,突破现有技术瓶颈,为软件安全分析、性能优化、功能改造等应用场景带来颠覆性解决方案。我们期待与学术界和工业界的同仁们共同推动机器语言大模型的持续进步。我们欢迎任何关于MLM的合理意见和建议,请通过mlm@vul337.team / mlm@01.ai与我们联系。

文案&编辑:张超 陈龙飞

Bookmark the permalink.

Comments are closed.