电脑杀毒，原来还能“望闻问切”？

硅星人·2022年01月12日 09:51

准确率高达99%！

中医讲究“望闻问切”。望，指观气色；闻，指听声息；问；指询问症状；切；指摸脉象。

如果我们把中医的思路，套用计算机科学上，会发生什么？

近日，法国研究机构 IRISA 的团队，发表了这样一篇论文：针对物联网设备，完全不通过物理和软件方式接入目标系统，仅通过“体外”检测其发出的电磁波，就能发现目标系统是否遭到入侵，甚至还能判别入侵的恶意软件种类，准确度高达99.82%。

| 电脑查毒，也能“望闻问切”？

首先，让我们回忆下物联网的定义：在物联网的时代，万物都能联网。而在这一概念之下，每个物体/设备，其实都是一个自主运行的计算机系统。

这些系统，从硬件、固件/软件上，都是五花八门、形态各异的。与此同时，大多数物联网设备都缺乏对于系统安全的考虑，而且它们也已投放到了越来越多关键的场景中使用，比如能源、交通、军事等——因此，物联网设备日益成为恶意软件攻击的目标。

可想而知，针对物联网设备的查毒、杀毒，成了大问题。

近日，来自法国 IRISA 的团队在计算机安全方面的学术大会 ACSAC 上发表了论文，题为《混淆揭晓：通过电磁信号甄别混淆后恶意软件种类》(Obfuscation Revealed: Leveraging Electromagnetic Signals for Obfuscated Malware Classification)。

他们的研究对象，正是物联网设备。

这支团队来自于法国计算机科学和随机系统研究院 (IRISA)、国立计算机及自动化研究院 (INRIA)、“法国版中科院” CNRS，和雷恩第一大学。

他们提出了一种全新的方式，只用一台树莓派电脑作为“探测机”，对目标系统在运行时散射出的电磁波形进行检测，从而准确地判断目标系统是在正常运转，还是已经被病毒入侵。

更厉害的是，该团队用此方法进行了大量的检测，积累了海量的数据用于训练探测机——对于三种不同类型的恶意软件，探测机都能够精准识别出其种类，准确率高达99.82%。

“我们的检测方法不需要对目标设备进行任何的调试（接入），可以轻松实现独立部署。这种方法更厉害之处，在于它无法被恶意软件本身‘反侦察’到，”论文写道，“甚至对于那些用混淆手法修改过的恶意软件，我们的方法都能够准确地识别出其代码本质、使用的遮盖方法等。”

换成我们一开始用的中医的比喻：

这就是用中医四诊里的“闻”和“切”，来给计算机“看病”，而且准确率高到不可思议，成为了一种完全可靠的计算机查毒方法。

截至2020年底，全球投入使用的物联网设备数量已经高达2000亿台，几乎折合每人26台……

这些物联网设备当中，有些只是纯粹通了电路，加了传感器，有些则有着多核的处理器，具有更强大的算力。这些物联网设备也成为了天然的黑客攻击对象——特别是那些具有完整操作系统的设备，基本上已经和我们日常使用的电脑/手机无异了，受计算机病毒和恶意软件的攻击面更大。

而如果我们想要在成千上万种功能形态配置各异的物联网设备上，运行“查毒软件”，简直太难了。

也正因此，针对物联网设备查毒的这项工作，“体外检查”成为了一个听起来特别酷炫，却还真有实际意义的重要方向。毕竟，现在一些高科技的病毒已经具备很强的“反侦察”能力，能够在被找到的时候自行摧毁或是改变形态。

论文写道：

“恶意软件无法侦测到外部对目标系统电磁波散射的测量，对于硬件级别的事件（如电磁波散射、硬件发热等）也没有控制。因此，基于硬件的保护系统无法被恶意软件反制，从而让电磁波散射探测高隐蔽性恶意软件（如内核 rootkit）成为可能。”

值得提及的是，在此之前，计算机安全领域已经有一些采用电磁波方式来探测病毒的研究了。但本文的团队指出，之前的实验环境都更简单，只是做了基本的可行性研究，没有涉及到复杂的计算机恶意软件（如变种病毒、加入混淆技术的病毒等），也无法对不同种类的恶意软件进行准确的甄别。

“我们提出的方法，能够在仅采用电磁散射作为探测方法的前提下，准确甄别真实世界里存在的，不断升级、变形的恶意软件样本。”

| 当电磁散射的“玄学”，碰上深度学习的“显学”

光靠“闻”和“切”，就能判断计算机系统是否中毒，而且还能准确识别出中了哪种毒？

对于大部分非专业人士来说，这简直是反常识的……

事实上，IRISA 团队所采用的病毒识别和检测方法，也不是真的只有电磁波检测。整个“探测机”系统虽然运行在一台树莓派单片机上，它的实际训练流程还是比较复杂的，而且也用到了当今的“显学”之一——深度学习。

整个训练过程如下：

首先是数据搜集过程。研究团队采用三种主流的恶意软件类型（DDoS 命令、勒索软件、内核 rootkit），搭配当今在计算机病毒领域一些主流的混淆方法，构建了一套包含三十种恶意软件的数据集。团队再用这些病毒入侵一台运行 Linux 操作系统的单片机，并且对系统散射出的电磁波场进行嗅探和数据记录。

值得注意的是数据集分成了三组，其中只有一组会用于训练，剩下两组均用于检测。