近年来,机器学习技术发展迅猛,并且已经渗透进我们生活的方方面面,当下愈发受到重视的安全领域也不例外。目前,企业安全管理人员面对每天不断增多的海量数据,分身乏术,同时专业安全人员严重短缺,这两点现状大大促进了机器学习在安全领域的普及和成功。[ 本文系HanSight瀚思编译稿件,如需转载请注明出处!]
近年来,机器学习技术发展迅猛,人们只要环顾一下周围的生活场景,就不难发现其实机器学习已经渗透进生活的方方面面,无所不在。以网络购物为例,目前,几乎所有大型网店都可以为用户个性化推送你可能想购买的商品,其实,这些推送都是基于已有的若干数据,如以往的购物历史、近期的搜索、甚至是好友的购买记录。
当然,网购并非利用机器学习最新进展的唯一行业。除机器学习的现有应用外,越来越多的公司和行业也开始利用起这项先进的技术。如今,机器学习的常见应用领域包括:语音识别、欺诈检测、垃圾邮件过滤、文本处理、搜索推荐和视频分析等,这些技术领域在日益改进、不断发展,而在背后推动这些进步的,正是更出色的数据分析、计算成本的降低以及机器学习研究水平的提升。
因此,鉴于所有最新的技术领域都在积极采用机器学习方法,自然的,人们会好奇机器学习到底是什么、它是如何运用于这些场景的。笼络的讲,机器学习是指,人们“训练”机器如何解决问题的一系列技术。
举个简单的例子,假设我们想“训练”一台机器,让它能够识别照片中的东西是苹果还是橙子。为了训练机器,我们为它提供了100张苹果的照片和100张橘子的照片。机器受过“训练”后,只要给它一张照片,它就能分辨出照片中的东西是苹果还是橙子。
然而,并非所有的机器学习解决方案都是一样的,因此,如何衡量机器学习模型有效性就成了一个重要的问题,其中一个衡量标准就是,其未来预测的准确性。
我们还用识别苹果和橘子打比方,假设我们提供了10张苹果的照片,模型识别出10张照片中8张是苹果,2张是橙子。那么我们就可以说,这个模型的识别准确率是80%。虽然这个识别率已经相当准确了,但我们仍可以利用一些简单的方法改进这个模型,其中的一个方法是,为模型提供更多相关的数据,实际上就是,为模型提供更广泛的体验来改善其能力。比如说,可以提供1,000张乃至1,000,000张照片来训练机器,而不仅仅只提供100张照片,这往往可以大幅提高此类模型的准确性。
在过去几年中,数据以惊人的速度大幅增长,催生了“大数据”这个术语的问世。可以想像,这意味着企业组织每天将产生海量数据,多得足以需要企业组织在如何存储、传输、管理和分析数据方面予以特别考虑。众所周知,大数据一向是机器学习得以迅速发展和改进的基础之一,而机器学习兴起背后的另一股主要力量则是便宜又丰富的计算资源。
云计算领域的进步为巨大计算能力的高效产生起到了至关重要的作用,有助于解决计算密集型问题。一个著名的例子要数“SETI @ home”项目,志愿者捐赠闲置的CPU周期,来帮助分析无线电望远镜数据, 这种利用成千上万台计算机专门解决某个问题的技术,很适合机器学习领域,尤其它可以处理极其庞大的数据集。而仅仅几年前,要解决这种问题是不切实际的。
收集和处理大数据的能力,以及执行之前不可能处理的不断增强的计算能力,这两大进展共同推动了机器学习技术的迅猛发展。
目前的两大现状证明,机器学习方法非常适合网络安全行业。一是,收集和存储大量有用的数据点在网络安全领域已经蔚然成风,现在几乎所有安全分析员面对的都是成熟环境中每天收集的海量原始数据,而且目前还有一大批工具以某种自动化的方式,专门用来排序、分析并挖掘数据,从而帮助分析员处理日常活动。
第二个现状是缺乏合格、有经验的专业安全人员来防护关键的基础设施和系统。防护是项复杂、永无休止的工作;安全团队的一个疏忽,就足以埋下安全隐患。此外,预计企业组织对出色的安全专业人员的需求会继续增长,这也加剧了目前人才匮乏方面的难题。
鉴于以上这两点,机器学习技术非常适用于改善企业组织的安全状况。虽然一些企业可能已经在某个层面实施了机器学习技术。但是我们在未来几年有望看到,网络安全领域中机器学习的最新水平会得到巨大提升,机器学习技术普遍运用的领域也会增多。
为了具体说明经改进的机器学习将对网络安全带来怎样的影响,我们不妨考虑这个例子:企业网络已被渗透,恶意软件已被植入到网络中的各台机器上,企图往外泄露敏感信息。这种情况下,分析员就要负责多项任务:发现究竟是什么数据被盗、是如何被盗的,修复系统,并且防止再次发生同样或类似的攻击。
在这种情况下,如果不借助任何形式的机器学习技术,分析员就很难在短时间内解决这些问题。比如说,为了查明什么信息已被盗,该分析员可能要审查文件访问日志或网络流量,寻找访问敏感文件的活动,或者流出网络的大量数据;为了查明攻击者如何在网络中潜伏下来,可能需要对磁盘进行恶意软件分析,以便试着使用其他分析员开发的恶意软件特征,追查已知的恶意软件样本。或者作为事件响应的一个环节,可能还需要分析运行中的系统,寻找异常的运行中进程或其他异常行为。
相反,如果借助机器学习方法,这些任务就可以实现自动化,甚至可以实时部署,在破坏造成之前发觉这些恶意活动。比如,“训练有素”的机器学习模型就能够识别网络上的异常流量,一旦出现异常情况,就会关闭这些连接。它还能够识别绕过人为生成的签名的新型恶意威胁样本,并且可能在这些样本执行之前隔离样本。此外,按照某个特定端点的标准操作程序训练的机器学习模型也许能够识别端点本身的异常行为,而这些异常行为可能表明恶意内部人员企图窃取或破坏敏感信息。
在机器学习应用方面,HanSight瀚思走在了行业前列,使用深度学习训练出的模型,可以实时匹配网络上传输的任意文件,这在国内是首例,同时可以在几个月不更新模型的情况下,维持对恶意文件的高检测率。
目前,网络安全领域中的大部分机器学习都被用作一种“预警”系统,但经常还是需要“人”这一环来做出最后的决定,这是由于某些情况下机器学习模型的结果不如普通的人类分析员准确。因此,为了降低误报率,分析员拥有最终的决定权。
但我们已经开始看到,比人类分析员更准确的机器学习技术,这预计在未来会变成一种常态。之所以出现这一幕,不仅仅是由于机器学习的进步,还由于很难壮大网络安全分析员人才库。
举个例子,运营时间常常持续24小时的安全运营中心(SOC),让一名出色的安全专业分析员随时待命,以便分析潜在的恶意软件威胁,实际情况中,这可能不太现实。那么,在一些情况下,一名初级分析员将负责作出威胁方面的决策,但由于经验不足,初级分析员在评估威胁方面的错误率会比较高,因此在这种情况下,最好还是使用与出色分析员一样准确的机器学习。
在当前的网络安全行业,相比人为分析,人们还不能完全信任机器学习。在某种程度上,我们需要改变认识机器学习及其能力的方式,以便之后完全信任下一代的机器学习系统。我们更容易与网络安全行业的同仁建立起一种基于尊重和信任的关系,但是与机器学习模型建立起同样的信任关系需要时间,不过,如果企业组织一再从这种系统获得成功的结果之后,情形会发生逆转。
未来几年网络安全界值得关注,大量的数据和通过大规模分析以找到所需数据时存在的问题,将大力促进机器学习在安全领域的广泛普及和成功。(原文作者:Matt Wolff原文链接:https://www.cybersecurity-review.com/industry-perspective/applying-machine-learning-to-advance-cyber-security-analytics/)
上周微信活动获奖名单
luna、小俞
请尽快在后台与小编取得联系!
数据驱动安全? Data Driven Security