给安全算法前行者们的四个答案

  • 机器学习
  • 数据挖掘
  • 安全算法
  • 阿里云安全算法挑战赛
社区小助手赛赛·中国科学院大学
2016-08-12
阅读数1166

作者:刘淇 中国科学技术大学 计算机科学与技术学院 副教授

 

介绍:2013年获得中国科学技术大学计算机应用技术专业博士学位。主要研究方向为数据挖掘与知识发现、机器学习方法及其应用,着重于针对用户行为数据(如消费数据、社交数据、教育数据)的建模和应用研究。在重要国际学术会议和期刊共发表论文50余篇,2011年获得数据挖掘领域顶级国际会议之一IEEE ICDM的最佳研究论文奖。

 

1、入门算法领域,需要怎样的精神?您在算法研究中觉得吸引你前行的是什么?

 

入门算法领域,首先需要的是坚持不懈,持之以恒的耐心和决心。不同于编程语言或者编程框架——算法领域的学习,其反馈周期通常较长,需要学习者能够耐下心来,不能急功近利。算法的理解和创新有时候需要经历几天、几周、甚至几个月的思路空白期,跟做科研很类似,需要有坐冷板凳的决心。

 

2、以数据挖掘和机器学习为例,算法技术的革新能带来怎样的社会价值和产业变革?

 

数据挖掘和机器学习的发展将会带来许多新的产业机会,同时引领传统产业向智能化的方向发展。在传统产业变革上,有一个很好的例子。快递业在我们的印象中,是以“交通运输”和“人力”为主的行业。但阿里巴巴的菜鸟网络,用数据和算法改变了这一格局——基于快递服务商所供需的大数据,利用数据挖掘和机器学习的方法,对物流配送网络和仓储容量进行规划——每天可以节省2.6亿小时的快递等待时间。这类的例子还有很多——如记住个人购买偏好的智能商城,船舶行业利用大数据进行集装箱和港口的管理等等。

 

3、您认为安全的算法和其他类别的算法有何不同?

 

数据挖掘在安全检测领域的应用由来已久,KDD Cup在99年就已经举办过网络攻击入侵方面的数据挖掘比赛。由于安全领域的门槛和应用范围相对较窄,数据挖掘在安全领域的应用并不像其在电商和金融领域一样被人熟知。但是在技术层面,各个领域有很多共通之处。例如,钓鱼网站检测也是机器学习和数据挖掘算法在特定领域的应用,其从算法层面来看,与电商、金融上并没有很大的不同,可以将其看作是一个分类或者异常检测的问题,根据具体的问题和数据类型来选择合适的算法(LR, GBDT, deep learning等)解决。

 

4、本次挑战赛,对于非安全圈的参赛者有何难点?

 

相对于非安全圈的参赛者来说,最大的难点可能是相关背景知识较为缺乏,因此在观察数据时很难找到特定的模式,在进行特征构造时效率不高。例如在“Webshell通信检测”中,圈内人士很容易知道什么样的POST是在进行Webshell的检测和获取,对其有较深理解,可以构造出很好的特征,而非安全圈的参赛者则需要多了解安全知识啦。

收藏
分享
别默默的看了,快来和大家聊聊吧,登录后发表评论~ 登录 立即注册
打赏
社区小助手赛赛
打赏金额(金额:¥0)
给Ta留言
赏金已入袋,多谢!(*^__^*)
温馨提示

非常抱歉!本站不支持旧版本IE浏览器~~建议使用IE10/IE11/Chrome/Firefox/Safari等高级浏览器浏览。

温馨提示
温馨提示
帮助与反馈

热门问题