大数据已引起了产业界、学术界、政府部门和其他组织的高度关注和重视,全球每年新增数百万个与大数据相关的工作岗位。但由于大数据人才培养体系尚不健全,社会需求增加迅速等原因,我国大数据人才严重匮乏。目前,数据挖掘工程师正处于卖方市场,在招聘网站上优秀的数据分析师、数据挖掘工程师等岗位年薪20-50万不等,极具诱惑力。
数据挖掘工程师,热门而又高大上的岗位,潜意识里数据挖掘应该是数学、统计学、计算机相关专业的事情,学物理、电子等其它理工科专业的我们,看似与之异常遥远。真实情况是这样吗,今天的这篇文章,跟大家一起说说数据挖掘工程师。
数据挖掘发展到今天,如果给它贴标签的话,热门标签应该是“机器学习”、“python”、“hadoop”。
这三个标签与数据挖掘的关系是什么呢?打个比喻,如果把数据挖掘的过程比作为厨师做菜,那么数据就是食材,机器学习相当于菜谱,Python相当于厨具,hadoop相当于厨房,数据挖掘工程师就是厨子。
这里需要重点强调一下“机器学习”与“数据挖掘”的关系。机器学习是一种方法,数据挖掘是一件事情,机器学习为数据挖掘提供了数据模型和算法支撑,当前主流的数据挖掘技术均出自机器学习。
在赛氪考研3月28日的文章《人工智能与大学数学是“近亲”》的文章中,给大家展示了机器学习与我们大学数学中线性代数、概率论与数理统计和微积分等课程的紧密关系。“数据挖掘”这一热门的应用,离我们还远吗?
“你若盛开,蝴蝶自来”,学好大学数学,对人工智能、数据挖掘的研究有着很大帮助。对于考研的我们,上天给了再一次深入学习数学的机会,我们要好好把握。对于数学的知识点及其几何意义、数学的知识框架搞清楚,对于我们后面学习机器学习有较大帮助。
机器学习的研究主要分为两个派系:计算机科学派与统计学派,这样就导致了数据挖掘的研究也分为了上述两个派系。
计算机科学派将数据挖掘看作人工智能的一个分支,把机器学习作为实现人工智能的一个途径。他们关注的是人工智能中的问题,希望以机器学习为手段,但具体采用什么样的学习手段,是基于统计的、代数的、还是逻辑的、几何的,他们并不care。这群人可能对统计学习目前dominating的地位未必满意。靠统计学习是不可能解决人工智能中大部分问题的,如果统计学习压制了对其他手段的研究,可能不是好事。这群人往往也不care在文章里show自己的数学水平,甚至可能是以简化表达自己的思想为荣。
统计学出身的机器学习研究者,绝大部分是把机器学习当作应用统计学。他们关注的是如何把统计学中的理论和方法变成可以在计算机上有效实现的算法,至于这样的算法对人工智能中的什么问题有用,他们并不care。这群人可能对人工智能毫无兴趣,在他们眼中,机器学习就是统计学习,是统计学比较偏向应用的一个分支,充其量是统计学与计算机科学的交叉。这群人对统计学习之外的学习手段往往是排斥的,这很自然,基于代数的、逻辑的、几何的学习,很难纳入统计学的范畴。
- END -
如果你觉得这篇文章还不错,欢迎分享给更多的小伙伴哦
「死磕考研数学」,每天进步一点点~么么哒
非常抱歉!本站不支持旧版本IE浏览器~~建议使用IE10/IE11/Chrome/Firefox/Safari等高级浏览器浏览。