数据科学初学者九种常见错误
发布时间:2017-07-06 17:34
如果你想开始一个数据科学方面的职业,你可以通过避免这9个会使你付出高代价的初学者错误来免去几天,几个星期甚至几个月的挫折。
如果你不仔细,这些错误将会消耗你最宝贵的资源:你的时间、精力和动力。
我们将它们分为三类:
学习数据科学时的错误
求职时的错误
求职面试中的错误
学习数据科学时
第一组错误是“隐蔽的”,很难发现。没有丝毫的预兆,它们如同温水煮青蛙般耗尽你的时间和精力,并且它们产生的误解围绕这个领域。
1.花费太多时间在理论上
许多初学者陷入了花费太多时间在理论上的陷阱,无论是数学相关(线性代数,统计学等)还是机器学习相关的(算法,派生等)。
这种方法效率低下有三个主要原因:
首先,这是缓慢而艰巨的。如果你曾经被所有要学的东西压垮,那么你很有可能陷入了这个陷阱。
第二,你也不会保留这些概念。数据科学是一个应用领域,而巩固技能的最好方法是实践。
最后,还有一个更大的风险就是如果你不明白你所学的东西与现实内容有什么联系,那么你会变得消极然后放弃。
传统上这种重理论的方法在学术界中传授,但大多数从业者可以从更注重结果的观念中受益。
为了避免这个错误:
平衡你的研究和你实践的项目。
学会适应局部知识。当你进步的时候,你自然会填补空白。
了解每一部分如何适应大局(包括在我们免费7天速成课程)。
2.从头开始编写太多的算法
下一个错误也会导致学生片面重视局部而忽略了整体。一开始你真的不需要从头开始编写每个算法。
虽然为了学习而实现一些这么做很好,但现实是算法正在成为商品。由于成熟的机器学习库和基于云的解决方案,大多数从业者实际上从不从头编写代码。
今天,了解如何在正确的设置(以正确的方式)中应用正确的算法更为重要。
为了避免这个错误:
使用通用的机器学习库,如Scikit-Learn(Python)或Caret(R)(需翻墙)。
如果你从头开始编写一个算法,那么这样做是为了学习而不是完善你的实现。
理解现代机器学习算法的环境及其优缺点。
3.急于深入更高的层次
有些人进入这个领域是因为他们想要构建未来的技术:自驾车,高级机器人,计算机视觉等。 这些技术由深度学习和自然语言处理等技术所驱动。
但是,掌握基本原理很重要。 一口吃不成胖子。每个奥运潜水员都需要先学习如何游泳,那么你也应该如此。
为了避免这个错误:
首先掌握“经典”机器学习的技术和算法,以此作为高级课题的基石。
要知道经典机器学习仍然具有惊人的潜力。虽然算法已经成熟,但我们仍然处于发现使用富有成效的方法的早期阶段。
学习一个系统的方法来解决任何形式的机器学习问题(包括在我们免费7天速成课程)。
不要在家里尝试这个(除非你有足够的练习)
求职时
下一组错误可能会导致你在求职过程中错过一些很好的机会。 即使你能够胜任,但你可以通过避免这些问题来发挥到最好的效果。
4.简历中有太多的专业术语
许多应聘者在写简历时犯的最大错误就是用专业术语填满了简历。
相反,你的简历应该简洁明了并且你的要点要阐述清晰。你的简历应该主张你能给公司带来的影响,尤其是当你申请初级职位的时候。
为了避免这个错误:
不要简单列出你所使用的编程语言或库。描述你如何使用它们并解释结果。
少即是多。考虑强调最重要的技能,并突出它们。
制作一个简历主模板,这样你就可以根据不同的职位定制不同的版本。这样可以使每个版本保持整洁。
5.高估学位的价值
有时,毕业生会高估他们的教育价值。虽然在相关领域有高等学位肯定会增加你的机会,但这是不够的,也不是最重要的因素。
当然了,我们并不是说毕业生傲慢自大…
在大多数情况下,在学校学习的东西与在企业中应用的机器学习完全不同。处理期限、客户和技术障碍需要在学术界不那么迫切的实际权衡。
为了避免这个错误:
用真实的数据集补充大量项目的课程。
学会用机器学习解决问题的系统方法(我们免费7天速成课程)。
参加相关实习,即使是兼职。
在LinkedIn上接触当地的数据科学家面对面聊一聊。
6.搜索内容太狭隘
数据科学是一个相对较新的领域,机构还在不断发展,以适应数据日益增长的影响。如果你只搜索“数据科学家”的空缺,你就会限制自己。
许多职位没有被称为“数据科学”,但它们可以让你以类似的角色发展类似的技能和功能。
为了避免这个错误:
搜索所需技能(机器学习,数据可视化,SQL等)。
按工作职责进行搜索(预测建模、A/B测试、数据分析等)。
用职位所需的技术搜索(Python,R,Scikit Learn,Keras,等)。
通过职位名称(数据分析师、定量分析师、机器学习工程师等)扩展搜索范围。
来源: Cyanide and Happiness
面试过程中
最后一组错误是面试时的绊脚石。你已经为达到这一步做了艰苦的工作,所以现在是结束的时候了。
7.没有事先做讨论项目的准备
在你的产品组合中有项目用于回答“你会如何”这类的面试问题,以此作为一个主要的安全保障。而不是说假设,你可以指出你如何处理某些情况的具体例子。
此外,许多面试官都会特别关注你独立自主的能力,因为数据科学的职位自然包含项目管理的要素。这意味着你应该理解整个数据科学工作流程,并了解如何将所有内容整理在一起。
为了避免这个错误:
完整的端到端的项目,能使你实践每一个主要步骤(即数据清理、模型培训等)。
组织你的一套方法。数据科学应该是深思熟虑的,而不是偶然的。
回顾和实践从过去的实习、工作或课程中所做的项目。
8.低估领域知识的价值
技术技能和机器学习知识是获得数据科学职位的基本前提。然而,要真正脱颖而出,你应该更多地了解你将运用技能的具体行业。
记住,数据科学永远不会存在于真空中。
为了避免这个错误:
如果你在银行面试一个职位,就要了解一些基本的财务概念。
如果你正在为财富500强的战略职位面试,那就去面试几次,了解一下盈利能力的驱动因素。
如果你正要去一家初创公司面试,要了解它的市场,并试着辨别它将如何获得竞争优势。
简而言之,在这方面采取一些额外的举措可以带来很大的好处!
9.忽视沟通技巧
目前,在大多数机构中,与开发团队或分析师团队相比,数据科学团队仍然非常小。因此,当一个入门级的软件工程师经常被一个高级工程师管理时,数据科学家倾向于在更多跨功能的环境中工作。
面试官会注重你和不同技术背景和数学背景的同事交流的能力。
为了避免这个错误:
向非技术受众讲解技术概念。例如,试着向朋友解释你喜欢的算法。
为常见的面试问题准备要点,并练习回答问题。
实践分析各种数据集,提取关键的见解,并展示你的发现。
总结
在本指南中,你学习了数据科学初学者应该避免的9种代价高的错误的实用技巧:
1.花费太多时间在理论上。
2.从头编写太多的算法。
3.跳入高深的主题,例如深度学习、太快了。
4.在简历中有太多的技术术语。
5.高估学位的价值。
6.找工作搜索太狭窄。
7.在面试中没有准备好讨论项目。
8.低估领域知识的价值。
9.忽视沟通技巧。