最具影响力的数字化技术在线社区

168大数据

 找回密码
 立即注册

QQ登录

只需一步,快速开始

1 2 3 4 5
打印 上一主题 下一主题
开启左侧

做机器学习的是些什么样的人?Kaggle做了一份居委会式的调查

[复制链接]
跳转到指定楼层
楼主
发表于 2017-10-31 21:57:46 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多数据大咖,获取更多知识干货,轻松玩转大数据

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
李杉 夏乙 编译整理

量子位 出品 | 公众号 QbitAI
在做数据科学的,都是些什么人?能赚多少钱?他们是怎样进入这个行业的,工作中会用到什么方法、哪些工具,遇到怎样的困难?
为了解答这些问题,全球最大的数据科学家社区Kaggle面向他们的100万名注册用户,发起了像居委会一样的调查,从年薪多少到喜欢听哪个播客,都问了个遍。
他们收到了16000份调查结果,其中463份来自中国。
Kaggle把调结果梳理成一份交互式报告,量子位编译整理了其中要点:
谁在从事数据工作?
有很多方法可以研究有哪些人在从事数据工作,但我们首先从一些人口统计学信息入手来了解从事数据科学的人的职业和背景:
你多大年纪?
平均而言,调查受访者都在30岁左右,但不同国家的数值各有不同。例如,印度的平均年龄比澳大利亚年轻9岁。
中国的受访者平均年龄是25岁。与全球情况相比,中国受访者的年龄分布更加集中,40岁以上的人数很少。
你的就业状态如何?
从调查结果来看,全职工作的受访者占65.7%,正在找工作的占12.7%。
中国受访者中,全职工作的只有53.5%,17%的人处于没有工作也没在找工作的状态。(不知道是不是因为没有设置“学生”这个选项……)
你的头衔是什么?
虽然我们对“数据科学家”的定义是使用代码分析数据的人,但我们发现有很多职位头衔都被归入数据科学家之列。例如,在伊朗和马来西亚,从事数据科学工作的最流行的头衔是“科学家或研究员”。
而在中国,数据科学工作者最流行的头衔是“机器学习工程师”,其次是“数据分析师”和“数据科学家”。
你的全职年薪有多少?
虽然在我们的调查中,“薪酬和福利”不如“职业发展机会”重要,但最好还是能了解合理的薪酬。全球数据科学工作者的平均年薪是55441美元。
在美国,数据科学工作者平均年薪最高,达到11万美元。
机器学习工程师的平均年薪更是高达13.5万美元。
在中国,受访的数据科学工作者的平均年薪只有29835美元,不过样本量较少,只有66人。
你最高的正式学历是什么?
整体来看,数据科学从业人员中的硕士比例最高。
但工资最高的(15万至20万美元和20万美元以上区间)获得博士学位的比例同样高。
一个典型的受访者是30岁,拥有硕士学位,从事数据科学家工作,年薪5.5万美元。但平均值并不能反应具体状况。
前面几个人口统计学问题只能粗浅地反映Kaggle的数据科学社区在年龄、性别、居住地、职位、薪资、经验和学历方面的多样性。
数据科学家具体干什么?
我们定义的数据科学家是“通过写代码来分析数据的人”。我们向这些人询问了他们的日常工作,以下就是一些数据:
工作中使用哪种数据科学方法?
在各个行业中,逻辑回归都是工作中最常见的数据科学方法,只有军事和安全行业是个例外,该行业使用神经网络的频率稍高。
工作中使用什么工具?
整体而言,Python是最常使用的数据分析工具,但仍有较多的统计学家仍然钟情于R。
工作中使用何种数据?
关系数据是各行各业中最常使用的数据类型,除了学术以及国防和安全领域,他们更多地使用文本数据。
工作中如何共享代码?
虽然使用Git分享工作代码的比例最高,但大公司更多地使用电子邮件等文件共享软件,而非云计算技术。小公司通过云计算实现了更高的灵活性。
工作中面临哪些障碍?
脏数据,我们又见面了。整体而言,脏数据似乎是数据科学领域最常见的问题。一丝不苟的数据工程师是个例外。脏数据之后,公司政策、缺乏管理和/或财务支持也是数据科学家最常遇到的问题。
仔细查看数据,你可能会发现很多行业的受访者都缺乏数据科学人才。这意味着新的数据科学家都很幸运。下面就来看看已经任职的受访者是如何走上正轨的:
新的数据科学家如何进入这一领域?
当我们踏上新的职业道路时,能够了解其他人的成功经验肯定很有帮助。我们询问了数据科学从业人员的成功经验。以下就是精选出来的一些建议:
新的数据科学家最应该首先学习哪种语言?
每个数据科学家对应该最先学习的语言都有自己的观点。
结果显示,只使用Python或R的人感觉他们做出了正确的选择。
但如果你问问同时使用R和Python的人,他们推荐Python的比例达到R的两倍。
你使用哪种数据科学学习资源?
数据科学是个快速变化的领域,有很多有价值的资源可以帮助你学习,并保持前沿,以便让你保持称职状态。已经从事数据科学工作的人使用Stack Overflow问答、会议和播客的频率高于新人。如果你在开发内容或开源软件,那请记住,新人更常使用官方文档和YouTube视频。
Kaggle制作的交互式报告中,还包含着更多信息。
另外,Kaggle还放出了这份报告背后的R语言代码,供大家在这个基础上,继续挖掘信息。
如果你只想要这份调查的数据,然后用它来做自己的分析,Kaggle也同样提供下载。
— 完 —
来源:量子位

楼主热帖
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏 转播转播 分享分享 分享淘帖 赞 踩

168大数据 - 论坛版权1.本主题所有言论和图片纯属网友个人见解,与本站立场无关
2.本站所有主题由网友自行投稿发布。若为首发或独家,该帖子作者与168大数据享有帖子相关版权。
3.其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和168大数据的同意,并添加本文出处。
4.本站所收集的部分公开资料来源于网络,转载目的在于传递价值及用于交流学习,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
5.任何通过此网页连接而得到的资讯、产品及服务,本站概不负责,亦不负任何法律责任。
6.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源,若标注有误或遗漏而侵犯到任何版权问题,请尽快告知,本站将及时删除。
7.168大数据管理员和版主有权不事先通知发贴者而删除本文。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

关于我们|小黑屋|Archiver|168大数据 ( 京ICP备14035423号|申请友情链接

GMT+8, 2024-6-18 20:00

Powered by BI168大数据社区

© 2012-2014 168大数据

快速回复 返回顶部 返回列表