原文:KDNuggets
参加 Kaggle 还是不参加
评论
关于 Kaggle
Kaggle 是最著名的预测建模和分析比赛平台。该公司成立于 2010 年,总部位于澳大利亚墨尔本,一年后在获得来自硅谷的资金后迁至旧金山。2017 年,它被谷歌收购。阅读更多关于其历史和未来的信息,请查看 与 Kaggle CEO Anthony Goldbloom 的采访。
在过去的十年里,“数据科学”这个词逐渐浮现在英语词汇中。因此,“数据科学”和“Kaggle”这两个词变得密不可分,数据科学社区的许多人对这个平台的实用性进行思考和讨论:
我们的前三大课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你所在的组织在 IT 方面
Kaggle… 有用吗?
我对 Kaggle 的初步想法
像许多人一样,我对 Kaggle 比赛有一些先入为主的看法。我听说过它们很多年了,这些是我从领域中的其他人那里得到的看法或意见:
-
我听说过一个传说,退休的博士生和拥有几十年经验的人是赢得 Kaggle 比赛的赢家。(我常常想,这些天才是坐在清澈湛蓝的海水和无瑕疵的 WiFi 连接的海滩上,还是在一个黑暗、尘土飞扬、杂乱无章的办公室里……)
-
我几乎没有获胜的机会
-
我真的会学到有价值的东西吗?
-
投资时间提高 0.01 分的准确率有什么意义?
-
这真的最有效地利用了我的时间吗?我是否不应该投资时间去学习另一个更有价值的数据科学技能?
-
胜利者必须使用复杂的集成方法
-
数据是人为清理的,这不现实
-
参加一次 Kaggle 比赛不会让我成为合格的数据科学家,那我为何要费心?
-
我不知道从哪里开始…
我的第一次 Kaggle 比赛
在多年的抗拒之后,我最近参加了第一次 Kaggle 比赛,这是船还是冰山。我写了一篇关于我的经历的文章 我的第一次 Kaggle 比赛。
Kaggle 竞赛和纽约马拉松
我发现 Kaggle 竞赛很像纽约马拉松。大多数人参加是为了过程,而不是为了赢得第一名。
结论:对 Kaggle 说“是”
我会说“是的”,参与 Kaggle 竞赛是有价值的,无论是对初学者还是有经验的数据科学家。以下是很多原因。
基准测试
虽然获取自己的数据集或抓取网络有学习上的好处,但缺点是没有基准,无法比较你的发现。可能会出现重大错误,而且没有人知道,因为没有进行验证。Kaggle 竞赛提供了一个“检查工作”的平台。
适合所有级别的学习
对于初学者,有很多内容需要学习:
-
熟悉 Kaggle 平台
-
结构化的生态系统允许统计技能较少的人专注于此
-
理解评估指标
-
使用 devops 技能:Git,云计算
-
练习
-
Kaggle 提供一些免费的互动 教程
对于有经验的从业者,总是有更多的学习内容:
-
结构化的生态系统允许统计技能更高级的人专注于此
-
更深入地探索超参数
-
专注于前沿和新兴的方法
-
竞赛后分析获胜条目
-
管理非常大的数据集(100 万条记录或更多)
-
为深度学习设置支持 GPU 的机器
-
使用深度学习并与传统算法比较结果
数据
在整个数据科学社区中,你会听到关于数据集的引用。你将会熟悉其他学习平台和会议发言者提到的流行数据集。
尽管数据集是提供的,但仍然需要理解数据和评估指标。与普遍看法相反,仍然存在“脏数据”需要进一步调查。深入挖掘被误分类的项目会导致算法的调整。
作品集部分
的确,做一次 Kaggle 竞赛并不能使你成为数据科学家。参加一节课程、一次会议教程、分析一个数据集或阅读一本数据科学书籍也不能。参与竞赛增加了你的经验并增强了你的作品集。这是你其他项目的补充,而不是衡量数据科学技能的唯一标准。
乐趣
人们常常不确定是否应该追求数据科学的职业。参加比赛是一种有效的方式来评估你的能力和兴趣。如果你真的喜欢 Kaggle 的过程,它会更清楚地指引你正确的方向。如果你更愿意花时间做其他事情,那也没关系;这是找到答案的一种方式。
开始使用 Kaggle
初学者指南
这篇文章提供了关于 Kaggle 的详细信息以及开始使用的技巧:Kaggle 初学者指南
内核
这里有内核,即其他人共享的 Jupyter Notebook 代码。你可以自由地复制和使用这些代码来开始比赛。代码有 R 和 Python 两种版本。
讨论板
每个比赛都有一个讨论板,用于提问和对内核以及话题进行投票。
Slack
Kaggle 有一个 Slack 团队:KaggleNoobs slack channel。这里有将近 4000 名成员,还有一个 AMA(问我任何事)频道,他们定期采访 Kaggle 参与者和获胜者。
选择
-
你可以参加已经结束的比赛。请记住,这主要是关于学习,而不是最终结果。
-
有各种主题(随机森林、多分类、神经网络、自然语言处理)和数据集类型(图像、结构化数据、文本、大数据)
与他人合作
-
无论你是数据科学初学者还是有经验的从业者,都要与他人合作。
-
请注意,最好在 Kaggle 上拥有独立的团队,这样你们每个人可以最大化地每日提交结果,但在比赛快结束时可以合并团队。
结论
我认为至少参加一次比赛是值得的。尝试过的事情和未尝试过的事情之间是有区别的。Kaggle 正在不断发展,尤其是在被 Google 收购后。请定期查看,了解最新动态。
不一定非得是 Kaggle
虽然 Kaggle 是最知名的平台,但还有许多其他机会可以参加比赛:
-
许多大学分析部门都有年度比赛。
-
会议通常有比赛或所谓的“任务”。
-
私营公司赞助他们自己的比赛。
这是其他数据科学竞赛的示例列表。花点时间使用 Google 搜索会找到更多最新和活跃的机会。
参考文献
Jeremy Howard 关于深度学习、Kaggle、数据科学等的采访,2017 年
我的 Kaggle 经验与争夺名额的退休,Marios Michailidis,2016 年
机器学习不是 Kaggle 比赛,Julia Evans, 2014
数据科学简史, 2013
简介: Reshama Shaikh 是一名自由数据科学家/统计学家,拥有 Python、R 和 SAS 技能,并取得了 MBA 学位。她在制药行业担任生物统计学家超过 10 年。她还是纽约机器学习与数据科学女性聚会小组以及 PyLadies 的组织者。她在拉格斯大学获得统计学硕士学位,并在纽约大学斯特恩商学院获得 MBA 学位。
原创。经许可转载。
相关:
更多相关内容
今天我在午休时间用 Keras 构建了一个神经网络
原文:
www.kdnuggets.com/2017/12/today-built-neural-network-during-lunch-break-keras.html
评论
由 Matthijs Cox,纳米技术数据科学家
从想法到结果的最短延迟是进行良好研究的关键。
- Keras.io
所以昨天有人告诉我你可以在 Keras 中在 15 分钟内构建一个(深度)神经网络。当然,我完全不相信。上次我尝试(可能是 2 年前?)时,这仍然是相当费力的工作,需要全面的编程和数学知识。那时确实需要精湛的工艺。
所以在晚上我花了一些时间研究 Keras 文档,我必须说它看起来足够简单。但是当我尝试时肯定会遇到一些困难,对吧?适应这些包有时可能需要几个月。
第二天早晨
所以第二天我开始在自己的数据上玩 Keras。首先,我重构了一些我们内部包中的代码,以将数据转换为表格形式。这让我感到沮丧了一段时间。最后,这和回答我的电子邮件以及问题占用了我大部分的早晨。完成这些后,我可以轻松地将一些数据导出为 csv 文件,并用 Pandas 读取它,转换为 Numpy 数组,我们就准备好了。
午休时间
由于这完全是一个爱好项目,我部分牺牲了午休时间来构建模型。Keras 和 Tensorflow 安装得很快,自从上次我尝试在 Windows 笔记本上安装 Tensorflow 后,这非常简单。然后我几乎是复制粘贴了 Keras 文档中的代码。我甚至不打算建立一个 github 仓库,这就是我做的所有事情:
from keras.models import Sequential
from keras.layers import Dense
import numpy as np
model = Sequential()
model.add(Dense(units=64, activation=’relu’, input_dim=1424))
model.add(Dense(units=2696))
model.compile(loss='mse', optimizer='adam')
model.fit(predictors[0:80,], estimator[0:80,],
validation_data=(predictors[81:,],estimator[81:,]),
epochs=80, batch_size=32)
np.savetxt("keras_fit.csv", model.predict(data), delimiter=",")
这是什么?我在构建模型,添加一些密集层,完成它,拟合数据,并进行预测。全部用不到 10 行代码。我今天没有进行任何超参数优化或智能层架构。但我必须说;哇,真的很简单!
下午
现在我对实际性能非常好奇,所以我必须对一些基准进行测试。不过别告诉我的经理们我在花时间做这个哦!(开玩笑的,他们鼓励探索和学习。)所以我将数据加载回我的测试框架中,并运行一些其他算法。以下是我的最终性能指标的结果。
在不到一个小时的模型构建时间内,这真是太令人尴尬地好。我们花了 1.5 年时间研发的超级秘密模型仍然超越了它(幸运的是)。除此之外,任何神经网络的一个大缺点当然是它完全是一个黑匣子,不知道它实际学到了什么。而我们的秘密模型使用的是我们后来可以作为人类诊断的模式识别。
结论
这也是我最快完成的文章,完全是在热情的状态下写的。现在,我在一天的最后几分钟里写这篇文章,向任何开发 Keras 的人表示热烈的掌声。以下是我的结论:
-
Keras API:棒极了!
-
Keras 文档:棒极了!
-
Keras 结果:棒极了!
如果你正在考虑进行一些深度/机器学习,我一定建议从 Keras 开始。快速上手非常有趣,之后你可以学习和微调细节。
简介: Matthijs Cox 是一名纳米技术数据科学家,自豪的父亲和丈夫,图形设计师和业余作家。
原文。经授权转载。
相关:
-
掌握 Keras 深度学习的 7 个步骤
-
Keras 速查表:Python 中的深度学习
-
Keras 教程:使用神经网络识别井字棋赢家
我们的 Top 3 课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你所在组织的 IT
更多相关内容
汤姆·福塞特,悼念
评论
作者:福斯特·普罗沃斯,纽约大学
我亲爱的朋友汤姆·福塞特(1958 - 2020)于 6 月 4 日在一次意外的自行车事故中去世。汤姆是一位杰出的学者,一个无私的合作伙伴,对数据科学贡献了三十年,并且是一个独特的个体。
我们的前三大课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你组织的 IT 工作
汤姆和我在我职业生涯的大部分时间里紧密合作。我们从 1994 年开始合作,那时我加入了现在的 Verizon(当时是 NYNEX 科技)。我最初的印象是汤姆是个脾气古怪的人(是的,即使在那时也是如此),我对与他合作会是什么样子有些怀疑。很快我意识到,在这种印象下,他实际上是一个善良、体贴、关怀的人,同时也是一个杰出的数据科学家。在我们都离开去找其他工作之前的 1999 年底,这段时间是魔幻的五年。汤姆是那种合作伙伴,我们一个下午会结束会议,制定一系列各自需要完成的任务,当我们第二天再次见面时,汤姆已经完成了他的加上几个在过程中出现的重要任务。即使在此期间的晚上,我们出去看了某个 90 年代的新人朋克或重型另类摇滚乐队(这是我们喜欢做的事情),这种情况也是如此。正因为如此,我不得不更加努力——我不想成为团队中的拖后腿者。毫无疑问,因为和汤姆一起工作,我做的工作明显比自己单独完成的要好。
我最喜欢的“汤姆故事”来自那些日子。汤姆和我参与了一个项目,高层需要决定如何处理公司提供的越来越明显的糟糕服务。理想情况下,他们希望能证明问题在很大程度上是由于前一年的高湿度,因为大家都知道电信设备在高湿度下会受到影响。在我最喜欢的职业时刻之一,汤姆展示了数据分析的结果(是他完成的):”湿度似乎对网络问题没有显著影响。而且顺便提一下,去年并没有更潮湿。”(我最近问汤姆他是否记得这件事的方式与我一致,他说他喜欢我讲述的方式,所以是的。😃 顺便说一下,我们随后跟进了这项分析,并进行了根本原因分析。根据这些结果,我们建立了一个模型来预测单个网络恢复行动的影响。这个模型集成了数万次本地回归。我们被告知,我们模型的预测被用于指导一项价值十亿美元的恢复活动。恢复后的回顾显示,我们的预测几乎是完美的,我们获得了公司的总统奖。这让我的脸上露出了自满的微笑。汤姆说,评估高估了我们模型的真实准确性。😃
我很幸运和感恩能有那么多时间与汤姆共度。在接下来的二十年里,他继续在几家位于加州的公司中将数据科学与实践结合,我们继续一起写作。在 3000 英里之外,他和我几乎会辩论任何话题,无论重要与否。我最怀念的就是这个。爱你,汤姆。
汤姆·福赛特的讣告 见于《圣荷西水星报》。
学习人工智能是否已经太晚?
评论
由Frederik Bussler,Obviously AI 的增长营销负责人
人工智能饱和
我们的三大课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业。
2. 谷歌数据分析专业证书 - 提升你的数据分析能力
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT
我定期分享学习人工智能和数据科学的资源,无论是来自谷歌或哈佛的课程,还是完整的 YouTube 教程。
与此同时,我听到的担忧是:“学习人工智能和数据科学是否已经太晚?”
令人担忧的是,随着数百万学生学习机器学习,这个领域正在变得饱和。毕竟,人工智能职位的数量有限,尤其是在全球经济衰退期间。
Andrew Ng 在 Coursera 上的著名机器学习课程有接近 400 万学生。
截至撰写时,如果你在 LinkedIn 工作中搜索“机器学习”,你会发现略超过 100,000 个职位。
很明显,学生数量远远超过了开放职位——仅仅是查看单个 Coursera 课程中的学生数量,比例接近 40:1。
为什么仍然值得
尽管如此,学习人工智能仍然是值得的,原因有很多。
企业家精神
首先,让我们谈谈企业家精神。人工智能的构建和部署比以往任何时候都更加容易和快速——特别是考虑到像Obviously.AI这样的无代码 AI 工具——这意味着员工有机会通过将人工智能添加到他们的技能集中来创造更多的价值。
这些在组织中寻找人工智能应用案例的企业家精神者并没有增加 LinkedIn 上的职位空缺数量,但有无数的例子。
对任何员工来说,成为一名 AI 企业家精神者有着巨大的激励:有可能自动化他们工作中的重复、无聊部分,并专注于创意和以人为本的任务。更不用说,人工智能技能可以提升你的薪资和职业生涯。
例如,营销人员可以利用人工智能预测客户行为、构建用户画像并识别主要人群。零售员工可以优化产品组合、预测库存消耗、预测人员需求等。保险员工可以利用人工智能预测保险索赔、诉讼风险、代位求偿机会等。
对于 AI 企业家精神者来说,可能性是无穷无尽的。
创业精神
还有一个巨大的机会领域未包含在~100K 的机器学习工作中:创业。
创业是企业家精神的风险性反面。它意味着走自己的路,在市场中寻找增加价值的新方法,通常没有任何形式的支持、帮助或稳定性。
与此同时,这种高风险带来了高回报的潜力。
假设你加入了一家硅谷初创公司,成为第 30 名员工(仍然处于早期阶段),而且你是你领域中的顶级工程师之一。根据 Holloway,你可以期望获得0.25%–0.5%的股份。
如果你独自创业,作为创始人,你一开始就拥有 100%的股份。通过引入共同创始人、员工和投资者,这个数字会减少,但潜力却大得多。
持续学习
即使你对企业家精神、创业或获得新角色不感兴趣,持续学习仍然是值得提倡的。
人工智能现在遍布各个行业,从你在亚马逊、Spotify、Netflix 或 Tinder 上获得的推荐,到你在 Google 或 YouTube 上看到的搜索结果,甚至包括 COVID-19 追踪、疫苗开发和疫苗推广。
为了跟上最新技术的发展,并真正理解当今的世界,学习人工智能是必不可少的。
结论
学习人工智能是值得的,且始终如此。即使就业市场趋于饱和(目前还未饱和,因为仍有针对合格者的开放职位),创意型企业家和创业者始终有潜力。为了保持相关性,人工智能技能正迅速成为必备技能。
简介:Frederik Bussler 是 Obviously AI 的增长营销负责人。他致力于将人工智能普及化。
原文。经授权转载。
相关:
-
我们不需要数据科学家,我们需要数据工程师
-
利用自然语言处理提升你的简历
-
2021 年人工智能(AI)五大趋势
更多相关内容
需要管理的 Python 版本太多?Pyenv 来拯救
原文:
www.kdnuggets.com/too-many-python-versions-to-manage-pyenv-to-the-rescue
作者提供的图片
想在早上尝试最新 Python 版本的新特性…午休时浏览旧版 Python 代码库——而不会破坏你的开发环境?
我们的三大课程推荐
1. 谷歌网络安全证书 - 快速开启网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你所在组织的 IT
是的,这是可能的。Pyenv 可以帮助你。使用 Pyenv,你可以安装 Python 版本、切换版本和删除不再需要的版本。
本教程是 Pyenv 设置和使用的简要介绍。现在,让我们开始吧!
安装 Pyenv
第一步是安装 Pyenv。我使用的是 Linux:Ubuntu 23.01。如果你使用的是 Linux 机器,安装 Pyenv 的最简单方法是运行以下 curl
命令:
$ curl https://pyenv.run | bash
这使用了 pyenv-installer 来安装 Pyenv。
安装完成后,你将被提示完成设置你的 shell 环境以使用 Pyenv。为此,你可以将以下命令添加到 ~/.bashrc
文件中:
echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.bashrc
echo 'command -v pyenv >/dev/null || export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.bashrc
echo 'eval "$(pyenv init -)"' >> ~/.bashrc
一切准备就绪,开始使用 Pyenv 吧!
注意:如果你使用的是 Mac 或 Windows 机器,请查看 如何安装 Pyenv 的详细说明。在 Windows 上,你需要在 Windows 子系统 for Linux (WSL) 中安装 Pyenv。
使用 Pyenv 安装 Python 版本
现在你已经安装了 Pyenv,你可以通过运行 pyenv install
命令来安装特定的 Python 版本,如下所示:
$ pyenv install version
要检查已安装的 Python 版本列表,请运行以下命令:
$ pyenv versions
* system (set by /home/balapriya/.pyenv/version)
我还没有安装任何新版本,所以唯一的 Python 版本是系统版本。在我的情况中是 Python 3.11:
$ python3 –version
Python 3.11.4
让我们尝试安装 Python 3.8 和 3.12。尝试运行以下命令来安装 Python 3.8:
$ pyenv install 3.8
第一次尝试用 Pyenv 安装特定版本的 Python 时,你可能会遇到错误,因为缺少一些构建依赖项。别担心,很容易修复!
⚙️ 一些故障排除提示
当我尝试在我的 Linux 发行版上使用 pyenv install
命令安装 Pyenv 时,由于缺少构建依赖项而遇到了错误。
这个 StackOverflow 讨论串 包含有关安装 Pyenv 所需的构建依赖项的有用信息。运行以下命令以安装缺少的依赖项:
$ apt-get install build-essential zlib1g-dev libffi-dev libssl-dev libbz2-dev libreadline-dev libsqlite3-dev liblzma-dev
现在你应该可以在没有任何错误的情况下安装 Python 版本:
$ pyenv install 3.8
注意:当你安装 Python 3.x 时,默认会安装最新的版本。但你也可以进行更细粒度的控制,指定 3.x.y 来安装特定版本的 Python。你还可以运行
pyenv install --list
来获取所有可用 Python 版本的列表。然而,这个列表是非常 长 的。
类似地,运行 pyenv install
来安装 Python 3.12:
$ pyenv install 3.12
现在如果你运行 pyenv versions
,除了系统版本,你会看到 Python 3.8 和 3.12:
$ pyenv versions
* system (set by /home/balapriya/.pyenv/version)
3.8.18
3.12.0
设置全局 Python 版本
使用 Pyenv,你可以设置一个 全局 Python 版本。正如其名,全局版本是你在命令行中使用 Python 时使用的 Python 版本。
但要小心将其设置为相对较新的版本,以避免在运行使用更新 Python 版本的项目时出现错误。
比如,假设我们将全局版本设置为 Python 3.8.18 会发生什么。
$ pyenv global 3.8.18
创建一个项目文件夹。在其中,创建一个 main.py 文件,并添加以下代码:
# main.py
def handle_status_code(status_code):
match status_code:
case 200:
print(f"Success! Status code: {status_code}")
case 404:
print(f"Not Found! Status code: {status_code}")
case 500:
print(f"Server Error! Status code: {status_code}")
case _:
print(f"Unhandled status code: {status_code}")
status_code = 404 # oversimplification, yes.
handle_status_code(status_code)
如所示,这段代码使用了在 Python 3.10 中引入的 match-case 语句。因此,你需要 Python 3.10 或更高版本才能成功运行这段代码。如果你尝试运行脚本,你会遇到以下错误:
File "main.py", line 2
match status_code:
^
SyntaxError: invalid syntax
就我而言,系统 Python 版本是 3.11,非常新。因此,我可以将全局版本设置为系统 Python 版本,如下所示:
$ pyenv global system
当你现在运行相同的脚本时,你应该会看到以下输出:
Output >>>
Not Found! Status code: 404
如果你的系统 Python 是较旧的版本,例如 Python 3.6 或更早版本,安装一个更新的 Python 版本并将其设置为全局版本是很有帮助的。
为你的项目设置本地 Python 版本
当你想要处理使用较早版本 Python 的项目时,你需要安装该版本以避免任何错误(如不再支持的方法调用)。
比如,你想在处理项目 A 时使用 Python 3.8,在处理项目 B 时使用 Python 3.10 或更高版本。
图片由作者提供
在这种情况下,你可以在项目 A 的目录中这样设置本地 Python 版本:
$ pyenv local 3.8.18
你可以运行 python --version
来检查项目目录中的 Python 版本:
$ python --version
Python 3.8.18
这在处理较旧的 Python 代码库时特别有用。
卸载 Python 版本
如果你不再需要某个 Python 版本,你可以通过运行 pyenv uninstall
命令将其卸载。例如,如果我们不再需要 Python 3.8.18,我们可以通过运行以下命令将其卸载:
$ pyenv uninstall 3.8.18
你应该在终端中看到类似的输出:
pyenv: remove /home/balapriya/.pyenv/versions/3.8.18? [y|N] y
pyenv: 3.8.18 uninstalled
总结
我希望你觉得这个关于 Pyenv 的入门教程有帮助。我们来回顾一些最常用的命令以便快速参考:
命令 | 功能 |
---|---|
pyenv versions | 列出所有当前安装的 Python 版本 |
pyenv install --list | 列出所有可供安装的 Python 版本 |
pyenv install 3.x | 安装 Python 3.x 的最新发布版 |
pyenv install 3.x.y | 安装 Python 3.x 的 y 版本 |
pyenv global 3.x | 将 Python 3.x 设置为全局 Python 版本 |
pyenv local 3.x | 将本地 Python 版本设置为 3.x |
pyenv uninstall 3.x.y | 卸载 Python 3.x 的 y 版本 |
如果你在想。是的,你可以 使用 Docker,这是一个使本地开发变得轻松的绝佳选择——无需担心依赖冲突。但你可能会觉得每次需要进行新项目时使用 Docker 或其他容器化解决方案有些过度。
所以我认为能够在命令行安装、管理和切换 Python 版本仍然很有用。你也可以探索 pyenv-virtualenv 插件来创建和管理虚拟环境。编码愉快!
Bala Priya C**** 是来自印度的开发人员和技术作家。她喜欢在数学、编程、数据科学和内容创作的交集处工作。她的兴趣和专长领域包括 DevOps、数据科学和自然语言处理。她喜欢阅读、写作、编程和喝咖啡!目前,她正在通过编写教程、操作指南、观点文章等,学习并与开发者社区分享她的知识。Bala 还创建了引人入胜的资源概述和编码教程。
更多相关内容
每个数据科学家都应知晓的工具:实用指南
原文:
www.kdnuggets.com/tools-every-data-scientist-should-know-a-practical-guide
图片由作者提供
我们的三大课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求
数据科学家最依赖哪些工具?这个问题很重要,尤其是在学习数据科学之前,因为数据科学是一个不断发展的领域,过时的文章可能会提供过时的信息。在这篇文章中,我们将深入探讨最近必须了解的工具,这些工具可以提升你的数据科学水平,但我们从假设你对数据科学一无所知开始。
什么是数据科学?
数据科学是一个多学科领域,它结合了来自各种学科的知识,通过数据驱动的分析帮助企业做出明智的决策。
Python
与 R 一起,Python 是数据研究中最常用的语言之一。它灵活且可读,拥有许多库来支持,特别是在数据科学中,使其适合各种任务,从网络爬虫到模型构建。
以下是每个类别在 Python 中的关键库
-
网络爬虫:
-
BeautifulSoup: Python 中最简单的网络爬虫库。
-
Scrapy: 高级网络爬虫库。
-
-
数据探索与操作:
-
数据可视化:
-
Matplotlib: 核心 Python 绘图库
-
Seaborn: 基于 Matplotlib 的可视化库。它提供了一个高级接口,用于创建吸引人的统计图形。
-
Plotly: 互动图形库
-
-
模型建模:
-
Scikit-learn: Python 中最关键的机器学习库
-
TensorFlow: 适用于应用和扩展深度学习。
-
PyTorch: 用于图像处理和 NLP 应用的机器学习库。
-
R
R 是一个强大的文本分析工具,旨在解决统计和数据分析问题。其全面的统计能力和广泛的软件包生态系统使其在学术界和研究中非常受欢迎。
这里是 Python 各类别的关键库
-
网络抓取
-
数据探索与操作
-
dplyr: 数据操作的语法,提供数据操作动词,帮助简化数据操作。
-
tidyr: 通过手动展开和收集数据使数据更易于访问。
-
Data.table: data.frame 的扩展,具有更快的数据操作能力。
-
-
数据可视化
-
模型构建
-
Caret: 用于创建分类和回归模型的工具。
-
nnet: 提供构建神经网络的函数。
-
randomForest: 基于随机森林算法的分类和回归库。
-
Excel
Excel 易于用于分析和可视化数据。它易于学习和使用,其处理大型数据集的能力使其在快速数据操作和分析中非常有用。
在这一部分,我们将把 Excel 的关键功能划分到子部分中进行分类,而不是使用库。
数据探索与操作
-
FILTER: 根据你定义的标准过滤数据范围。
-
SORT: 对范围或数组中的元素进行排序。
-
VLOOKUP/HLOOKUP: 按行或列在表格或范围中查找内容。
-
TEXT TO COLUMNS: 将单元格内容拆分为多个单元格。
数据可视化
-
图表(柱状图、折线图、饼图等):标准的图表类型用于表示数据。
-
PivotTables: 它压缩大型数据集并创建交互式摘要。
-
Conditional Formatting: 显示哪些单元格符合特定规则。
模型构建
-
AVERAGE, MEDIAN, MODE: 计算集中趋势。
-
STDEV.P/STDEV.S: 处理数据集以计算数据集的离散度。
-
LINEST: 基于线性回归分析,返回最符合数据集的直线统计数据。
-
回归分析(数据分析工具包):该工具包使用回归分析来查找变量之间的相关性。
SQL
SQL 是与关系数据库交互的语言,并用于存储和处理数据。
数据科学家主要使用 SQL 作为与数据库交互的标准方式,帮助他们查询、更新和管理所有数据库中的数据。SQL 还用于访问数据以进行检索和分析。
这里是最受欢迎的 SQL 系统。
-
PostgreSQL:一个开源的对象-关系数据库系统。
-
MySQL:一种高性能、受欢迎的开源数据库,以其速度和可靠性而闻名。
-
MsSQL(微软 SQL 服务器):微软开发的关系数据库管理系统,与微软产品完全集成,具备企业级功能。
-
Oracle:这是一个在企业环境中广泛使用的多模型数据库管理系统。它结合了最佳的关系模型和基于树的存储表示。
高级可视化工具
使用合适的高级可视化工具,可以将复杂的数据转化为生动的、可用的见解。这些工具允许数据科学家和业务分析师创建互动式和可分享的仪表板,改进、理解并在适当的时间使数据可用。
这里是构建仪表板的重要工具。
-
-
Power BI:微软提供的商业分析服务,提供互动式可视化和商业智能功能,界面简单易用,适合最终用户创建报告和仪表板。
-
Tableau:一个强大的数据可视化工具,允许用户创建互动式和可分享的仪表板,提供数据的深刻见解。它可以处理大量数据,并能够与不同的数据源良好配合。
-
Google 数据工作室:这是一个免费的基于网络的应用程序,允许你使用来自几乎任何来源的数据创建动态和美观的仪表板和报告,还提供其他免费的、完全可定制且易于分享的报告,这些报告会自动使用你其他 Google 服务中的数据进行更新。
-
云系统
云系统对数据科学至关重要,因为它们可以扩展,增加灵活性,并管理大数据集。它们提供计算服务、工具和资源,以规模化存储、处理和分析数据,并实现成本优化和性能效益。
在这里查看受欢迎的配方。
-
AWS(亚马逊网络服务):提供一个高度复杂且不断发展的云计算平台,包括存储、计算、机器学习、大数据分析等多种服务。
-
Google Cloud: 提供各种云计算服务,运行在 Google 内部用于 Google 搜索和 YouTube 等产品的相同基础设施上,包括云数据分析、数据管理和机器学习。
-
Microsoft Azure: 微软提供云计算服务,包括虚拟机、数据库、人工智能和机器学习工具以及 DevOps 解决方案。
-
PythonAnywhere: 这是一个基于云的开发和托管环境,允许你通过网页浏览器运行、开发和托管 Python 应用程序,无需 IT 人员设置服务器。非常适合数据科学和网页应用开发人员,快速部署代码。
附赠: LLM 的
大型语言模型(LLMs)是 AI 中的前沿解决方案之一。它们可以像人类一样学习和生成文本,在自然语言处理、客户服务自动化、内容生成等广泛应用中非常有利。
这里是一些最著名的工具。
-
ChatGPT: 这是一个由 OpenAI 创建的灵活对话代理,用于生成类似人类的上下文文本,非常有益。
-
Gemini: Google 创建的 LLM 将允许你直接在 Gmail 等 Google 应用中使用。
-
Claude-3: 一个现代的 LLM,专门用于更好地理解和生成文本。它用于协助完成各种高级 NLP 任务和对话 AI。
-
Microsoft Co-pilot: 这是一个集成到微软应用中的 AI 驱动服务,Co-pilot 通过提供上下文敏感的建议和自动化重复的工作流程,帮助用户提高生产力和效率。
如果你仍然有关于最有价值的数据科学工具的问题,可以查看这篇数据科学家最有用的 10 种数据分析工具。
最终想法
在这篇文章中,我们探讨了数据科学家所需的基本工具,从 Python 到大型语言模型。掌握这些工具可以显著提升你的数据科学能力。保持更新并不断扩展你的工具包,以保持竞争力和有效性。
Nate Rosidi 是一名数据科学家和产品策略专家。他还担任分析学的兼职教授,并且是 StrataScratch 的创始人,这是一个帮助数据科学家通过顶级公司的真实面试问题准备面试的平台。Nate 撰写关于职业市场的最新趋势,提供面试建议,分享数据科学项目,并覆盖所有 SQL 相关内容。
相关主题更多内容
你必须知道如何回答的前 10 个高级数据科学 SQL 面试问题
原文:
www.kdnuggets.com/2023/01/top-10-advanced-data-science-sql-interview-questions-must-know-answer.html
作者提供的图像
介绍
我们的前三课程推荐
1. Google 网络安全证书 - 快速进入网络安全职业生涯。
2. Google 数据分析专业证书 - 提升数据分析技能
3. Google IT 支持专业证书 - 支持组织的 IT
SQL(结构化查询语言)是一种用于管理和操作数据库的标准编程语言。它是任何数据专业人员的必备技能,因为它使他们能够有效地检索和分析存储在数据库中的数据。因此,SQL 是技术面试中的常见话题,适用于涉及数据工作的职位,如数据分析师、数据工程师和数据库管理员。
问题 01
查找第 nth 高薪资/支付或第 3 高薪资/支付的 SQL 查询
要查找第 nth 高薪资,你可以使用带有 DENSE_RANK() 函数的子查询来计算每个薪资的密集排名,然后筛选结果以仅包括排名等于 n 的行。
SELECT
*
FROM
(
SELECT
name,
salary,
DENSE_RANK() OVER (
ORDER BY
salary DESC
) as salary_rank
FROM
employees
) subquery
WHERE
salary_rank = n;
你还可以使用 LIMIT 和 OFFSET 子句来查找第 nth 高薪资,如下所示:
SELECT
name,
salary
FROM
employees
ORDER BY
salary DESC
LIMIT
1 OFFSET (n - 1);
例如,要找到第 3 高的薪资,你可以使用以下查询:
SELECT
name,
salary
FROM
employees
ORDER BY
salary DESC
LIMIT
1 OFFSET 2;
问题 02
如何优化 SQL 查询以提高性能?
有几种方法可以优化 SQL 查询以提高性能,包括
索引
在某列或某些列上创建索引可以显著提高对这些列进行筛选的查询速度。
分区
将大型表分区为更小的部分可以提高仅需要访问数据子集的查询性能。
规范化
规范化涉及将数据库中的数据组织到仅存储一个位置,以减少冗余并完善数据的完整性。
使用适当的数据类型
为每列使用正确的数据类型可以提高对这些列进行筛选或排序的查询性能。
使用适当的 JOIN 类型
使用正确的 JOIN 类型(例如 INNER JOIN、OUTER JOIN、CROSS JOIN)可以提高多表联接查询的性能。
使用适当的聚合函数
使用适当的聚合函数(例如,SUM、AVG、MIN、MAX)可以提高对大型数据集执行计算的查询性能。一些聚合函数,类似于 COUNT,比其他函数更有效,因此选择适用的函数对查询非常重要。
问题 03
你如何在 SQL 中使用 LAG 和 LEAD 函数?能否给出它们使用的示例?
LAG() 和 LEAD() 函数是 SQL 中的窗口函数,允许你将行中的值与前一行或后一行的值进行比较。它们对计算累计总数或将表中的值与前一行或后一行的值进行比较非常有用。
LAG() 函数接受两个参数:要返回的列和向回查找的行数。例如
SELECT
name,
salary,
LAG(salary, 1) OVER (
ORDER BY
salary DESC
) as prev_salary
FROM
employees;
LEAD() 函数的工作方式类似,但向前而不是向后。例如
SELECT
name,
salary,
LEAD(salary, 1) OVER (
ORDER BY
salary DESC
) as next_salary
FROM
employees
问题 04
解释 SQL 中的 ETL 和 ELT 概念
ETL(提取、转换、加载)是一个用于 SQL 的过程,用于从一个或多个源中提取数据,将数据转换成适合分析或其他用途的格式,然后将数据加载到目标系统中,例如数据仓库或数据湖。
ELT(提取、加载、转换)与 ETL 类似,但转换阶段在数据加载到目标系统后进行,而不是之前进行。这允许目标系统执行转换,这可能比在 ETL 工具中执行转换更高效、更具扩展性。ELT 通常用于现代数据基础设施,这些基础设施使用强大的数据处理引擎(如 Apache Spark 或 Apache Flink)来执行转换阶段。
问题 05
你能解释 SQL 中 WHERE 和 HAVING 子句的区别吗?
WHERE 和 HAVING 子句都用于从 SELECT 语句中筛选行。它们之间的主要区别是 WHERE 子句用于在分组操作之前筛选行,而 HAVING 子句用于在分组操作之后筛选行。
SELECT
department,
SUM(salary)
FROM
employees
GROUP BY
department
HAVING
SUM(salary) > 100000;
在这个例子中,HAVING 子句用于筛选出部门中员工薪水总和少于 100000 的部门。这是在分组操作之后完成的,因此只影响表示每个部门的行。
SELECT
*
FROM
employees
WHERE
salary > 50000;
在这个例子中,WHERE 子句用于筛选薪水少于 50000 的员工。这是在任何分组操作之前完成的,因此它影响 employees 表中的所有行。
问题 06
解释 SQL 中 TRUNCATE、DROP 和 DELETE 操作之间的区别
TRUNCATE
TRUNCATE 操作从表中删除所有行,但不会影响表的结构。它比 DELETE 更快,因为它不会生成任何撤销或重做日志,也不会触发任何删除触发器。
这是使用 TRUNCATE 语句的一个示例
TRUNCATE TABLE employees;
该语句从 employees 表中删除所有行,但表的结构,包括列名和数据类型,保持不变。
DROP
DROP 操作从数据库中删除一个表,并删除表中的所有数据。它还删除与表相关的任何索引、触发器和约束。
这是一个使用 DROP 语句的示例
DROP
TABLE employees;
该语句从数据库中删除 employees 表,并且表中的所有数据都被永久删除。表结构也被移除。
DELETE
DELETE 操作从表中删除一行或多行。它允许你指定一个 WHERE 子句以选择要删除的行。它还生成撤销和重做日志,并触发取消触发器。
这是一个使用DELETE
语句的示例
DELETE FROM
employees
WHERE
salary & lt;
50000;
该语句删除 employees 表中所有工资低于 50000 的行。表结构保持不变,被删除的行可以通过撤销日志恢复。
问题 07
哪种更有效,连接还是子查询?
通常情况下,使用 JOIN 比使用子查询更高效,因为 JOIN 允许数据库通过利用连接表上的索引更高效地执行查询。
例如,考虑以下两个返回相同结果的查询:
SELECT
*
FROM
orders o
WHERE
o.customer_id IN (
SELECT
customer_id
FROM
customers
WHERE
country = 'US'
);
SELECT
*
FROM
orders o
WHERE
o.customer_id IN (
SELECT
customer_id
FROM
customers
WHERE
country = 'US'
);
第一个查询使用 JOIN 将 orders 和 customers 表结合在一起,然后使用 WHERE 子句筛选结果。第二个查询使用子查询从 customers 表中选择相关的客户 ID,然后使用 IN 运算符根据这些 ID 筛选 orders 表。
问题 08
如何在 SQL 中使用窗口函数?
在 SQL 中,窗口函数是对由窗口规范定义的一组行或“窗口”操作的函数。窗口函数用于在行之间执行计算,并且可以在 SELECT、UPDATE 和 DELETE 语句中使用,以及在 SELECT 语句的 WHERE 和 HAVING 子句中使用。
这是在 SELECT 语句中使用窗口函数的示例:
SELECT
name,
salary,
AVG(salary) OVER (PARTITION BY department_id) as avg_salary_by_department
FROM
employees
该语句返回一个包含三列的结果集:name、salary 和 avg_salary_by_department。avg_salary_by_department 列是使用 AVG 窗口函数计算的,该函数计算每个部门的平均工资。PARTITION BY 子句指定窗口按 department_id 分区,这意味着平均工资是针对每个部门单独计算的。
问题 09
解释规范化
规范化是将数据库组织成一种减少冗余和依赖的方式的过程。它是一种系统化的方法,用于分解表格以消除数据冗余并提高数据完整性。可以使用几种规范形式来规范化数据库。最常见的规范形式包括:
第一范式 (1NF)
-
表中的每个单元格包含一个单一的值,而不是一个值的列表
-
表中的每一列都有一个唯一的名称
-
表中不包含任何重复的列组
第二范式 (2NF)
-
它处于第一范式
-
它没有任何部分依赖(即,非主属性依赖于复合主键的一部分)
第三范式 (3NF)
-
它符合第二范式
-
它没有任何传递依赖(即,非主属性依赖于另一个非主属性)
博伊斯-科德范式 (BCNF)
-
它符合第三范式
-
每个决定因素(一个决定其他属性值的属性)都是候选键(一个可以作为主键的列或列集)
问题 10
解释 SQL 中的独占锁和更新锁
独占锁是一种锁,防止其他事务读取或写入被锁定的行。这种锁通常在事务需要修改表中的数据时使用,并希望确保没有其他事务可以同时访问该表。
更新锁是一种锁,允许其他事务读取被锁定的行,但防止它们更新或写入被锁定的行。这种锁通常在事务需要读取表中的数据时使用,但希望确保在当前事务完成之前,数据不会被其他事务修改。
索尼亚·贾米尔 目前在巴基斯坦最大的电信公司之一担任数据库分析师。除了全职工作,她还兼职做自由职业者。她的背景包括数据库管理方面的专业知识,并且有在本地和云环境中的 SQL Server 经验。她精通最新的 SQL Server 技术,并对数据管理和数据分析有着浓厚的兴趣。
更多相关话题
印度前 10 大 AI 初创公司
原文:
www.kdnuggets.com/top-10-ai-startups-to-work-for-in-india
作者提供的图片
人工智能(AI)正在全球范围内改变商业运作,印度正在迅速崛起成为创新 AI 初创企业的中心。这些本土公司在各个行业推动 AI 的应用,同时在国内培养了强大的人才库。在这篇博客中,我们将重点介绍在印度引起广泛关注的前 10 大 AI 初创公司,它们是开始或推进你 AI 职业生涯的绝佳选择。
我们的前三大课程推荐
1. Google 网络安全证书 - 快速进入网络安全职业的快车道。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你的组织 IT 工作
注意: 关于融资的数据来自于ai-startups.org,而评分则来自于Glassdoor。
Uniphore
融资:$620.9M (+/-)
Glassdoor 评分:3.9
Uniphore 是一家印度初创公司,将 AI 嵌入到商业运营的每个方面,使复杂任务变得简单。他们的企业级多模态机器学习模型和数据平台统一了语音、视频、文本和数据的所有元素。Uniphore 还将生成式 AI、知识 AI、情感 AI 和工作流自动化结合起来,作为企业的可靠副驾驶。这些先进的 AI 技术的结合,作为催化剂,创造了世界上最具吸引力的客户和员工体验。
Yellow.ai
融资:$102.2M (+/-)
Glassdoor 评分:3.8
Yellow.ai 是一个无代码平台,将生成式 AI 与企业级 LLMs 结合,能够将聊天和语音自动化的时间从几天缩短至几分钟。其专有的 DAP 技术基于多 LLM 架构,并不断在数十亿次对话中进行训练,以提供规模、速度和准确性。
Yellow.ai 提供了一个对话服务云来自动化客户支持,一个对话商务云来实现对话商务,以及一个对话 EX 云来丰富员工体验。
Razorpay
融资:$74.7M (+/-)
Glassdoor 评分:3.8
Razorpay 是一家印度初创公司,推动财务和业务增长。他们强大的支付网关使企业能够接受 100 多种支付方式,具有行业领先的成功率和卓越的结账体验。轻松集成、从第一天起即刻结算以及深入的报告功能提供了无缝的支付体验。
除了支付服务,Razorpay 还通过自动化向供应商和员工支付款项,帮助企业保持充足的运营资金。通过提升企业财务管理,Razorpay 使公司能够专注于核心业务。作为领先的金融科技公司,Razorpay 正在通过解决支付和结算需求来帮助印度企业扩展规模。
Qure.ai
融资:60.3 百万美元(+/-)
Glassdoor 评分:4.0
Qure AI 是一家印度初创公司,已被认可为全球最广泛采用的医疗 AI 公司之一。他们专注于肺部、心脏、神经和肌肉骨骼(MSK)疾病的 AI 解决方案。Qure.ai 提供一系列产品以改善医学诊断和患者护理。
包括以下内容:
-
胸部 X 光报告
-
结核病护理层级
-
肺结节管理
-
中风与创伤性脑损伤
-
MSK X 光报告
-
心力衰竭
通过提高效率和准确性,Qure.ai 改善了患者诊断,同时降低了护理成本。
Avaamo
融资:30.5 百万美元(+/-)
Glassdoor 评分:4.4
Avaamo 是一家印度初创公司,开发了一个基于云的对话 AI 平台,利用最新的神经网络、语音合成和深度学习技术。他们的技术使企业能够在语音、文本和其他渠道上以空前的速度和准确性自动化客户互动。凭借预构建的企业连接器、对话分析和快速部署能力,Avaamo 使组织能够在短短几周内执行对话 AI 项目。
Mad Street Den
融资:30 百万美元(+/-)
Glassdoor 评分:4.2
Mad Street Den® 开发了一个名为“Vue.ai”的企业 AI 平台,宣称“这是你将来唯一需要的 AI 堆栈”。他们的平台专注于提供业务成果,强调快速实施和生产力。Mad Street Den 鼓励企业摒弃冗长的 AI 转型计划,立即使用他们的平台。他们提供一个零延迟的企业 AI 平台,支持快速上线,使企业能够在访问数据后的 30 天内展示价值。
Wysa
融资:29.5 百万美元(+/-)
Glassdoor 评分:3.4
Wysa 是一个印度(全球)初创企业,提供了一种革命性的心理健康支持方法。他们的临床验证 AI 技术提供了作为护理第一步的即时帮助,随后为需要额外帮助的用户提供人工辅导。这种创新的方法已经产生了显著的影响,超过五亿次 AI 聊天对话与来自 95 个国家的超过五百万人的交流。
针对员工心理健康日益增长的关注,Wysa 在美国、英国以及其自身用户群体中进行了广泛的研究,揭示了对早期、匿名和无限护理的需求。
Haptik
融资:$11.2M (+/-)
Glassdoor 评分:3.5
Haptik 是一个印度会话 AI 初创企业,利用生成式 AI 建立持久的客户关系。他们的平台通过跨渠道客户对话提供支持,启用个性化的营销互动,并激发销售以提高转化率。凭借在每个阶段都经过优化的全面客户体验套件,Haptik 能够迅速带来指数级的价值。其专有的 NLU 在人类般对话的准确性方面领先行业,以减少机器人失败。先进的行业特定 NLP 和 ML 确保了高精度。AI 驱动的分析通过 Smart Funnels 等功能从对话数据中发现实时洞察。
Rephrase.ai
融资:$10.6M (+/-)
Glassdoor 评分:3.9
Rephrase.ai 是一个由生成式 AI 驱动的开创性文本转视频生成平台。他们的平台 Rephrase Studio 通过使用户能够在几分钟内用数字化头像创建专业外观的视频,消除了视频制作的复杂性。这一三步流程包括选择数字化头像、添加所需的信息和渲染视频。利用 AI 的强大功能,Rephrase 能够无缝地将文本转换为逼真的视频。作为一个创新的印度初创企业,Rephrase.ai 正在通过其文本转视频平台改变沟通和创意,使制作引人入胜的视频内容变得简单且对每个人都可及。
Synapsica
融资:$4.2M (+/-)
Glassdoor 评分:4.6
Synapsica 正在利用人工智能来革新脊柱报告和放射学。他们获得 FDA 批准的解决方案提供了针对 MRI、X 光等的端到端视觉和定量脊柱报告。Synapsica 的 AI 助手自动化重复任务、标准化测量,并生成基于证据的报告,从而提升放射科医生的生产力和报告准确性。这有助于医生做出更有信心的诊断。Synapsica 的算法具有高达 99%的精确度,提供智能的、平台无关的报告,并通过预测分析和自动量化实现可靠的跟踪。作为一家创新的印度健康科技初创公司,Synapsica 使放射科医生能够更高效地报告更多病例,同时为医生提供详细的、说明性的分析,以改善患者护理。
结论
人工智能在印度的快速增长催生了许多有前景的初创公司,它们处于将创新的人工智能解决方案带到全球企业的前沿。像 Uniphore、Yellow.ai 和 Haptik 这样的公司是对话式人工智能的先锋,而 Qure.ai 和 Synapsica 等初创公司则通过人工智能驱动的放射学和诊断推动医疗行业的变革。像 Razorpay 和 Mad Street Den 这样的公司则在应用人工智能以转变商业操作和结果方面领先。
这些初创公司凭借其尖端技术和快速市场进入能力,提供了令人兴奋的机会来参与具有影响力的项目。他们鼓励的工作文化和对创新的重视也使他们成为备受追捧的人工智能雇主。随着印度在科技领域的持续发展,这些初创公司有望在全球范围内颠覆各个行业,同时培养国内顶尖科技人才。
Abid Ali Awan (@1abidaliawan) 是一位认证的数据科学专业人士,热衷于构建机器学习模型。目前,他专注于内容创作,并撰写有关机器学习和数据科学技术的技术博客。Abid 拥有技术管理硕士学位和电信工程学士学位。他的愿景是利用图神经网络为面临心理健康困扰的学生开发人工智能产品。
更多相关话题
2016 年版《人工智能与机器学习十大亚马逊书籍》
原文:
www.kdnuggets.com/2016/11/top-10-amazon-books-ai-machine-learning.html
最近对数据科学、数据挖掘及相关学科的兴趣激增,也带来了大量关于这些话题的书籍。决定哪些书籍可能对你的职业有用的最佳方法之一就是查看其他人正在阅读哪些书籍。本文详细介绍了截至 2016 年 11 月 24 日亚马逊人工智能与机器学习书籍类别中最受欢迎的 10 本书,跳过了重复的书名以及明显分类错误且对我们的读者无用的书名。
注意:KDnuggets 从亚马逊没有获得任何版税——此列表仅用于帮助我们的读者评估有趣的书籍。
我们的前三大课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析水平
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求
伊恩·古德费洛、约书亚·本吉奥、亚伦·库尔维尔
4.8 星(4 条评论)
精装本,$67.55
这很好地总结了:
“由三位领域专家撰写,《深度学习》是唯一一本全面讲述该主题的书籍。”
- 埃隆·马斯克,OpenAI 联席主席;特斯拉和 SpaceX 的联合创始人兼首席执行官
安德鲁·巴特勒
4.2 星(74 条评论)
平装本,$9.95(Kindle 版,$2.88)
了解如何构建自定义和智能家居技能,让你的 Echo 更具个人化!Alexa 技能包流畅、安全、快速且可靠,帮助你让 Echo 不断学习。该指南还适合中级技术用户,提供快速、有效的方式了解 Echo 设备及其功能和可定制性。
道格拉斯·R·霍夫施塔特
4.5 颗星(472 条评论)
平装书,$13.98
如果生命可以从细胞的化学基础中成长,如果意识可以从神经元的发射系统中出现,那么计算机也将达到人类智能。《哥德尔、艾舍尔、巴赫》是对认知科学核心的迷人思想的绝佳探索:意义、简化、递归等等。
4. 自制神经网络
塔里克·拉希德
4.2 颗星(65 条评论)
Kindle 版,$3.86
神经网络是深度学习和人工智能的关键元素,它今天能够完成一些真正令人印象深刻的任务。然而,真正理解神经网络如何工作的却少之又少。
本指南将带你进行有趣而从容的学习旅程,从非常简单的想法开始,逐步建立对神经网络工作原理的理解。你不需要任何中学以外的数学知识,还包含了对微积分的易懂介绍。
5. Python 机器学习
塞巴斯蒂安·拉施卡
4.3 颗星(80 条评论)
平装书,$40.49
- 利用 Python 最强大的开源库进行深度学习、数据处理和数据可视化
- 学习有效的策略和最佳实践,以改进和优化机器学习系统和算法
- 使用强大的统计模型对数据提出并回答难题,这些模型适用于各种数据集
Nick Bostrom
3.9 星(284 条评论)
平装版,$13.72(Kindle 版,$8.13)
阅读本书,了解有关神谕、精灵、单例模式;了解关于拳击方法、触发器和思想犯罪;了解人类的宇宙赠予和技术差异发展;间接规范性、工具收敛、全脑仿真和技术耦合;马尔萨斯经济学和反乌托邦进化;人工智能、生物认知增强和集体智能。
这本极具雄心和原创性的书在一片难度极高的知识领域中小心翼翼地探寻。然而,写作如此清晰,仿佛一切都变得简单起来。
7. 马尔可夫模型:精通数据科学和无监督机器学习(Python 版)
LazyProgrammer
4.0 星(1 条评论)
Kindle 版,$4.91
我们将探讨一个疾病与健康的模型,计算如果生病,你会生病多久。我们将讨论马尔可夫模型如何用于分析人们如何与您的网站互动,并修复像高跳出率这样可能影响 SEO 的问题区域。我们将构建可以用于识别作者甚至生成文本的语言模型——想象一下机器为你写作。
Ethem Alpaydi
3.5 星(2 条评论)
音频版,$14.95(平装版,$10.63)
阿尔帕伊丁讲述了数字技术如何从计算主机发展到移动设备,为今天的机器学习热潮提供了背景。他描述了机器学习的基本概念及一些应用;机器学习算法在模式识别中的应用;受到人脑启发的人工神经网络;学习实例之间关联的算法,如客户细分和学习推荐;以及强化学习,即自主代理学习以最大化奖励和最小化惩罚。阿尔帕伊丁还考虑了机器学习的一些未来方向以及“数据科学”这一新领域,并讨论了数据隐私和安全的伦理和法律影响。
加雷斯·詹姆斯、丹妮拉·维滕、特雷弗·哈斯蒂、罗伯特·蒂布希拉尼
5 星中的 4.8 星 (127 条评论)
精装本,$72.62
统计学习导论提供了统计学习领域的可访问概述,这是理解过去二十年在生物学、金融、市场营销、天体物理学等领域出现的大规模复杂数据集的必备工具。本书介绍了一些最重要的建模和预测技术以及相关应用。主题包括线性回归、分类、重抽样方法、收缩方法、基于树的方法、支持向量机、聚类等。
约翰·D·凯勒赫、布赖恩·麦克内米、艾菲·达西
5 星中的 4.7 星 (15 条评论)
精装本,$74.00
本入门教材详细而专注地介绍了用于预测数据分析的最重要机器学习方法,涵盖了理论概念和实际应用。技术和数学材料通过解释性实例加以补充,案例研究展示了这些模型在更广泛业务背景下的应用。
在讨论从数据到洞察再到决策的轨迹后,本书描述了四种机器学习方法:基于信息的学习、基于相似性的学习、基于概率的学习和基于错误的学习。
相关:
-
进入机器学习职业前必读的 5 本电子书
-
2016 年数据挖掘领域亚马逊畅销书前 10 名
-
亚马逊人工智能与机器学习领域前 20 本书
更多相关内容
2016 年数据挖掘领域 Amazon 前十名书籍
原文:
www.kdnuggets.com/2016/11/top-10-amazon-books-data-mining.html
最近对数据科学、数据挖掘及相关学科的兴趣激增,书籍标题也随之激增。决定哪些书籍可能对你的职业生涯有用的最佳方法之一是查看其他人阅读的书籍。这篇文章详细列出了截至 2016 年 11 月 10 日 Amazon 的 数据挖掘书籍 类别中最受欢迎的 10 本书,跳过重复的书名以及明显分类错误且对读者无用的书名。
注意:KDnuggets 从 Amazon 获取的佣金为零——此列表仅为帮助读者评估有趣的书籍。
我们的前三名课程推荐
1. Google 网络安全证书 - 快速进入网络安全职业轨道。
2. Google 数据分析专业证书 - 提升你的数据分析技能
3. Google IT 支持专业证书 - 支持你的组织进行 IT 工作
Trevor Hastie, Robert Tibshirani, Jerome Friedman
4.1 星(78 条评论)
精装本,$74.85
本书在一个共同的概念框架中描述了这些领域的重要思想。虽然方法是统计性的,但重点是概念而非数学。书中提供了许多示例,使用了大量的彩色图形。这是统计学家和任何对科学或工业中的数据挖掘感兴趣的人的宝贵资源。本书的覆盖面广泛,从监督学习(预测)到非监督学习。许多主题包括神经网络、支持向量机、分类树和提升——这是任何书籍中对这一主题的第一次全面论述。
2. 从零开始的数据科学:用 Python 学习的基本原理,第 1 版
Joel Grus
4.2 星(65 条评论)
平装书,$32.04
如果你具备数学天赋和一定的编程技能,作者 Joel Grus 将帮助你熟悉数据科学核心的数学和统计知识,以及你需要的入门数据科学家的黑客技能。今天的数据泛滥中蕴含着没人想到过的问题的答案。这本书为你提供了挖掘这些答案的诀窍。
3. 数据科学与商业:你需要了解的数据挖掘和数据分析思维 第 1 版
福斯特·普罗沃斯特,汤姆·福塞特
4.6 星(152 条评论)
平装书,$33.79
由著名数据科学专家 Foster Provost 和 Tom Fawcett 编写的《数据科学与商业》介绍了数据科学的基本原理,并指导你如何进行“数据分析思维”,以从你收集的数据中提取有用的知识和商业价值。这本指南还帮助你理解今天使用的许多数据挖掘技术。
4. 数据分析简明指南
安尼尔·马赫什瓦里
4.8 星(175 条评论)
Kindle 版,$7.48
这本书填补了关于数据分析和大数据日益增长领域的简明对话书籍的需求。易读且信息丰富,这本清晰的书涵盖了所有重要内容,配有具体的示例,并邀请读者加入这个领域。书中的章节是按照典型的一学期课程进行组织的,每章开头都有来自真实世界故事的案例。
5. Python 机器学习
塞巴斯蒂安·拉什卡
4.3 星(78 条评论)
Kindle 版,$23.74
《Python 机器学习》让你进入预测分析的世界,并展示了为什么 Python 是世界领先的数据科学语言之一。如果你想更好地提问数据,或需要提升和扩展你的机器学习系统的能力,这本实用的数据科学书籍是无价的。它涵盖了广泛的强大 Python 库,包括 scikit-learn、Theano 和 Keras,并提供了从情感分析到神经网络的所有方面的指导和技巧,你很快就能回答你和你的组织面临的一些重要问题。
约翰·W·福尔曼
4.7 颗星(105 条评论)
平装本,$31.99
数据科学无非是使用简单的步骤将原始数据处理成可操作的洞察。在《数据智能》中,作者和数据科学家约翰·福尔曼将展示如何在熟悉的电子表格环境中完成这一过程。
汤姆·怀特
4.6 颗星(41 条评论)
平装本,$36.24
本书仅使用 Hadoop 2,作者汤姆·怀特介绍了关于 YARN 以及若干 Hadoop 相关项目(如 Parquet、Flume、Crunch 和 Spark)的新章节。你将了解 Hadoop 的最新变化,并探索 Hadoop 在医疗系统和基因组数据处理中的新案例研究。
罗伯特·卡巴科夫
4.8 颗星(33 条评论)
平装本,$46.83
《R 实战 第 2 版》通过呈现与科学、技术和商业开发者相关的示例,教你如何使用 R 语言。书中重点讲解实际解决方案,包括处理凌乱和不完整数据的优雅方法。你还将掌握 R 的广泛图形功能,以便以可视化方式探索和展示数据。扩展的第 2 版包含了关于预测、数据挖掘和动态报告编写的新章节。
凯西·奥尼尔,瑞秋·舒特
4.0 颗星(50 条评论)
平装本,$29.59
在这些长章节讲座中,来自谷歌、微软和 eBay 等公司的数据科学家分享了新算法、方法和模型,通过案例研究和他们使用的代码进行讲解。如果你熟悉线性代数、概率和统计,并有编程经验,这本书是数据科学的理想入门书籍。
10. 大数据:可扩展实时数据系统的原理和最佳实践 第 1 版
内森·马尔兹,詹姆斯·沃伦
4.4 颗星(33 条评论)
平装本,$35.34
《大数据》教你如何使用一种架构来构建大数据系统,该架构利用了集群硬件以及专门设计的工具来捕捉和分析网络规模的数据。它描述了一种可扩展、易于理解的大数据系统方法,这种方法可以由一个小团队构建和运行。通过一个现实的示例,本书引导读者深入了解大数据系统的理论,如何在实践中实施它们,以及一旦建成如何部署和操作这些系统。
相关:
-
数据爱好者必读的 10 本经典书籍
-
亚马逊神经网络畅销书 Top 20
-
亚马逊数据库与大数据畅销书 Top 20
更多相关内容
LinkedIn 上的前 10 大活跃大数据、数据科学、机器学习影响者,更新版
原文:
www.kdnuggets.com/2017/09/top-10-big-data-science-machine-learning-influencers-linkedin-updated.html
我们收集了 LinkedIn 上顶级影响者的名单,根据他们的粉丝数量进行排名,并且限制在过去三个月内活跃的人员。自 2017 年 6 月以来没有发布任何内容,或与大数据、数据科学或机器学习相关内容的人未被包含。我们注意到,通过查看其他社交媒体(如 Twitter)的粉丝数量,可以创建完全不同的排名。希望你喜欢阅读每个个人资料。所有粉丝数量的百分比变化相对于 2016 年 9 月的类似帖子 LinkedIn 上的前 16 位活跃大数据、数据科学领袖。
我们的前 3 名课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业轨道。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求
1. 伯纳德·马尔,(1,121k),增加了 41%。作为畅销书作者、战略顾问和 CEO,他已成为数据领域最受认可和尊敬的领袖之一。他出版了大量关于大数据的报告和书籍,并向几家知名公司提供了咨询。他曾位列 LinkedIn 商业影响者的前五名。Twitter 上也可以找到他, @BernardMarr,有 91k 的粉丝。
2. 乔什·伯辛,(610k),增加了 43%。Bersin by Deloitte 的创始人兼首席顾问,这是一家在人才管理、领导力发展、招聘和培训方面的战略和研究咨询领先公司。Twitter 上也可以找到他, @Josh_Bersin,有 44k 的粉丝。
3. DJ Patil,(551k),增长 83%。曾任美国总统奥巴马的首席数据科学家,负责在医疗保健、刑事司法和国家安全等领域创建和建立主要的数据驱动计划。他还曾担任 LinkedIn 的数据产品负责人和首席科学家。在 Twitter 上也可以找到 @dpatil,拥有 46k 粉丝。
-
两个真相和一个谎言 - 数据与制药广告
-
我最近在做什么…
4. Dennis Mortensen,(315k),增长 145%。x.ai 的首席执行官和创始人,这是一款 AI 个人助理,用于安排会议。在 Twitter 上也可以找到 @DennisMortensen,拥有 9.8k 粉丝。
-
6 个理由说明调度是机器的任务
-
使用 AI 编程来促使人类行为更好
5. Carla Gentry,(227k),增长 355%。在过去 18 年里,Carla 与财富 100 强和 500 强公司合作,并且在处理复杂数据库和解读复杂业务需求方面经验丰富,为关键绩效指标提供洞察。她的专长领域包括客户满意度和保留分析、品牌研究与竞争分析、员工保留、调查创建与分析、数据库创建和挖掘、激励促销和项目管理。在 Twitter 上也可以找到 @data_nerd,拥有 42.7k 粉丝。
-
对于所有那些以为自己失败了的人
-
员工流失风险是一个曲线,而不是一个单一的分数 - 这为什么重要
6. Tom Davenport,(209k),增长 145%。被认可的领导者和多本书籍及文章的作者;Deloitte Analytics 的高级顾问;Babson College 的信息技术与管理杰出教授和 MIT 数字业务中心的研究员。在 Twitter 上也可以找到 @tdav,拥有 9.5k 粉丝。
-
当我们谈论人工智能时我们谈论什么
-
大陆上的认知
7. 格雷戈里·皮亚特斯基-夏皮罗,(208k),增加了 274%。数据科学、商业智能和数据挖掘专家;KDnuggets 的主席,被评为最佳 Twitter 和大数据与数据科学领域的顶级影响者。知识发现和数据挖掘(KDD)会议及其专业组织 SIGKDD 的共同创始人。他还为 60 多本出版物做出了贡献,并编辑了几本关于数据挖掘和知识发现的书籍。同时在 Twitter 上也是 @kdnuggets,拥有 95k 粉丝。
-
Python 与 R – 谁在数据科学和机器学习中真正领先
-
漫画:机器学习课程
8. 罗纳德·范·伦,(32.7k)。在数字转型领域被 Onalytica、Dataconomy 和 Klout 等出版物和组织认可。除了这些认可,罗纳德还是多个领先大数据网站的作者,包括《卫报》、《Datafloq》和《数据科学中心》。同时在 Twitter 上也是 @Ronald_vanLoon,拥有 103k 粉丝。
-
马术运动 – 传统与数字科技的结合
-
我需要什么技能才能成为数据科学家
9. 柯克·博恩,(23.7k),增加了 149%。柯克是一位主要且广受认可的大数据和数据科学顾问,TedX 演讲者、顾问、研究员、博主、数据素养倡导者。柯克还是一位公共演讲者、顾问、天体物理学家和空间科学家。自 2013 年以来,他一直是全球顶级影响者。KirkDBorne 在 Twitter 上,有 170k 粉丝。
-
机器学习在营销中的重大进展
-
顶级客户体验旅程管理的五个关键属性
10. 文·瓦希斯塔,(14k)。文在初创公司和财富 10 强公司中拥有 8 年的现代数据科学/机器学习工具和方法论经验。他是一位发表过文章的商业战略专家,受到了沃尔玛、埃森哲、微软、IBM 的关注,并被 Agilience、Klout、Dataconomy 和 Onalytica 认可为数据科学和机器学习领域的思想领袖。他是 IBM、英特尔和许多其他优秀品牌的影响者。v_vashishta
在 Twitter 上,有 37.5k 粉丝。
-
8 个高效数据科学家的习惯
-
机器学习革命不会被电视转播
相关:
-
数据科学领域的顶级影响者
-
2017 年大数据:顶级影响者和品牌
-
LinkedIn 上的 16 位活跃的大数据和数据科学领袖
更多相关内容
数据科学家常犯的 10 大编码错误
原文:
www.kdnuggets.com/2019/04/top-10-coding-mistakes-data-scientists.html
评论
作者 诺曼·尼默,首席数据科学家
数据科学家是一个“在统计学上比任何软件工程师都强,在软件工程上比任何统计学家都强”的人。许多数据科学家具有统计学背景,但在软件工程方面经验不足。我是一名高级数据科学家,在 Stackoverflow 上的 Python 编码排名前 1%,并与许多(初级)数据科学家一起工作。以下是我经常看到的 10 个常见错误。
我们的前 3 个课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业轨道。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT
1. 不要分享代码中引用的数据
数据科学需要代码和数据。因此,为了让其他人能够复现你的结果,他们需要访问数据。这看起来很基本,但很多人忘记将数据与代码一起分享。
import pandas as pd
df1 = pd.read_csv('file-i-dont-have.csv') # fails
do_stuff(df)
解决方案:使用 d6tpipe 将数据文件与代码一起分享,或上传到 S3/web/google drive 等,或者保存到数据库中,以便接收者可以检索文件(但不要将其添加到 git 中,详见下文)。
2. 硬编码不可访问的路径
类似于第 1 个错误,如果你硬编码了其他人无法访问的路径,他们无法运行你的代码,还得到处查找并手动更改路径。真糟糕!
import pandas as pd
df = pd.read_csv('/path/i-dont/have/data.csv') # fails
do_stuff(df)
# or
import os
os.chdir('c:\\Users\\yourname\\desktop\\python') # fails
解决方案:使用相对路径、全局路径配置变量或 d6tpipe 使你的数据更易于访问。
3. 将数据与代码混合
由于数据科学代码需要数据,为什么不把数据放在同一个目录下呢?同时,图片、报告和其他杂物也一起保存。哎呀,真是一团糟!
├── data.csv
├── ingest.py
├── other-data.csv
├── output.png
├── report.html
└── run.py
解决方案:将你的目录组织成类别,例如数据、报告、代码等。查看 Cookiecutter Data Science 或 d6tflow 项目模板(参见第 5 条),并使用第 1 条中提到的工具来存储和共享数据。
4. 将数据与源代码一起提交到 Git
现在大多数人都对代码进行版本控制(如果你没有,那是另一个错误!!参见 git)。在尝试共享数据时,可能会诱使你将数据文件添加到版本控制中。这对于非常小的文件是可以的,但 git 对数据,特别是大型文件,优化得不好。
git add data.csv
解决方案: 使用 #1 中提到的工具来存储和共享数据。如果你确实想对数据进行版本控制,可以查看 d6tpipe、DVC 和 Git Large File Storage。
5. 编写函数而不是 DAGs
说够了数据,让我们来谈谈实际的代码!由于你学习编程时首先学会的是函数,数据科学代码大多组织成一系列线性运行的函数。这会引发几个问题,参见 4 Reasons Why Your Machine Learning Code is Probably Bad。
def process_data(data, parameter):
data = do_stuff(data)
data.to_pickle('data.pkl')
data = pd.read_csv('data.csv')
process_data(data)
df_train = pd.read_pickle(df_train)
model = sklearn.svm.SVC()
model.fit(df_train.iloc[:,:-1], df_train['y'])
解决方案: 数据科学代码最好不要线性链式调用函数,而是将其组织为一系列具有依赖关系的任务。使用 d6tflow 或 airflow。
6. 编写 for 循环
就像函数一样,for 循环是你学习编程时学到的第一件事。易于理解,但它们速度慢且过于冗长,通常表明你不了解向量化的替代方法。
x = range(10)
avg = sum(x)/len(x); std = math.sqrt(sum((i-avg)**2 for i in x)/len(x));
zscore = [(i-avg)/std for x]
# should be: scipy.stats.zscore(x)
# or
groupavg = []
for i in df['g'].unique():
dfg = df[df[g']==i]
groupavg.append(dfg['g'].mean())
# should be: df.groupby('g').mean()
解决方案: Numpy、scipy 和 pandas 提供了大多数你认为可能需要循环的向量化函数。
7. 不写单元测试
随着数据、参数或用户输入的变化,你的代码可能会出错,有时你甚至没有注意到。这可能导致错误的输出,如果有人基于你的输出做决策,错误的数据会导致错误的决策!
解决方案: 使用 assert
语句检查数据质量。pandas 提供了相等性测试,d6tstack 提供了数据摄取检查,d6tjoin 提供了数据连接检查。示例数据检查代码:
assert df['id'].unique().shape[0] == len(ids) # have data for all ids?
assert df.isna().sum()<0.9 # catch missing values
assert df.groupby(['g','date']).size().max() ==1 # no duplicate values/date?
assert d6tjoin.utils.PreJoin([df1,df2],['id','date']).is_all_matched() # all ids matched?
8. 不记录代码
我明白了,你急于完成一些分析。你快速组合代码以向客户或老板提供结果。然后一周后,他们回来并说“你能改动 xyz 吗”或“你能更新一下吗”。你看着自己的代码却记不起当初的做法。现在想象一下,别人还要运行这段代码。
def some_complicated_function(data):
data = data[data['column']!='wrong']
data = data.groupby('date').apply(lambda x: complicated_stuff(x))
data = data[data['value']<0.9]
return data
解决方案: 即使在交付分析后,也要花额外的时间记录你所做的工作。你会感谢自己,别人会更加感激你!你将显得像个专业人士!
9. 将数据保存为 csv 或 pickle
备份数据,毕竟这是数据科学。就像函数和循环一样,CSV 和 pickle 文件是常用的,但实际上并不好。CSV 不包含模式,因此每个人都必须重新解析数字和日期。Pickles 解决了这个问题,但只在 python 中工作且没有压缩。两者都不是存储大型数据集的好格式。
def process_data(data, parameter):
data = do_stuff(data)
data.to_pickle('data.pkl')
data = pd.read_csv('data.csv')
process_data(data)
df_train = pd.read_pickle(df_train)
解决方案: 使用 parquet 或其他带有数据模式的二进制数据格式,理想情况下是那些能压缩数据的格式。d6tflow 自动将任务的数据输出保存为 parquet 文件,因此你不必处理它。
10. 使用 jupyter notebooks
让我们以一个有争议的问题总结一下:jupyter notebooks 和 CSV 一样普遍。很多人使用它们,但这并不意味着它们好。Jupyter notebooks 促进了上述提到的许多糟糕的软件工程习惯,特别是:
-
你会倾向于把所有文件放在一个目录中
-
你编写的代码是从上到下执行的,而不是 DAGs
-
你没有模块化你的代码
-
难以调试
-
代码和输出混合在一个文件中
-
他们的版本控制做得不好
它看起来容易入门,但扩展性差。
简介: 诺曼·尼默 是一家大型资产管理公司的首席数据科学家,他提供基于数据的投资见解。他拥有哥伦比亚大学的金融工程硕士学位和伦敦 Cass 商学院的银行与金融学士学位。
原文。已获得许可转载。
相关:
-
你机器学习代码可能糟糕的 4 个原因
-
机器学习项目清单
-
初创公司数据科学项目流程
更多相关话题
2020 年计算机视觉领域前 10 篇论文
原文:
www.kdnuggets.com/2021/01/top-10-computer-vision-papers-2020.html
评论
由 Louis (What’s AI) Bouchard,蒙特利尔人,YouTube 和 Medium 上解释人工智能的内容
我们的前 3 名课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业轨道。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求
即便今年世界发生了许多事情,我们仍然有机会看到大量令人惊叹的研究成果。特别是在人工智能领域,更准确地说是计算机视觉领域。今年突出了许多重要方面,比如伦理问题、重要偏见等。人工智能以及我们对人脑及其与人工智能关系的理解不断演变,显示出在不久的将来有着广阔的应用前景,我肯定会对此进行深入探讨。
这里是我精选的年度计算机视觉领域最有趣的 10 篇研究论文,以防你错过了其中任何一篇。简而言之,这基本上是一个最新突破的人工智能和计算机视觉的精选列表,包括清晰的视频解释、更深入的文章链接,以及代码(如果适用)。享受阅读,如果我遗漏了任何重要论文,请在评论中告诉我,或通过LinkedIn直接联系我!
每篇论文的完整参考文献列在本文末尾。
如果你分享了这篇文章,请在Twitter (@Whats_AI)或LinkedIn (Louis (What’s AI) Bouchard)标记我!
在 5 分钟内观看完整的 2020 年计算机视觉回顾
Sea-thru: 一种从水下图像中去除水分的方法 [1]
你是否曾想过没有水的海洋会是什么样子?去除水下图像中的蓝绿色调,还原珊瑚礁的真实颜色?使用计算机视觉和机器学习算法,海法大学的研究人员成功实现了这一目标!
你是否曾想过没有水的海洋会是什么样子?研究人员最近通过使用……
神经电路策略实现可审计的自主性 [2]
来自 IST 奥地利和麻省理工学院的研究人员成功地使用一种基于微小动物大脑的新型人工智能系统训练了一辆自动驾驶汽车。他们仅使用了少数几个神经元来控制自动驾驶汽车,而不需要像流行的深度神经网络(如 Inceptions、Resnets 或 VGG)那样需要数百万个神经元。他们的网络仅使用了 75,000 个参数,由 19 个控制神经元组成,而不是数百万个!
一种新的受大脑启发的智能系统仅用 19 个控制神经元驾驶汽车!
模仿线虫的神经系统以高效处理信息,这种新的智能系统更具鲁棒性……
[NeRV:神经反射和可见性场
进行重新照明和视图合成](https://people.eecs.berkeley.edu/~pratul/nerv/) [3]
这种新方法能够生成一个完整的三维场景,并且能够决定场景的光照条件。所有这些都以非常有限的计算成本和与之前的方法相比惊人的结果完成。
这种新方法能够生成一个完整的三维场景,并且能够决定场景的光照条件……
YOLOv4:目标检测的最佳速度和准确性 [4]
第 4 版最近于 2020 年 4 月由 Alexey Bochkovsky 等人在论文《YOLOv4:目标检测的最佳速度和准确性》中引入。这个算法的主要目标是制作一个超快的目标检测器,在准确性方面具有高质量。
YOLOv4 算法 | You Only Look Once 第 4 版简介 | 实时目标检测
我最近发布了一篇帖子,解释了初始的 You Only Look Once,即 YOLO 算法的基础知识。然后…
PULSE: 通过生成模型的潜在空间探索进行自监督照片超分辨率 [5]
这个新算法可以将模糊的图像转换为高分辨率图像!
它可以将超低分辨率的 16x16 图像转换为 1080p 高清人脸!你不相信我?那你可以像我一样自己试试,不到一分钟的时间!但首先,让我们看看他们是怎么做到的。
这个新算法可以将模糊的图像转换为高分辨率图像!它可以将超低分辨率的 16x16 图像…
图像 GPT — 从像素生成预训练 [6]
一个好的 AI,比如 Gmail 中使用的 AI,可以生成连贯的文本并完成你的短语。这个 AI 使用相同的原理来完成图像!这一切都在无监督训练中完成,完全不需要标签!
一个好的 AI,比如 Gmail 中使用的 AI,可以生成连贯的文本并完成你的短语。这个 AI 使用相同的…
DeepFaceDrawing: 从草图中深度生成面部图像 [7]
现在你可以使用这个新的图像到图像翻译技术,从粗略或甚至不完整的草图中生成高质量的面部图像,完全不需要绘画技巧!如果你的绘画技能和我一样糟糕,你甚至可以调整眼睛、嘴巴和鼻子对最终图像的影响!让我们看看它是否真的有效以及他们是如何做到的。
现在你可以使用这个新的图像到图像翻译技术,从粗略或甚至不完整的草图中生成高质量的面部图像,完全不需要绘画技巧!
PIFuHD: 多层次像素对齐隐式函数用于高分辨率 3D 人体数字化 [8]
这个 AI 可以从 2D 图像中生成 3D 高分辨率的重建图像!它只需要你的一张图片就可以生成一个看起来和你一模一样的 3D 头像,甚至从背面也是如此!
AI 从 2D 图像生成 3D 高分辨率重建 | PIFuHD 介绍
这个 AI 可以从 2D 图像中生成 3D 高分辨率的重建图像!它只需要你的一张图片就可以…
RAFT:用于光流的递归全对场变换 [9]
ECCV 2020 最佳论文奖颁给了普林斯顿团队。他们开发了一种新的端到端可训练的光流模型。他们的方法在多个数据集上超越了最先进架构的准确性,并且效率更高。他们甚至将代码发布在 Github 上供大家使用!
ECCV 2020 最佳论文奖颁给了普林斯顿团队。他们开发了一种新的端到端可训练的光流模型……
学习视频修补的联合时空变换 [10]
这个 AI 能够填补被移除移动物体后的缺失像素,并比当前最先进的方法更准确、更清晰地重建整个视频!
视频修补 — 微软研究院
通过深度潜在空间转换进行旧照片恢复 [Bonus 1]
想象一下,将你祖母 18 岁时的旧照片,即使是折叠和撕裂的照片,恢复到高清晰度且没有任何伪影。这就是所谓的旧照片恢复,这篇论文刚刚开辟了一个全新的方向,使用深度学习方法来解决这个问题。
想象一下,将你祖母 18 岁时的旧照片,即使是折叠和撕裂的照片,恢复到高清晰度……
实时肖像抠图是否真的需要绿幕? [Bonus 2]
人体抠图是一项非常有趣的任务,目标是找到图片中的任何人并去除背景。由于任务复杂,需找到具有完美轮廓的人或多人,因此非常难以实现。在这篇文章中,我回顾了这些年来使用的最佳技术以及 2020 年 11 月 29 日发布的一种新方法。许多技术使用基本的计算机视觉算法来完成这项任务,如 GrabCut 算法,它极其快速,但不够精确。
这种新的背景去除技术可以从单张输入图像中提取一个人,无需绿屏……
DeOldify [Bonus 3]
DeOldify 是一种为黑白图片或电影胶卷上色和修复的技术。它由 Jason Antic 开发并持续更新。它现在是为黑白图片上色的最先进方法,所有内容都是开源的,但我们稍后会回到这个话题。
这个 AI 可以将你的黑白照片色彩化,并提供全真实感的渲染! (DeOldify)
这种方法称为 DeOldify,适用于几乎所有的图片。如果你不相信,可以亲自试试……
结论
正如你所见,这对计算机视觉来说是一个极具洞察力的年份。我一定会涵盖 2021 年最激动人心和有趣的论文,如果你能参与其中我会非常高兴!如果你喜欢我的工作并希望了解最新的 AI 技术,你应该关注我的社交媒体频道。
-
订阅我的 YouTube 频道。
-
关注我的项目 LinkedIn。
-
一起学习 AI,加入我们的 Discord 社区,分享你的项目、论文、最佳课程,寻找 Kaggle 队友,等等!
如果你分享了这篇文章,请在Twitter (@Whats_AI)或LinkedIn (Louis (What’s AI) Bouchard)*** 标记我!***
如果你对 AI 研究感兴趣,这里有另一篇很棒的文章:
最新 AI 突破的精心整理列表,按发布日期排序,并附有清晰的视频解释,链接到更多……
论文参考
[1] Akkaynak, Derya & Treibitz, Tali. (2019). Sea-Thru: 一种从水下图像中去除水的技术。1682–1691。10.1109/CVPR.2019.00178。
[2] Lechner, M., Hasani, R., Amini, A. 等 神经电路策略实现可审计的自主性。Nat Mach Intell 2, 642–652 (2020)。 doi.org/10.1038/s42256-020-00237-3
[3] P. P. Srinivasan, B. Deng, X. Zhang, M. Tancik, B. Mildenhall, 和 J. T. Barron,“Nerv: 神经反射和可见性场用于重光照和视图合成,”在 arXiv,2020。
[4] A. Bochkovskiy, C.-Y. Wang, 和 H.-Y. M. Liao,Yolov4:目标检测的最佳速度和准确性,2020. arXiv:2004.10934 [cs.CV]。
[5] S. Menon, A. Damian, S. Hu, N. Ravi, 和 C. Rudin,Pulse:通过生成模型的潜在空间探索进行自监督照片放大,2020. arXiv:2003.03808 [cs.CV]。
[6] M. Chen, A. Radford, R. Child, J. Wu, H. Jun, D. Luan, 和 I. Sutskever,“从像素生成预训练,”在第 37 届国际机器学习大会论文集,H. D. III 和 A. Singh 编,机器学习研究论文集,卷 119,虚拟:PMLR,2020 年 7 月 13–18 日,第 1691–1703 页。[在线]。
[7] S.-Y. Chen, W. Su, L. Gao, S. Xia, 和 H. Fu,“DeepFaceDrawing:从草图中深度生成面部图像,”ACM 图形学交易(ACM SIGGRAPH2020 论文集),卷 39,第 4 期,72:1–72:16,2020. 可用:http://proceedings.mlr.press/v119/chen20s.html。
[8] S. Saito, T. Simon, J. Saragih, 和 H. Joo,Pifuhd:多级像素对齐隐函数用于高分辨率 3D 人类数字化,2020. arXiv:2004.00452 [cs.CV]。
[9] Z. Teed 和 J. Deng,Raft:用于光流的递归全对场变换,2020. arXiv:2003.12039 [cs.CV]。
[10] Y. Zeng, J. Fu, 和 H. Chao,学习联合时空变换用于视频修复,2020. arXiv:2007.10247 [cs.CV]。
[Bonus 1] Z. Wan, B. Zhang, D. Chen, P. Zhang, D. Chen, J. Liao, 和 F. Wen,旧照片修复通过深度潜在空间转换,2020. arXiv:2009.07047 [cs.CV]。
[Bonus 2] Z. Ke, K. Li, Y. Zhou, Q. Wu, X. Mao, Q. Yan, 和 R. W. Lau,“实时肖像抠图真的需要绿幕吗?” ArXiv,卷 abs/2011.11961,2020。
[Bonus 3] Jason Antic,DeOldify 的创作者,github.com/jantic/DeOldify
原文。转载已获许可。
相关:
-
2020:充满惊人 AI 论文的一年 — 回顾
-
AI、分析、机器学习、数据科学、深度学习研究 2020 年的主要发展和 2021 年的关键趋势
-
使用 Dask 和 PyTorch 的大规模计算机视觉
更多相关话题
你应该关注的十大数据科学领袖
原文:
www.kdnuggets.com/2019/07/top-10-data-science-leaders.html
评论
作者:Admond Lee,美光科技 / AI 时间杂志 / 亚洲科技
我一直相信,要有效学习,我们必须向最优秀的人学习。
我们的前三课程推荐
1. 谷歌网络安全证书 - 快速进入网络安全职业的捷径。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你组织的 IT 工作
如果你关注过我的工作,你会知道我两年前作为一名物理学学生进入数据科学领域,当时对数据科学一无所知。
我成功地在一年内从物理学转向数据科学。
事实上,我遇到了很多困难,犯了许多错误。
我不断前行,自己站起来,继续向前走。
当我回顾我的数据科学旅程及我走到今天这一步时,真正推动我前进的是从最优秀的数据科学领袖那里学习(并仍在学习!)——这些是数据科学领域的专家——通过他们的分享。
这极大地帮助了我的数据科学之路,成为一名数据科学家,因为他们定期分享数据科学中的实际经验、最新技术和工具、技术和非技术知识等。
这些数据科学领袖只是 LinkedIn 上杰出数据科学社区的一部分,他们激励我通过在LinkedIn和Medium上分享我的经验和知识来回馈社区。
因此你现在阅读的这篇文章(以及Medium 上的其他文章)。
如果你在数据科学领域,我强烈建议你关注这些巨头——我将在下面的部分列出——并成为我们数据科学社区的一员,向最优秀的人学习并分享你的经验和知识。
让我们开始吧!
你应该关注的十大数据科学领袖
Randy Lao 真的是非常棒。事实上,他是我刚开始学习数据科学时关注的第一个数据科学领袖,当时我对数据科学一无所知。
如果你是一名有抱负的数据科学家,我强烈推荐你访问 他的网站,那里有所有有用的免费数据科学和机器学习资源分享给你。
最重要的是,他还是 数据科学梦想工作 的导师,这是一个帮助有抱负的数据科学家成长和找工作的电子学习平台——由 Kyle McKiou 创办。
凭借他的分享和在数据科学领域的广泛经验,我相信你会从他那里学到很多东西,我确实学到了。
如果你在 LinkedIn 上活跃,你可能已经听说过他的名字。
如前所述,Kyle 是 数据科学梦想工作 的创始人,该平台教授来自不同背景的有抱负的数据科学家如何在数据科学领域找到工作。
课程本身的价值超过任何东西,因为他和其他优秀的导师教授有抱负的数据科学家如何培养心态、掌握技术和非技术技能、求职技巧以及如何最终在这一行业开始他们的职业生涯。
这不仅仅是另一个 Udemy 或 Coursera 上的在线课程,它们只是教授编程或机器学习中的技术技能。
Kyle 还定期在 LinkedIn 上与数据科学社区分享他的经验和见解。
如果你想进入数据科学领域——即使你完全没有背景——那么跟随 Kyle 并查看他的课程。
Kirill Eremenko 是 SuperDataScience 的创始人兼首席执行官,这是一个为数据科学家提供在线教育的门户网站。
公司的使命是“让复杂变简单”,愿景是成为数据科学爱好者最大的学习门户。
此外,该平台提供了几十门分析课程,涵盖了从基于工具的课程,如 R 编程、Python、Tableau,到概述性的课程,如机器学习 A-Z 和数据科学入门。
我个人最喜欢的课程是 深度学习 A-Z™:动手实践人工神经网络,由 Kirill Eremenko 和 Hadelin de Ponteves 授课。这是我第一次接触深度学习,信任我,他们的课程确实独一无二,强调直观理解,并结合了有监督和无监督深度学习的动手编码教程。
最近,我有机会阅读了他的书——自信的数据技能,这本书帮助你理解从项目开始到结束的完整数据科学工作流程,全程无需编写代码!
法比奥·瓦斯克斯在数据科学领域有着深厚的经验,他总是乐于在 LinkedIn 上无保留地分享他的想法和见解。
就我个人而言,我是他其中一个 YouTube 频道的粉丝——数据科学办公时间,那里有其他了不起的数据科学领袖分享他们在不同主题上的经验。
我无法告诉你我仅从他们的网络研讨会中学到了多少。
因为最终,作为一个有抱负的数据科学家,你可以参加许多在线课程和获得证书,尽可能多地学习。但是,如果你不能理解数据科学家在实际工作环境中的工作方式,你将无法应用你在这些课程中学到的知识。
你将无法理解作为数据科学家的角色。
因此,向数据科学家学习一直是我首选的学习和探索方式。
埃里克曾是 LinkedIn 的高级数据科学家,现在在 CoreLogic 担任数据管理与数据科学主任。
我特别喜欢埃里克的一点是他对当前数据科学领域的敏锐观察。
他总是愿意分享他的知识和经验,以揭示一些常见但被遗忘的数据科学领域,这些领域总是让我感到惊叹。
埃里克是我自加入 LinkedIn 数据科学社区以来一直关注的数据科学领袖之一。从他那里学到的东西实在太多了,我迫不及待地想在未来与大家分享!
凯特以《颠覆者:数据科学领袖》的作者而著名。
她还是Datacated Weekly的主持人——一个致力于帮助他人了解数据领域各种主题的项目——以及我的 Story by Data YouTube 频道上的数据科学人物(HoDS)的主持人。
她在这篇文章中还采访了一些数据科学领域的领袖,因此如果你想了解数据领域的各种主题,我强烈建议你查看她的 YouTube 频道。
数据科学人物(HoDS)与Favio Vázquez
如你可能已经意识到的那样,LinkedIn 上的数据科学社区是一个紧密联系的社区,我们彼此互动,共享和学习。
塔里·辛格是deepkapha.ai的创始人兼首席执行官,该公司为企业提供 AI 解决方案,并致力于 AI 研究和慈善事业。
塔里在使用深度学习和 AI 解决现实世界问题方面的热情,激励我在刚开始从事数据科学时,回馈社会。
关注他的工作和分享。你将会惊讶于他的见解和分享,尤其是在 AI 最新前沿技术方面。
伊玛德·穆罕默德·汗目前是 Indegene 的一名数据科学家。
他的帖子总是充满灵感,并且对数据科学的任何主题直截了当。
此外,伊玛德还不时在印度组织 Mantissa 数据科学聚会,为大家提供一个分享和表达观点的机会,同时共同学习。
他绝对是我总是期待向其学习的数据科学家之一。
每当我们谈论数据科学时,大多数人倾向于认为这只是关于构建炫酷的机器学习模型和进行精彩的预测。
实际上,构建模型只是整个工作流程的一部分,而数据工程(即数据科学的管道工)是这个工作流程的关键部分,支持数据科学项目。
如果没有稳定而坚实的数据工程管道和平台,连获取数据进行任何分析都会很困难。
安德烈亚斯在数据工程和建立大数据平台方面确实是一位专家,这些平台支持数据科学项目。
他是一名数据工程师和数据科学平台架构师,构建每天处理和分析大量数据的数据科学平台。
如果你想了解更多关于数据工程的内容,比如 Hadoop、Spark 和 Kafka,快去查看他的 YouTube 频道 — 数据科学的管道工。
什么是数据科学的管道工? — 由安德烈亚斯·克雷茨编写
安德烈 — Gartner 的高级数据科学和机器学习团队负责人 — 可以被视为 LinkedIn 上数据科学的领军人物和名人,他有一本著名的畅销书 — 《百页机器学习书》。
他的畅销书已经被翻译成不同国家的多种语言(甚至被一些大学的图书馆和课程作为教学材料!)。
他还在 LinkedIn 上定期(几乎是每天!)分享大量有用的数据科学技巧,我相信你不想错过这些内容。
最后的想法
感谢你的阅读。
这里的数据科学领袖名单绝非详尽无遗。这些只是我在两年前刚开始从事数据科学时关注并从中学习的一些顶级数据科学领袖。
直到现在,我每天仍在学习他们的分享和经验。
受到他们贡献的启发,我通过分享我的知识和经验回馈数据科学社区,希望能帮助更多有志于成为数据科学家的朋友。
在一天的结束时,我们——作为数据科学社区的一部分——在这里,且将永远在这里,共享、帮助、学习和共同成长。
这就是社区的意义所在。
希望你喜欢阅读这篇文章。
记住,不断学习,永不停止进步。
一如既往,如果你有任何问题或评论,请随时在下方留下你的反馈,或者你也可以通过LinkedIn联系我。到那时,再见于下一篇文章!???
简历:Admond Lee 被称为备受追捧的数据科学家和顾问,帮助创业公司创始人和各种公司利用数据解决问题,拥有数据科学咨询和行业知识的深厚专业能力。你可以通过LinkedIn、Medium、Twitter和Facebook与他联系,或点击这里预约电话咨询,如果你正在寻找公司数据科学咨询服务。
原文。经许可转载。
相关:
-
LinkedIn 2018 年顶级声音:数据科学与分析
-
没有借口 – 470 位杰出的分析女性
-
LinkedIn 上活跃的大数据、数据科学、机器学习领域的前 10 位影响者,更新版
更多相关内容
打破前 10 大数据科学神话
原文:
www.kdnuggets.com/2022/12/top-10-data-science-myths-busted.html
编辑提供的图片
随着数据科学的普及,围绕它有很多神话。如果你有意从事数据科学的职业,了解这些神话并将其揭穿是很重要的。
我们的前三大课程推荐
1. 谷歌网络安全证书 - 快速开启网络安全职业生涯。
2. 谷歌数据分析专业证书 - 提升你的数据分析技能
3. 谷歌 IT 支持专业证书 - 支持你的组织的 IT 需求
大数据世界充满了各种职位,包括数据工程师、数据科学家、数据分析师、业务分析师等等。毫无疑问,数据科学家是这个领域中最受欢迎的职位,这也是为什么在初学者中存在如此多的混淆。当他们尝试探索这个职位时,由于互联网上的随机内容非常混乱,他们无法确定这个领域是否适合自己,也无法决定资源的选择,这一切的混乱来自于全球各地关于数据科学的随机帖子和神话。因此,我们将揭穿这 10 大数据科学神话,帮助你解开这些误解。
作者提供的信息图
神话 1. 所有数据角色都相同
数据分析师、数据工程师和数据科学家都在做相同的事情,这完全是错误的,因为他们的工作、角色和职责都非常不同。我们理解这会造成混淆,因为所有这些人都在同一个大数据的伞下工作。首先,让我们看看数据工程师的工作。他们的职责是从事基础工程工作,构建可扩展的数据管道,以便从多个来源提取原始数据,对其进行转换,并将其存储到下游系统中。数据科学家和数据分析师依赖于这个过程,因为他们将数据转化为有意义的信息——将数据转化为信息的过程。这是将有意义的洞察呈现在数据中并为数据科学家构建准确的机器学习模型的关键。虽然这些人看起来似乎在做相同的事情,他们的技能可能有重叠,但他们的职责在根本上是不同的,这就是为什么公司会招聘不同职位的人。如果不是这样,他们会雇佣一个能够做所有事情的数据专家。
神话 2. 成为数据科学家需要博士学位或硕士学位
这也是完全错误的,不过,这也很大程度上取决于你想要的职位类型。例如,如果我们寻求的是研究领域的角色,我们需要硕士或博士学位,但如果你想解决复杂的数据问题并处理深度学习或机器学习相关的工作,那么你将需要处理数据科学的任务,使用库和数据分析方法来揭示那些复杂的数据谜题。因此,你不需要拥有硕士学位。如今,一切都与技能有关,所以如果你拥有数据科学家所需的技能集,那么你绝对可以进入这个领域。
神话 3. 数据科学家需要成为专业编码员
这也是完全错误的,因为作为数据科学家,你的工作是广泛地处理数据。当我们谈到专业编码时,这意味着要在竞争编程方面投入大量精力,或对典型的数据结构和算法有非常深入的了解。确实,数据科学家必须具备良好的复杂问题解决能力,在数据科学领域,我们有如 Python 和 R 这样的语言,通过多个库提供了非常重要的支持,可以用来解决复杂的数据问题。作为数据科学家,你的目标应该是了解如何使用这些库及其模块,以便创建最佳的数据模型和与机器学习相关的模型。数据科学家必须具备这些技能,以免在竞争编程或练习典型的数据结构和算法上浪费过多时间。
神话 4. 数据科学仅适用于计算机科学专业毕业生
这是必须揭穿的最重要的神话之一。尽管越来越多的年轻人决定学习科学科目,主要是因为科技领域工作机会的不断增加,但到目前为止,大多数人仍然没有技术背景。公司倾向于招聘数据科学领域的候选人,那些没有技术背景的候选人因为在解决问题和理解业务用例方面非常出色而被选中。这些都是在数据科学面试中取得成功的重要因素。公司不关注程序员的典型技术技能,而是希望了解候选人在能力方面的表现,是否能够理解案例研究,是否能够从数据中提取商业矩阵以及解决哪些复杂的数据相关问题。因此,永远不要认为来自非计算机科学或非技术背景的人不能进入数据科学领域。顺便提一下,对于计算机科学毕业生来说,他们的首要任务仍然是软件工程,他们希望在这一领域发展职业。因此,在数据科学领域,非技术人员的工作机会越来越多。所以现在即使你没有计算机科学相关的特定学位,只要你能获得数据科学领域所需的正确技能,你仍然有机会成为数据科学家。
神话 5. 数据科学仅仅关于预测建模
并不是每个人都知道数据科学家将 80%的时间花在数据清洗和转换上,只有 20%的时间用于数据建模。因此,想要创建非常准确的数据以及机器学习模型的数据科学家,需要对数据进行清洗和转换。我们知道,当我们处理一个特定的大数据解决方案时,涉及多个步骤,而第一步也是非常重要的一步就是数据转换。如今,我们从多个来源获取数据,而原始数据有时包含错误以及垃圾记录。如果我们无法清洗数据,我们将无法获得有意义的转换数据,也无法创建非常准确的机器学习模型。这就是为什么数据科学不仅仅是建立预测模型和回归模型,它是清洗和转换数据与建立准确的机器学习模型的良好结合。
神话 6. 数据科学需要强大的数学背景
这也是完全不正确的,因为擅长数学是作为数据科学家日常活动中的一个重要部分。在分析数据时,我们需要这些数学概念,比如数据统计部分、概率部分,但这并不是成为数据科学家的必备技能。正如我们所知,在数据科学中,我们有像 Python 和 R 这样出色的编程语言,它们提供了很棒的库支持,我们可以直接使用这些库来进行典型的数学计算和运算。因此,除非你需要创新某些东西或创建新的算法,否则你不需要成为数学专家。
神话 7. 学习一种工具就足以成为数据科学家
一个好的数据科学档案是多种技能的结合,包括技术技能和非技术技能。成为一个优秀的数据科学家需要这两种技能。要成为一个好的数据科学家,你不能仅仅依赖编程或你认为在数据科学中使用的特定工具。如果你在这两方面都很优秀,你可能会成为一个出色的数据科学家。作为数据科学家,我们在解决复杂数据问题时必须与多个利益相关者互动,并且必须直接与业务合作,以收集所有需求。了解数据领域、我们为何处理数据、从转换后的数据中可以获得什么洞察、如何解决问题、什么是相关的和什么是不相关的,都是数据科学领域所需的。不要以为仅有技术方面的东西或任何特定工具如语言或数据库就足够破解数据科学档案。你需要利用非技术技能和软技能作为你的支持系统,以成为一个好的数据科学家。
神话 8. 公司不招聘应届生担任数据科学角色
这是一个常见的问题。如果我们五六年前讨论这个话题,那确实是完全正确的。公司当时不关注应届生的数据科学角色,但现在在 2022 年,这种情况发生了很大变化,因为现在的应届生自我意识强,自我激励,并且非常有兴趣探索数据科学和数据工程等领域。他们不再依赖他人,而是投入自己的努力去探索这些职位。他们还积极参与黑客马拉松、开源贡献等比赛,并尝试自己构建酷炫的项目。这就是他们如何获得适合数据科学角色的正确技能组合和出色的开发技能。因此,现在公司更倾向于招聘应届生,以应对数据科学角色的空缺。
神话 9. 从不同的工作领域转行到数据科学领域是不可能的
如果你来自数据相关的背景,比如你曾担任过数据工程师、数据分析师或业务分析师,那么这个转型对你来说会很容易,因为你已经了解数据及如何使用不同的工具和技术框架来处理数据。另一方面,如果你来自于测试职位或软件工程职位,那么转型到数据科学将会有挑战,但并非不可能。你需要努力掌握所需的技能,然后进行一些实际的项目,这将有助于你获得新能力,并培养你对数据科学领域的兴趣,以了解你如何真正为公司作为数据科学家创造价值。
神话 10. 数据科学竞赛会让你成为专家
数据科学竞赛是获取正确技能的好方法,同时也可以了解数据科学环境,甚至提升开发技能,但如果你认为仅仅通过参与黑客马拉松和创建竞赛项目就能成为数据科学专家,那是不准确的。你将提升并增加简历的价值,以便展示你的工作和所取得的成果,但如果你真的想成为专家,你需要参与一些实际的用例或生产级应用。因此,建议新人们应参加良好的实习。
结论
如果你对数据科学感兴趣,不要让这些误区让你灰心。数据科学是一个对各种背景的人开放的领域。只要具备正确的技能和知识,任何人都可以成为数据科学家。
请在 Twitter 和 LinkedIn 上关注我,以获取每日技术更新:
参考资料
揭开数据科学十大误区 | 数据科学技巧 2022 | 大数据 | DSML | 数据科学神话与现实
Giuliano Liguori 是 Kenovy 的首席执行官兼联合创始人,Kenovy 是创新的关键。Giuliano Liguori 是 AI、工业 4.0 和数字化转型领域的领先声音。在过去的 18 年里,他通过拥抱创新、利用先进技术和成功整合 OT 和 IT,帮助组织和企业变得更智能、更高效。他的博客 Digital Leaders 推广数字化转型、工业 4.0 和 AI 采用。他还是 CIO Club Italia 的联合创始人和执行委员会成员。
原文。经许可转载。