《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记：11 如何提高你的NLP技能

最新推荐文章于 2024-08-06 15:06:17 发布

miniAI学堂

最新推荐文章于 2024-08-06 15:06:17 发布

阅读量424

点赞数

分类专栏： 2017年度文章标签： NLP技能敏捷数据科学自然语言处理

本文链接：https://blog.csdn.net/weixin_43935926/article/details/86762287

版权

2017年度专栏收录该内容

12 篇文章 1 订阅

订阅专栏

11 如何提高你的NLP技能

11.1　开始新的NLP职业生涯
11.2　备忘列表
11.3　确定你的领域
11.4　通过敏捷的工作来实现成功
11.5　NLP和数据科学方面一些有用的博客
11.6　使用公开的数据集
11.7　数据科学领域需要的数学知识
11.8　总结

本附录将为您提供更多关于如何提高NLP技能的信息。这也将帮助您更新您的知识。

11.1　开始新的NLP职业生涯

如果你是一名编码员，想要在NLP工作，那么记住以下几点：

NLP，和人工智能一样，发展得如此之快，以至于你仅仅获得这些技能是远远不够的。您还需要更新它们。

Kaggle是所有NLP和数据科学人员最好的学习平台之一。如果你是第一次听说这个Hackathon平台，那么我相信通过点击这个链接，你不会失望：https://www.kaggle.com/。

参加格格舞比赛。学习、讨论和实施。

如果你来自编码背景，那么github就是你的新简历。所以，尝试创建新项目并将它们放到Github上。

参与开源社区项目。这将有助于您的思考过程，以及您的编码技能。

参加各种会议。尝试探索新的想法和技术。

阅读研究论文和文章。

成为社区和对话的一部分。

问问题。简言之，打开你自己的锁。

想想产品架构。

把你所有的学习结合起来，试着看到你的开发产品的大局。

如果你认为你已经学到了足够的东西，那么再想想。有时，您尝试过的用例、应用程序等非常相似，以至于您找不到非常有趣的东西。回忆你所有的学习和经历。给你的想法一个更好的新方向（就像牛顿或爱因斯坦一样）。他们停止学习，开始思考，给了我们伟大的科学理论。试着做一些对他人生活有积极影响的有用的事情。

11.2　备忘列表

我在这个链接上为库和框架提供备忘表：
https://github.com/jalajthanaki/NLPython/tree/master/Appendix2/Cheatsheets
备忘表包括以下库、工具和框架。这些备忘单不是我写的。我想充分赞扬为以下主题制作了备忘表的个人作者：
Linux books for beginners
Python
NumPy
SciPy
pandas
Fask
scikit-learn
TensorFlow API at https://www.tensorflow.org/api_docs/python/
TensorFlow cheat sheet at
https://github.com/crscardellino/cheatsheets/blob/master/tensorflow.md
which was made by Cristian Cardellino
Keras
PySpark
Math
Git
Linux

11.3　确定你的领域

读完所有的章节后，你可能知道足够的知识来决定你喜欢什么。是否要构建核心ML内容？您喜欢在Hadoop、Spark等框架上工作吗？你喜欢设计框架吗？您想为可视化做出贡献吗？思考和选择。

您可以从数据科学中选择任何领域，也可以成为整个数据科学产品开发生命周期的一部分。我想举个例子。我曾与中型企业和初创企业合作过。到目前为止，我有自由探索与数据科学相关的各个领域，例如提出一个数据科学产品和发布该产品。在分析了商业机会后，我曾经提出过一种新产品。我总是认为，如果我们要生产这个产品，那么我们的最终用户会使用它，作为回报，我所工作的公司将获得它的积极影响，从而验证我的产品提案。然后，我将通过问许多问题开始设计部分的工作，例如我们需要什么类型的数据，我们将使用什么数据资源，我们需要收集哪些关键数据点，产品的架构是什么，我们将使用什么机器学习模型，我们将如何与现有产品集成，当WI我们可以释放它，等等。如果你像我一样思考，想要在所有领域，以及数据科学产品的每个组成部分上工作，那么这是一件非常好的事情。只需用心并充满激情地完成你的工作。也可以看到大局。

11.4　通过敏捷的工作来实现成功

NLP或其他与数据科学相关的项目需要多次迭代才能获得最佳输出。你需要理解问题陈述。在此之后，为了获得最佳结果，您需要从分析数据开始。在分析了数据之后，做一个基本的原型。然后验证您的模型。如果它给你最好的结果，那么你就完成了；如果没有，那么尝试实现不同的算法，进行超参数调整，或者更改或改进你的特性集。你需要在工作过程中保持敏捷。试着找出你的问题或错误，然后做聪明的迭代。询问有关堆栈溢出的问题。尝试搜索答案。这真的对你有帮助。用所有的技术和工具来更新你自己。有一些库可以解决您的问题。寻找任何可用的付费第三方工具，并尝试了解其工作原理。在使用该工具之后，您有可能成为产品的主人，并且您的产品对最终用户更有价值。

11.5　NLP和数据科学方面一些有用的博客

Here are some important blogs for NLP and data science:
http://www.datasciencecentral.com/
https://nlp.stanford.edu/blog/
http://www.kdnuggets.com/
https://nlpers.blogspot.in/
https://lingpipe-blog.com/lingpipe-home-page/

11.6　使用公开的数据集

以下是可用数据集的列表：
Kaggel dataset: https://www.kaggle.com/datasets
UCI machine learning: http://archive.ics.uci.edu/ml/
Reddit: https://www.reddit.com/r/datasets/
包含公共数据集列表的出色Github存储库：
https://github.com/caesar0301/awesome-public-datasets
Google Advanced Search is also handy when you are searching for datasets:
https://www.google.co.in/advanced_search

11.7　数据科学领域需要的数学知识

如果你是非技术背景的学生，你想学习数学可能对你的NLP或其他任何数据科学项目有帮助，然后你可以开始从此网站学习：
h t t p s ?/w w w . k h a n a c a d e m y . o r g /m a t h .
如果要访问参考链接、研究论文和书籍，则可以单击以下Github链接：
https://github.com/jalajthanaki/NLPython/tree/master/Appendix2

11.8　总结

本节的重点是向您提供有关安装各种库的详细信息。我还提供了各种IDE的安装步骤。为了让您的生活更轻松，我开发了一个PIP需求文档。通过运行前面给出的命令，您将能够安装python依赖项。我已经给出了在您的机器上安装Hadoop和Spark的步骤，并在单个节点集群中运行这两个步骤。如果你想问我安装方面的问题，你也可以和我联系。

致谢
《Python自然语言处理》¹ ² ³，作者：【印】雅兰·萨纳卡(Jalaj Thanaki），是实践性很强的一部新作。为进一步深入理解书中内容，对部分内容进行了延伸学习、练习，在此分享，期待对大家有所帮助，欢迎加我微信（验证：NLP），一起学习讨论，不足之处，欢迎指正。
在这里插入图片描述

参考文献

https://github.com/jalajthanaki ↩︎
《Python自然语言处理》,（印）雅兰·萨纳卡（Jalaj Thanaki）著张金超、刘舒曼等译 ,机械工业出版社,2018 ↩︎
Jalaj Thanaki ，Python Natural Language Processing ，2017 ↩︎

miniAI学堂

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记：11 如何提高你的NLP技能

11 如何提高你的NLP技能11.1　开始新的NLP职业生涯11.2　备忘列表11.3　确定你的领域11.4　通过敏捷的工作来实现成功11.5　NLP和数据科学方面一些有用的博客11.6　使用公开的数据集11.7　数据科学领域需要的数学知识11.8　总结本附录将为您提供更多关于如何提高NLP技能的信息。这也将帮助您更新您的知识。11.1　开始新的NLP职业生涯如果你是一名编码员，想要在NLP...
复制链接

扫一扫