Text Data for Trading—Sentiment Analysis 简述初始篇

最新推荐文章于 2024-02-19 03:24:01 发布

李佩聪

最新推荐文章于 2024-02-19 03:24:01 发布

阅读量200

点赞数

文章标签：自然语言处理 python 人工智能

本文链接：https://blog.csdn.net/weixin_50905386/article/details/118673093

版权

本文介绍了用于交易的文本数据—情绪分析的基础概念，包括处理文本数据的挑战、NLP工作流程、词汇表选择、语言标注和语义注释。讨论了token、词袋模型、词性标注、依赖关系解析和知识图谱在情感分析中的作用。

摘要由CSDN通过智能技术生成

Test Data for Trading—Sentiment Analysis系列文章是对《Machine Learning for Algorithmic Trading》第十四章内容的讲解。因为中英文的文本分析存在较大差异，顾此系列没有选取中国市场的材料做为代码复现的数据，而是选择书后源代码进行复现。

此文是对用于交易的文本数据—情绪分析一章中基础的概念进行解释和总结。

文本数据的内容非常丰富，但是同时高度非结构化，所以需要更多的预处理才能使ML算法提取到其中的关键信息。在此文中将介绍基本的特征提取技术。注：因为一些名词用中文描述难以区分，故用英文进行表示（例如：token、word等）
1、处理文本数据的主要挑战：
①由于词的多义性而产生的歧义：比如女生致电男友，地铁站见如果你到了我还没到那你就等着吧（wait的含义）；如果我到了你还没到，那你就等着吧（wait and see的含义）
②非标准的语言和不断变化的用法，尤其是在社交媒体上。
③一些习语和成语的使用：例如“throw in the towel”的释义是认输。
④难以处理的实体名称：例如电影《a bug’s life 》是一部名为虫虫特工队的迪士尼电影，但是在进行实体识别的时候，bug可能被识别为代码漏洞。
⑤世俗的知识：例如“Mary and Sue are sisters”未必是玛丽和苏是姐妹的意思，还可能是玛丽和苏是修女。
2、NLP的工作流程：
将从文本数据中得来的ML算法用于算法交易的一个关键目标是从文档（document）中提取信号。语料库&#