Text Data for Trading—Sentiment Analysis 简述 初始篇

本文介绍了用于交易的文本数据—情绪分析的基础概念,包括处理文本数据的挑战、NLP工作流程、词汇表选择、语言标注和语义注释。讨论了token、词袋模型、词性标注、依赖关系解析和知识图谱在情感分析中的作用。
摘要由CSDN通过智能技术生成

Test Data for Trading—Sentiment Analysis系列文章是对《Machine Learning for Algorithmic Trading》第十四章内容的讲解。因为中英文的文本分析存在较大差异,顾此系列没有选取中国市场的材料做为代码复现的数据,而是选择书后源代码进行复现。

此文是对用于交易的文本数据—情绪分析一章中基础的概念进行解释和总结。

文本数据的内容非常丰富,但是同时高度非结构化,所以需要更多的预处理才能使ML算法提取到其中的关键信息。在此文中将介绍基本的特征提取技术。注:因为一些名词用中文描述难以区分,故用英文进行表示(例如:token、word等)
1、处理文本数据的主要挑战:
①由于词的多义性而产生的歧义:比如女生致电男友,地铁站见如果你到了我还没到那你就等着吧(wait的含义);如果我到了你还没到,那你就等着吧(wait and see的含义)
②非标准的语言和不断变化的用法,尤其是在社交媒体上。
③一些习语和成语的使用:例如“throw in the towel”的释义是认输。
④难以处理的实体名称:例如电影《a bug’s life 》是一部名为虫虫特工队的迪士尼电影,但是在进行实体识别的时候,bug可能被识别为代码漏洞。
⑤世俗的知识:例如“Mary and Sue are sisters”未必是玛丽和苏是姐妹的意思,还可能是玛丽和苏是修女。
2、NLP的工作流程:
将从文本数据中得来的ML算法用于算法交易的一个关键目标是从文档(document)中提取信号。语料库&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值