李佩聪-CSDN博客

原创资产组合配置方案

基金配置作业首先假设客户是一个追求的目标是资金平稳中有收益，本文中给出的资金配置是基于这个大前提。1、资产配置核心思想笔者所采取的资产配置策略是—“核心—卫星”策略。这个策略发源于1990年代，现在已经成为成熟市场上资产配置的主流策略之一，全球著名的资产管理机构如先锋、瑞银、巴克莱等都在应用这一策略为客户配置资产。简单来说将总资产分为“核心”和“卫星”两大类，其中“核心”资产的权重较高在组合中起到保驾护航的作用，核心组合的投资目标是有效控制组合风险水平，并获取较为稳健的收益。“卫星”资产的权重

2021-07-14 02:33:49 6474

原创《数据治理与数据安全》读书笔记（下）

本系列文章是《数据治理与数据安全》此书的读书笔记和读书心得。共分为上下两篇。一、大数据发展的另外一面：数据滥用和安全事件频发1、算法的局限:存在的歧视问题2018 年，IG夺冠之后。IG 战队老板随即在微博抽奖，随机抽取113位用户，给每人发放1万元现金作为奖励。获奖名单中女性获奖者数量是男性的112倍。然而，所有参与用户的男女比率是1: 1.2，性别比并不存在悬殊差异。于是，不少网友开始质疑微博的抽奖算法，甚至有用户测试抽奖算法发现，设置获奖人数大于参与人数，发现依然有大量用户无法获奖。这些无.

2021-07-13 17:08:55 770

原创 Test Data for Trading—Sentiment Analysis 代码复现（六）完结篇

Test Data for Trading—Sentiment Analysis系列文章是对《Machine Learning for Algorithmic Trading》第十四章内容的讲解以及相关代码复现。因为中英文的文本分析存在较大差异，顾此系列没有选取中国市场的材料做为代码复现的数据，而是选择书后源代码进行复现。文本分类和情感分析—Yelp评论（Yelp是美国最大点评网站）在代码复现（六）中，笔者将把在之前的章节中提到过的预处理技术应用于Yelp商业评论，通过评论分数和情感极性对它们进行分.

2021-07-13 04:36:58 447

原创 Test Data for Trading—Sentiment Analysis 代码复现（五）

Test Data for Trading–Sentiment Analysis系列文章是对《Machine Learning for Algorithmic Trading》第十四章内容的讲解以及相关代码复现。因为中英文的文本分析存在较大差异，顾此系列没有选取中国市场的材料做为代码复现的数据，而是选择书后源代码进行复现。推特的文本分类和情感分析在代码复现（五）中，主要围绕着对推文进行情绪分析的两种算法朴素贝叶斯和Textblob的代码实现展开，并且对两者的表现进行了对比。在该文中，将把之前文章中.

2021-07-13 04:36:28 329

原创 Test Data for Trading—Sentiment Analysis 代码复现（四）

Test Data for Trading–Sentiment Analysis系列文章是对《Machine Learning for Algorithmic Trading》第十四章内容的讲解以及相关代码复现。因为中英文的文本分析存在较大差异，顾此系列没有选取中国市场的材料做为代码复现的数据，而是选择书后源代码进行复现。用朴素贝叶斯对新闻文章进行分类一旦文本数据使用前几节提到的NLP技术被转换为数字特征，文本分类就变得和其他分类一样。朴素贝叶斯算法在文档分类领域中非常流行，因为它的计算成本和内存.

2021-07-13 04:35:55 152

原创 Test Data for Trading—Sentiment Analysis 代码复现（三）

从记号到数字：文档-术语矩阵词包模型根据它所包含的术语或标记的频率来表示一个文档。每个文档都是一个向量，词汇表中的每个标记都有一个条目，反映了该标记与文档的相关性。鉴于词汇表的存在，文档-术语矩阵是可以直接计算的。然而，它也是一种粗略的简化，因为它抽象了词序和语法关系。尽管如此，它往往能在文本分类中迅速取得良好的结果，因此是一个非常有用的起点。有几种方法来权衡一个标记的向量条目，以捕捉它与文件的相关性。我们将在下面说明如何使用sklearn来使用表示存在或不存在的二进制标志、计数和加权计数，这些计.

2021-07-13 04:31:06 347

原创 Text Data for Trading—Sentiment Analysis 代码复现（二）

Test Data for Trading–Sentiment Analysis系列文章是对《Machine Learning for Algorithmic Trading》第十四章内容的讲解以及相关代码复现。因为中英文的文本分析存在较大差异，顾此系列没有选取中国市场的材料做为代码复现的数据，而是选择书后源代码进行复现。代码复现（二）主要内容是对Textblob的各种应用的代码实现以及解释。Textblob是一个Python库，为常见的NLP任务提供简单的API（应用程序编程接口），它是建立在自然.

2021-07-12 18:19:16 181

原创 Text Data for Trading – Sentiment Analysis 代码复现（一）

**应用：**文本数据交易的ML算法依赖于从能够帮助预测未来价格走势的特征中提取有意义的信息。应用范围从新闻的短期市场影响的应用到资产价值的驱动力的长期基本面分析，有如下的例子：①给产品的评论进行情绪评分，以此来评估公司的竞争地位以及行业走势。②检测信用合同中的异常情况，以检测违约的概率和影响③从影响的方向、幅度和受影响的实体角度来预测新闻的影响。1、从文档到token—NLP管道在本节中将会演示如何使用开源的python库spaCy来构建一个NLP管道。textacy库建立在spaCy的基础上，

2021-07-12 16:27:45 182

原创 Text Data for Trading—Sentiment Analysis 简述初始篇

此文是对用于交易的文本数据—情绪分析一章中基础的概念进行解释和总结。文本数据的内容非常丰富，但是同时高度非结构化，所以需要更多的预处理才能使ML算法提取到其中的关键信息。在此文中将介绍基本的特征提取技术。注：因为一些名词用中文描述难以区分，故用英文进行表示（例如：token、word等）1、处理文本数据的主要挑战：①由于词的多义性而产生的歧义：比如女生致电男友，地铁站见如果你到了我还没到那你就等着吧（wait的含义）；如果我到了你还没到，那你就等着吧（wait and see的含义）②非标准的语言和

2021-07-12 13:36:55 198

原创《数据治理与数据安全》读书笔记（上）

此文是人民邮电出版社出版的《数据治理与安全》一书的读后笔记。前言首先，数据治理的定义是什么？书中选取了在《数据治理白皮书》中的定义：数据是资产，通过服务产生价值。数据治理主要是在数据产生价值的过程中，治理团队对其做出的评价、指导、控制。但是作者认为无论是在国内还是国外，在提到数据治理的问题时都基本指代的是企业行为，普遍存在一个政府和个人角色缺失的问题。但是实际上政府在数据治理中能够发挥更主动的作用。因为政府可以做许多企业无法做到的事情，比如说立法，政府也可以推动政务数据开放共享、建立完善的数据权责体系等

2021-07-08 17:17:12 794

weixin_50905386的博客