自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (1)
  • 收藏
  • 关注

原创 【R语言】结巴分词与词性提取(以“提取知乎问题标题的频繁词前100个形容词”实战为例)(3月25日学习笔记)

这一次的作业是基于本人3月24日内容的进一步处理,老师布置的题目为这一次问题的难点在于词性分类,本文将以此题为例,介绍如何使用结巴分词对中文词语词性进行分类。0.包的选取中文分词必不可少的包:jiebalibrary(jiebaR)library(jiebaRD)#用于分词作图包我们选择library(ggplot2)#用于作图读取数据可以不额外导入包,使用基础的read.c...

2020-03-25 13:48:33 2093 17

原创 虚拟环境配置错误解决方案

虚拟

2022-03-02 20:59:58 1138

原创 【数据挖掘】PCA算法的复现实验

本次实验内容为基于python的PCA算法的复现。本实验将以主成分分析(PCA)原理详解中的数据为例,展示使用PCA算法从二维数据降维为一维数据的代码复现。若理解有误,欢迎批评指正。一、算法基本思路算法可简单概括为五个步骤,即1.数据中心化;2.求求特征协方差矩阵3. 求协方差特征值λ和特征向量4. 选取k个特征值最大的特征向量构造矩阵5. 做矩阵投影得到降维后的数据。思路概括如下图所示。首先读入二维数据。list = [[2.5,2.4],[0.5,0.7],[2.2,2.9],[1.9,2.2

2020-11-05 22:50:49 1327 2

原创 【数据挖掘】使用可视图方法转换时间序列为复杂网络

本篇笔记主要介绍使用可视图方法转换时间序列为复杂网络的基本内容

2020-10-16 11:37:34 6091 4

原创 【数据挖掘】复杂网络原理入门(7月份学习笔记)

注:本篇笔记为概念入门笔记,若理解有误,欢迎批评指正本篇学习笔记,将从 1.复杂网络的定义 2.复杂网络的研究方向 入手,介绍复杂网络的概念。1.什么是复杂网络(complex network)?为更好地了解什么是复杂网络,我们需要把这个名词降维成两个名词????complex复杂和network网络。需要注意的是,根据学届各篇权威论文的定义,虽然复杂网络一定是网络,但是网络不一定是复杂网络。从历史发展顺序来看,应该是先有了网络,再有复杂网络。网络是图论的内容,而复杂网络是基于图论的理论和方法开

2020-07-19 08:52:22 4110

原创 【数据挖掘】遗传算法原理浅析:什么是遗传算法?遗传算法的工作原理是什么?

遗传算法(Genetic Algorithm,GA),是进化算法的框架和核心。各种进化算法有什么异同? - 及时物语的回答 - 知乎https://www.zhihu.com/question/39152390/answer/901070749

2020-07-04 18:00:42 3017

原创 【概率论】变量的常见分布情况(5月8日学习笔记)

简单介绍几种常见的变量分布模型,用一句话概括就是,离散万物,皆可二项分布!一、离散型随机变量1.二项分布在了解二项分布前,需要先了解伯努利试验。伯努利试验E只有两种结果,则称为伯努利试验;将试验E独立重复地进行n此,则称这一串重复的独立试验为n重伯努利试验。比如抛硬币,只有正反两种结果,这就是伯努利试验。满足伯努利试验的,就是二项分布。独立做n次+就两种结果=n重伯努利试验设在一...

2020-05-08 17:18:34 4017 1

原创 【数据挖掘】什么是PCA技术?对于主成分分析(PCA)的降维理解(5月7日学习笔记)

1.什么是PCA技术?PCA技术主成分分析技术,又称主分量分析。主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标。PCA主成分分析(Principal Component Analysis,PCA),是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。主成分分析是对于原先提出的所有变量,将重复的...

2020-05-08 00:07:34 1974

转载 【时间序列·转载】动态时间规整—DTW算法

简述Dynamic Time Warping(DTW)诞生有一定的历史了(日本学者Itakura提出),它出现的目的也比较单纯,是一种衡量两个长度不同的时间序列的相似度的方法。应用也比较广,主要是在模板匹配中,比如说用在孤立词语音识别(识别两段语音是否表示同一个单词),手势识别,数据挖掘和信息检索等中。孤立词识别操作步骤基本原理: 问题描述在大部分的学科中,时间序列是数据的一种常...

2020-05-06 23:23:18 1091

转载 【运筹学·转载】对灵敏度分析的理解

原文传送门概念在数学建模中使用最优化方法时,我们常常会忽略对模型进行灵敏度分析,若缺少这一个步骤,会使得模型的可靠度受到质疑,那到底什么是灵敏度分析?参考百度:灵敏度分析,是研究与分析一个系统(或模型)的状态或输出变化对系统参数或周围条件变化的敏感程度的方法。说人话,就是改变模型(公式)的某个参数,引起这个模型输出的变化的程度。举例说明一头牛重200斤,每天增重5斤,饲料每天花费45元。牛的市...

2020-05-06 19:51:46 5816

转载 【运筹学·转载】指派问题的匈牙利算法

————————————————版权声明:本文为CSDN博主「QASWINE」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/qq_33831360/article/details/94043097————————————————题目描述有 n 件工作要分配给 n 个人做。第 i 个人做第 j 件工作...

2020-05-05 12:02:52 4198

原创 【运筹学】目标规划的数学模型(4月18日学习笔记)

虽然根据所学的线性规划模型可以求出最优解,但是在实际生活中工厂在做决策的时候往往有多个目标。目标规划方法是解决这类决策问题的方法之一。...

2020-04-18 22:59:32 1151

原创 【运筹学】产销平衡下的运输问题概念理解(4月9日学习笔记)

一、运输问题的数学模型运输问题的建模有点类似于初高中的解方程组问题,以清华大学出版社的《运筹学(第四版)》P82页中的表格为例图源:清华大学出版社的《运筹学(第四版)》P82https://my.oschina.net/liyangke/blog/2981227运输问题的建模就是一个解决运输问题的建模,这里的变量设的是从各个产地运往哥哥销售地的物资量Xij(即为表3-1中未显示内容的...

2020-04-09 18:35:24 16115

原创 【ERP】ERP发展阶段有哪些?对ERP发展各个阶段概念的理解(20年3月29日第二章学习笔记)

ERP发展历经五大阶段1.ROP库存订货点法2.MRP物料需求计划3.闭环MRP4.MRPII制造业资源计划5.ERP企业资源计划1.ROP库存订货点法ROP,库存订货点法,很好理解,就是库存量到了定下的订货点后就开始下单进新的库存,度过订货提前期后,库存量达到安全库存量线,这时候货物送达,库存重新回到允许最高储量。上图是均衡消费的情况。也可能出现消费加快的情况,到达订货点后...

2020-03-29 23:17:45 5316

原创 【ERP】ERP,MRP和MRPII的关系是怎样的?(20年3月29日第二章学习笔记)

1.ERP与MRP的关系MRP与ERP的关系在本人ERP第一章的笔记中已有提及,可以点击超链接跳转观看。2.ERP与MRPII的关系从ERP概念的提出公司Gartner Group Inc界定ERP系统时提出的内容ERP一是超越MRPII范围的集成功能。超越MRPII范围的集成功能包括质量管理、车间管理、流程作业管理、工艺管理、产品数据管理、维护管理、仓库管理和运营报告。从这一...

2020-03-29 22:07:59 3667

原创 【ERP】什么是ERP?MRP和ERP的关系是什么?怎么区分ERP对象·企业的生产类型?(3月29日ERP第一章学习笔记)

学习ERP之前,我们首先需要明白一个概念一、什么是ERP?在机械工业出版社出版的《企业资源计划(ERP)原理与实践》第2版中,给出了如下定义。企业可以利用先进的管理方法、通信技术、计算机工具,建立有效的计划与控制系统,并把这些环节准确协调控制,这就是企业资源计划——ERP百度百科给出了如下定义ERP 是由美国计算机技术咨询和评估集团 Gartner Group Inc 提出的一种供...

2020-03-29 17:40:02 3739 2

原创 【R语言】依知乎问题标签数据集绘图(3月24日学习笔记)

老师给出的作业要求是根据数据集绘图,这一题的难点依然在于对数据的处理。老师给我们的原数据集如下图接下来我们需要运用R语言对数据进行处理首先解决第一个问题一、最频繁的100个标签及频率1.设置工作路径与读入数据一般比较常用的数据读取语句是data = read.csv("train_data.csv",header = TRUE)但是read.csv不适合对大数据进行处理,速度...

2020-03-24 11:34:48 652

原创 【R语言】如何进行英文分词统计(以《爱丽丝漫游奇境》词频统计为例)(20年3月22日复习笔记)

老师所给的题目要求是这是一道对英文进行分词的词频统计。首先当然是要导入这个文档以及所需要的的包(绘制频数图需要ggplot2包,绘制词云需要wordcloud2包)###################################################setwd("D://1Study//R//CH 03") getwd()#######################...

2020-03-22 16:52:06 6205 6

原创 【R语言】疫情期间的三大热词“湖北”“肺炎”“蝙蝠”百度搜索次数变化统计(3月15日学习笔记:R语言制图)

我的老师最近在进行一项研究:与此次冠状病毒有关的关键字的检索次数变化老师给了我们三个关键词在百度上的每日检索次数:“湖北”“肺炎”“蝙蝠”要求我们用R语言绘制这三个关键词的搜索次数变化趋势。我想到了三种图片绘制方式:1.折线图2.时间序列3.多重折线图1.折线图以“湖北”一词为例,首先附上我的代码↓########思路1:画折线图#1.更改工作路径setwd("C://Users...

2020-03-15 21:41:29 2637 1

原创 【R语言】用R语言解决问题“求任意整数阶层N!的尾数有多少个零? ”(3月7日学习笔记)

我的老师给我们布置的R语言作业中,有一道题目是这样的↓要解决该问题,首先应当了解这一问题的数学算法。对于此题的数学解法,我借鉴了如下两位前辈的解答。1.100的阶乘末尾有几个02.阶乘N!的末尾有多少个0如何计算N!末尾有多少个0,其实可以简单化为求N!中可以提取出多少个5。思路如下:首先,如果提取出一个因子“2”和一个因子“5”,就可以得到一个“10”,末尾就会多一个0,所以原...

2020-03-07 23:57:48 1553

原创 【R语言】1,2,3,4四个数字可以组合成多少个不同的且不能重复的三位数(CH02作业复习)

题目为“1,2,3,4四个数字可以组合成多少个不同的且不能重复的三位数”我最初的想法是可以直接用choose函数计算组合。也就是直接用如下这一行代码即可choose(4,3)计算结果是4,而不是正确的24。犯了该错误的原因在于我对choose函数的使用以及排列组合不太了解。首先,关于choose函数,在R自带的help文档中,对choose函数的使用介绍如下Note that ch...

2020-03-04 16:50:45 2493

原创 【运筹学】线性规划错题重练·20年3月3日学习笔记

学习疑问:1.为什么"若线性规划问题存在可行解,则问题可行域是凸集"呢,为什么凹集不行嘞,虽然有点在图形外面,但是不是也有点在图形里面吗(从图形角度理解)因为需要线上每一点都在图形中,线段为图形边界点与另一边界点所连成线段。2.错题来源:运筹学(郭韧)中国大学慕课网LP模型就是线性规划模型,反过来说LP可行域某一个顶点是X的最优解是对的,但是如图表述是错的,因为当最优解有无穷多个时...

2020-03-04 12:10:44 806

原创 【运筹学】什么是基变量?对于线性规划问题中“基”概念的理解(3月3日学习笔记)

在学习《线性规划与目标规划》的过程中,课程的主讲老师郭韧给出了对于基概念的定义如下图图片来源:运筹学(中国大学mooc网)由此我产生了几个疑惑:1.如何理解B是线性规划问题的一个基?2.为什么说最多有CnmC_n^mCnm​个基呢?  1.如何理解B是线性规划问题的一个基?1.如何理解B是线性规划问题的一个基?1.如何理解B是线性规划问题的一个基?在回答第一个...

2020-03-04 11:45:10 28737 1

stopwordsC.txt

中文分词所需的中文停止词文档 https://blog.csdn.net/weixin_46124302/article/details/105065081 我的本篇博文所需材料,使用方法本篇博文中略有涉及 如果搜索引擎要将这些词都索引的话,那么几乎每个网站都会被索引,也就是说工作量巨大。可以毫不夸张的说句,只要是个英文网站都会用到a或者是the。那么这些英文的词跟我们中文有什么关系呢? 在中文网站里面其实也存在大量的stopword,我们称它为停止词。比如,我们前面这句话,“在”、“里面”、“也”、“的”、“它”、“为”这些词都是停止词。这些词因为使用频率过高,几乎每个网页上都存在,所以搜索引擎开发人员都将这一类词语全部忽略掉。

2020-03-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除