莫知我哀-CSDN博客

原创论文趋势分析（python+excel+tableau）

本文github地址：链接论文趋势分析专栏：链接论文趋势分析（python+excel+tableau）1数据读取1.1读取原始数据1.2抽取5%的数据作为样本进行分析1.3 爬取论文类别信息1.4处理多种类论文1.5表连接1.6提取论文的发表年份和月份1.7提取论文的页数，图数1.8提取论文的作者数量1.9删除重复的论文2论文趋势分析-python2.1论文大类总体分析2.1.1各大类论文总数2.1.2各类论文数量随年份的变化2.1.3论文总数量随时间的变化2.1.4不同大类论文页数的不同2.1..

2021-01-30 21:52:32 2290 2

原创 Django快速入门——（文件上传、存储、处理、以及表格显示和matplotlib绘图显示）

本文文件存储地址:github地址Django快速入门0学习资料1安装django2django项目创建3django项目结构4django项目设置5创建第一个网页5.1创建模板网页5.2创建主页5.3定义主页视图5.4注册主页5.5输出结果6文件传输与表格打印功能实现6.1前端HTML6.2创建视图6.3注册网页6.4更改navbar中的连接6.5实现结果7实现matplotlib绘图功能7.1前端`draw.html`:7.2定义绘图函数7.3视图函数7.4注册网页7.5打印效果0学习资料本.

2021-01-29 20:34:26 1224

原创 python数据结构与算法-第3弹

文章目录NC22 合并两个有序的数组NC3 链表中环的入口结点WC137 单链表的排序NC52 括号序列NC53 删除链表的倒数第n个节点NC1 大数加法NC14 按之字形顺序打印二叉树==NC127 最长公共子串==NC22 合并两个有序的数组A: [4,5,6,0,0,0]，m=3B: [1,2,3]，n=3合并过后A为:A: [1,2,3,4,5,6]偷懒写法：# @param A int整型一维数组 # @param B int整型一维数组 # @return void#c

2021-09-19 21:20:45 524

原创 python数据结构与算法-第2弹

文章目录**WC133** **子数组的最大累加和问题****WC136** **最长无重复子数组**NC119 最小的K个数NC68 跳台阶NC61 两数之和WC135 两个链表生成相加链表==WC139 在二叉树中找到两个节点的最近公共父节点==WC132 最长递增子序列NC33 合并两个排序的链表NC50 链表中的节点每k个一组翻转WC141 输出二叉树的右视图WC133 子数组的最大累加和问题思路：从头到尾逐渐累加，每加一次，更新一次最大累加和，若和小于零，重新开始累加class Solu

2021-09-12 12:50:51 485

原创数据结构与算法——第一弹

题目来自牛客网文章目录NC78 **反转单向链表****NC93** **设计LRU缓存结构****NC4** **判断链表中是否有环****NC76** **用两个栈实现队列****NC105** **二分查找-II****NC15** **求二叉树的层序遍历****WC142** **排序**算法**NC45** **实现二叉树先序，中序和后序遍历**NC78 反转单向链表日期：2021.8.29方法：定义pre存储新链表的头，cur用于反转方向，nex用于遍历旧链表,然后不断遍历nex.

2021-09-05 19:20:07 271 1

原创迁移学习综述

A Survey on Deep Transfer Learning阅读日期：2021.8.29Doi：10.1007/978-3-030-01424-7_27文章简介：介绍了2018年以前的深度迁移学习的主要进展，以及迁移学习的主要分类深度学习的缺点依赖大量数据，往往模型越大，需要的数据也越多，成本也就越高需要训练数据和预测数据满足来自同一个总体的假设，深度迁移学习的定义：给定任务TtT_tTt和数据DtD_tDt，利用从数据DsD_sDs和任务TsT_sTs

2021-08-29 21:39:40 440

原创搜狐2022秋季校招内推码（算法、开发、数分等）

2021-07-22 22:25:50 206

原创集成学习6——Blending与Stacking

github地址：DataScicence集成学习5-Xgboost原理与调参集成学习4-前向分步算法与GBDT-原理与案例集成学习3-Boosting的原理和案例集成学习2-bagging的原理与案例分析集成学习1-投票法的原理和案例分析Blending原理步骤：将数据划分为Train_data、Validate_data、Test_data三部分第一层模型：使用多个base模型在Train_data上进行训练，得到多个模型MkM^kMk分别将Validate_data,.

2021-05-11 15:02:04 180

原创集成学习5-Xgboost原理与调参

github地址：DataScicence欢迎star集成学习4-前向分步算法与GBDT-原理与案例集成学习3-Boosting的原理和案例集成学习2-bagging的原理与案例分析集成学习1-投票法的原理和案例分析Xgboost原理与调参XGBoost原理目标函数定义树模型重构目标函数求解w和L：寻找最佳分支Xgboost案例加载数据集训练模型绘制特征重要性调参XGBoost原理Xgboost的大致原理与GBDT相似，但是在部分步骤中进行了改进目标函数xgboost与GBDT最大的.

2021-04-26 11:39:01 3922

原创集成学习4-前向分步算法与GBDT-原理与案例

github地址：DataScicence欢迎star集成学习3-Boosting的原理和案例集成学习2-bagging的原理与案例分析集成学习1-投票法的原理和案例分析集成学习4-前向分步算法与GBDT-原理与案例GBDT的原理CART回归树前向分步算法BDT（提升树）GBDT（梯度提升树）GBDT案例数据读取数据集划分模型训练迭代次数与训练结果特征重要度模型调参n_estimatorsmax_depth，min_samples_splitlearning_rate训练结果GBDT的原理.

2021-04-21 13:40:37 476

原创集成学习3-Boosting的原理和案例

1投票学习2bagging集成学习3-Boosting的原理和案例bootsting原理boosting 案例数据读取数据划分弱分类器：单层决策树adaboost结果对比当弱分类器变成强分类器时：boosting的特点bootsting原理如上图所示，问题是为了解决一个二分类问题，为此，我们选择一个深度为1的单层决策树进行训练图1：原始分布中，通过最小化代价函数（不纯度等），得到一个决策边界，可以看到，两个圆形被错误分类，因此要增加他们的权重，并且降低正确分类的样本的权重，变成图2的分.

2021-04-19 14:20:45 1019

原创集成学习2-bagging的原理与案例分析

投票学习bagging原理bootstrap抽样：有放回地从原始数据集中，随机抽取相同数量的数据也可以对特征属性进行抽样降低模型的方差因为每个基模型的训练数据都不同，因此模型之间存在细微的差异，这样可以有效降低最终模型的结果方差，并且提高泛化能力与投票法的区别基模型可以选择相同的模型在投票环节，方法与投票法相同缺点不能降低的模型的偏差，也就是如果基模型效果不好，那么无论如何改进bagging模型，也无法得到较好的训练结果训练时间偏长，boosti.

2021-04-16 13:57:58 318

原创支付宝营销策略效果分析（AB测试原理与流程）

案例文件与代码下载地址:DataScience目标：以支付宝某次营销活动的数据为例，通过分析广告点击率，比较两组营销策略的广告投放效果数据准备import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns数据描述dmp_id：营销策略编号（源数据文档未作说明，这里根据数据情况设定为1：对照组，2：营销策略一，3：营销策略二）user_id：支付宝用户IDlabel：.

2021-04-15 22:04:14 1225

原创集成学习1-投票法的原理和案例分析

参考资料：#>《Python 机器学习》github地址：欢迎访问这里写目录标题投票法的原理集成模型好于单个分类器的原因加权多数投票硬投票软投票投票法的使用条件投票法案例数据读取基分类器与集成投票器分类结果（训练集）不同模型的auc_roc曲线（测试集）不同模型的分类边界投票法的原理如上图所示，在同一训练集上，训练得到多个分类或回归模型，然后通过一个投票器，通过某种加权方式，输出得票率最高的结果。集成模型好于单个分类器的原因假设：n个基分类器的出错率都是ϵ\epsilonϵ，且相互独.

2021-04-13 17:20:13 2440 8

原创 python时间序列分析4-非平稳序列的确定性分析

import pandas as pd import matplotlib.pyplot as plt import numpy as npfrom datetime import datetime,timedeltafrom time import time读取数据cat_fish = pd.read_csv('./data/catfish.csv',parse_dates=[0],index_col=0,squeeze=True)cat_fish.head()Date1986-0

2021-04-05 16:26:39 1331 1

原创 Python时间序列分析3-非平稳序列的随机分析-SRARIMA

import pandas as pd import matplotlib.pyplot as plt import numpy as npfrom datetime import datetime,timedeltafrom time import time数据读取与预处理cat_fish = pd.read_csv('./data/catfish.csv',parse_dates=[0],index_col=0,squeeze=True)cat_fish.head()Date19

2021-04-03 17:46:30 3125 1

原创 python时间序列分析2-平稳时间序列分析

import pandas as pd import numpy as np import matplotlib.pyplot as plt数据预处理data = pd.read_csv('./data/catfish.csv',parse_dates=[0],squeeze=True,index_col= 0)data.head(3)Date1986-01-01 90341986-02-01 95961986-03-01 10558Name: Total, d

2021-04-01 11:13:51 1531

原创时间序列分析1-预处理

python实践：python时间序列分析1时间序列分析1-预处理时间序列分析简介时间序列的定义描述性时间序列分析频域分析方法时域分析方法时间序列的预处理平稳性检验统计特征量平稳时间序列的定义平稳时间序列的统计性质平稳性的检验纯随机序列的检验学习资料：时间序列分析简介时间序列的定义时间序列：按时间顺序排列的一组随机变量X1,X2,...Xt...X_1,X_2,...X_t...X1,X2,...Xt...简记为{Xt,t∈T}简记为\{X_t,t\in T\}简记为{Xt,t∈T}.

2021-03-29 16:21:55 684

原创 python时间序列处理1-预处理

python时间序列处理1-预处理时间序列平稳性判断时序图检验自相关图检验纯随机性检验LB检验Q检验时间序列平稳性判断时序图检验import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt # 读取某销售数据# squeeze参数：当只有一个列时，返回Series类型data = pd.read_csv('./data/catfish.csv',parse_date

2021-03-29 16:18:37 1658

原创无监督特征选择算法综述

无监督特征选择算法Filter方法只使用数据的内在属性，不使用聚类等其他辅助方法速度快单变量Information based methodsSUD(Sequential backward selection method for Unsupervised Data)基于距离相似度的熵值作为指标，进行相关性排序，选择特征SVD-Entropy过其奇异值来测量原始数据矩阵的熵，评估每个特征对熵的贡献，并根据它们各自的熵值对特征进行排序。三种选择最终特征子集的不同方法:简单排

2021-03-26 16:47:37 6886 3

原创 python连接mysql

安装pymysqlpip install pymysqlimport pymysql as pml创建数据库连接pymysql.connect()常用参数：host: 数据库地址port: 端口号user: 用户名password: 密码database: 需要打开的数据库，不指定，则建立与数据库的连接，在sql语句中指定charset: 编码类型use_unicode :是否使用双字节编码conn = pml.connect(host='127.0.0.1',port =

2021-03-09 16:47:44 176 1

原创某电商在线奶粉销量数据分析-SQL+Tableau自动化分析

本文数据集来源：Baby Goods Info Data数据库：MySQL数据库管理软件：DataGrip可视化分析软件:Tableau本文sql文件、可视化分析源文件地址:DataScience文章目录数据预处理与导入导入数据到数据库数据探索：Trade表统计缺失值信息用户数量：统计不同购买数量的用户商品类别每次购买数量时间跨度babyinfo表缺失值统计有信息的用户数量不同性别婴儿的数量探索分析销量信息按天统计每天的销量和活跃的用户数量观察销量在一周内的变化分析按月购买的情况：2015年春.

2021-03-08 21:37:07 1810 2

原创某在线商店电子产品销售数据分析-RFM分析方法

本文github地址：DataSicence数据下载链接：链接本文参考资料：链接import pandas as pd import numpy as np import matplotlib.pyplot as pltimport seaborn as sns #seaborn绘图包需要时最新版本数据读取event_time -购买时间order_id -订单编号product_id -产品编号category_id -产品的类别IDcategory_code -产品的类.

2021-03-03 22:33:47 1451 2

原创 seaborn可视化绘图工具使用手册

seaborn使用版本：0.11.1本文介绍了seaborn的使用接口，以及常用的长款表转换方法import seaborn as snssns.__version__'0.11.1'import matplotlib.pyplot as plt import pandas as pd import numpy as np Seaborn的使用结构seaborn的借口都是扁平的，都通过seaborn.xx()调用但是借口之间有上下级关系，存在着彼此调用seaborn的绘图.

2021-03-03 22:13:10 1262 1

原创 Docker入门（阿里云轻量应用服务器+xshell+xftp)

Docker入门（阿里云轻量应用服务器+xshell+xftp)本文参考资料：手把手带你完成docker提交Docker练习场步骤1购买服务器购买阿里云轻量级应用服务器（开发者计划，约10元/月）购买链接配置服务器root密码步骤2 安装docker安装xshell使用xshell登陆远程服务器安装docker## 需要先更新aptSudo apt-get update## 安装dockersudo apt install docker.io

2021-02-19 16:19:47 1210 3

原创 SQLsever常用语法与函数记录

本文主要记录在使用sqlserver数据库时，遇到的一些函数常用函数长宽表转换pivot函数– 使用方法：链接– 可以将长表转换为宽表SELECT <non-pivoted column>, [first pivoted column] AS <column name>, [second pivoted column] AS <column name>, ... [last pivoted column] AS <column .

2021-02-18 21:57:07 126

原创 SQL必刷50题

本文sql源文件下载地址：链接数据库系统：SQLserver2019 express版使用数据库查询编辑器：datagrip(非常好用，强烈推荐）部分题目略有难度，对理解知识点较有帮助创建数据库-- 创建框架create schema `schema`;--建表--学生表CREATE TABLE [schema].Student(s_id VARCHAR(20),s_name VARCHAR(20) NOT NULL DEFAULT '',s_birth VARCHAR(20).

2021-02-18 21:24:20 518

原创 MySQL常用知识点总结+使用技巧

总结了常用的sql语法与使用技巧MySQL常用知识点总结+使用技巧数据定义语言DDL插入insertalterdelete索引视图触发器查询常用语句：limitreplaceexistscase开窗函数over常用函数：计算函数字符串类函数日期类函数分组函数其他函数技巧总结数据定义语言DDL插入insert-- 插入多行INSERT INTO table(column1,column2...)VALUES (value1,value2,...), (value1,value2,.

2021-02-15 22:04:24 129

原创牛客网SQL题目解析（答案+解析+理解）

本文记录了牛客网sql全部题目的答案与难题解析，部分题目包含多种解法，并且涵盖了开窗函数等各种语法点的理解标题中高亮的题目，是易错题牛客网刷题链接：牛客网sql在线练习参考教程资源： mysql教程1 mysql教程21.where+子查询select * from employees order by hire_date desc limit 0,1; select * from employeeswhere hire_date = .

2021-02-15 20:14:18 5152

原创 Tableau可视化分析功能一览（雷达图、多维度地图、瀑布图等）

本文github项目地址：链接（数据集等文件）本文主要记录了Tableau数据分析入门教程（B站地址：链接)的课程记录和课后作业Tableau可视化分析功能一览使用体会豆瓣电影数据分析条形图（各国电影数量）直方图（电影评分分布）折线图（电影数量逐年变化）环形图（不同类型电影比例）树状图（电影评分与数量）气泡图（不同类型电影数量）标靶图（各国电影数量对比）地理符号图（各国电影数量与评分）面积图（电影数量变化）旋风图（中美各年电影数量对比）箱线图（不同产地电影评分）弧线图（电影强国数量对比）仪表盘（多图.

2021-02-08 15:44:15 2151 1

原创异常检测方法在时间序列数据上的应用综述（记录）

时间序列异常值检测综述介绍时间序列异常值检测的分类点异常样本的检测单变量时间序列基于模型的方法基于预测模型基于估计模型基于密度的方法基于直方图的方法多变量时间序列单变量方法多变量方法序列异常段的检测单变量时间序列多变量时间序列基于单变量检测方法基于多变量检测的方法异常时间序列的检测降维方法异常度评价未来研究方向降维方法异常度评价未来研究方向介绍异常值的定义：“An observation which deviates so much from other observations as to a

2021-02-04 17:21:27 1966 3

原创博客图片自动上传(Typora+Gitee+nodejs)

1 本地安装Typora2 注册gitee账号3 参考博文：链接进行设置4 在上传博文markdown时，就不用再辛苦上传图片了

2021-02-04 17:14:06 225

原创论文趋势分析-作者关系图谱

github：链接论文趋势分析专栏:链接论文趋势分析-作者关系图谱1数据预处理1.1数据读取1.2数据连接2统计机器学习领域的作者图谱2.1抽取机器学习领域的数据2.2绘制图谱2.3找到Machine Learning领域合作数量最多的作者2.3.1第一步生成连接图2.3.2按连接的边数进行排序2.4找到与Beygelzimer Alina'合作的作者2.5绘制与作者们与其他人合作的频率2.6绘制最大联通子图1数据预处理1.1数据读取# 导入所需的packageimport seaborn .

2021-01-20 16:28:49 2414 4

原创异常检测-高维数据的处理

github地址:链接异常检测-高维数据的处理1高维问题的困难2Feature bagging方法2.1feature bagging 原理2.2pyod feature bagging示例孤立森林3.1原理3.2示例：1高维问题的困难由于数据维度的上升，数据的样本空间会呈指数级别增长，使得数据变得稀疏维度越高，计算距离的计算量越大，并且由于空间的稀疏性，很多点之间的距离相差都不大2Feature bagging方法2.1feature bagging 原理参考：链接bagg.

2021-01-19 19:36:26 1764 1

原创异常检测_基于相似度的方法

github 地址：链接异常检测-基于相似度的方法1常用方法2Pyod中基于相似度的异常检测函数3LOF方法示例1常用方法基于距离的度量基于单元基于索引基于密度的度量2Pyod中基于相似度的异常检测函数LOF基于密度检测方法。可量化每个数据点的异常程度。适用中等高维数据。COF类似于LOF，但密度估计不一样。LOF是基于欧氏距离的，即默认数据是以球形分布的，假设是特征是线性相关的，LOF就无能为力。COF中，近邻的局部密度是基于最短路径方法求得的，亦称链式距离（.

2021-01-19 19:29:02 611 3

原创论文趋势分析-多标签文本分类

github地址：链接多标签文本分类简介：链接论文趋势分析-多标签文本分类1数据预处理1.1数据读取1.2文本提取1.3类别转换1.4将目标数据（论文大类）二值化2TF-IDF+机器学习分类器2.1分词2.2数据集划分2.3多分类贝叶斯模型2.4XGBoost模型3深度学习模型3.1分词与embedding3.2定义模型并训练1数据预处理1.1数据读取为方便处理，随机抽样10%的数据进行分析import seaborn as sns #用于画图from bs4 import Beaut.

2021-01-19 10:34:05 829 2

原创论文趋势分析-论文属性分析

github地址:链接论文趋势分析-论文属性分析1数据读取2 提取论文的页数，图表数量2.1抽取所有论文的页数2.2按类别统计论文页数2.2.1不同大类论文的平均页数2.2.2计算机科学领域的页数排名2.3对论文图表个数进行统计2.3.1不同大类论文图表数量的统计2.3.2计算机领域论文图标数量（前15）2.4统计有开源代码的论文数量2.4.1统计不同大类论文包含有开源代码的论文数量2.4.2统计计算机科学包含代码论文的数量（前15个）1数据读取# 导入所需的packageimport seab.

2021-01-18 13:46:33 933 3

原创异常检测-线性检测模型

github:链接这里写目录标题1线性模型的方法2数据可视化2.1导入数据集2.2观察数据统计特征2.3相关性分析2.4绘制变量的概率分布图2.5绘制变量两两之间的相关性2.6数据降维3pyod包的pca函数3/1PCA方法检测异常值的基本原理3.2pyod.pca函数3.3pyod.pca示例生成数据训练模型训练结果4 对breast-cancer数据集进行异常分析1线性模型的方法线性回归主成分分析前提假设:近似线性相关子空间假设大致意思就是，数据在生成过程中，由于是同一种内在.

2021-01-17 20:39:36 482

原创异常检测 - 基于统计学的方法

github 地址：链接目录异常检测—基于统计学的方法参数方法非参数方法HBOS方法实践pyod中hbos函数简介hbos实例生成数据使用HBOS进行预测预测结果生成热力图异常检测—基于统计学的方法参数方法假定正常的数据对象被一个以Θ\ThetaΘ为参数的参数分布产生。该参数分布的概率密度函数f(x,Θ)f(x,\Theta)f(x,Θ)给出对象xxx被该分布产生的概率。该值越小，xxx越可能是异常点。基于正态分布的一元异常点检测x(i)∼N(μ,σ2)x^{(i)}\s.

2021-01-15 21:11:41 638

原创论文趋势分析——数据理解与分析

github地址：链接论文趋势分析1数据转换1.1读取原始数据1.2爬取论文类别数据1.3取data的子集进行处理1.4对categories进行处理1.5数据连接1.6存储转换后的数据，后面可以直接进行读取2数据探索性分析2.1 查看数据的缺失信息2.2统计不同大类的论文数量2.3按年度统计论文数量的变化2.4按月份统计论文发表数量2.5统计不同小类论文的数量3使用BI软件进行数据可视化分析3.1 不同年份计算机领域发表数量前五的领域3.2计算机领域论文数量对比3.3CV,ML等领域论文数量变化趋势.

2021-01-12 22:40:21 1730

空空如也

空空如也