自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 平台订单数据分析

平台订单数据分析文章目录背景时间相关分析商品相关分析背景该平台用户年龄主要集中在18—24岁,且男性用户占比较大,一二线城市用户较为集中,主要售卖漫展门票及手办等。时间相关分析**订单数量趋势:**发现在晚上8点至凌晨的订单量较高,这与用户画像比较一致,年轻人比较喜欢熬夜;在白天尤其是在早上订单量比较低。**客单价趋势:**在一天中客单价也会发生变化,发现在21—23时的客单价会比白天稍高一些;而4时出现超高客单价,查看原始数据,该时订单少,且出现土豪购买超高价商品,同时也发现这些土豪均来源

2021-02-28 10:16:18 852

原创 Dash+Plotly作品

部署地址:https://shushike.herokuapp.com/(打开较慢,约2分钟)

2020-06-07 10:08:12 971 5

转载 pyecharts、plotly图表插入PPT中

目录准备操作准备一份pyecharts或plotly做好的一份图表html文件目前好像只有windows上才能使用,mac不行,我使用的版本window10虚拟机,office2016操作添加Office Apps Fiddle for PowerPoint把你制作好的html文件代码拷贝进来第一次会出现失败关掉后重新运行大功告成!!!纯粹参考别人链接,只做记录...

2020-05-02 11:03:28 5436 1

原创 部署Plotly-Dash到Heroku

目录账号准备文件准备部署账号准备注册Heroku账号,有时候可能会登不上去,需要挂个梯子(注:163、qq邮箱注册不了,新浪邮箱可以)下载Heroku Toolbelt客户端安装Git文件准备一个Plotly-Dash代码文件,文件名:run.pyimport dashimport numpy as npimport pandas as pdimport plotly....

2020-05-02 10:30:43 841

原创 lasso与ElasticNet的实现(坐标下降和ADMM)

文章目录坐标下降法LassoElastic NetADMM法LassoElastic Net坐标下降法Lasso目标函数J(w)=∑i=0N(yi−∑j=0Dwjhj(xi))2+λ∑j=0D∣wj∣J(w)=\sum_{i=0}^{N}\left(y_{i}-\sum_{j=0}^{D} w_{j} h_{j}\left(x_{i}\right)\right)^{2}+\lambda \s...

2020-04-07 16:06:33 3014 2

原创 Adaboost、GBDT和XGBoost

AdaboostAdaBoost(Adaptive Boosting自适应增强):前一个基本分类器分错的样本会得到加强,加权后的全体样本再次被用来训练下一个基本分类器。同时,在每一轮中加入一个新的弱分类器,直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数。Adaboost 迭代算法:初始化训练数据的权值分布。如果有N个样本,则每一个训练样本最开始时都被赋予相同的权值:1/N。...

2020-03-28 11:46:58 151

原创 评分卡

import scipyimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom imblearn.over_sampling import SMOTEfrom sklearn.linear_model import LogisticRegression as LRfrom sklearn.mode...

2020-03-27 20:10:24 207

原创 层次聚类和Kmeans

文章目录层次聚类层次聚类流程层次聚类优缺点Kmeans聚类Kmeans聚类流程K-Means的优缺点层次聚类层次聚类流程(1) 计算两两样本之间的距离;(2) 将距离最小的两个类合并成一个新类;(3) 重新计算新类与所有类之间的距离;(4) 重复(2)、(3),直到所有类最后合并成一类。import scipyimport scipy.cluster.hierarchy as sc...

2020-03-26 15:28:39 1281

原创 PCA

X=(x11x12⋯x1px21y22⋯x2p⋮⋮⋮xm1xm2⋯xmp)=(x1,x2,...,xp)X=\left(\begin{array}{cccc}x_{11} & x_{12} & \cdots & x_{1 p} \\x_{21} & y_{22} & \cdots & x_{2 p} \\\vdots & \vdots ...

2020-03-25 22:34:50 159

原创 租房爬虫+可视化

目录整体趋势价格因素租房消费心血来潮,又处于三月毕业季,想到明年此时就要租房,遂爬虫爬取链家网站上海市各区租房信息,提前了解租房市场行情。获取上海16个区共21916条数据,在删去部分缺失严重的数据及部分明显异常的数据后,获得17840条数据,所有图像均使用pyecharts。整体趋势结论1:从房屋数量上看,浦东最多,闵行次之,而郊区租房数量较少;结论2:从每平米租房均价看,市中心价格...

2020-03-22 10:02:45 2050 9

原创 EM、HMM、CRF

文章目录EM算法隐马尔可夫模型(HMM)EM算法现实场景,当统计数据时,发现在统计身高时,只记录了身高的数据,但是忘记统计性别是男还是女,这个时候如何估计样本的数据的性别呢?θ\thetaθ:模型参数xxx:身高数据zzz:隐变量,男或女隐马尔可夫模型(HMM)...

2020-03-13 19:11:30 260

原创 支持向量机

max⁡2∥w∥ s.t. wTxi+b⩾1,ifyi=1wTxi+b≤−1,ifyi=−1\begin{array}{ll}\max &\quad\quad\displaystyle\frac{2}{\|w\|} \\\text { s.t. } &w^{\mathrm{T}} x_{i}+b \geqslant 1, \quad if \qu...

2020-03-10 15:13:42 247

原创 机器学习中杂七杂八指标总结

交叉验证评估指标真实值是positive,模型认为是positive的数量(True Positive=TP)真实值是positive,模型认为是negative的数量(False Negative=FN):这就是统计学上的第一类错误(Type I Error)真实值是negative,模型认为是positive的数量(False Positive=FP):这就是统计学上的第二类错误(Ty...

2020-03-09 16:43:54 367

原创 逻辑回归

逻辑回归目标函数一个模型是线性还是非线性是这个模型的决策边界所决定的,因此逻辑是线性的分类器。P(yi=1∣xi)=11+e−βTxiP(yi=0∣xi)=1−11+e−βTxi\begin{array}{c}P\left(y_{i}=1 | x_{i}\right)=\frac{1}{1+e^{-\beta^{T} x_{i}}} \\ P\left(y_{i}=0 | x_{i}\ri...

2020-03-08 14:02:41 121

原创 在gitee上部署网页

其实也可以在github上部署,但是访问速度慢,因此可以选择在gitee部署。1.新建仓库2.下载仓库到本地打开终端git clone +复制内容在本地电脑会发现仓库命名的文件夹将你制作好的网页放进去,名字一定要改成index!!!cd 仓库名称git add --allgit commit -m "report_Universal_202002_no_analy...

2020-03-07 11:56:26 2856

原创 NLP笔记

NLP处理流程

2020-03-02 20:36:35 320

原创 算法复杂度

Merge Sort问题要求将A列表进行排序操作(假设该排序算法的复杂度为T(n)T(n)T(n)),那么可以将其对半分,分成子问题1(复杂度为T(n2)T(\frac{n}{2})T(2n​))和子问题2(复杂度为T(n2)T(\frac{n}{2})T(2n​)),然后将子问题1和子问题2中的元素一个一个对比,最终得到最后的排序复杂度为O(n)O(n)O(n),如果是分成三个子问题,复杂度为...

2020-03-01 14:48:16 132

原创 Tableau画图笔记

最近在学习如何用Tableau画图,记录一下条形图与柱状图条形图是用来观察数据每个类别的大小,而直方图是主要用来观察数据的分布

2020-02-26 15:47:19 304

原创 Self-Attention与Transformer

1.由来在Transformer之前,做翻译的时候,一般用基于RNN的Encoder-Decoder模型。从X翻译到Y。但是这种方式是基于RNN模型,存在两个问题。一是RNN存在梯度消失的问题。(LSTM/GRU只是缓解这个问题)二是RNN 有时间上的方向性,不能用于并行操作。Transformer 摆脱了RNN这种问题。2.Transformer 的整体框架输入的x1,x2x...

2020-02-18 13:38:41 2075

原创 语言模型

语言模型Chain rule以及马尔科夫假设Unigram、Bigram和N-gram估计语言模型的概率评估语言模型-PerplexityAdd-one平滑(拉普拉斯平滑)、Add-K平滑Interpolation平滑...

2020-02-16 13:44:10 287

原创 mac下pyspark安装

mac下pyspark安装1.安装mac版vagranthttps://www.vagrantup.com/downloads.html2.安装VirtualBoxhttps://www.virtualbox.org/wiki/Downloads3.安装虚拟机#创建目录vagrantmkdir vagrant#进入目录cd vagrant#创建目录centosmkd...

2019-12-15 20:30:48 316

原创 Mac安装LightGBM

Mac安装LightGBM1.安装编译相关软件brew install cmakebrew install gcc 或是brew install gcc@72.下载lightgbmgit clone --recursive https://github.com/Microsoft/LightGBMcd LightGBMmkdir build ; cd buildcmake ...

2019-12-15 09:26:36 124

原创 MAC系统下终端python2.7与python3之间的切换

MAC系统下终端python2.7与python3之间的切换1.mac下python2.7路径/System/Library/Frameworks/Python.framework/Versions/2.7/bin/python2.mac下python3.7路径/Users/shushike/opt/anaconda3/bin/python3.终端下更改默认pythonope...

2019-12-14 13:15:25 705

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除