数据分析与机器学习
文章平均质量分 84
商务智能与数据挖掘|数理统计与分析|机器学习算法复盘
我是女生,我不做程序媛
这个作者很懒,什么都没留下…
展开
-
ChineseBERT使用指北
bert是语义模型,因此无法解决形近字、音近字的问题。ChineseBERT主要引入了文本的拼音编码和字形编码解决上述问题。原创 2023-06-14 18:39:27 · 771 阅读 · 0 评论 -
GNN图神经网络
图神经网络是一个相对宽泛的概念,本质是每个节点embedding都要融合邻居的特征,根据具体融合方式的不同又衍生出了下面各种具体模型。最简单的GNN消息传递可以看做fc,所有邻居节点以权重w向当前节点加权,最终取一个mean/max/min等激活函数。embedding,W是可训练参数。调整后的邻接矩阵即对原始邻接矩阵做。增加了attention结构,计算。之间的相似度,进行加权。原创 2023-05-11 10:20:54 · 739 阅读 · 2 评论 -
BatchNormalization和LayerNormalization的理解、适用范围、PyTorch代码示例
学习神经网络归一化时,文章形形色色,但没找到适合小白通俗易懂且全面的。学习过后,特此记录。原创 2023-04-25 19:17:30 · 616 阅读 · 0 评论 -
python爬虫反反爬机制:动态User-Agent+动态ip
ip是计算机在网络中的地址,如果同一个ip同时访问该网站,即使换了user-agent依然会被识破。User-Agent是浏览器的头部信息,不设置时会被识别出Python。因此一般将自己的浏览器User-Agent传入。网络上有很多免费的ip地址,但是对我们的目标网站不一定能用,因此需要先进行测试。这里直接贴代码(来源:置顶连接)代码可以直接用,需要改的只是test_url换成你要爬取的目标网站,因为同一个ip对不同目标网站也不一定能访问。url是我们免费爬取ip地址的网站,这里也可以换成其他免费网站。原创 2023-03-23 11:32:09 · 1373 阅读 · 0 评论 -
论文笔记(2):Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
chain-of-thought提示学习,推理任务中间链原创 2023-02-06 19:45:39 · 2461 阅读 · 2 评论 -
从零开始的tensorflow小白使用指北
数据准备、模型准备、模型训练、保存和加在预训练模型原创 2022-08-03 18:04:09 · 567 阅读 · 1 评论 -
inductive learning和transductive learning最最简单易懂的解释 | 算法举例
文章目录概念定义算法举例区别实例网上很多大神对inductive learning和transductive learning进行了原理层面的讲解,并且给出了数学符号进行严谨定义。但机器学习小白理解起来还是有些费劲,本文力求用最最简单易懂的语言介绍二者的定义和区别。概念定义inductive learning:归纳学习,从特殊到一般;transductive learning:转导学习,从特殊到特殊。算法举例文字性的叙述一大堆很难看明白,但先上例子其实就很容易自己get到二者的区别了。indu原创 2022-03-14 14:59:19 · 2719 阅读 · 1 评论 -
Keras保存训练过程中的最好模型
以xDeepFM为例保存模型参数from deepctr.models import xDeepFMmodel = xDeepFM(...)model.compile(...)model.fit(...)# save_weightsmodel.save_weights('... .h5')读取h5模型model = xDeepFM(...)# load_weightsmodel.load_weights('... .h5')由于h5文件保存的是模型参数,因此模型结构需要自己手动构原创 2022-01-05 16:03:19 · 3314 阅读 · 0 评论 -
大厂面试机器学习算法(0):特征工程 | 数据预处理
文章目录数据分桶(分箱)卡方分桶等距分桶等频分桶聚类分桶数据规范化min-max normalizationz-score数据清洗数据缺失噪音数据数据不一致特征选择与特征提取特征选择特征提取数据分桶(分箱)概念数据分桶是一种数据预处理技术,通过对连续变量离散化,提高模型性能。意义离散后的特征对异常值更有鲁棒性,尤其避免极端异常值的干扰;特征离散后模型更稳定,不会因为特征值的轻微变化而改变结果;稀疏向量内积乘法运算速度快,算法速度更快,也便于存储。分桶方法有监督:best-ks分桶和卡原创 2021-12-15 15:51:17 · 1467 阅读 · 0 评论 -
机器学习中的矩阵向量求导
文章目录向量对向量求导的链式法则标量对多个向量的链式求导法则标量对多个矩阵的链式求导法则向量对向量求导的链式法则假设多个向量存在依赖关系,比如三个向量????→????→????存在依赖关系,则我们有下面的链式求导法则:∂????∂????=∂????∂????∂????∂????\frac{∂????}{∂????}=\frac{∂????}{∂????}\frac{∂????}{∂????}∂x∂z=∂y∂z∂x∂y 该法则也可以推广到更多的向量依赖关系。但是要注意的是要求所有转载 2021-12-01 15:53:06 · 205 阅读 · 0 评论 -
大厂面试机器学习算法(6)时间序列分析
文章目录序列特征构造时间序列分析任务- Indexing/Query by Content- Clustering- Classification- Segmentation/Summarization- Prediction- Anomaly Detection- Motif Discovery时间序列分析算法Autoregression, Moving Average系列- Autoregression (AR)- Moving Average (MA)- Autoregressive Moving A原创 2021-10-26 17:06:20 · 3135 阅读 · 1 评论 -
团伙挖掘算法整理
团伙挖掘技术调研文章目录模块度优化LouvainLeiden标号传播DeepWalk经典的DeepwalkGEMSEC频谱聚类经典的频谱聚类Multi-view clustering经典的multi-view clusteringGMCGNNDMoNSDCNO2MACLGNNMatrix Factorization经典的NMF (Nonnegative Matrix Factorization)NSEDMNMFDANMFGenerative ModelCommunityGANSupplementary模原创 2021-09-23 18:37:08 · 1664 阅读 · 0 评论 -
频谱聚类|拉普拉斯矩阵
文章目录频谱聚类的概念拉普拉斯矩阵频谱聚类的步骤频谱聚类的概念频谱聚类的本质是利用样本间的相似度,降维后使用聚类算法进行节点聚类。其中用到的拉普拉斯矩阵的特征值被成为“谱”。拉普拉斯矩阵① 样本相似度矩阵S:我们有n个样本,利用某种相似度度量方法可以获得两两样本之间的相似度。如使用高斯相似度:Si,j=exp(−∣∣xi−xj∣∣222σ2)S_{i,j}=exp(-\frac{||x_i-x_j||_2^2}{2\sigma^2})Si,j=exp(−2σ2∣∣xi−xj∣∣22)原创 2021-09-03 16:40:38 · 1035 阅读 · 0 评论 -
机器学习零散笔记:一些概念和注意
文章目录Matrix Factorizationencoder-decoder | auto-encoder在文字上的例子:搜索引擎,用query搜索documentMatrix Factorization以电影为例,电影可能具有一些隐藏因子:演员、题材、主题、年代……,而用户针对这些隐因子有偏好特征属性,为了便于理解,我们假设隐因子数量 k 是 2,分别代表着喜剧片和动作片两种题材,矩阵分解后的两个小矩阵,分布代表着电影对这两种题材的符合程度以及用户对这两种题材的偏好程度,如下图:encoder-原创 2021-08-27 14:44:55 · 334 阅读 · 0 评论 -
大厂面试机器学习算法(5)推荐系统算法:从wide&deep说起
推荐系统CTR算法汇总原创 2021-08-20 13:36:15 · 1332 阅读 · 0 评论 -
大厂面试机器学习算法(4)提升树模型:GDBT、XGBoost、LightGBM(未完待续)
文章目录Xgboost简介整体介绍计算叶子阶段的权重构建第k棵树的结构常见面试问题如何实现并行?学习率的作用?如何处理缺失值?Xgboost简介XGBoost的全称是eXtreme Gradient Boosting,它是经过优化的分布式梯度提升库,旨在高效、灵活且可移植。XGBoost是大规模并行boosting tree的工具,它是目前最快最好的开源 boosting tree工具包,比常见的工具包快10倍以上。整体介绍xgboost是集成了K棵树之后的集成模型,如下图所示。每个样本需要经原创 2021-08-20 13:25:01 · 1373 阅读 · 0 评论 -
Community detection|模块度含义理解|Louvain算法
文章目录Community detection:团伙挖掘/社团发现Modularity:模块度模块度增益Louvain算法Community detection:团伙挖掘/社团发现利用图拓扑结构中蕴藏的信息,从复杂网络中解析出存在密切联系的节点(团伙)。Modularity:模块度度量社区划分优劣的指标,直观上表示某社团划分状态下,社团内部连边数量与该划分下随机连边数量的差值。计算公式如下:Q=12m∑i,j[Aij−kikj2m]δ(ci,cj)=12m∑i,jAijδ(ci,cj)−∑i,j原创 2021-08-17 17:07:49 · 1676 阅读 · 3 评论 -
大厂面试机器学习算法(2)回归算法常考问题
文章目录线性回归、Lasso回归、岭回归损失函数线性回归、Lasso回归、岭回归损失函数线性回归:J(θ)=12m∑i=1m(h(x(i))−y(i))2J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h(x^{(i)})-y^{(i)})^2J(θ)=2m1∑i=1m(h(x(i))−y(i))2Lasso回归:J(θ)=12m∑i=1m(h(x(i))−y(i))2+λ∑j=1n∣θ∣J(\theta)=\frac{1}{2m}\sum_{i=1}^m(h(x^{(i原创 2021-07-13 18:09:53 · 170 阅读 · 0 评论 -
大厂面试机器学习算法(1)SVM常考问题
网易有道数据挖掘面试题:介绍svm的原理字节跳动机器学习算法面试题:手推svm过程今天整理一下面试常考问题。文章目录1. SVM算法原理2. SVM与感知机(Perceptron)的区别3. 什么是支持向量4. 手推SVM原理1. SVM算法原理SVM的基本原理是求解能够正确划分训练数据集并且几何间隔最大的超平面。如图1, wx+b=1wx+b=1wx+b=1和 wx+b=−1wx+b=-1wx+b=−1 即为所求超平面。2. SVM与感知机(Perceptron)的区别感知机所求超平面为原创 2021-07-12 12:20:05 · 535 阅读 · 0 评论 -
粒子群算法原理|python实现|参数调优
粒子群算法是比较有名的群体智能算法之一,其他群体智能算法还包括蚁群算法、鱼群算法、人工蜂群算法等。今天为大家介绍粒子群算法。文章目录算法原理优化过程二元函数优化算法原理粒子群算法来源于鸟群的觅食行为,一群鸟随机寻找区域内唯一食物的位置,粒子群算法中的粒子就是鸟群中的小鸟。该算法最重要的三个变量即每只鸟拥有的信息:自己当前位置距离食物的距离(适应度P,是目标函数的映射)、飞行速度(向量V)、当前位置(坐标X)。优化过程与大多数机器学习算法一样,粒子群算法的初始值随机确定。在每次鸟群按照当前速度飞原创 2021-05-28 10:39:16 · 9272 阅读 · 5 评论 -
模型泛化性能分解——偏差+方差+噪音|过拟合与欠拟合|信度与效度
对于机器学习或其他数学模型的算法,评价其泛化性能不仅要从testing error的角度考虑,还要了解它“为什么”具有这样的性能。今天,以回归任务为例,从算法的期望泛化误差分解入手,理解一下偏差(bias)、方差(variance)、噪音(noise)的含义。在这个过程中,可以顺便将信度与效度检验、过拟合与欠拟合的知识点串联起来。文章目录泛化误差分解指标含义的解释过拟合与欠拟合信度与效度检验泛化误差分解规定符号:x表示测试样本,yDy_DyD为x在数据集中的标记,y为x的真实标记,f(x;D)为训原创 2021-04-05 16:03:15 · 961 阅读 · 0 评论 -
决策树信息增益|信息增益比率|基尼指数实例
今天以周志华老师的西瓜为例,复盘一下三种决策树算法。文章目录信息增益(ID3算法)信息增益比率(C4.5算法)基尼指数(CART算法)数据:信息增益(ID3算法)信息熵表示信息的混乱程度,熵越大数据越混乱。分类的目的是为了使同一类别的数据尽可能“纯净”,因此追求尽量小的信息熵。信息增益表示分类前后信息熵的差值。分类前信息熵是定值,分类后信息熵越小,信息增益越大。因此我们追求尽量大的信息增益值。entropy(D)表示未分类时数据D的信息熵:entropy(D)=−∑i=1kp(ci)log2原创 2021-03-18 11:21:35 · 2684 阅读 · 5 评论 -
熵权法计算权重原理&python实现
信息熵越大,信息量到底是越大还是越小?权重和信息熵的大小到底是正相关还是负相关?网上有一些相反的说法。有些说:熵越大,方差越大,包含的信息越多,权重越大。另一些说:熵越小,不确定性越小,提供的信息越大,权重越大。今天复盘一下熵权法计算权重的原理,并python实现。文章目录熵权法计算权重原理信息熵计算熵权法计算熵权悖论的解释Python实现信息熵求权重熵权法计算权重原理信息熵计算熵是对混乱程度的一种度量。混乱程度越大,熵就越大,包含的信息量越大;混乱程度越小,熵就越小,包含的信息量就越小。原创 2021-02-24 20:45:17 · 12679 阅读 · 9 评论