自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 数据挖掘之电信客户流失预测挑战赛

机器学习、数据挖掘、特征工程

2022-06-16 23:55:45 497 1

原创 算法课程作业

一、把这个代码的网络结构化出来,画图出来二、emb_sum这个函数的逻辑,用文字表达出来三、minibatch + ranking model样本结合起来,评估一下效果以a9a为训练集,利用train_3.py训练模型,在a8a上进行测试,评估指标AUC值为0.817251四、模型对比1.增加一层隐藏层,第一个隐藏层数据维度为32→20,第二个隐藏层数据维度为20→10。在a9a训练集上的最高精度为0.829。在a8a上进行测试,评估指标AUC值为0.804259。增..

2022-04-26 16:10:01 378

原创 算法课程作业

一、逻辑回归的公式推导二、GD和SGD的逻辑梳理1.GDstep1:初始化参数w,b,得到预测值,计算所有训练样本的预测值与真实值之间的损失函数step2:利用损失函数计算损失函数对各参数的梯度,step3:根据梯度的负方向,对各参数进行更新step4:判断是否达到停止训练条件,达到退出训练,否则继续执行step2~step42.SGD与GD原理一致,不同点在于GD利用所有训练样本计算梯度,而SGD仅利用一个样本便进行一次参数更新,优点是计算速度快,但需要更多的迭代次数

2022-04-17 17:56:05 446

原创 算法课程作业

一、文章分类重写了部分代码,原代码利用各类文章中词语的次数进行条件概率计算,我改为利用各类文章中词语出现的文章篇数进行条件概率计算import os二、面试题1、朴素贝叶斯算法,对缺失值、异常值是否敏感?朴素贝叶斯是一种对缺失值不敏感的分类器,朴素贝叶斯算法能够处理缺失的数据,在算法的建模时和预测时数据的属性都是单独处理的。因此如果一个数据实例缺失了一个属性的数值,在建模时将被忽略,不影响类条件概率的计算,在预测时,计算数据实例是否属于某类的概率时也将忽略缺失属性,不影响最终结果。

2022-04-17 15:22:51 1007

原创 算法课程作业

第四次作业一、"广州塔"例子利用隐马模型对未登录词进行切分每个字的状态在词表中以<词的位置,词性>存储,每个字的状态有多种,不同字各状态之间有转移概率,利用Viterbi算法寻找最大概率(由初始概率,状态转移概率和发射概率组成),根据各字的状态可以完成未登录词的切分二、Viterbi算法1.利用CreateGraph函数找出待分字段S中所有可划分出的词,得到名为WordGraph的嵌套列表,共(len(S) + 2)个列表,第一个和最后一个代表标识位,其余列表表示一个节点,由

2022-04-12 11:22:18 251

原创 文本相似度

1 import jieba 2 import math 3 4 sentenceA = "这只皮靴号码大了,那只号码合适" 5 sentenceB = "这只皮靴号码不小,那只更合适" 6 7 jieba.add_word('这只') 8 jieba.add_word('那只') 9 jieba.add_word('大了') 10 jieba.add_word('不') 11 jieba.add_word('小') 12 jieba.add_word('更'...

2022-04-07 15:36:44 44

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除