机器学习
文章平均质量分 64
YUAnthony
这个作者很懒,什么都没留下…
展开
-
NLP 样本不平衡问题
1. 什么是样本不平衡问题?所谓的样本不平衡问题指的是数据集中各个类别的样本数量不均衡。以二分类问题为例,通常情况下把样本类别比例超过4:1的数据就可以称为不平衡数据,极端情况下正负样本比例有可能达到1:1000。2. 如何解决样本不平衡问题1. 数据重采样数据重采样方法是指对训练数据进行重新采样,从而让各个类别数量接近,具体分为过采样和欠采样两种思路。最简单的过采样方法是对小类别的样本进行重复随机采样,补充到小类别当中,直到小类别样本数据量增大到符合要求为止(当然另一个更直接的方法是复制小类别样原创 2021-11-08 14:44:54 · 1247 阅读 · 0 评论 -
NLP 新宠 prompt
0. NLP 的四种范式最近几年,有人将近代 NLP 技术的发展总结为四种范式,他们分别是:P1. 非神经网络时代的完全监督学习 (Fully Supervised Learning, Non-Neural Network)P2. 基于神经网络的完全监督学习 (Fully Supervised Learning, Neural Network)P3. 预训练,精调范式 (Pre-train, Fine-tune)P4. 预训练,提示,预测范式 (Pre-train, Prompt, Predict原创 2021-11-05 12:29:49 · 1439 阅读 · 0 评论 -
空闲 GPU 检测脚本
深度学习的任务往往需要花费很多训练时间,有的时候训练可能在深夜结束,人不在电脑前无法第一时间知道任务结束情况,GPU 只能空闲在那里而无法执行下一个训练任务。为了提高效率我们可以写一个脚本检测 GPU 使用情况。# author: Anthonyimport osimport sysimport timecmd = 'python main.py'def gpu_info(gpu_index): gpu_status = os.popen('nvidia-smi | grep原创 2021-10-22 19:19:10 · 868 阅读 · 0 评论 -
人脸识别 - Viola-Jones Recognition
在人脸识别领域,有时候 Pixel intensities 并不是最佳的图像特征,它们变化很大,图像质量受光照和视点的影响很大。为此 Paul Viola 和 Michael Jones 于 2001 发表论文: “Rapid Object Detection using a Boosted Cascade of Simple Features”, 提出一个基于机器学习的传统图像处理算法——在 AdaBoost 算法的基础上,使用 Haar-like 小波特征(简称类haar特征)和积分图方法进行人脸检测。原创 2021-03-18 15:19:39 · 532 阅读 · 0 评论 -
Keras load model 导入自定义函数
Keras 是一个强大的深度学习框架,我习惯用 ModelCheckpoint 的方式将模型保存为 hdf5 格式,然后再用 load_model 函数加载模型。今天跑实验的时候却报了一个 error,如下:ValueError: Unknown loss function: dice_coef_loss原来 load_model 加载的是默认的 loss function, 而 dice_coef_loss 是我自己定义的 loss function,那么怎么调用自定义的函数呢?答案是加一个 cu原创 2021-03-12 22:13:54 · 2388 阅读 · 0 评论 -
输出 tensor object 的值
今天早上我想通过获得两张图片的 dice coefficient 值score = dice_coef(prediction[1],groundTruth[1])print(score)print 的结果却是这样的信息tf.Tensor(0.7923989514988125, shape=(), dtype=float64)那么如何直接输出 0.7923989514988125 这个值呢?在此之前我们先研究下 Tensor 是个什么东西。TensorFlow 是一个定义和运行张量计算的框架。张原创 2021-02-10 13:38:20 · 759 阅读 · 1 评论 -
Logistic Regression - IBM 员工离职预测
公司从招聘到培训一名员工,每个环节都需花费不少的资源,而一个员工的离职多多少少会给公司带来损失,为了了解员工离职的原因并预测潜在的离职对象,IBM 公布了他们真实的员工信息并提出以下问题陈述:“预测员工的流失,即员工是否会减员,考虑到员工的详细信息,即导致员工流失的原因”本文将利用 logistic regression 来探索这一问题。1. 前期准备import matplotlib.pyplot as pltimport pylab as plimport pandas as pdimpo原创 2020-06-24 23:53:37 · 2627 阅读 · 1 评论 -
初识主成分分析 (PCA)
1. 一个小故事本部分以知乎用户 论智 对CrossValidated的人气答主 amoeba 的文章的翻译为基础,做了一定量的修改。 原文 Making sense of principal component analysis, eigenvectors & eigenvaluesamoeba设想了一个大家庭聚餐的场景,大家突然对PCA是怎么回事很感兴趣,于是你逐一向家庭成员(曾祖母,祖母,母亲,妻子,女儿)解释,每个人都比上一个人内行一点。曾祖母:我听说你正研究P……C……A。我想原创 2020-06-16 18:49:33 · 2828 阅读 · 1 评论 -
随机森林算法简介
今天在练习 Kaggle 的项目时,发现网上很多博主都选择用 RandomForest (随机森林)算法训练模型,虽然最后参照他们的写法我也写出来了,但是没有很明白其中的原理,在此打算深入了解一下这个算法。1. 什么是随机森林随机森林是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。在集成学习中,主要分为 bagging 算法 和 boosting 算法,而这里的随机森林则主要运用了 bagging原创 2020-06-05 23:03:40 · 16506 阅读 · 0 评论