自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 资源 (2)
  • 收藏
  • 关注

转载 Github SSH免密与Token登录配置

Github 免密登陆

2022-06-08 14:09:38 610

原创 Python+PEP8 | VSCode自动格式化代码

PEP8 coding style

2022-05-09 18:04:30 4206

原创 wandb | Permission denied ‘/tmp/debug-cli.log‘

wandb 使用记录

2022-05-09 15:00:26 1423 1

原创 Python: dict vs defaultdict

default 相较于 dict 的好处在于当字典的 key 不存在但被查询时返回一个默认值而不是报错from collections import defaultdictdict1 = defaultdict(int)dict2 = defaultdict(set)dict3 = defaultdict(str)dict4 = defaultdict(list)dict1[2] ='two'print(dict1[1])print(dict2[1])print(dict3[1])p

2022-04-24 21:03:42 1056

原创 工作指令集和 (Git,DVC等)

Git查看当前分支:git branch重命名远程分支:https://segmentfault.com/a/1190000019539669

2022-04-13 16:24:49 130

原创 Error: Device or resource busy

今天遇到一个 bug 是说 Device or resource busy,网上 search 了一下发现有可能是其他进程正在占用这个文件。解决方法1. lsof |grep 文件名 命令查看哪个进程在使用该文件2. 找到进程号,kill -9 进程号这样子就可以解除占用了...

2022-04-13 11:52:14 24291

原创 DVC 使用流程

dvc 快速上手

2022-04-11 15:14:32 1822

原创 GeForce RTX 3090 with CUDA capability sm_86 is not compatible with the current PyTorch installation.

问题描述今天遇到了如题所示的一个问题,原因可能是因为 torch 版本的问题。原先我是直接 pip install torch 默认下载最新版本的 torch。解决方案删除原来的 torchpip uninstall torch重新安装 torchpip install torch==1.7.0+cu110 torchvision==0.8.1+cu110 torchaudio===0.7.0 -f https://download.pytorch.org/whl/torch_stab

2022-02-16 15:42:51 940

原创 关于 ‘sndfile‘ 踩过的坑

消灭 Bug !

2022-01-07 15:11:33 3635 2

原创 多模态商业应用

最近在研究多模态技术,发现这个领域确实是一片蓝海。所谓多模态,简单的理解就是不同于 CV,NLP 在单个领域的研究,它融合了音频、视频、文本、商品模态等信息,为不同下游任务提供强有力的技术支持。在这篇文章中,我将整理自己最近浏览的知识(也是作为自己回顾的资料)。短视频多模态应用代表应用:淘宝视频分类,阿里文娱多模态视频分类,抖音短视频分类淘宝视频多模态AI算法在淘宝,短视频业务一直非常重要,视频销售已经成为品牌方最爱的营销方式。如何对规模庞大的视频进行内容化理解并个性化推荐变得极为重要。算.

2021-12-26 15:37:35 2960 1

原创 本地访问远程 Tensorboard

在日常炼丹的过程中我们一般会把模型挂在远程服务器上进行训练,工程师监督训练的方式有 wandb 和 tensorboard。今天我来解释一下如何在本地的浏览器中打开远程服务器上的 tensorboard log (此方法适用于 MAC 用户)。MAC终端连接 ssh,将服务器的6006端口(或者其他没有被占用的端口都行,比如6007…)重定向到自己机器上来,在本地终端,输入以下命令:ssh -L 16006:127.0.0.1:6006 username@remote_server_ip说明:

2021-12-01 10:49:30 699

原创 远程服务器访问 JupyterLab

楼主原先为了数据可视化都是在本地 JupyterLab 做数据处理,最近才知道远程服务器也可以跑 JupyterLab ,感觉错过了一个亿。今天就来记录下想在远程服务器上运行 JupyterLab 需要哪些步骤。0. 登录远程Linux服务器1. 安装 JupyterLabpip install jupyterlab2. 生成配置文件jupyter notebook --generate-config#生成的文件位于:~/.jupyter/jupyter_notebook_config.py

2021-11-19 13:15:00 3293

原创 NLP 样本不平衡问题

1. 什么是样本不平衡问题?所谓的样本不平衡问题指的是数据集中各个类别的样本数量不均衡。以二分类问题为例,通常情况下把样本类别比例超过4:1的数据就可以称为不平衡数据,极端情况下正负样本比例有可能达到1:1000。2. 如何解决样本不平衡问题1. 数据重采样数据重采样方法是指对训练数据进行重新采样,从而让各个类别数量接近,具体分为过采样和欠采样两种思路。最简单的过采样方法是对小类别的样本进行重复随机采样,补充到小类别当中,直到小类别样本数据量增大到符合要求为止(当然另一个更直接的方法是复制小类别样

2021-11-08 14:44:54 1222

原创 NLP 新宠 prompt

0. NLP 的四种范式最近几年,有人将近代 NLP 技术的发展总结为四种范式,他们分别是:P1. 非神经网络时代的完全监督学习 (Fully Supervised Learning, Non-Neural Network)P2. 基于神经网络的完全监督学习 (Fully Supervised Learning, Neural Network)P3. 预训练,精调范式 (Pre-train, Fine-tune)P4. 预训练,提示,预测范式 (Pre-train, Prompt, Predict

2021-11-05 12:29:49 1420

原创 空闲 GPU 检测脚本

深度学习的任务往往需要花费很多训练时间,有的时候训练可能在深夜结束,人不在电脑前无法第一时间知道任务结束情况,GPU 只能空闲在那里而无法执行下一个训练任务。为了提高效率我们可以写一个脚本检测 GPU 使用情况。# author: Anthonyimport osimport sysimport timecmd = 'python main.py'def gpu_info(gpu_index): gpu_status = os.popen('nvidia-smi | grep

2021-10-22 19:19:10 861

原创 BERT: 理解上下文的语言模型

BERT 全名为 Bidrectional Encoder Representations from Transformers, 是 Google 以无监督的方式利用大量无标注文本生成的语言代表模型,起架构为 Transforer 中的 Encoder. BERT 是 Transformer 中的 Encoder, 只是有很多层 (图片来源]以前在处理不同的 NLP 任务通常需要不同的 Language Model (LM),而设计这些模型并测试其性能需要不少的人力,时间

2021-10-15 17:33:26 1660

原创 NLP 入门知识点

最近从 B 站上找了个教程 学习NLP 的知识,就以此篇博客作为载体记录课上学的知识点吧。Long Short Term Memory (LSTM) 模型LSTM uses a “conveyor belt” to get longer memory than SimpleRNN.Each of the following blocks has a parameter matrix:Forget gateInput gateNew valuesOutput valuesNum

2021-10-02 00:58:56 175

原创 Github desktop Authentication failed解决方法

很多小伙伴喜欢用 github desktop 来管理自己的项目,在初期的时候很多人会遇到 Authentication failed( 身份验证失败 ) 这个问题,解决方法就是:退出账号,重新登陆macOS 用户退出 github desktop 的步骤如下:点击左上角的 Github Desktop -> Preferences -> Sign out ...

2021-03-25 15:19:42 1982

原创 人脸识别 - Viola-Jones Recognition

在人脸识别领域,有时候 Pixel intensities 并不是最佳的图像特征,它们变化很大,图像质量受光照和视点的影响很大。为此 Paul Viola 和 Michael Jones 于 2001 发表论文: “Rapid Object Detection using a Boosted Cascade of Simple Features”, 提出一个基于机器学习的传统图像处理算法——在 AdaBoost 算法的基础上,使用 Haar-like 小波特征(简称类haar特征)和积分图方法进行人脸检测。

2021-03-18 15:19:39 528

原创 Keras load model 导入自定义函数

Keras 是一个强大的深度学习框架,我习惯用 ModelCheckpoint 的方式将模型保存为 hdf5 格式,然后再用 load_model 函数加载模型。今天跑实验的时候却报了一个 error,如下:ValueError: Unknown loss function: dice_coef_loss原来 load_model 加载的是默认的 loss function, 而 dice_coef_loss 是我自己定义的 loss function,那么怎么调用自定义的函数呢?答案是加一个 cu

2021-03-12 22:13:54 2376

原创 Android 虚拟机访问本地服务器

最近在搞个小项目,想通过 WebService 从本地服务器的数据库获取数据, 建立 connection 的代码是这么写的:HttpGet httpget = new HttpGet("http://10.0.2.2/data.php"); 原因是网上说ip地址不能设置为127.0.0.1, 手机上设置为电脑的ip地址,模拟器可以用android内置IP 10.0.2.2后来发现这么连接也没有用,遂查找了其他的方法,说换成自己的 IP 地址,修改之后果然有效!接下来我将介绍如何在 Mac

2021-03-04 16:48:54 1670 4

原创 Mysql 安装避坑!学会查看 error log

最近换了 Mac,装回 MySQL 的时候遇到了很多问题,重新安装的时候遇到了很多问题,比如在 System Preferences 里打开 Start MySQL Server 总是闪退。以下内容将简单介绍我的解决方法。⚠️注意:该教程面向 Mac 用户,但是方法原理应该都是大同小异的。1. 清楚干净上一个 MySQL 的遗留文件很多问题都是由于文件没有清理干净导致的,这部分的教程我相信其他博主已经介绍的很详细,在这里就不在赘叙。2. 查看错误日志 mysqld.local.err所有的 erro

2021-03-03 17:21:14 948 2

原创 Python 数组的值传递方法

Python 对数组等对象拷贝默认采用的方法是引用传递,即地址传递,修改拷贝的值的时候原对象也会随之改变。如:origin = np.array([1,1,2,2,3,3,4,5])filter_arr = [1,2,3]for i in range(3): temp = origin print(origin) print(temp) temp[temp!=filter_arr[i]] = 0 print(temp) print('-

2021-02-14 23:51:41 4733

原创 输出 tensor object 的值

今天早上我想通过获得两张图片的 dice coefficient 值score = dice_coef(prediction[1],groundTruth[1])print(score)print 的结果却是这样的信息tf.Tensor(0.7923989514988125, shape=(), dtype=float64)那么如何直接输出 0.7923989514988125 这个值呢?在此之前我们先研究下 Tensor 是个什么东西。TensorFlow 是一个定义和运行张量计算的框架。张

2021-02-10 13:38:20 759 1

原创 Colab 使用 Tensorflow 1.x 版本

今年三月份, Tensorflow 经历了一次比较大的改版,诸如 tf.contrib 等模块在最新版的 Tensorflow 中已无法使用。很多同学要问:我已经习惯了原版中的一些功能,该如何使用老版本中的那些功能呢?别急,我这就来介绍方法。以 Google Colab 为例,Colab 预装了两个版本的 TensorFlow: 一个是2.x 版本,另一个是1.x 版本。在默认情况下,Colab 使用 TensorFlow 2. x,不过我们可以通过下面的方法切换到1.x。%tensorflow_ve

2020-07-07 11:36:54 4128 12

原创 Latex + Bibtex 管理文献

上周老师给我布置了一个任务:阅读并整理出社交网络聚类算法相关资料。而且再三强调一定要备注我读的文章的 reference, 我心想 这简单!到了周会那天,导师一看我没有用标准的 Latex 格式,让我这周继续改格式。害,以前写博客,习惯了直接放链接,还没有系统的用过latex来管理文献,那么我们今天来研究下其中的门道。使用 Latex 有许多方法,今天我介绍其中的一种: Bibtex(Bibtex 是一套用于管理文献,产生文献目录的格式)。1. 配置这里我用的是 VSCode 来编译文件,所以配置这个

2020-07-06 14:30:37 513

原创 访问COURSERA速度慢?

解决国内访问Coursera访问速度慢的问题

2020-06-27 01:22:12 1660

原创 Logistic Regression - IBM 员工离职预测

公司从招聘到培训一名员工,每个环节都需花费不少的资源,而一个员工的离职多多少少会给公司带来损失,为了了解员工离职的原因并预测潜在的离职对象,IBM 公布了他们真实的员工信息并提出以下问题陈述:“预测员工的流失,即员工是否会减员,考虑到员工的详细信息,即导致员工流失的原因”本文将利用 logistic regression 来探索这一问题。1. 前期准备import matplotlib.pyplot as pltimport pylab as plimport pandas as pdimpo

2020-06-24 23:53:37 2618 1

原创 初识主成分分析 (PCA)

1. 一个小故事本部分以知乎用户 论智 对CrossValidated的人气答主 amoeba 的文章的翻译为基础,做了一定量的修改。 原文 Making sense of principal component analysis, eigenvectors & eigenvaluesamoeba设想了一个大家庭聚餐的场景,大家突然对PCA是怎么回事很感兴趣,于是你逐一向家庭成员(曾祖母,祖母,母亲,妻子,女儿)解释,每个人都比上一个人内行一点。曾祖母:我听说你正研究P……C……A。我想

2020-06-16 18:49:33 2820 1

原创 初识假设检验

1. 什么是假设检验 (Hypothesis test)假设检验是先对总体参数提出某种假设,然后利用样本信息判断假设是否成立的过程。它采用逻辑上的反证法和依据统计上的小概率原理。小概率思想认为小概率事件在一次实验中基本不可能发生,所以我们假设检验的逻辑是:如果在愿假设正确的前提下,检验统计量的样本观测值出现了小概率事件,我们有理由怀疑愿假设的真实性,从而否定它,转而接受被泽假设。换句话说假设检验就分为 假设 和 检验 两步骤,先提出假设,之后验证假设是不合理的。2. 假设检验的两类错误第 I

2020-06-16 12:36:46 2094

原创 Python reshape() 函数用法

reshape()函数用于在不更改数据的情况下为数组赋予新形状。

2020-06-07 19:36:10 110674 3

原创 随机森林算法简介

今天在练习 Kaggle 的项目时,发现网上很多博主都选择用 RandomForest (随机森林)算法训练模型,虽然最后参照他们的写法我也写出来了,但是没有很明白其中的原理,在此打算深入了解一下这个算法。1. 什么是随机森林随机森林是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。在集成学习中,主要分为 bagging 算法 和 boosting 算法,而这里的随机森林则主要运用了 bagging

2020-06-05 23:03:40 16492

原创 Methods on detecting Physiogical Status

Heart Rate11. Traditional HR measurementsRelay on contact monitors(ECG) -> cause inconvenience and discomfortContact photoplethysmography( cPPG )based sensors2. Recently, remote HR estimation from face videos, allows HR estimation from the skin. i

2020-06-04 04:17:19 687

原创 vsCode Markdown 导出 PDF 无法显示 Latex 公式

今天用 VSCode Markdown 写笔记导出 PDF 后发现编译时正常格式的公式导出后却无法显示出来,这是什么原因呢,上网浏览了一圈,找到了解决方法。解决办法1. 找到如下位置的 template.html 文件Mac:/Users/username/.vscode/extensions/yzane.markdown-pdf-1.4.1/template/template.htmlWindows:C://Users/username/.vscode/extensions/yzane.ma

2020-06-04 04:13:01 8567 13

转载 排序算法 - 堆排序

堆排序的步骤:构造堆固定最大值再构造堆public class ArrayUtils { public static void printArray(int[] array) { System.out.print("{"); for (int i = 0; i < array.length; i++) { System.out.p...

2020-03-07 21:25:47 70

原创 c++函数指针总结

一. 定义函数指针,即指向函数的指针。声明格式为: 指向函数返回值类型 (*指针名)(参数表)举个例子:void f1() { printf("f1(); ");}int f2(int i) { printf("f2(%d);",i); return i+1}int main(){ void (*g1)() =f1; // g1 指向 void()类型的函数 in...

2020-03-04 05:11:56 830

原创 Mac 终端崩溃,硬核修复方法

今天在配置conda环境的过程中,手抽不知道改了 zshrc 问价中的什么内容,导致 mac 终端一直显示 [进程已完成],根本无法输入指令。在网上找了很多办法,发现以下方法对我是有效的。该方法的原理是找到最后一次修改的文件,再把它改回来,答主是在 zshrc 文件中进行的修改,所以我们得想办法打开这个文件,由于终端此时无法输入指令,我们需要借助第三方软件的帮助 - ShowOrHide该...

2020-02-27 20:35:46 1617

Viola-Jones Recognition.pdf

经典人脸识别算法-Viola-Jones Recognition

2021-03-18

logistic_regression_data.csv

此数据集共 24 维, 分别是:Age,Attrition,BusinessTravel,Department,DistanceFromHome,Education,EducationField,EmployeeCount,EmployeeID,Gender,JobLevel,JobRole,MaritalStatus,MonthlyIncome,NumCompaniesWorked,Over18,PercentSalaryHike,StandardHours,StockOptionLevel,TotalWorkingYears,TrainingTimesLastYear,YearsAtCompany,YearsSinceLastPromotion,YearsWithCurrManager

2020-06-24

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除