- 博客(6)
- 收藏
- 关注
原创 Ubuntu虚拟机共享Windows主机已安装的Python库
遇到同样的问题,于是记录,为了让Ubuntu虚拟机共享Windows主机已安装的Python库,可尝试以下方案。但需注意:部分含C扩展的库(如numpy)在Windows和Linux下不兼容,纯Python库可跨平台使用。VirtualBox:进入虚拟机设置 → 共享文件夹 → 添加一个指向上述路径的共享文件夹(如命名为 win_python_libs)。兼容性问题:Windows编译的库(如 .pyd 文件)无法在Linux(.so 文件)使用。方法一:共享库目录(适合纯Python库)
2025-03-28 17:11:27
204
原创 NLP常见任务小记
根据判断主题的级别, 将所有的NLP任务分为两种类型:1.token-level task: token级别的任务. 如完形填空(Cloze), 预测句子中某个位置的单词; 或者实体识别; 或是词性标注; SQuAD等.2.sequence-level task: 序列级别的任务, 也可以理解为句子级别的任务. 如情感分类等各种句子分类问题; 推断两个句子的是否是同义等.token-level taskCloze task即BERT模型预训练的两个任务之一, 等价于完形填空任务, 即给出句子中其他
2020-07-25 18:58:32
200
原创 NLP一般流程小记
NLP一般流程小记1.获取语料语料,是NLP任务所研究的内容,通常用一个文本集合作为语料库(Corpus)来源:已有语料,积累的文档, 下载语料2. 语料预处理1)语料清洗:留下有用的,删掉噪音数据常见的数据清洗方式:人工去重、对齐、删除和标注等,或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。2)分词:将文本分成词语常见的分词算法:基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于规则的分词方法3) 词性标注:给词语打词类标签,如形容
2020-07-20 17:22:47
310
原创 动手学深度学习笔记03
动手学深度学习笔记03 图像增强大规模数据集是成功应用深度神经网络的前提。图像增广(image augmentation)技术通过对训练图像做一系列随机改变,来产生相似但又不同的训练样本,从而扩大训练数据集的规模。图像增广的另一种解释是,随机改变训练样本可以降低模型对某些属性的依赖,从而提高模型的泛化能力。首先,导入实验所需的包或模块。%matplotlib inlineimport t...
2020-02-25 15:53:48
163
原创 动手学深度学习笔记2
模型过拟合与欠拟合首先我们需要区分训练误差和泛化误差。一般来讲,前者指模型在训练数据集上表现出的误差,后者指模型在任意一个测试数据样本上表现出的误差的期望,并常常通过测试数据集上的误差来近似。计算训练误差和泛化误差可以使用之前介绍过的损失函数,例如线性回归用到的平方损失函数和softmax回归用到的交叉熵损失函数。记录一下模型训练中经常出现的两类典型问题:一类是模型无法得到较低的训练误差,我们...
2020-02-18 14:49:18
225
原创 伯禹课程 动手学深度学习笔记1
伯禹课程 动手学深度学习笔记1深度学习模型实现的一般流程记录1.首先,导入本节中实验所需的包或模块%matplotlib inlineimport torchfrom IPython import displayfrom matplotlib import pyplot as pltimport numpy as npimport random2.生成数据集构造一个简单的人工...
2020-02-14 16:09:04
197
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人