nlp学习笔记
文章平均质量分 84
自然语言处理学习笔记
weixin_44748589
这个作者很懒,什么都没留下…
展开
-
HuggingFace实战(一)
代码】HuggingFace实战(一)原创 2022-08-17 14:54:12 · 2256 阅读 · 2 评论 -
HuggingFace简明教程
什么是huggingface?huggingface是一个开源社区,它提供了先进的NLP模型,数据集,以及其他便利的工具。这些数据集可以根据任务、语言等来分类官方文档:主要的模型:自回归:GPT2、Transformer-XL、XLNet自编码:BERT、ALBERT、RoBERTa、ELECTRA安装环境:前置环境:python、pytorch安装#安装transformers#pip安装#conda安装#安装datasets#pip安装#conda安装。......原创 2022-08-16 10:39:44 · 16768 阅读 · 2 评论 -
python数据分析学习day09:水平柱状图、直方图和饼状图
然后,它显示了属于几个类别中的每个类别的占比,其高度总和等于1。直方图(Histogram),又称质量分布图,它是一种条形图的一种,由一系列高度不等的纵向线段来表示数据分布的情况。而柱状图则用于展示各个类别的频数。上面的直方图都是等距的,但有时我们需要得到不等距的直方图,这个时候只需要确定分组上下限,并指定histtype="bar"就可。饼状图用来显示一个数据系列,具体来说,饼状图显示一个数据系列中各项目的占项目总和的百分比。我们在使用直方图查查看数据的频率时,有时候会查看多种类型数据出现的频率。...原创 2022-07-16 11:04:46 · 3070 阅读 · 0 评论 -
python数据分析学习day08:柱状图
x 表示x坐标,数据类型为float类型,一般为np.arange()生成的固定步长列表 height 表示柱状图的高度,也就是y坐标值,数据类型为float类型,一般为一个列表,包含生成柱状图的所有y值 width 表示柱状图的宽度,取值在0~1之间,默认值为0.8 bottom 柱状图的起始位置,也就是y轴的起始坐标,默认值为None align 柱状图的中心位置,“center”,"lege"边缘,默认值为’center’ color 柱状图颜色,默认为蓝色 alpha 透明度,取值在0~原创 2022-07-13 21:55:31 · 5735 阅读 · 2 评论 -
python数据分析学习day07:图表样式和子图
显示网格 linestyle:线型 color:颜色 linewidth:宽度 axis:x,y,both,显示x/y/两者的格网 首先观察画布上面的坐标轴,如下图: 上图中,用红色标识出的黑色边界框线在Matplotlib中被称为spines,中文翻译为脊柱......在我理解看来,意思是这些边界框线是坐标轴区域的“支柱”。那么,我们最终要挪动的其实原创 2022-07-13 10:41:02 · 830 阅读 · 0 评论 -
python数据分析学习day06:Matplotlib介绍和基本方法
顾名思义,数据可视化就是将数据转换成图或表等,以一种更直观的方式展现和呈现数据。通过“可视化”的方式,我们看不懂的数据通过图形化的手段进行有效地表达,准确高效、简洁全面地传递某种信息,甚至帮助我们发现某种规律和特征,挖掘数据背后的价值。图表为更好地探索、分析数据提供了一种直观的方法,它对最终分析结果的展示具有重要的作用。柱状图=条形图 直方图=特殊的条形图 是一款用于数据可视化的 Python 软件包,支持跨平台运行,它能够根据 NumPy ndarray 数组来绘制 2D(3D) 图像,它使用简单、代原创 2022-07-05 16:15:52 · 1364 阅读 · 0 评论 -
python数据分析学习day05:随机函数和常用函数
NumPy中也有自己的随机函数,包含在random模块中。它能产生特定分布的随机数,如正态分布等。接下来介绍一些常用的随机数。返回 0 到 1 之间的随机浮点数 rand函数根据给定维度生成[0,1)之间的数据,包含0,不包含1 数量均匀分布 dn表示每个维度 返回值为指定维度的array 标准正态分布又称为u分布,是以0为均值、以1为标准差的正态分布,记为N(0,1)。 randn函数返回一个或一组样本,具有标准正态分布。 dn表示每个维度 返回原创 2022-07-03 11:34:17 · 154 阅读 · 0 评论 -
python数据分析学习day04:文件操作
loadtxt读取txt文本、、csv文件参数:fname:指定文件名称或字符串。支持压缩文件,包括gz、bz格式。dtype:数据类型。 默认float。comments:字符串或字符串组成的列表。表示注释字符集开始的标志,默认为#。delimiter:字符串。分隔符。converters:字典。将特定列的数据转换为字典中对应的函数的浮点型数据。例如将空值转换为0,默认为空。skiprows:跳过特定行数据。例如跳过前1行(可能是标题或注释)。默认为0。如果没有指定该参数,默认不读取注释行和空行;如原创 2022-06-30 15:11:27 · 962 阅读 · 0 评论 -
python数据分析学习day03:切片索引和统计函数
ndarray对象的内容可以通过索引或切片来访问和修改,与 Python 中 list 的切片操作一样。ndarray 数组可以基于 0 - n 的下标进行索引。注意:python list 切片操作后赋值,修改不会改变原数组的值,而numpy数组切片是原始数组视图(这就意味着,如果做任何修改,原始都会跟着更改)。这也意味着,如果不想更改原始数组,我们需要进行显式的复制,从而得到它的副本(.copy())。np数组索引及切片的值更改会修改原数组1.2 一维数组冒号的解释:如果只放置一个参数,原创 2022-06-28 12:01:09 · 578 阅读 · 0 评论 -
python数据分析学习day02:创建数组、属性和类型
NumPy 定义了一个 n 维数组对象,简称 ndarray 对象,它是一个一系列相同类型元素组成的数组集合。数组中的每个元素都占有大小相同的内存块ndarray 对象采用了数组的索引机制,将数组中的每个元素映射到内存块上,并且按照一定的布局对内存块进行排列(行或列)。 序号参数描述说明1object表示一个数组序列。2dtype可选参数,通过它可以更改数组的数据类型3copy可选参数,当数据源是ndarray时表示数组能否被复制,默认是 True。4order可选参数,以哪种原创 2022-06-21 17:07:37 · 802 阅读 · 0 评论 -
python数据分析学习day01:环境安装、numpy介绍
Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。 因为包含了大量的科学包,Anaconda 的下载文件比较大(约 531 MB)下载地址:Anaconda | The World's Most Popular Data Science Platform安装位置的选择,建议不要装在C盘 添加到环境变量中,暂时不勾选,手动添加: 点击install,等待不太漫长的进度条……,提示安装成功……,提示安装VScode,选择点击“skip” 两个“l原创 2022-06-21 10:20:06 · 180 阅读 · 0 评论 -
jupyter notebook
2、编辑模式 ( Enter 键启动)下快捷键Shift-Tab : 提示Ctrl-] : 缩进Ctrl-[ : 解除缩进原创 2022-06-21 09:51:26 · 229 阅读 · 0 评论 -
词向量Word2Vec---学习笔记
本文为下述视频的笔记:【论文复现代码数据集见评论区】5小时精讲 Paper,BAT大厂导师带你吃透NLP自然语言处理的经典模型Word2vec_哔哩哔哩_bilibili论文:Efficient Estimation of Word Representations in Vector Space向量空间中词表示的有效估计目录1. 词向量储备知识语言模型2. 论文模型导读词的表示 word representation发展历程研究成果研究意义论文...原创 2022-05-05 15:38:09 · 776 阅读 · 1 评论