自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 Datawhale Linux组队学习——Linux基础使用 3

任务8:使用grep和awk从文件中筛选字符串任务要点:字符筛选步骤1:下载周杰伦歌词文本,并进行解压。https://mirror.coggle.club/dataset/jaychou_lyrics.txt.zipwget下载 -> unzip解压步骤2:利用grep命令完成以下操作,并输出到屏幕https://blog.csdn.net/baidu_41388533/article/details/107610827https://www.runoob.com/linux/linu

2021-12-27 22:30:34 368

原创 Datawhale Linux组队学习——Linux基础使用 2

任务5:在目录下创建py文件,并进行运行任务要点:python的os和sys系统接口,文件接口步骤1:学习python下os模块处理文件和目录的函数,https://www.runoob.com/python/os-file-methods.html步骤2:学习python下sys模块和传参函数,https://www.runoob.com/python3/python3-module.html步骤3:在home/datawhale目录下,在你英文昵称(中间不要有空格哦)的文件夹中,新建一个

2021-12-18 16:16:25 1039

原创 Datawhale Linux组队学习——Linux基础使用

任务1:使用命令行登录指定的Linux环境远程ssh登陆需要ssh工具,服务器端用户名、密码及ip地址例:ssh datawhale@139.198.15.157任务2:在目录下创建文件夹、删除文件夹**1.Linux系统目录结构2.文件与目录管理ls(英文全拼:list files): 列出目录及文件名cd(英文全拼:change directory):切换目录cd ~:表示回到自己的家目录,亦即是 /root 这个目录pwd(英文全拼:print work directory)

2021-12-12 23:18:53 307

原创 Datawhale组队学习_Pytorch的主要组成模块学习笔记

本文为学习Datawhale 2021.10组队学习深入浅出Pytorch笔记原学习文档地址:https://github.com/datawhalechina/thorough-pytorch完成深度学习的必要部分:首先需要对数据进行预处理,其中重要的步骤包括数据格式的统一和必要的数据变换,同时划分训练集和测试集。接下来选择模型,并设定损失函数和优化函数,以及对应的超参数(当然可以使用sklearn这样的机器学习库中模型自带的损失函数和优化器)。最后用模型去拟合训练集数据,并在验证集/测试集上计算模

2021-10-24 21:24:02 1424

原创 Datawhale组队学习_Pytorch基础实战FashionMNIST时装分类学习笔记

本文为学习Datawhale 2021.10组队学习深入浅出Pytorch笔记原学习文档地址:https://github.com/datawhalechina/thorough-pytorchimport osimport numpy as npimport pandas as pdimport torchimport torch.nn as nnimport torch.optim as optimfrom torch.utils.data import Dataset, DataLoa

2021-10-21 22:47:57 108

原创 Datawhale组队学习_Pytorch基础知识学习笔记

本文为学习Datawhale 2021.10组队学习深入浅出Pytorch笔记原学习文档地址:https://github.com/datawhalechina/thorough-pytorch另外参考了动手学深度学习pytorch版:https://github.com/ShusenTang/Dive-into-DL-PyTorch1 数据操作1.1 创建张量from __future__ import print_functionimport torchx = torch.rand(4,

2021-10-14 13:22:06 264

原创 Datawhale组队学习_Pytorch简介和安装学习笔记

本文为学习Datawhale 2021.10组队学习深入浅出Pytorch笔记原学习文档地址:https://github.com/datawhalechina/thorough-pytorchPytorch简介和安装1 Pytorch简介1.PyTorch的代码实现已经是TensorFlow实现的4倍,我们也可以看红色部分的PyTorch正在取代他的老大哥称霸学术圈,PyTorch会借助ONNX所带来的落地能力在工业界逐渐走向主导地位。ONNX是干什么的?简单描述一下官方介绍,开放神经网络交换

2021-10-12 15:36:16 104

原创 Datawhale组队学习NLP_情感分析Transformer学习笔记

本文为学习Datawhale 2021.9组队学习情感分析笔记原学习文档地址:https://github.com/datawhalechina/team-learning-nlp/tree/master/EmotionalAnalysis文章目录1 设置随机种子数2 加载数据3 不需要建立字典4 创建迭代器5 实例化模型6 固定Transformer参数7 定义功能函数8 训练9. 评估最后一个任务再重走一遍全流程1 设置随机种子数"""1.set seed"""SEED = 1234to

2021-10-07 12:07:46 233

原创 Datawhale组队学习NLP_情感分析CNN多分类学习笔记

本文为学习Datawhale 2021.9组队学习情感分析笔记原学习文档地址:https://github.com/datawhalechina/team-learning-nlp/tree/master/EmotionalAnalysis主要写需要注意的点。详细情况见原学习文档task4多分类和之前的流程类似1 数据读入使用了一个六分类的文本数据集,与之前不同的是:第一,我们不需要在 LABEL 字段中设置 dtype。在处理多类问题时,PyTorch 期望标签被数字化为LongTensor

2021-09-27 19:19:01 126

原创 Datawhale组队学习NLP_情感分析CNN学习笔记

本文为学习Datawhale 2021.9组队学习情感分析笔记原学习文档地址:https://github.com/datawhalechina/team-learning-nlp/tree/master/EmotionalAnalysisbaseline笔记见https://blog.csdn.net/weixin_43634785/article/details/120289701?spm=1001.2014.3001.5502主要写需要注意的点。详细情况见原学习文档task4文章目录1 模型

2021-09-24 11:03:12 123

原创 Datawhale组队学习NLP_情感分析fasttext学习笔记

本文为学习Datawhale 2021.9组队学习情感分析笔记原学习文档地址:https://github.com/datawhalechina/team-learning-nlp/tree/master/EmotionalAnalysisbaseline笔记见https://blog.csdn.net/weixin_43634785/article/details/120289701?spm=1001.2014.3001.5502**主要写需要注意的与baseline的不同点。**详细情况见原学习文

2021-09-18 20:45:13 204

原创 Datawhale组队学习NLP_情感分析baseline updated学习笔记

本文为学习Datawhale 2021.9组队学习情感分析笔记原学习文档地址:https://github.com/datawhalechina/team-learning-nlp/tree/master/EmotionalAnalysisbaseline笔记见https://blog.csdn.net/weixin_43634785/article/details/120289701?spm=1001.2014.3001.5502baseline存在很多可以优化的地方,比如可以使用预训练词向量

2021-09-16 15:14:52 244

原创 Datawhale组队学习NLP_情感分析baseline学习笔记

本文为学习Datawhale 2021.9组队学习情感分析笔记原学习文档地址:https://github.com/datawhalechina/team-learning-nlp/tree/master/EmotionalAnalysis1 设置随机种子数"""1.set seed"""SEED = 1234torch.manual_seed(SEED)torch.backends.cudnn.deterministic = Truetorch.cuda.manual_seed(SEED)

2021-09-14 20:48:16 166

转载 天池新闻文本分类_机器学习解决方案

Bag of words表示from sklearn.feature_extraction.text import CountVectorizercorpus = [ 'This is the first document.', 'This document is the second document.', 'And this is the third one.', 'Is this the first document?',]vectorizer = CountV

2021-09-14 08:26:27 67

原创 天池新闻文本分类_FastText解决方案

Baseimport pandas as pdfrom sklearn.metrics import f1_scoreimport fasttext# 转换为fasttext需要的格式train_df = pd.read_csv('./data/train_set.csv', sep='\t', nrows=1500)train_df['label_ft'] = '__label__' + train_df['label'].astype(str)# 前10000个转换作为训练集train

2021-09-13 20:20:16 622

原创 Datawhale组队学习NLP_Bert抽取式问答学习笔记

本文为学习Datawhale 2021.8组队学习NLP入门之Transformer笔记原学习文档地址:https://github.com/datawhalechina/learn-nlp-with-transformers任务:抽取式问答数据集:squad三个key:“context", "question"和“answers”# 展示训练集的第一个句子datasets["train"][0]{'id': '5733be284776f41900661182', 'title': 'Uni

2021-09-01 16:52:18 599 2

原创 Datawhale组队学习NLP_Bert多项选择学习笔记

任务:多项选择数据集:SWAG 在四个选项中决定最合理的延续,相当于阅读理解数据集中的每个示例都有一个上下文,它是由第一个句子(字段sent1)和第二个句子的简介(字段sent2)组成。然后给出四种可能的结尾(字段ending0, ending1, ending2和ending3),然后让模型从中选择正确的一个(由字段label表示)。数据集的样子:{'ending0': 'passes by walking down the street playing their instruments.',

2021-08-31 09:55:38 622

原创 Datawhale组队学习NLP_Bert序列标注学习笔记

本文为学习Datawhale 2021.8组队学习NLP入门之Transformer笔记原学习文档地址:https://github.com/datawhalechina/learn-nlp-with-transformers1 数据的读入from datasets import load_dataset, load_metricdatasets = load_dataset("conll2003")会由于网络原因造成error,可以使用colab下载,再保存到google云盘上后下载下来本地导

2021-08-30 09:09:50 652

原创 Datawhale组队学习NLP_Bert文本分类学习笔记

使用Bert进行文本分类1 数据的读入1.1 Transformer Datasets1.1.1 datasets.Metric2 数据预处理2.1 定义一个tokenizer2.2 Datasets2.2.1 检查数据格式(可选)2.2.2 Datasets预处理3 Trainer微调预训练模型4 超参数搜索1 数据的读入1.1 Transformer Datasets使用Transformers Datasets库读取网络数据,可以用于在公开数据集上验证模型的好坏。除了mnli-mm以外,其他任

2021-08-26 22:22:32 360

原创 讯飞语义相似度baseline

使用Bert进行文本分类1 数据的读入1.1 本地文件2 数据预处理2.1 定义一个tokenizer2.2 pandas读入3 输出3.1 直接输出3.2 常规训练1 数据的读入1.1 本地文件使用pandas进行读取,以讯飞比赛中中文语义相似度的数据csv文件为例import pandas as pd# 文件读取import codecstrain_df = pd.read_csv('./data/train.csv', sep='\t', names=['question1', 'que

2021-08-26 11:20:59 262

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除