宝友你好-CSDN博客

原创 Datawhale Linux组队学习——Linux基础使用 3

任务8：使用grep和awk从文件中筛选字符串任务要点：字符筛选步骤1：下载周杰伦歌词文本，并进行解压。https://mirror.coggle.club/dataset/jaychou_lyrics.txt.zipwget下载 -> unzip解压步骤2：利用grep命令完成以下操作，并输出到屏幕https://blog.csdn.net/baidu_41388533/article/details/107610827https://www.runoob.com/linux/linu

2021-12-27 22:30:34 436

原创 Datawhale Linux组队学习——Linux基础使用 2

任务5：在目录下创建py文件，并进行运行任务要点：python的os和sys系统接口，文件接口步骤1：学习python下os模块处理文件和目录的函数，https://www.runoob.com/python/os-file-methods.html步骤2：学习python下sys模块和传参函数，https://www.runoob.com/python3/python3-module.html步骤3：在home/datawhale目录下，在你英文昵称（中间不要有空格哦）的文件夹中，新建一个

2021-12-18 16:16:25 1098

原创 Datawhale Linux组队学习——Linux基础使用

任务1：使用命令行登录指定的Linux环境远程ssh登陆需要ssh工具，服务器端用户名、密码及ip地址例：ssh datawhale@139.198.15.157任务2：在目录下创建文件夹、删除文件夹**1.Linux系统目录结构2.文件与目录管理ls（英文全拼：list files）: 列出目录及文件名cd（英文全拼：change directory）：切换目录cd ~：表示回到自己的家目录，亦即是 /root 这个目录pwd（英文全拼：print work directory）

2021-12-12 23:18:53 388

原创 Datawhale组队学习_Pytorch的主要组成模块学习笔记

本文为学习Datawhale 2021.10组队学习深入浅出Pytorch笔记原学习文档地址：https://github.com/datawhalechina/thorough-pytorch完成深度学习的必要部分：首先需要对数据进行预处理，其中重要的步骤包括数据格式的统一和必要的数据变换，同时划分训练集和测试集。接下来选择模型，并设定损失函数和优化函数，以及对应的超参数（当然可以使用sklearn这样的机器学习库中模型自带的损失函数和优化器）。最后用模型去拟合训练集数据，并在验证集/测试集上计算模

2021-10-24 21:24:02 1468

原创 Datawhale组队学习_Pytorch基础实战FashionMNIST时装分类学习笔记

本文为学习Datawhale 2021.10组队学习深入浅出Pytorch笔记原学习文档地址：https://github.com/datawhalechina/thorough-pytorchimport osimport numpy as npimport pandas as pdimport torchimport torch.nn as nnimport torch.optim as optimfrom torch.utils.data import Dataset, DataLoa

2021-10-21 22:47:57 124

原创 Datawhale组队学习_Pytorch基础知识学习笔记

本文为学习Datawhale 2021.10组队学习深入浅出Pytorch笔记原学习文档地址：https://github.com/datawhalechina/thorough-pytorch另外参考了动手学深度学习pytorch版：https://github.com/ShusenTang/Dive-into-DL-PyTorch1 数据操作1.1 创建张量from __future__ import print_functionimport torchx = torch.rand(4,

2021-10-14 13:22:06 299

原创 Datawhale组队学习_Pytorch简介和安装学习笔记

本文为学习Datawhale 2021.10组队学习深入浅出Pytorch笔记原学习文档地址：https://github.com/datawhalechina/thorough-pytorchPytorch简介和安装1 Pytorch简介1.PyTorch的代码实现已经是TensorFlow实现的4倍，我们也可以看红色部分的PyTorch正在取代他的老大哥称霸学术圈，PyTorch会借助ONNX所带来的落地能力在工业界逐渐走向主导地位。ONNX是干什么的？简单描述一下官方介绍，开放神经网络交换

2021-10-12 15:36:16 121

原创 Datawhale组队学习NLP_情感分析Transformer学习笔记

本文为学习Datawhale 2021.9组队学习情感分析笔记原学习文档地址：https://github.com/datawhalechina/team-learning-nlp/tree/master/EmotionalAnalysis文章目录1 设置随机种子数2 加载数据3 不需要建立字典4 创建迭代器5 实例化模型6 固定Transformer参数7 定义功能函数8 训练9. 评估最后一个任务再重走一遍全流程1 设置随机种子数"""1.set seed"""SEED = 1234to

2021-10-07 12:07:46 359

原创 Datawhale组队学习NLP_情感分析CNN多分类学习笔记

本文为学习Datawhale 2021.9组队学习情感分析笔记原学习文档地址：https://github.com/datawhalechina/team-learning-nlp/tree/master/EmotionalAnalysis主要写需要注意的点。详细情况见原学习文档task4多分类和之前的流程类似1 数据读入使用了一个六分类的文本数据集，与之前不同的是：第一，我们不需要在 LABEL 字段中设置 dtype。在处理多类问题时，PyTorch 期望标签被数字化为LongTensor

2021-09-27 19:19:01 170

原创 Datawhale组队学习NLP_情感分析CNN学习笔记

本文为学习Datawhale 2021.9组队学习情感分析笔记原学习文档地址：https://github.com/datawhalechina/team-learning-nlp/tree/master/EmotionalAnalysisbaseline笔记见https://blog.csdn.net/weixin_43634785/article/details/120289701?spm=1001.2014.3001.5502主要写需要注意的点。详细情况见原学习文档task4文章目录1 模型

2021-09-24 11:03:12 138

原创 Datawhale组队学习NLP_情感分析fasttext学习笔记

本文为学习Datawhale 2021.9组队学习情感分析笔记原学习文档地址：https://github.com/datawhalechina/team-learning-nlp/tree/master/EmotionalAnalysisbaseline笔记见https://blog.csdn.net/weixin_43634785/article/details/120289701?spm=1001.2014.3001.5502**主要写需要注意的与baseline的不同点。**详细情况见原学习文

2021-09-18 20:45:13 295

原创 Datawhale组队学习NLP_情感分析baseline updated学习笔记

本文为学习Datawhale 2021.9组队学习情感分析笔记原学习文档地址：https://github.com/datawhalechina/team-learning-nlp/tree/master/EmotionalAnalysisbaseline笔记见https://blog.csdn.net/weixin_43634785/article/details/120289701?spm=1001.2014.3001.5502baseline存在很多可以优化的地方，比如可以使用预训练词向量

2021-09-16 15:14:52 296

原创 Datawhale组队学习NLP_情感分析baseline学习笔记

本文为学习Datawhale 2021.9组队学习情感分析笔记原学习文档地址：https://github.com/datawhalechina/team-learning-nlp/tree/master/EmotionalAnalysis1 设置随机种子数"""1.set seed"""SEED = 1234torch.manual_seed(SEED)torch.backends.cudnn.deterministic = Truetorch.cuda.manual_seed(SEED)

2021-09-14 20:48:16 175

转载天池新闻文本分类_机器学习解决方案

Bag of words表示from sklearn.feature_extraction.text import CountVectorizercorpus = [ 'This is the first document.', 'This document is the second document.', 'And this is the third one.', 'Is this the first document?',]vectorizer = CountV

2021-09-14 08:26:27 82

原创天池新闻文本分类_FastText解决方案

Baseimport pandas as pdfrom sklearn.metrics import f1_scoreimport fasttext# 转换为fasttext需要的格式train_df = pd.read_csv('./data/train_set.csv', sep='\t', nrows=1500)train_df['label_ft'] = '__label__' + train_df['label'].astype(str)# 前10000个转换作为训练集train

2021-09-13 20:20:16 666

原创 Datawhale组队学习NLP_Bert抽取式问答学习笔记

本文为学习Datawhale 2021.8组队学习NLP入门之Transformer笔记原学习文档地址：https://github.com/datawhalechina/learn-nlp-with-transformers任务：抽取式问答数据集：squad三个key：“context", "question"和“answers”# 展示训练集的第一个句子datasets["train"][0]{'id': '5733be284776f41900661182', 'title': 'Uni

2021-09-01 16:52:18 654 2

原创 Datawhale组队学习NLP_Bert多项选择学习笔记

任务：多项选择数据集：SWAG 在四个选项中决定最合理的延续，相当于阅读理解数据集中的每个示例都有一个上下文，它是由第一个句子(字段sent1)和第二个句子的简介(字段sent2)组成。然后给出四种可能的结尾(字段ending0， ending1， ending2和ending3)，然后让模型从中选择正确的一个(由字段label表示)。数据集的样子：{'ending0': 'passes by walking down the street playing their instruments.',

2021-08-31 09:55:38 690

原创 Datawhale组队学习NLP_Bert序列标注学习笔记

本文为学习Datawhale 2021.8组队学习NLP入门之Transformer笔记原学习文档地址：https://github.com/datawhalechina/learn-nlp-with-transformers1 数据的读入from datasets import load_dataset, load_metricdatasets = load_dataset("conll2003")会由于网络原因造成error，可以使用colab下载，再保存到google云盘上后下载下来本地导

2021-08-30 09:09:50 731

原创 Datawhale组队学习NLP_Bert文本分类学习笔记

使用Bert进行文本分类1 数据的读入1.1 Transformer Datasets1.1.1 datasets.Metric2 数据预处理2.1 定义一个tokenizer2.2 Datasets2.2.1 检查数据格式（可选）2.2.2 Datasets预处理3 Trainer微调预训练模型4 超参数搜索1 数据的读入1.1 Transformer Datasets使用Transformers Datasets库读取网络数据，可以用于在公开数据集上验证模型的好坏。除了mnli-mm以外，其他任

2021-08-26 22:22:32 614

原创讯飞语义相似度baseline

使用Bert进行文本分类1 数据的读入1.1 本地文件2 数据预处理2.1 定义一个tokenizer2.2 pandas读入3 输出3.1 直接输出3.2 常规训练1 数据的读入1.1 本地文件使用pandas进行读取，以讯飞比赛中中文语义相似度的数据csv文件为例import pandas as pd# 文件读取import codecstrain_df = pd.read_csv('./data/train.csv', sep='\t', names=['question1', 'que

2021-08-26 11:20:59 285

weixin_43634785的博客