青萍之默-CSDN博客

原创国内使用tensorflow_datasets加载数据

国内如何使用tensorflow_datasets加载mnist数据国内使用tensorflow_datasets无法下载数据，可以通过kaggle下载或转格式的方法解决。

2024-08-24 10:27:58 1196 1

原创使用pnpm运行项目报错error when starting dev server: Error: Failed to resolve vue/compiler-sfc.

使用pnpm运行项目报错：# 报错运行"pnpm install"成功后，运行"pnpm dev"报如下错误：```error when starting dev server:Error: Failed to resolve vue/compiler-sfc.@vitejs/plugin-vue requires vue (>=3.2.25) to be present in the dependency tree. at resolveCompiler (C:\workspace\l

2023-09-23 19:22:23 2986

原创菜鸟笔记-信息抽取模型UIE代码学习-数据准备

说明：UIE是基于Prompt的通用信息抽取框架，本文为个人学习UIE代码的笔记，学的过程中简单翻译了一下数据准备部分readme（顺序按实际处理过程有所调整），自己添加的说明都在引用格式里。论文：Unified Structure Generation for Universal Information Extraction。源代码：https://github.com/universal-ie/UIE本内容所在文件夹：dataset_processing。

2023-03-17 10:29:52 2767 5

原创信息抽取论文笔记：1. Attention-Based Convolutional Neural Network for Semantic Relation Extraction

信息抽取论文笔记：1. Attention-Based Convolutional Neural Network for Semantic Relation Extraction。2016年的论文，模型结构较为简单，适合信息抽取入门学习。

2022-10-27 19:41:35 556 1

原创无需修改代码，解决ipykernel_launcher.py: error: unrecognized arguments: -f /home/报错

项目场景：IDE当中代码使用了parser.parse_args()，当在jupyter下调用时出错。问题描述报错：usage: ipykernel_launcher.py [-h] [--data_dir DATA_DIR] [--output_dir OUTPUT_DIR] [--embedding_path EMBEDDING_PATH]

2022-03-16 20:25:44 23114 7

原创中文预处理流程（以搜狐语料全网新闻数据为例）

数据集使用了搜狗实验室公开语料集-全网新闻数据(SogouCA)，完整语料包含来自若干新闻站点2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据，提供URL和正文信息。其格式为：<doc><url>页面URL</url><docno>页面ID</docno><contenttitle>页面标题</contenttitle><content>页面内容</content&g

2021-01-22 21:40:21 3287 7

原创 THUCNews新闻文本分类-tfidf+sklearn2

本文使用的是和鲸社区现有数据集，代码也在和鲸社区公开，fork之后可以直接运行。本文中所用的数据集清华NLP组提供的THUCNews新闻文本分类数据集的一个子集（原始的数据集大约74万篇文档，训练起来需要花较长的时间）。本次训练使用了其中的体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐10个分类，每个分类6500条，总共65000条新闻数据。项目在和鲸社区的平台上跑的，数据集直接引用了和鲸的数据集，每个分类6500条，总共65000条新闻数据。数据集划分如下： cnews

2020-09-02 00:24:45 3282 4

原创 THUCNews新闻文本分类-tfidf+sklearn

本文使用的是和鲸社区现有数据集，代码也在和鲸社区公开，fork之后可以直接运行。本文中所用的数据集清华NLP组提供的THUCNews新闻文本分类数据集的一个子集（原始的数据集大约74万篇文档，训练起来需要花较长的时间）。本次训练使用了其中的体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐10个分类，每个分类6500条，总共65000条新闻数据。项目在和鲸社区的平台上跑的，数据集直接引用了和鲸的数据集，每个分类6500条，总共65000条新闻数据。数据集划分如下： cnews

2020-08-26 19:56:45 4512

原创 keras文本预处理介绍——Text

简单介绍keras文本预处理函数，主要参考keras说明文档。Tokenizer（分词器）import keras定义keras.preprocessing.text.Tokenizer(num_words=None, filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n', lower=True, split=' ', char...

2020-05-07 21:00:44 551

翻译 Keras Tuner自动调参工具使用入门教程

主体是翻译的Keras Tuner的说明：https://keras-team.github.io/keras-tuner/documentation/tuners/不过原文只是举栗子，程序不能运行，改了不少，主要有以下几点：原文没有数据输入，进行了增加，使其可以正确运行。原文模型没有输入部分、数据有没对齐的地方进行了更改。原文部分函数参数名与新版本不同，进行了修改，主要是Hyperb...

2020-04-24 22:11:35 13584 11

原创使用keras实现CNN模型的THUCNews新闻文本分类

使用keras简单实现了基于CNN模型的THUCNews新闻文本分类，项目是在和鲸社区实现的已经公开，需要的同学可以去fork一下。import osimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn import metricsfr...

2020-04-21 16:39:10 2550 5

原创菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（十）—— 模型前向计算数据流动

系列目录：菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（一）——数据菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（二）——介绍及分词菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（三）—— 预处理菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（四）—— 段落抽取菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（五）—— 准备数据菜鸟笔记-D...

2020-03-28 23:37:59 775 2

原创菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（九）—— 预测与校验

系列目录：1. [菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（一）——数据](https://blog.csdn.net/wmq104/article/details/104218865) 2. [菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（二）—— 介绍及分词](https://blog.csdn.net/wmq104/article/details/104...

2020-03-28 10:29:48 865 2

原创菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（八）—— 模型训练-训练

系列目录：菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（一）——数据菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（二）——介绍及分词菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（三）—— 预处理菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（四）—— 段落抽取菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（五）—— 准备数据菜鸟笔记-D...

2020-03-27 22:55:30 894

原创菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（七）—— 模型训练-数据准备

系列目录：菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（一）——数据菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（二）——介绍及分词菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（三）—— 预处理菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（四）—— 段落抽取菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（五）—— 准备数据菜鸟笔记-D...

2020-03-27 15:42:57 906

翻译 [翻译Pytorch教程]NLP部分：基于`nn.Transformer`和`TorchText`构建序列到序列模型

翻译自官网教程:SEQUENCE-TO-SEQUENCE MODELING WITH NN.TRANSFORMER AND TORCHTEXT本文是关于如何使用nn.Transformer模块训练序列到序列(sequence-to-sequence)模型的教程。PyTorch 1.2 发布版包括了基于论文Attention is All YouNeed的标准transformer模块。这个t...

2020-03-03 09:45:01 1733

翻译 [翻译Pytorch教程]NLP部分：使用TorchText进行语言翻译

翻译自官网教程:LANGUAGE TRANSLATION WITH TORCHTEXT本教程展示了如何使用torchtext中几个方便的类对包含英语和德语句子对的知名数据集进行预处理，并用其训练一个将德语句子翻译成英语的包含注意力机制的序列到序列模型。本教程基于来自PyTorch社区成员Ben Trevett的这个教程，经过Ben Trevett的允许由Seth Weidman创建。完成本教...

2020-03-02 14:01:10 2584

翻译 [翻译Pytorch教程]NLP部分：使用TorchText进行文本分类

本教程展示如何在torchtext中调用文本分类数据集，包括：AG_NEWS,SogouNews,DBpedia,YelpReviewPolarity,YelpReviewFull,YahooAnswers,AmazonReviewPolarity,AmazonReviewFull这个例子展示了如何用这些文本分类TextClassification数据集之一训练一个有监督学习...

2020-03-01 13:16:16 3289 5

翻译 [翻译Pytorch教程]NLP从零开始：使用序列到序列网络和注意力机制进行翻译

翻译自官网手册:NLP From Scratch: Translation with a Sequence to Sequence Network and AttentionAuthor: Sean Robertson原文github代码这是NLP从零开始三个教程的第三个。教程中编写了自己的类和函数预处理数据来完成NLP建模任务。希望完成本教程的学习后你可以通过后续的三个教程，继续学习使用t...

2020-02-29 13:08:02 1181

翻译 [翻译Pytorch教程]NLP从零开始：使用字符级RNN进行名字生成

翻译自官网手册:NLP From Scratch: Generating Names with a Character-Level RNNAuthor: Sean Robertson原文github代码这是NLP从零开始三个教程的第二个。在第一个教程char_rnn_classification_tutorial中，使用RNN将名字按照其来源的语言进行了分类。本教程将进行名字生成。>...

2020-02-28 10:45:52 604

翻译 [翻译Pytorch教程]NLP从零开始：使用字符级RNN进行姓名分类

翻译自官网手册:NLP From Scratch: Classifying Names with a Character-Level RNNAuthor: Sean Robertson原文github本文将建立和训练一个基础的字级RNN对单词进行分类。本教程及随后两个教程，展示了如何一步步为自然语言处理（NLP）模型处理数据，尤其是不使用’torchtext’中的很多分词方便的函数，这样可以...

2020-02-27 12:23:30 1020

原创菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（六）—— 模型构建

系列目录：菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（一）——数据菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（二）——介绍及分词菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（三）—— 预处理菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（四）—— 段落抽取菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（五）—— 准备数据未完待续 ...

2020-02-23 20:43:54 1476 4

原创菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（五）—— 准备数据

系列目录：菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（一）——数据菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（二）——介绍及分词菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（三）—— 预处理菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（四）—— 段落抽取未完待续 … …准备数据包括检查数据、创建文件夹、准备词典、准备词嵌入。具体实现见...

2020-02-10 23:44:56 856 3

原创菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（四）—— 段落抽取

系列目录：菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（一）——数据菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（二）——介绍及分词菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（三）—— 预处理未完待续 … …基线系统加入了新的段落抽取策略来提升模型表现。段落抽取思路基线系统使用了新的段落抽取策略提高模型效果，具体代码见DuReader代码库中p...

2020-02-10 14:05:44 1160

原创菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（三）—— 预处理

DuReader数据集为每个用户问题提供了大量的文档，对于常见的RC模型这些文档太长。基线系统中对于训练集和校验集选择了与答案最相关的段落，在推理时，选择与问题最相关的段落推理。另外，由于基线系统选用的模型是抽取型模型，也就是需要从原文中寻找答案的模型，所以预处理代码选取了F1值最大的答案、段落词块对作为为答案用于训练，处理策略在utils/preprocess.py中实现。选取最相关段落对每...

2020-02-09 20:23:17 1481 8

原创菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（二）—— 介绍及分词

数据部分请见上一篇文章：菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（一）—— 数据官方基于了DuReader给了两个基线模型：(BiDAF 和 Match-LSTM)：Match-LSTM是广泛应用的MRC模型，Match-LSTM为了在文章中找到答案，依次遍历文章，动态地将注意力权重与文章的每个标记进行匹配。最后，使用一个应答指针层来查找文章中的答案跨度。BiDAF既...

2020-02-08 17:51:55 1569 8

原创菜鸟笔记-DuReader阅读理解基线模型代码阅读笔记（一）—— 数据

机器阅读理解是可以让计算机读取、处理、理解自然语言文本，这是人工智能的核心能力之一。在下一代搜索引擎和智能客服产品中具有重要价值。百度在2017年发布了大规模的中文MRC数据集：DuReader。DuReader的特点它是一个新的大型开放中文机器阅读理解数据集，其在中文应用中还是很有开创意义。相比以前的MRC数据集，DuReader有以下特点：所有的问题、原文都来源于实际数据（百度搜索引擎...

2020-02-08 10:42:51 2565 5

原创解决基于keras的inception_v3预训练模型无法下载问题并进行简单调用

keras的inception_v3是个图片进行分类模型，使用keras简单调用内置的inception_v3模型非常简单，只需要一行代码：#导入所需要的库import tensorflow as tffrom tensorflow.keras.preprocessing import imagefrom tensorflow.keras.applications.inception_v3...

2020-01-03 23:10:52 3714 15

翻译 [NLP]使用TensorFlow实现Seq2Seq神经机器翻译（翻译）

原文链接：http://androidkt.com/nmt-seq2seq-model-in-tensorflow/本教程将使用TensorFlow构建seq2seq（编码器 - 解码器）机器翻译模型。这个seq2seq模型的可以将英语句子翻译成德语句子。训练模型后，输入英文句子，例如“I am a student”可以得到其德语翻译：“Ich bin ein Student”。文章目录准备...

2019-01-02 21:53:48 4064 4

翻译 Keras序列到序列学习十分钟介绍（翻译）

Keras序列到序列学习十分钟介绍（翻译）原文链接：A ten-minute introduction to sequence-to-sequence learning in Keras文章目录序列到序列（sequence-to-sequenc，Seq2Seq）学习是什么？简单的情况：输入输出序列等长一般情况：典型sequence-to-sequenceKeras示例参考文献：进一步问答：如何...

2018-12-29 21:18:43 2154 1

原创 [NLP]预处理--使用re正则化进行文本清理

文本清理：在自然语言处理中，尽管文本清理受所做的任务影响比较大，但是有一些通用的清理流程标准是通用的，比如是否有必要替换单位、货币、数学符号、数字。可以使用正则化工具将相应内容替换为标准内容。工具：re(简介）输入：原始文本输出：干净文本代码：notebook单位替换将文本中的单位替换为统一格式如：将4kgs、4kg统一替换为4 kg，将4k替换为4000，将100或100100或10...

2018-10-03 13:36:38 3676

翻译综述：自然语言处理中深度学习应用综述

原文链接：https://arxiv.org/abs/1807.10854在过去几年中，自然语言处理领域由于深度学习模型的使用取得重大突破。本综述简要介绍了这个领域，并简要概述了深度学习架构和方法。然后筛选当前大量最近的研究，总结大量相关的贡献。分析了计算语言学的应用及几个自然语言处理核心问题在内的研究领域。对现有技术进行了讨论并为未来研究提出了建议。ACM Reference Fo...

2018-09-24 09:18:18 8846

翻译【Debug】自然语言处理库：spaCy下载模型en_core_web失败：Read timed out.

安装完spaCy，按教程输入： python -m spacy download en_core_web_lg报错： Read timed out.找教程找到了其它安装模型的方法：https://spacy.io/usage/models#usage1. 使用pip在线安装：直接使用URL（上条指令输入后的第二行找）。这个解决不了Read timed out 错误...

2018-09-19 00:44:25 13427 8

原创 MINGW64自定义命令缩写alias

1. 打开bash，输入cd ~进入根目录2. 进入/etc目录，打开bash.bashrc文件3.在文末添加alias命令，如alias nt='jupyter notebook',并保存。

2018-05-22 11:30:23 1886

原创使用python+selenium+Firefox登录大众点评

目标：控制浏览器点击、输入，登录大众点评环境：python-3.5、selenium-3.12.0、Firefox-59.0.3(32位)、geckodriver-v0.20.1-win64步骤：1、打开浏览器#打开浏览器browser = webdriver.Firefox()href = 'http://www.dianping.com/'browser.get(href)time.s...

2018-05-21 01:08:29 3787 2

原创联想台式机天启M4500忘记BIOS密码

台式机bios密码忘了，在网上找了教程，还原bios设置。扣了电池，断了电源，又拿金属片短接，搞了好几次都不行，绝望。在电池旁边找bios_reset跳线，找了半天，没找到。。。原来离电池好远，眼神不好真找不到啊。如图红圈位置这个红色跳线。把电源断了，跳线短接等会再把跳线还原，开机还是无效。反正不是自己电脑，跳线直接短接开机，没反应。关机，跳线接回去，开机，成功重置。总之，这个reset跳线需要上...

2018-04-16 23:26:40 14373 3

翻译 Meshlab简介

本文翻译自Meshlab主页：http://www.meshlab.net/　　 MeshLab是用于处理和编辑3D三角形网格的开源系统。它提供了一组用于编辑，清理，修复，检查，渲染，纹理和转换网格的工具。它提供了处理由3D数字化工具/设备生成的原始数据和准备3D打印模型的功能。特征3D采集：对齐　　3D数据对齐阶段（也称为配准）是用于处理3D扫描数据流程中的基本步骤。

2017-02-24 22:44:06 10196

原创 PCL例程使用CMake导入VS2013失败

报错：1. OPENNI_INCLUDE_DIRS-NOTFOUND 2. OPENNI_LIBRARY-NOTFOUND 3. VTK_DIR-NOTFOUND Could not find a package configuration file provided by "VTK" ：VTKConfig.cmakevtk-config.cmake

2016-12-12 17:55:15 4810 1

原创 C语言编程经验总结

编程首先要有明确的思路才能进入coding阶段，简单的举一个函数的例子：1、首先明确函数要实现什么功能，可以采用哪几种算法；2、综合考虑当前情况，从备选算法中选出适合当前情况的实现方法；3、明确函数借口，需要什么输入输出参数；4、需要哪些中间变量。5、对于算法如何实现有个明确的思路。6、进入coding阶段。其实，进入coding阶段所用的时间应该是最少的，把大部分的

2016-05-29 21:33:46 452

inception_v3_keras.zip

wikitext-2.zip

multi30k.zip

text_sentiment_ngrams_tutorial-CN.ipynb

torchtext_translation_tutorial-CN.ipynb

transformer_tutorial-CN.ipynb

char_rnn_classification_tutorial_CN.ipynb

char_rnn_generation_tutorial_CN.ipynb

seq2seq_translation_tutorial_CN.ipynb

空空如也