自然语言处理
文章平均质量分 59
GeekZW
先做后说,说到做到;淡泊明志,宁静致远
唐奖-终身制
展开
-
NLP——博客汇总
工作中,可以多看看行业中的大神们的动态,不要闭门造车。陆续汇总一些大神博客,互相学习。原创 2022-03-08 00:08:52 · 462 阅读 · 0 评论 -
NLP——常见任务的批量加载2.0
NLP任务常见的数据生成器,用于提升训练与测试效率原创 2021-12-24 00:16:50 · 1605 阅读 · 0 评论 -
Hugging Face——大规模预训练模型下载
本文主要记录如何在huggingface官网上下载模型,并加载。重点是前者。huggingface官网:https://huggingface.co huggingface的基本操作:https://huggingface.co/welcome官网已说明:如果想命令行快速下载模型,需要提前安装好git-lfs环境。其他参考链接:使用Hugging Face管道轻松应用NLP预训练模型1、安装git-lfsGit LFS 是 Github 开发的一个 Git 的扩展,用于实现 Git原创 2021-07-16 01:52:48 · 14948 阅读 · 4 评论 -
NLPCDA —— 基于SimBERT的相似文本生成
基于SimBERT的相似文本生成感谢苏神开源的SimBERT,笔者先前简单尝试了SimBERT在相似文本生成的应用。同时结合nlpcda作者开源的代码,所以才有了博客中的demo:NLPCDA——中文数据增强工具。估计是标题不够高大上,或者大家不知道NLPCDA这个工具,阅读量不大。最近,苏神又开源了RoFormer-Sim模型(SimBERT的升级版,简称SimBERTv2),链接:SimBERTv2来了!融合检索和生成的RoFo...原创 2021-06-27 00:21:41 · 7286 阅读 · 19 评论 -
NLP——大规模预训练模型下载
XGBoost实践篇——LTR原创 2021-06-15 23:33:48 · 713 阅读 · 1 评论 -
NLPCDA——中文数据增强工具
NLPCDA——中文数据增强工具背景:针对一个文本,如何泛化处最相似的topK条文本?Github:NLP Chinese Data Augmentation 一键中文数据增强工具【给原作者点赞????】安装命令:pip install nlpcda个人认为,第9种方案:使用simbert进行相似句生成具有很好的工业价值。原作者的demo如下:from nlpcda import Simbertfrom ...原创 2021-02-07 22:40:18 · 6532 阅读 · 17 评论 -
Python——annoy的安装&如何安装包
Python——annoy的安装目标:在不同操作系统中安装annoy,用于从海量文本中快速查找出相似的Top N 文本。背景:Annoy是高维空间求近似最近邻的一个开源库。GitHub:Annoy源码,本文主要谈如何在Windows、Linux与MacOX中进行安装annoy包。具体用法与性能分析见下一篇博客。1、Linux/Mac OX操作系统pip install -i https://pypi.tuna.tsi...原创 2020-12-03 23:54:03 · 6777 阅读 · 5 评论 -
互联网——常用资料查找网站
常用资料查找网站互联网行业查找资料的能力很关键,大部分人都会添加书签。便于以后换了电脑自己能快速查到一些资料,除开百度与谷歌,总结几个常用网站(排名不分先后)。知乎 Github 码云(*) 简书 七月在线 CSDN 博客园 Kaggl...原创 2020-03-07 19:42:01 · 1214 阅读 · 0 评论 -
NLP——常用工具汇总
NLP——常用工具汇总整理些可能会用到的工具:1. 中文分词工具LAC:https://github.com/baidu/lacLAC全称Lexical Analysis of Chinese,是百度自然语言处理部研发的一款联合的词法分析工具,实现中文分词、词性标注、专名识别等功能。该工具具有以下特点与优势:效果好:通过深度学习模型联合学习分词、词性标注、专名识别任...原创 2020-09-16 20:48:47 · 3184 阅读 · 0 评论 -
Synonyms——中文近义词工具【含源码解析与改进】
Synonyms——中文近义词工具背景:Synonyms 是一个中文近义词工具包,它可用于如文本对齐、推荐算法、相似度计算、语义偏移、关键字提取、概念提取、自动摘要、搜索引擎等很多自然语言理解(NLP)任务。Synonyms的码云地址:https://gitee.com/mirrors/Synonyms?_from=gitee_search(含具体用法) Synonyms的...原创 2020-08-08 01:07:11 · 6357 阅读 · 0 评论 -
Python——生成项目文件树状图
Python——生成项目文件树状图目标:用readme文档可能会用到文件夹的目录结构,如何用python快速实现?# 显示文件夹树状目录import osimport os.pathdef dfs_showdir(path, depth): if depth == 0: print("root:[" + path + "]") for item in ...原创 2020-08-03 23:02:03 · 3165 阅读 · 0 评论 -
Faker——NLP造数据神器
Faker——NLP造数据神器背景:NLP中的数据词典难以获取,尤其是数据增强的时候,总觉得不够。如何解决? Faker是一个Python包,开源的GITHUB项目,主要用来创建伪数据,使用Faker包,无需再手动生成或者手写随机数来生成数据,只需要调用Faker提供的方法,即可完成数据的生成。项目地址:https://github.com/joke2k...原创 2020-07-05 11:10:57 · 1112 阅读 · 0 评论 -
Python&Java——循环遍历替换字符串中的部分关键词
Python——循环遍历替换字符串中的部分关键词目标:循环遍历替换字符串中的指定关键词。例子:[时间]我想喝[城市]的[饮品店][时间]: ["今天", "昨天", "明天"],[城市]: ["重庆", "成都", "北京", "深圳"],[饮品店]: ["一点点", "奈雪的茶", "喜茶", "蜜雪冰城"]结果:今天我想喝重庆的一点点今天我想喝重庆的奈雪的茶今天我想喝重庆的喜茶今天我想喝重庆的蜜雪冰城...原创 2020-06-10 21:40:09 · 1800 阅读 · 0 评论 -
Typora——Vue文档风格主题设置
Typora——Vue文档风格主题设置目标:写代码时少不了写markdown文档,如何使用Typora来编写?(有道云笔记、印象笔记等等都可以,个人推荐Typora,适用于公司办公)1. Typora的介绍与下载 Typora是一款支持实时预览的 Markdown 编辑器和阅读器,支持Windows、macOS、Linux三大平台。Typora 作为一款合格的 Markdow...原创 2020-05-17 17:18:11 · 6139 阅读 · 0 评论 -
Java——正则提取文本中的指定信息
Java——正则提取文本中的指定信息目标:给定正则regex,提取出文本text中的信息。以QQ号码为例。Java代码:import java.util.ArrayList;import java.util.HashMap;import java.util.List;import ...原创 2020-04-19 12:17:30 · 4363 阅读 · 0 评论 -
NLP —— 词性中英映射表
NLP —— 词性中英映射表转载于hankcs / HanLP序号 代码 名称 帮助记忆的诠释 例子及注解1 Ag 形语素 形容词性语素。形容词代码为a,语素代码g前面置以A。 绿色/n 似/d 锦/Ag ,2 a 形容词 取英语形容词adjective的第1个...原创 2020-03-15 11:05:50 · 688 阅读 · 0 评论 -
常用正则表达式
常用正则表达式为便于查询,收集并整理一些常用正则表达式(转载:正则表达式-菜鸟教程),持续更新中...1、校验数字的正则表达式1、数字:^[0-9]*$2、n位的数字:^\d{n}$3、至少n位的数字:^\d{n,}$4、m-n位的数字...原创 2020-03-03 00:25:23 · 730 阅读 · 0 评论 -
Mac——利用Python进行网页爬取
Mac——利用Python进行网页爬取目标:利用Python爬取网页中的指定内容,例如,爬取百度百科上面的四川省的别名。输出:四川省的别名为:川、蜀、天府之国个人经验,网页爬取主要掌握2个核心点:网页爬虫的原理 正则表达式的灵活应用接下来,拆分一下步骤:1、打开待...原创 2020-03-02 23:32:47 · 3813 阅读 · 2 评论 -
Python——利用AC自动机进行关键词提取
Python——AC自动机目标:在之前写的文章【Python实现多模匹配——AC自动机】基础上,安装gcc(C编译器),再装ahocorasick ,并完成从文本中提取关键词的任务。由于原理之前已经介绍,这里只介绍安装过程与例子。1、安装ahocoras...原创 2020-02-26 22:02:11 · 8451 阅读 · 4 评论 -
Java——常用文件处理
Java——常用文件处理常见的文件处理包括:txt文件、csv文件等等,为便于项目快速开发,总结一下。持续更新中。例子:text.txt中的内容:中国 中国 None None None北京 中国 北京市 None None四川成都 ...原创 2020-02-12 23:06:14 · 287 阅读 · 0 评论 -
Python——腾讯词向量的预处理
Python——腾讯词向量的预处理目标:下载腾讯词向量,并对其进行预处理,输出字向量与对应的tokenizer。腾讯词向量下载地址:Tencent AI Lab Embedding Corpus for Chinese Words and Phrases。解压后是一个约...原创 2020-02-04 15:00:26 · 2815 阅读 · 0 评论 -
Python——n-gram实现
Python——n-gram实现目标:给定文本,以及划分的长度n,将文本划分为将长度为n的子文本,列表输出。例子:输入:哈哈切分长度:2列表输出:['哈哈']集合输出:{('哈', '哈')}输入:哈哈哈哈切分长度:3列表输出:['哈哈哈', '...原创 2019-12-07 15:26:23 · 14573 阅读 · 2 评论 -
Python——正则表达式的常见应用
Python——正则表达式的常见应用在NLP的数据处理过程中,经常会用到正则表达式,应用包括:case 1:字符串如何通过split()指定多个字符进行分割字符? case 2:网页爬虫时,如何自定义正则表达式,完成目标的匹配或查找?一、case 1:字符串如何通过sp...原创 2019-10-22 01:03:11 · 548 阅读 · 0 评论