项目经验
文章平均质量分 60
GeekZW
先做后说,说到做到;淡泊明志,宁静致远
唐奖-终身制
展开
-
NLP——博客汇总
工作中,可以多看看行业中的大神们的动态,不要闭门造车。陆续汇总一些大神博客,互相学习。原创 2022-03-08 00:08:52 · 463 阅读 · 0 评论 -
NLP——常见任务的批量加载2.0
NLP任务常见的数据生成器,用于提升训练与测试效率原创 2021-12-24 00:16:50 · 1606 阅读 · 0 评论 -
NLPCDA —— 基于SimBERT的相似文本生成
基于SimBERT的相似文本生成感谢苏神开源的SimBERT,笔者先前简单尝试了SimBERT在相似文本生成的应用。同时结合nlpcda作者开源的代码,所以才有了博客中的demo:NLPCDA——中文数据增强工具。估计是标题不够高大上,或者大家不知道NLPCDA这个工具,阅读量不大。最近,苏神又开源了RoFormer-Sim模型(SimBERT的升级版,简称SimBERTv2),链接:SimBERTv2来了!融合检索和生成的RoFo...原创 2021-06-27 00:21:41 · 7301 阅读 · 19 评论 -
工作中的Git常用命令总结
工作中的Git常用命令总结工作中,程序员基本都会写代码,提交代码。为了提升自己的办公效果,光使用IDE里面的git还不行,git命令也要用到炉火纯青才行。后面陆续整理一下。Github、Gitlab与码云等等常用。1. 最基本的克隆代码git clone 代码git链接输入账号和密码即可完成克隆。2. 拉取master分支最新的代码git pull origin master如果权限不够,添加su...原创 2021-06-26 22:54:32 · 234 阅读 · 0 评论 -
Python——命令行传参
Python 提供了getopt模块来获取命令行参数。Python 中也可以使用sys的sys.argv来获取命令行参数: sys.argv 是命令行参数列表。 len(sys.argv) 是命令行参数个数。原创 2021-06-12 00:19:43 · 6343 阅读 · 0 评论 -
Python——如何避免无法解码的数据读取
Python——如何避免无法解码的数据读取工作中,线上数据可能存在一些utf-8无法解码的符号,应该如何利用python读取?解决方案:新增参数errors="ignore"with open("demo.txt", "r", encoding="utf-8", errors="ignore") as file: for line in file: print(line)API文档可以看...原创 2021-06-07 00:35:46 · 1202 阅读 · 1 评论 -
Linux——恨不得背个千百遍的命令
Linux——恨不得背个千百遍的命令工作中,有的Linux命令很重要,但是又太难得记,或者容易混淆,真的是恨不得背个千百遍。1. 清华镜像源(原谅我,日子一久,死活记不住)pip install -i https://pypi.tuna.tsinghua.edu.cn/simple 包名2. GPU使用率命令(nvidia与英伟达老是因为读音记错)nvidia-smi...原创 2021-04-02 22:22:09 · 303 阅读 · 0 评论 -
Kafka——零基础入门消息系统
Kafka——零基础入门因工作需要,零基础入门kafka,总结下自学过程,共包括以下几点:1.什么是kafka? 2. Mac如何安装并使用kafka? 3. Python如何安装使用kafka?资源:kafka中文官方文档 kafka的GitHub【含demo】 Apache Kafka 快速指南1. 什么是kafka?这部分主要总结kafka的相关名词概念、功能...原创 2021-03-07 18:18:55 · 329 阅读 · 0 评论 -
Pycharm——2种方式快速回滚指定版本代码
Pycharm指定版本的代码回滚工作中,因为各种原因,难免会遇到代码回滚。本文记录2种快速回滚代码的方式,以python项目为例 [Pycharm集成环境]:Pycharm中进行代码回滚、分支切换 Git命令进行代码回滚、分支切换假设项目已建成,并已push到Github或者Gitlab中【如果不会,请百度一下】。一般地,公司里的项目代码是多人维护,经常...原创 2021-02-24 22:27:01 · 4697 阅读 · 0 评论 -
Python——工作中的调试经验
Python——工作中的代码调试经验【说在前面】作为一名算法工程师,结合个人的理解,需掌握四种语言:文字语言 + 符号语言 + 图形语言 + 编程语言。文字语言—— 能向不同的人清楚地表达自己的想法、观点与问题,编写技术文档、PPT汇报,以及总结能力等; 符号语言—— 要知道如何用专业的符号来描述问题(需要具备相应的数学功底,但不是纯秀数学功底,而不落地),并进行逻辑推理,证明等,不人云亦云,要有自己独到的见解; 图形语言—— 与别人讨论或交流时,用图形去解释问题,往...原创 2021-01-15 00:24:24 · 437 阅读 · 1 评论 -
NLP——如何批量加载数据
NLP——如何批量加载数据问题背景:利用Bert、Albert、Roberta或腾讯词向量等预训练模型,去微调或者特征集成各类NLP子任务,并转存为pb模型后,如何进行批量预测,以提升性能,缩短耗时呢?当然是batch预测了!为了方便以后使用,个人抽成一个简单的类。资源:源代码:改自苏神的bert4keras源码文件夹examples中的情感分析例子 如果不熟悉子类继承父...原创 2020-10-14 22:40:51 · 1292 阅读 · 2 评论 -
互联网——常用资料查找网站
常用资料查找网站互联网行业查找资料的能力很关键,大部分人都会添加书签。便于以后换了电脑自己能快速查到一些资料,除开百度与谷歌,总结几个常用网站(排名不分先后)。知乎 Github 码云(*) 简书 七月在线 CSDN 博客园 Kaggl...原创 2020-03-07 19:42:01 · 1214 阅读 · 0 评论 -
Python——可视化神器pyecharts的正确打开方式
Python——可视化神器pyecharts的正确打开方式 回家路上,无意中翻到了“python与算法社区”公众号中的一篇文章《pyecharts绘制出的4类惊艳动图》,发现挺有意思。回家尝试了下,效果不错。也踩了一些坑,于是整理下,便于提升自己工作中的图表可视化能力(重点可用于PPT、周报、年终总结报告中)。 如果有幸能帮到你,点个赞吧,码字不易。1、Echarts的背景 E...原创 2020-09-24 23:26:34 · 3423 阅读 · 0 评论 -
NLP——常用工具汇总
NLP——常用工具汇总整理些可能会用到的工具:1. 中文分词工具LAC:https://github.com/baidu/lacLAC全称Lexical Analysis of Chinese,是百度自然语言处理部研发的一款联合的词法分析工具,实现中文分词、词性标注、专名识别等功能。该工具具有以下特点与优势:效果好:通过深度学习模型联合学习分词、词性标注、专名识别任...原创 2020-09-16 20:48:47 · 3188 阅读 · 0 评论 -
Linux几种常用命令(简易版)
Linux几种常用命令(简易版) 工作中,常会用到Linux的命令,有的命令老是容易忘,用到了还得现查,为了方便自己查阅,整理一点最基(chang)本(shi)的Linux命令,尤其是文件与目录的操作。另外文末给出了几个Linux学习网站,都很专业,值得关注。首先说下~/与...原创 2019-08-25 14:57:20 · 2346 阅读 · 9 评论 -
yagmail——快速发送邮件
yagmail——快速发送邮件目标:如何利用python中的yagmail包,快速发送邮件。python写的一个简单demo脚本代码如下:import yagmailimport pandas as pdfrom loguru import logger# 保存excel文件contents= pd.DataFrame()contents["name"] = ["张三"...原创 2020-08-30 00:45:31 · 5655 阅读 · 3 评论 -
Synonyms——中文近义词工具【含源码解析与改进】
Synonyms——中文近义词工具背景:Synonyms 是一个中文近义词工具包,它可用于如文本对齐、推荐算法、相似度计算、语义偏移、关键字提取、概念提取、自动摘要、搜索引擎等很多自然语言理解(NLP)任务。Synonyms的码云地址:https://gitee.com/mirrors/Synonyms?_from=gitee_search(含具体用法) Synonyms的...原创 2020-08-08 01:07:11 · 6376 阅读 · 0 评论 -
Regexper——正则表达式可视化工具
Regexper——正则表达式可视化工具目标:有时候正则表达式很长,不便于分析与检查,尤其是后期维护费时费力。如果能将正则表达式进行可视化,那么就可以起到事半功倍的效果。Regexper:https://regexper.com 测试用例.*(我想喝|我要喝)(一碗|一杯|一瓶)(一点点|奈雪的茶|喜茶).*|(我想|我要)(吃饭|跳舞|唱歌|拉粑粑).*效果如下图:PS...原创 2020-08-08 00:47:29 · 7485 阅读 · 1 评论 -
Python——生成项目requirements
Python——生成项目requirements生成:cd 项目目录,pip freeze > requirements.txt 安装:pip install -r requirements.txt原创 2020-08-03 23:04:41 · 527 阅读 · 0 评论 -
Python——生成项目文件树状图
Python——生成项目文件树状图目标:用readme文档可能会用到文件夹的目录结构,如何用python快速实现?# 显示文件夹树状目录import osimport os.pathdef dfs_showdir(path, depth): if depth == 0: print("root:[" + path + "]") for item in ...原创 2020-08-03 23:02:03 · 3166 阅读 · 0 评论 -
Python——保留指定字符拆分字符串
Python——保留指定字符拆分字符串目标:根据指定字符列表,将目标字符串进行拆分,且同时保留这些字符串,输出为列表。解决方案:替换+拆分if __name__ == "__main__": ob_string = "我想和[喜茶]、「一点点」和{奈雪的茶}" char_list = ["[喜茶]", "「一点点」", "{奈雪的茶}"] for char i...原创 2020-07-05 11:49:00 · 1636 阅读 · 0 评论 -
Faker——NLP造数据神器
Faker——NLP造数据神器背景:NLP中的数据词典难以获取,尤其是数据增强的时候,总觉得不够。如何解决? Faker是一个Python包,开源的GITHUB项目,主要用来创建伪数据,使用Faker包,无需再手动生成或者手写随机数来生成数据,只需要调用Faker提供的方法,即可完成数据的生成。项目地址:https://github.com/joke2k...原创 2020-07-05 11:10:57 · 1112 阅读 · 0 评论 -
Java——正则提取文本中的指定信息
Java——正则提取文本中的指定信息目标:给定正则regex,提取出文本text中的信息。以QQ号码为例。Java代码:import java.util.ArrayList;import java.util.HashMap;import java.util.List;import ...原创 2020-04-19 12:17:30 · 4365 阅读 · 0 评论 -
常用正则表达式
常用正则表达式为便于查询,收集并整理一些常用正则表达式(转载:正则表达式-菜鸟教程),持续更新中...1、校验数字的正则表达式1、数字:^[0-9]*$2、n位的数字:^\d{n}$3、至少n位的数字:^\d{n,}$4、m-n位的数字...原创 2020-03-03 00:25:23 · 731 阅读 · 0 评论 -
Pyinstaller打包后的exe文件打开闪退解决方案
Pyinstaller打包后的exe文件打开闪退解决方案问题:利用pyinstaller对python代码打包后,dist文件夹中会生成一个xxx.exe可执行文件。但是很多朋友双击这个exe文件会发现,代码运行后,一闪而过(闪退)。那么如何解决?解决方案1:step 1: winkey + rstep 2: cd进入...原创 2020-03-01 21:40:24 · 32771 阅读 · 15 评论 -
Pyinstaller——Python代码打包
Pyinstaller——Python代码打包目标:对Python代码进行打包,生成exe文件(Mac系统的可执行文件)或exec文件(Mac系统的可执行文件)1、安装pyinstaller在终端输入:pip install -i https://pypi.tuna.t...原创 2020-02-26 21:29:32 · 329 阅读 · 0 评论 -
Mac——三步更改python 默认pip源
Mac——更改python 默认pip源写在前面:本文内容转自【小白 Mac os更改python 默认pip源,提高pip安装模块的速度】。为便于自己以后工作,简化版地记录总结下。写作目的:pip默认使用的是国外的源,慢得只有几个k,换成国内的源速度简直飞起,以前还傻傻的一直默默...原创 2020-02-22 20:29:10 · 8612 阅读 · 2 评论 -
Python实现多模匹配——AC自动机
Python实现多模匹配——AC自动机目标:学习AC自动机,多模匹配。要求:尽可能用纯Python实现,提升代码的扩展性。一、什么是AC自动机? AC自动机,Aho-Corasick automaton,该算法在1975年产生于贝尔实验室,是著名的多...原创 2020-02-10 13:23:32 · 6064 阅读 · 1 评论 -
Python——循环遍历多个列表实现字符的组合拼接
Python——循环遍历多个列表实现字符的组合拼接目标:给定泛化的句式文件regex.txt,组合生成query参考解决技巧:一日一技:如何用Python遍历多个列表元素的所有组合regex.txt的内容:小张(来|背|背诵|读)+(一段|一首|几首|一条)我喜欢的(唐诗|宋词|元曲)吧立马(删掉|关闭...原创 2019-11-21 23:33:57 · 8461 阅读 · 2 评论 -
2018年机器学习算法工程师——秋招自我总结
2018年机器学习算法工程师——秋招自我总结 (2018.3.12 ~ 2018.10.14)(1)简历 - 笔试 - 面试(一面,二面,……,HR面,加面) - offer ...原创 2018-10-23 16:40:08 · 11897 阅读 · 17 评论 -
Python2-调用Face++的接口进行人脸检测
Python2-调用Face++的接口进行人脸检测参考博客: Python调用face++人脸检测API结果如下:检测结果如下:Python2的运行代码如下:# -*- coding:utf-8 -*-# python 2.7import cv2import urllib2im...原创 2019-02-16 17:38:22 · 689 阅读 · 0 评论