- 博客(49)
- 收藏
- 关注
原创 中文分词工具使用方法及比较
中文分词工具分词背景介绍安装及介绍(jieba、pyhanlp、pkuseg、thulac、snownlp、nlpir)windowst系统分词工具安装Linux系统分词工具安装数据集介绍实验结果及比较参考文献分词背景介绍 不管在平时的实验还是比赛中,NLP的绝大多数任务(情感分析、阅读理解、对话系统、文本分类、...
2020-04-19 22:43:21 3942
原创 Zsh:找不到Conda
环境介绍macOS Big Sur 11.4, iTerm2, zsh问题描述:作为macOs 初级用户,命令行安装Anaconda,发现找不到conda环境无法使用,但是程序中存在有该app。解决方案:export PATH="/usr/local/anaconda3/bin:$PATH"问题描述:笔者这样解决的,但是还有一个问题,这个命令只针对本次有用,一旦关闭命令框,下次打开还会有问题。彻底解决方案:写入zsh启动文件vim ~/.zshrc按G将光标移动到文件末尾.
2021-07-05 17:48:59 558
原创 Driver/library version mismatch
nvidia-smi报错Failed to initialize NVML: Driver/library version mismatch之前还好好的,不知道做了什么,显卡驱动报错了,下面介绍解决方案方案一重启(很不推荐),详见stackoverflow虽然重启大法好,但这样做很可能掩盖问题本身。方案二卸载显卡驱动sudo rmmod nvidia报错$ sudo rmmod nvidia rmmod: ERROR: Module nvidia is in use查看谁
2021-04-28 12:23:43 4484 1
原创 ubuntu jupyter 远程访问
jupyter 介绍jupyter notebook是一个网页版的python编译器,可以用来做一些简单的数据分析,数据出来,界面比较友好。如下图:环境介绍ubuntu 20.04.1, python3.9安装命令行安装pip install jupyter修改配置文件(安装成功后)sudo vim /root/.jupyter/jupyter_notebook_config.py找到c.NotebookApp.ip = '',取消注释并修改成c.Noteboo
2021-04-06 21:59:49 222
原创 python 求解一元二次方程组
最近在做笔试题的时候遇到的一道题,挺有意思的贴出来和大佬讨论一下(常规的做法,不保证全对)题目要求:给两个方程,字符串格式给出,保证系数为整数。如6x-7+3y=2-5x和-5+x+y=8-x,保证有解且为整数。输入:两个方程;输出x,y的解,列表形式给出。如[1,2]表示x=1,y=2。整体思路:字符串提取x,y,常数项( c )的系数,使用哈希表实现考虑到给定的方程需要化简,因此第一步要化简等号左右两端的方程,并获取系数,并存放在字典中,移到等式一端,之后合并字典则6x-
2021-03-29 18:41:15 3720
原创 执行shell脚本报错 /usr/bin/env: “bash\r”: 没有那个文件或目录
/usr/bin/env: “bash\r”: 没有那个文件或目录解决方法: # sed -i "s/\r//" shell文件名
2021-03-25 22:02:54 1070
原创 ubuntu 20.04.1 自动关机
问题描述最近刚配了一台深度学习服务器,出去吃个饭,回来尽然关机了,以为是突发状况。没有太关注,但是,晚上没有关机,第二天醒来,看看又关机了……原因分析赶紧查看系统日志,如下这啥情况,睡眠了,长时间无操作,又给自动关机了…………好了,既然找到原因了,那下面介绍解决办法。解决方案查看系统以及关机的策略 (如下图,状态都是启动enabled)sudo systemctl status sleep.target suspend.target hibernate.target hybri
2021-03-23 16:12:02 10338 4
原创 python3 中type和isinstance区别,is与==的区别
写在开头会有一个疑问,为什么会把判断类型和判断值的内建函数放到一起?–因为这是笔者参加算法工程师面试的时候被问到的python问题,所以这里放到一起介绍一下。(虽然这些都是很小的点,但是如果面试被问到,很可能放大你的缺点。)type与isinstancetype参数只有一个,返回值为变量或者对象的类型,如int, str。isinstance参数有两个第一个为变量或者对象,第二个参数为是否属于该类型,可以是类名,或者内建类int,str等,也可以是这些类型组成的tuple;返回值为bo
2021-03-23 10:51:01 399
原创 ubuntu 命令行复制U盘文件,U盘挂载与退出
命令行复制优盘文件windows,macOS从U盘拷贝文件很容易,但是linux服务器版拷贝文件就有些麻烦(没有图形界面,温馨提示,服务器一般禁止插优盘,但是由于笔者是自己的服务器,当然知道自己的优盘是没问题的,而且也不存在盗窃数据一说)解决办法挂载优盘查看插入优盘名称 $: fdist -l挂载优盘到/mnt $: mount /dev/sda4 /mnt(这里的/mnt是专门挂载外设的,自己新建文件夹不能挂载)进入/mnt 目录 现在就可以看到自己优盘文件了
2021-03-22 16:55:27 2754
原创 ubuntu dkms报错
报错信息Error! Could not locate dkms.conf file.File: does not exist.查了以下可能是dkms安装的某些包有问题找到有问题的包for i in /var/lib/dkms/*/[^k]*/source; do [ -e "$i" ] || echo "$i";done笔者查到的问题是有个无线网卡驱动的问题,删了就没事了删除就可以了(如果觉得不安全,可以先备份以下)可以先备份一下(把<查到的文件夹名称>替换为
2021-03-22 10:33:31 10774 7
原创 github可以ping通,但是无法正常访问
问题描述环境: windows 10,pycharm 2020.3.3,谷歌浏览器 87.0.4280.66最近遇到一个问题:推送(push)自己的项目时,github提示超时浏览器(谷歌)访问github出错解决方案打开cmd,ping github.com,如下图所示尝试直接访问该ip,如果能访问到,那就没问题了,但是,问题是仍然无法访问,请看下述两种解决方案:第一种: 看了网上的资料说是github服务器ip一直在变,需要改自己的本地host,这个资料很多,但
2021-03-13 13:07:51 385
原创 leetcode 8 思路及code(带注释)
题目分析以上是三种方法的提交结果,第一个为官方解答DFA,第二个为自己手写的if-else,最后一个为正则匹配。题目并不难,函数主要就是解决字符串转数字自己想到的就是手写,一轮循环,但是边界需要做判断看题解有用正则表达式解决的,写法比较简答,效率也并不高学过《形式语言与自动机》这门课,感觉也没什么用处,但是看官方题解,用到了DAF(确定的有限状态自动机),有种学有所用的感觉解题方法一解题思路去掉开头的空格字符符号判断,正负数,需要注意特殊情况 [+1 -> 1
2021-01-29 23:50:33 280
原创 leetcode 6 题解及思路
题目分析 将一个给定字符串 s 根据给定的行数 numRows ,以从上往下、从左到右进行 Z 字形排列。具体看原题,这里举一个比较特殊的例子(两行的之字形)输入:s = “ABCDEFG”, numRows = 2输出:“ACEGBDF”解释:ACEGBDF思路记录利用二维数组模拟之字形读取二维数组重点主要是坐标的读写效率很低,空间时间都有很大的优化空间时间复杂度O(numRowsn),空间复杂度O(numRowsn), n为字符串长度代码及注释class Sol
2021-01-28 00:21:16 396
原创 Python and运算符
一些小的问题记录之前一直没在意的问题,记录一下。在使用列表等可变数据结构时, 经常是多个条件进行判断的,其实我们想要的是某些条件判断不正确,直接跳出。所以and逻辑运算符条件是有顺序的,如果前面的条件不满足,后面的条件就不判断了。如下图即and运算符,如果前面的条件正确,才会顺序判断后面的条件,否则跳出。举例说明print(1==1 and 2==2) print(1==2 and a[100]) # a是什么,不要管,因为and只判断前面的条件,显然前面的条件不正确,后面
2021-01-26 14:25:12 3098
原创 leetcode 1737 解题思路及注释code 贪心
备忘录最近在刷leetcode,好不容易搞懂一道题,还是希望记录下来,以防之后忘记,也希望可以分享给大家思路。题目要求给你两个字符串 a 和 b ,二者均由小写字母组成。一步操作中,你可以将 a 或 b 中的 任一字符 改变为 任一小写字母 。操作的最终目标是满足下列三个条件 之一 :a 中的 每个字母 在字母表中 严格小于 b 中的 每个字母 。b 中的 每个字母 在字母表中 严格小于 a 中的 每个字母 。a 和 b 都 由 同一个 字母组成。返回达成目标所需的 最少 操作数
2021-01-25 13:18:03 263
原创 linux权限管理(清晰)
背景由于实际应用场景需要,即在服务器中,需要比普通用户更加强的用户权限,但又不能是root权限因为不是老手的话,很容易会误操作(如 rm -rf /* 删库跑路者),带来不可挽回的损失。(即使老手也有打盹的时候)由于本人并不从事运维工作,只是简单设置权限,控制下系统安全风险网上找了些资料,介绍的比较细致,不适合新手,故笔者此文只介绍创建需要有特殊权限的普通用户的过程进入正题切换到root用户su root默认 root 用户没有密码,不能登录。需要使用passwd root
2021-01-20 14:43:36 149
原创 Pycharm连接远程服务器(图文教程)
Pycharm 连接远程服务器写在开头你可能遇到过这样一个问题,例如实验室或者某个机构有一台服务器,性能较好,但是只能大家同时使用,但是有一个问题就是,你每次需要把自己的代码和数据打包,之后上传到服务器重新跑一遍。如果有改动,需要做同样的事情。这样往复循环,是不是感觉自己大部分把精力放到了上传代码,上传数据上了,告诉你个好消息,pycharm其实解决了这个问题,让你的代码可以同步到你的服务器中,而且可以直接使用服务器的编程环境,是不是很方便……>远程服务器授权访问- 这一步可以参考笔者[
2020-12-01 13:28:35 9083 2
原创 本地ssh 连接远程机器
本地ssh 连接远程机器添加本地ssh public key到远程服务器两种情况,如果有如上文件目录结构,则打开id_rsa.pub(文本编辑器或其他工具),复制全部发给服务器运维人员(没有的话,自己拿着……)如果没有该文件夹,请先安装github,生成本地key(温馨提示:安装时注意添加github环境变量)配置ssh key配置全局的name和email,这里是的你github或者bitbucket的name和emailgit config --globa
2020-12-01 10:34:30 2677
原创 爬取新浪微博新闻(selenium),包括模拟登陆,数据存储等(适合初学者)
爬取新浪微博(模拟登陆,数据存储)写在最开头下载浏览器驱动测试驱动是否匹配/font>模拟登陆分析待爬取页面信息保存数据程序github地址写在最开头该程序主要是为爬取新浪微博,想要搜索的信息,主要报错的信息为文本,其他元素未涉及,此外微博博主信息,笔者也不关注,时间等信息同样不关注,主要目的就是获取文本信息。因此,本着对读者同样同样也是对自己负责的态度,文中添加了一些程序的注释及一些爬虫的思想。如果不感兴趣,直接想看程序,可以直接clone该代码,已上传到github;当然,如果有问题可以在评
2020-07-20 01:39:33 1087
原创 .jsonl,jsonlines比json格式更好用的文件格式
.jsonl,jsonlines比json格式更好用的文件格式jsonlines文件介绍json文件转为jsonlinesjsonlines转为json文件(原因是jsonlines虽然好用,但并未通用,很多配置文件等都用的json格式)其他相关问题jsonlines文件介绍之前一直用的都是键值对的json文件格式,觉得很好用;其实格式化之后的还可以,比较直观;但是很多时候我们看到的json文件都是一整行文本看的很不舒服。如下(这还是根据屏幕换行之后的效果):因此,就有想法说换成一行一个文本,也就
2020-07-15 01:17:03 20588 2
原创 python 字符串拼接的五种常见方式
python 字符串拼接方式有很多种,参考了网上的一些方法,这里记录常用的五种方式参考"+"方式a='字符串' b='拼接'print(a+b)运行结果模式串 "%s"方式print('%s%s' %(a,b))运行结果"format"方法(这里介绍了三种方式)print("{}{}".format(a,b))print("{0}{1}".form...
2020-05-01 16:31:12 808
原创 更改github识别的默认语言
github上传项目时,显示的语言不是自己想要的情况解决办法新建文件.gitattributes添加如下内容* linguist-language=python可以将下面的python改成任意的语言(java,c++)...
2020-04-20 21:31:43 429
原创 git linux安装使用(详细)
git linux安装使用git安装配置git创建版本库git添加远程库git其他的一些常用命名参考教程以笔者自己的一个github项目ChineseWordSegmentation为例git安装配置笔者环境介绍ubuntu 16.04.0安装方法$ sudo apt-get install git添加用户名及密码(这一步是必须的配置过程)用户名及自己的邮箱$ g...
2020-04-20 00:28:59 874
原创 python 创建文件夹或目录
python创建文件夹判断path是否存在,如果不存在创建文件夹或者目录,以级联的方式创建import osif not os.path.exists(path): os.makedirs(path)使用os.mkdir(path)创建单独的目录,创建级联目录会报错参考文献[1] https://blog.csdn.net/zxcasd11/article/details/...
2020-04-19 22:39:41 584
原创 vim编辑器搜索文件时消除刚才查找字符串的高亮
vim编辑器经常用到查找功能,由于设置了高亮,下次打开文件爱你依然有高亮存在,其实也没什么,但是对于笔者这个有点儿强迫症来说,看着一点儿也不爽,所以网上搜了两个解决办法方法一:重新查找一个文本中没有的字符串在vim命令行重新搜索一个不可能存在的字符串,例如:/......或者/xxxxxxx等方法二:取消高亮同样在命令模式下,输入::set nohlsearch 这种...
2020-04-19 19:32:13 517
原创 vim编辑python程序报错 inconsistent use of tabs and spaces in indentation
最近使用vim编辑python程序总出现缩进问题,找了些资料解决了这个让人头痛的小麻烦,在此记录下来! 问题是使用交叉编译环境时,windows下tab缩进多用4个空格代替tab,而linux中,新添加的代码,tab键会和之前的空格有冲突,虽然人眼看不出来,但是python编译器,不容许这样的情况出现。 找到了问题,就可以找到解决办法,有人提出在/etc/vim/vimrc中编辑,但是...
2020-04-19 18:58:59 1628
原创 hanlp,jieba,nlpir分词工具安装报错完全解决方案
问题分析及解决方案错误原因分析解决方案参考博文错误原因分析github地址可以看到setup.py最下方两行安装环境要求.fasttext; 2.micrsoft c++ 14.0; 3.JDK)解决方案参考博文...
2020-04-18 17:24:37 951
原创 拒绝龟速(Timeout),切换到conda、pip清华源
conda、pip切换清华源写在开头pip清华源conda清华源参考文献写在开头 之前已经有很多前辈记录过更改清华安装源的方法了,笔者也是参考他人写下(见本文参考文献),防止忘记,权当笔记。pip清华源1.临时使用直接在pip 后添加 -i https://pypi.tuna.tsinghua.edu.cn/simple参数例如:pip install -i https://p...
2020-04-18 11:27:13 576
原创 解决 failed to run cuBLAS routine cublasSgemm_v2: CUBLAS_STATUS_EXECUTION_FAILED
跑tensorflow项目时遇到了该问题计算机配置(方法一)针对有人说是还有其他程序占用着GPUCUDA问题参考文章计算机配置RTX2080 super,ubuntu16.04,tensorflow-gpu1.8,cuda9.0,cudnn7.6.4(方法一)针对有人说是还有其他程序占用着GPU报错信息(贴出最主要的两条):tensorflow.python.framework.erro...
2020-04-15 20:16:08 20849 9
原创 ubuntu anaconda创建虚拟环境报错
conda 创建虚拟环境报错环境问题描述问题解决环境ubuntu16.04,anconda3问题描述Collecting package metadata (current_repodata.json): doneSolving environment: failedCollecting package metadata (repodata.json): doneSolving en...
2020-04-13 11:15:56 2474
原创 python计算程序的运行时间的方法(python程序,jupyter)
python计算程序的运行时间的方法写在开头Python程序中经常使用方法jupyter 中的快捷统计程序运行时间的方法总结写在开头由于平时工作、测试或者实验需要,经常需要计算程序运行时间,其运行环境一般是jupyter或非jupyter环境。本文将对其进行总结,方便下次使用(好记心不如烂笔头嘛)Python程序中经常使用方法python中用于计算时间的有time,datetime(1)...
2020-04-07 23:38:24 17088 5
原创 pytorch 中涉及到矩阵之间的乘法(torch.mul, *, torch.mm, torch.matmul, @)
最近在学习pytorch,过程中遇到一些问题,这里权当笔记记录下来,同时也供大家参考。下面简单回顾一下矩阵中的乘法:(严谨的说,其实应该说是矩阵乘法和矩阵内积)1、矩阵乘法 矩阵乘法也就是我们常说的矩阵向量积(也称矩阵外积、矩阵叉乘) 它要求前一个矩阵的行数等于后一个矩阵的列数,其计算方法是计算结果的每一行元素为前一个...
2020-03-03 19:15:22 8667 2
原创 桌面版 ubuntu 16.04.1 循环登录
桌面版 ubuntu 16.04.1 循环登录本机环境及遇到的问题参考文章解决方法一、之前遇到问题——重装显卡驱动(很麻烦,重启后遇到同样的问题)1、本人安装时没有屏蔽机器自带的驱动(这里最好加上,不然可能会和你自己的安装的显卡驱动打架)输入如下内容执行如下命令开机后查看是否成功将nouveau屏蔽(无输出表示已成功屏蔽)2、首先卸载之前的全部显卡驱动3、重装显卡驱动(本人使用的是430.40版本...
2019-12-03 17:18:58 579
原创 debian 卸载软件的三种方法
第一种:通过安装源安装的软件1、安装软件 apt-get install softname2、删除软件包,但是不删除软件的配置文件:(如果再想安装,可能会出现问题)apt-get remove softname 3、删除软件包,并删除相应的配置文件:(apt-get autoremove softname将依赖的软件包卸载掉,这样就可以完全卸载一个软件)apt-get re...
2019-04-01 09:21:13 48491 2
原创 debian 安装源
deb http://mirrors.163.com/debian/ stretch main contrib non-freedeb http://mirrors.163.com/debian/ stretch-updates main contrib non-freedeb http://mirrors.163.com/debian-security/ stretch/updates m...
2019-04-01 07:49:58 2608 1
原创 机器学习平行语料库(翻译记忆库)(句对齐)开源工具及方法介绍
最近一直在做平行语料库句对齐的工作,新手上路根据自己查的一些资料这里概括一下大致的思路(这里假设你有自己的语料库,文章,而且是双语的,也就是已经翻译好的文章,并且已经做了分段,且双语已经做了段落对齐。如果没有的话可以下载,一些双语语料库,如联合国双语语料库http://opus.nlpl.eu/MultiUN.php,有了这些,你要做一个分句,接就要对齐了,之后一般是要形成一个翻译记忆库,.t...
2019-02-19 10:09:24 9174
原创 windows下 pip 安装出错 超时 ReadTimeoutError 报错,解决办法
小技巧,这里记录下来,下次用!!原因一般都是安装源是国外的,国内下载安装被限制了……方法一添加超时选项 --default-timeout=100如:python -m pip --default-timeout=100 install --upgrade pip 方法二在C:\Users\Administrator 下新建pip 文件在pip新建pip.in...
2019-01-24 10:57:03 560
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人