自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 NLP-文本分析 数据预处理系列之 .doc或.docx文档集合转换为NLP需要的语料库

python之处理 .doc或.docx文档数据

2022-12-15 11:18:54 242 1

原创 python 数字list列表与逗号分隔字符串之间的相互转换

python 数字list列表与逗号分隔字符串之间的相互转换

2022-11-21 10:09:14 3639

原创 分年份重新整理YELP数据集

最近做实验需要用到Yelp数据集,但是Yelp官网直接下载的数据集是非常大的,压缩之后多有2.7G,解压后大概6.4G左右(可怕),原始数据集是将很多年份的评论数据放在一起的。大多数文献都是使用的一年的Yelp数据就可以了,那我们也一样分年份整理出来就可以,最后存储形式遵循Amazon数据集的json+gzip格式。废话不多说,直接上代码。# python3.6 # encoding : utf-8 -*-

2022-04-14 11:29:12 3603 9

原创 自然语言处理NLP系列(一)——文本预处理

自然语言处理NLP系列(一)——文本预处理1 英文文本预处理1.1 个人认为英文文本预处理分两步就可第一步,将文本中含有的常用标点符号用空格替换掉,这么做的原因是英文中标点和单词之间是没有空格,后面用空格作为分隔符分词的时候就容易造成标点和单词在一起造成单词就不是原来的词了;第二步,形成停用词表,去除停用词,停用词主要包括语气词,句子连接词等对文本的语义理解作用不大的词汇。1.2 代码实现stopwordsFile = "./stopwords" # 构建停用词表 if not os.pat

2022-01-18 10:33:55 1259

原创 xshell终端使程序在linux服务器后台运行的两种方式

1. nohup + & 两种命令组合使用例如:nohup python hello.py &nohup命令优缺点:优点:终端断开会话(程序)依然进行缺点:一旦运行该命令,终端不在接受其他任何标准输入(原因是nohup只是不挂起,并不拥有后台执行的功能)& 命令的优缺点:优点:程序后台执行缺点:终端断开,进程(程序)也会中断所以结合两者优点,互相弥补对方缺点。2.screen命令(真的香)相当于开了多个虚拟终端连接。常用命令:screen -S hello

2021-07-09 10:19:49 2237

转载 windows通过浏览器远程连接Linux服务器的jupyter

看了很多博客,最终还是参考下面两篇解决了问题:windows通过浏览器远程连接Linux服务器的jupyter云服务器ubuntu系统下安装anaconda及jupyter notebook,并远程访问我建议最后终端运行jupyter notebook命令是还是参照第一篇中的命令:jupyter notebook --allow-root...

2021-06-08 21:51:34 118

转载 linux下常用的conda命令

转载自:Anaconda介绍、安装及使用教程

2021-06-07 08:31:54 337

原创 解决conda安装pythorch报错:CondaHTTPError: HTTP 000 CONNECTION FAILED

解决办法:添加清华镜像#首先先添加清华的镜像源conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/msys2/conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/conda config --add channels https://mirrors.tuna

2021-06-05 11:11:22 1851

原创 linux服务器安装python3

以编译安装python3.6为例进行说明:1.下载python3源码包wget https://www.python.org/ftp/python/3.6.6/Python-3.6.6.tgz2.下载python3编译的依赖包 yum install -y gcc patch libffi-devel python-devel zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-dev

2021-06-04 19:27:41 531

原创 .whl文件本地化安装pytorch

我命令行按照[pytorch官网](https://pytorch.org/)给的pip方式安装不行,于是进入下面的网址,[troch、torchvision、torchaudio 的.whl文件下载地址](https://download.pytorch.org/whl/torch_stable.html)下载.whl文件到本地,再安装。

2021-04-27 16:11:20 761

原创 mysql8.0 输入密码闪退问题

1.背景前一天写一个爬虫,需要将结果存到数据库中,想用批量化的存储,一次存入三条数据,从而减少数据库的打开关闭。但是由于爬取的数据量较大,中间时不时就包数据库插入错误,就百度,找到下面这篇文章:https://blog.csdn.net/weixin_39561473/article/details/90213914看了之后才觉得应该是插入一次插入数据量大了,pocket大了,于是修改pocket(所以以后操作数据库注意这点),然后按照要求改my.ini文件,重启mysql服务。然后问题就出现了,再次

2021-04-13 22:50:41 1297

原创 反向传播的全矩阵方法

之前在神经网络随机梯度下降计算梯度时,在反向传播时每个样本单独计算梯度,然后再求小批量数据的梯度平均值;而现在全矩阵方法是将整个小批量作为一个矩阵(一个样本作为一列)输入整体利用矩阵运算一次计算梯度平均值,用计算出的梯度平均值去更新权重和偏置。结果表明,全矩阵方法能够提升效率平均5倍左右,由开始的平均10秒到2秒。废话不多说,直接上代码:# ⼩批量数据上的反向传播的全矩阵⽅法,并且最后更新权重 def backprop_matrix(self, x, y, m, eta): ""

2021-01-12 10:27:24 1227

原创 python实现误差逆传播算法

最近学习神经网络,自己参照源代码把误差逆传播重新写了一遍,其实挺简单的,关键是要把逆传播的几个过程搞清楚以及每一步是为了得到什么,然后知道numpy的矩阵运算操作,废话不多说,直接上代码:# 反向传播算法def backpro(weights, bs, x, y, nums): """ 逆传播计算参数的梯度 :param weights: 权重矩阵列表,每一层一个权重矩阵,直到最后一层,整个网络构成一个矩阵集合 :param bs: 偏置向量列表,每一层一个偏置列向量

2021-01-06 09:14:06 425

原创 最近学习神经网络的一点总结

一、神经网络跟线性回归比较:1.计算输出的方式:线性回归基本就是解释变量(输入)的线性组合再加一个随机扰动项就得到输出;而神经网络是每个神经元(除去输入层神经元)都将输入进行线性组合再加一个随机扰动项(偏置,阈值的相反数)之后再用一个激活函数(逻辑函数)进行变换作为输出,依次进行,直到进行到输出层。2.对参数值的估计:线性回归一般用的是最小二乘估计法,而神经网络的是梯度下降法(目前学习到的方法)。感觉这两种方法的思想都是一样的,即使得模型估计的输出与期望输出之间的误差尽可能的小。对于有一组样本,线

2020-12-23 21:35:16 303

原创 struts2项目的配置

虽然现在用struts2框架开发java web应用的很少,有些小伙伴可能还有这样的需求,现在将配置struts2项目简单总结一下。1.web.xml 文件的配置在创建一个java web项目的时候,都会自动生成一个 web.xml 用于配置项目。如果在项目中需要用struts2框架来组织代码,需要在 web.xml 中做如下配置: <filter> <filter-name>struts2</filter-name> <

2020-12-06 14:57:38 469

原创 navicat pdb 表空间

解决使用sql命令在pdb下创建表空间在navicat中找不到的问题原因竟然是我们开始使用的是ORCL连接的oracle数据库,要想查看到你在pdb下创建的表空间,你需要重新建立一个oracle连接,服务名使用你创建pdb时候的名称,比如:pdborcl1.建立oracle连接时默认是ORCL2.你需要修改的关于如何使用sql命令从默认的cdb切换到pdb以及在pdb下创建用户可以参考另一篇文章:上链接:https://blog.csdn.net/xionglovexi/article/det

2020-11-27 10:32:19 1035

原创 oracel 19c 导入DMP文件

oracle 在pdb模式下运用impdp命令导入dmp文件一、引言注:oracle数据库是可以免费下载的,百度搜下有很多教程最近需要把一个dmp文件导入oracle数据库,在网上找了很久没干成,步骤都是首先运用sqlplus创建tablespace,创建用户,授权给用户,再在命令行执行imp命令:结果不行,最后求教给我们dmp文件的大佬,他说需要用impdp命令,不能用imp,不太懂,就按照这样做了,然后分享了一片利用impdp的文章:上链接:https://www.cnblogs.com/af

2020-11-27 10:15:28 6417

原创 JSoup下载文件或图片保存到本地

JSoup下载文件或图片保存到本地public static void main(String[] args) throws IOException { //下载文件的地址 String fileUrl = "http://image.baidu.com/search/detail?ct=503316480&z=0&ipn=d&word=%...

2020-01-07 20:36:59 4270 3

原创 idea中如何配置maven

这几天一直在琢磨idea中使用maven,开始一直报错,红色波浪线,几乎要崩溃,重新下载了一个一下idea,这个是for education,就可以了。我也不太明白原理,但真的奏效了,希望可以帮到你!maven下载和配置##官网下载maven直接百度maven就可以了,应该第一个就是maven官网,进去后页面:直接download直接下载第二个就可以,第一个应该是linux,第二个是...

2019-12-24 22:49:38 103

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除