迪迦瓦特曼
码龄4年
  • 77,869
    被访问
  • 80
    原创
  • 28,726
    排名
  • 95
    粉丝
关注
提问 私信
  • 加入CSDN时间: 2018-11-19
博客简介:

欢迎来到AI小书童的博客

查看详细资料
  • 4
    领奖
    总分 772 当月 84
个人成就
  • 获得94次点赞
  • 内容获得64次评论
  • 获得544次收藏
创作历程
  • 28篇
    2022年
  • 54篇
    2021年
成就勋章
TA的专栏
  • NLP
    47篇
  • Pandas
    6篇
  • GPU服务器使用
    2篇
  • error解决
    4篇
  • Pytorch
    1篇
  • Python基础
    12篇
  • 爬虫
    2篇
  • 办公
    1篇
兴趣领域 设置
  • 人工智能
    机器学习深度学习神经网络自然语言处理tensorflowpytorchnlp数据分析
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

KeyBert、TextRank等九种本文关键词提取算法(KPE)原理及代码实现

关键词提取 (Keyphrase Extraction,KPE) 任务可以自动提取文档中能够概括核心内容的短语,有利于下游信息检索和 NLP 任务。当前,由于对文档进行标注需要耗费大量资源且缺乏大规模的关键词提取数据集,无监督的关键词提取在实际应用中更为广泛。无监督关键词抽取的state of the art(SOTA)方法是对候选词和文档标识之间的相似度进行排序来选择关键词。但由于候选词和文档序列长度之间的差异导致了关键短语候选和文档的表征不匹配,导致以往的方法在长文档上的性能不佳,无法充分利用预训练模型
原创
发布博客 2022.05.10 ·
180 阅读 ·
0 点赞 ·
0 评论

Pandas数据(去重、筛选、匹配)及plt绘图

以下是记录自己数据分析的一次历程,包括使用pandas进行数据去重、筛选、合并、获取目录内容进行匹配,其中遇到了数据表的存储和重新获取以固定表结构。包括两个表的合并,合并后数据字段的修改、筛选。最后将结果使用Matplotlib进行绘图,分别绘制柱状图和饼状图,过程中遇到如何显示中文标签,状图数目,如何优化图像等问题并逐一解决。1. 数据去重import numpyimport pandas as pddata = pd.read_excel('data.xlsx')#按照name1,nam
原创
发布博客 2022.04.27 ·
2862 阅读 ·
1 点赞 ·
0 评论

离线安装pandas、numpy等package指定版本

离线安装package,只需访问下面网址http://mirrors.163.com/pypi/simple/如想下载pandashttp://mirrors.163.com/pypi/simple/pandas则会出现pandas所以版本,根据自己需要下载相应的whl安装文件,然后pip安装即可例如:其他安装包,如numpy类似操作...
原创
发布博客 2022.04.23 ·
1374 阅读 ·
0 点赞 ·
0 评论

Linux如何Kill掉python进程

一、显示所有进程ps -ef | grep python二、Kill掉不用的进程上面是进程的进程号kill -s 9 进程号若提示没有权限则使用下面的命令sudo kill -s 9 进程号
原创
发布博客 2022.04.18 ·
1536 阅读 ·
0 点赞 ·
0 评论

pip安装package失败或者安装过慢问题解决

Anaconda在pip安装各种package时,很容易因为安装过慢导致安装失败。下面给出一种通用的方法可以快速安装各种package。一、更新pippython.exe -m pip install --upgrade pip二、pip安装pip install --index https://pypi.mirrors.ustc.edu.cn/simple/ 包名例如:pip install --index https://pypi.mirrors.ustc.edu.cn/s
原创
发布博客 2022.04.16 ·
500 阅读 ·
0 点赞 ·
0 评论

PyTorch的torch.cat、squeeze()、unsqueeze()和size()函数

目录一、sequeeze()函数二、unsequeeze()函数三、size()函数四、torch.cat函数在Pytorch做深度学习过程中,CNN的卷积和池化过程中会用到torch.cat、squeeze()、unsqueeze()和size()函数,下面分别做讲解:一、sequeeze()函数x.squeeze(dim)用途:进行维度压缩,去掉tensor中维数为1的维度参数设置:如果设置dim=a,就是去掉指定维度中维数为1的示例:import ..
原创
发布博客 2022.04.13 ·
76 阅读 ·
0 点赞 ·
0 评论

Linux服务器上修改深度学习代码

由于本人本地电脑没有配GUP,跑深度学习代码非常慢,所以远程登录linux服务器来运行(但是没法Debug,不如本地用Pycahrm方便呀),下面归纳几个常用修改python代码的linux命令。一、进入文件夹cd + 文件目录然后配合命令 ls 来查看当前目录下的文件二、修改文件内容在选择的当前需要修改代码的路径下面(1)输入:vim + 文件名 (如:vim main.py)(2)shift+“:”,使文件变成可查询状态(3)找到位置后修改:按键盘 i 键 即变成可编辑状
原创
发布博客 2022.04.02 ·
2665 阅读 ·
1 点赞 ·
0 评论

BERT(Pre-training of Deep Bidirectional Transformers forLanguage Understanding)论文笔记

目录一、Bert简介1.1 Transformer模型1.2 Bert模型二、BERT的发展历程2.1One-Hot 编码2.1.1无法计算词相似度2.1.2Sparsity(稀疏性)​2.2Word2vec2.3 BERT的诞生三、BERT 的训练过程3.1Masked LM(Language Model)3.2 Next Sentence Prediction四、BERT的用途4.1 文本分类4.2单词分类4.3判断两...
原创
发布博客 2022.03.31 ·
212 阅读 ·
0 点赞 ·
0 评论

深度学习参数详解(Epoch,Batch,Iteration,Batch_Size)

名词 定义 Epoch 使用训练集的全部数据对模型进行一次完整训练,“一代训练” Batch 使用数据集中的一小部分样本对模型权重进行一次反向传播的参数更新,“一批数据” Iteration 使用一个Batch数据对模型进行一次参数更新的过程,“一次训练” batch_size 一个mini-batch所包含的样本数目称为batch_size 为什么要使用多于一个epoch?在神经网络中传递完整的数据集一次是不够的,而且我们需要将完.
原创
发布博客 2022.03.30 ·
1557 阅读 ·
0 点赞 ·
0 评论

Bert+CNN文本分类(含代码实现)

一、什么是CNN?CNN的特点:(1)特定特征位移不变性(2)特征缩放不变性2. CNN模型构造过程2.1 Convolution(卷积)(1)获取关键特征(减少参数)(2)共享权重(再次减少参数)2.2 Max Pooling(池化)2.3 Flatten向量转换为如图所示可以进入全连接层的向量模式3. TextCNN上图可理解为:通过不同的size(如上图2、3、4等),上图红色代表 size=2,黄色...
原创
发布博客 2022.03.28 ·
2165 阅读 ·
2 点赞 ·
6 评论

Bert文本分类实战(附代码讲解)

一、Bert简介BERT全称是Bidirectional Encoder Representations from Transformers,是google最新提出的NLP预训练方法,在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于我们关心的下游NLP任务(如分类、阅读理解)。 BERT优于以前的方法,因为它是用于预训练NLP的第一个**无监督,深度双向**系统,从名字我们能看出该模型两个核心特质:依赖于Transformer以及双向,同时它也是木偶动画《芝麻街》里面的角色,
原创
发布博客 2022.03.25 ·
1814 阅读 ·
3 点赞 ·
7 评论

虚拟环境安装Pytorch详细教程

目录一、创建 PyTorch 虚拟环境1.1 打开 Anaconda 自带的 Anaconda Prompt1.2 打开 Anaconda Prompt 之后,在命令行输入命令1.3 输入命令,进入 pytorch 虚拟环境二、安装Pytorch2.1添加清华镜像源2.2搜索可用版本2.3安装2.4验证是否成功一、创建 PyTorch 虚拟环境1.1 打开 Anaconda 自带的 Anaconda Prompt1.2 打开 Anacond...
原创
发布博客 2022.03.16 ·
2118 阅读 ·
1 点赞 ·
0 评论

用OpenPyXL将Excel文件转换为CSV文件

话不多说,直接上代码#导入需要的库import csvimport openpyxlimport pandas as pdfrom openpyxl import load_workbook#定义方法def excel_to_csv(excel_file, csv_file): workbook = load_workbook(filename = excel_file) sheet = workbook.active csv_data = [] .
原创
发布博客 2022.03.15 ·
401 阅读 ·
0 点赞 ·
0 评论

Python实现电影订票系统

一、效果展示通过Python实现一个电影订票系统,效果如下图所示:二、整体结构图三、代码分解3.1 infos.py一部电影的详细信息适合用字典结构来存储,我们可以给字典里添加多个键值对来保存电影的名称、座位表和宣传时用的字符画,比如电影《泰坦尼克号》的详细信息就可以按下面的形式保存到字典titanic中:infos = [ { 'name': '泰坦尼克号', 'symbol': '''+==================== 泰...
原创
发布博客 2022.03.03 ·
441 阅读 ·
1 点赞 ·
0 评论

Python画星星和星空

目录一、画一个N边形二、画五角星三、一闪一闪亮晶晶Python 中的画图工具——turtle(海龟绘图),turtle 是 Python 中自带的绘图模块,最初来自于 Wally Feurzeig, Seymour Papert 和 Cynthia Solomon 于 1967 年所创造的 Logo 编程语言。使用 turtle 控制画笔在画板上画画。而这个画笔是有形状的,默认是一个小箭头,我们可以使用turtle.shape('turtle')将其设成一个小海龟。除了变成小海龟外,..
原创
发布博客 2022.03.02 ·
1357 阅读 ·
1 点赞 ·
1 评论

面向对象和面向过程的方法对比

面向过程的方法from random import randinttimes = 6lottery = []for i in range(0, times): number = randint(0, 99) lottery.append(number)print('本期彩票中奖号码为:%s' % lottery)
原创
发布博客 2022.02.27 ·
105 阅读 ·
0 点赞 ·
0 评论

Python计算骰子出现的概率

大家肯定都摇过 🎲,我们知道一个骰子有六个面,分别对应 1-6 六个数字,这六个数字出现的概率是一样的,都是六分之一(0.166666...)。接下来我们使用random.choice()函数模拟摇骰子的过程,统计每个数字出现的次数,并按照数字 x 出现的频率为 xxx的格式,打印出每个数字出现的频率。# 导入 random 模块import randomcounts = {'1': 0, '2': 0, '3': 0, '4': 0, '5': 0, '6': 0}# 取出 co...
原创
发布博客 2022.02.23 ·
467 阅读 ·
0 点赞 ·
0 评论

文本词频统计

根据字典键必需是唯一的这个特性,我们可以进行简单的文本统计,即一段话中每个字出现的次数。比如空空如也,空字出现了 2 次,如和也字各出现了 1 次。我们接下来统计绕口令黑化肥发灰会挥发,灰化肥挥发会发黑中每个字出现的次数(包括标点),思路如下:创建一个空字典{}用来存放数据; 用for 循环遍历字符串; 将遍历的每个元素作为字典的键进行判断:如果该键存在于字典中,说明之前统计过该字,则将该键对应的值加 1。如果不存在,说明是第一次出现该字,则将该键...
原创
发布博客 2022.02.22 ·
85 阅读 ·
0 点赞 ·
0 评论

Python实现日程表

小明最近忙到起飞。从 当前时间 开始算,2 小时 后,闻闻要去参加公开课;6 小时 后,她要开始整理学员信息;2 天 后,她要去深圳参加行业交流会。要求打印一个日程后,隔 0.5 秒 再打印下一个日程。请你用 time 模块 和 datetime 模块 编写代码,打印出小明的日程表。# 导入必要的模块import timefrom datetime import datetime,timedeltaprint('参加公开课的时间是:')print(datetime.now() + time
原创
发布博客 2022.02.22 ·
322 阅读 ·
0 点赞 ·
0 评论

Python实现鸡兔同笼问题

鸡兔同笼问题是《孙子算经》中的经典题目,也是小学奥数题里的常客。原书中是这么描述的:“今有雉兔同笼,上有三十五头,下有九十四足,问雉兔各几何?”翻译成现代汉语就是:“鸡和兔放在一个笼子里,笼子里共有 35 个头,94 个爪,那鸡和兔各有多少只?”请你根据下面的要求,用 Python 来完成这道数学题,和它一起“奥数”:在solution.py中建立函数calculate(),该函数能算出鸡和兔分别的数量; 在主程序main.py中导入函数calculate(),根据题干中的“...
原创
发布博客 2022.02.21 ·
612 阅读 ·
0 点赞 ·
0 评论
加载更多