自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(104)
  • 资源 (3)
  • 收藏
  • 关注

原创 isin函数及其反函数

isin函数是常用的求数据交集函数,然而它的反函数并不是isnotin,而是在前面加上~,下面会做具体讲解。

2022-12-18 12:57:52 447

原创 Pandas对多列同时进行数值排序(顺序不同)

【代码】Pandas对多列同时进行数值排序(顺序不同)

2022-12-17 12:02:11 436

原创 Pandas将两个sheet写入一个表格和实现任意列求和

df.to_excel('table.xlsx',sheet_name = 'sheet1')df.to_excel(‘table.xlsx',sheet_name = 'sheet2')结果excel文件中只有sheet2这个sheet,那么如何保留两张sheet? pandas to_excel 将数据写入excel时如果直接传excel文件路径,那么每次都会覆盖之前的数据,想要向一个文件写入多个sheet那就需要先构造一个ExcelWriter对象,然后将这个对象传给to_excel 而不是直接传ex

2022-12-04 19:15:36 1599

原创 Python获取当前时间

打印结果:今天是12月3日18点1分4秒打印结果: 2022-12-03 18:01:04  打印结果:2022-12-03 18:01:04

2022-12-03 18:08:28 2096

原创 python破解wifi教程

最近朋友让我帮忙破解wifi密码,我去网上看了一点资料,亲自做了测试,成功破解了自己当前连的wifi,现在把思路分享给大家(仅做技术交流,希望大家可以用自己本地无线做测试,不要用作其他,否则后果自负)

2022-11-25 21:39:15 77357 134

原创 Pandas快速合并多张excel表格

1.首先将所有excel表格放到一个文件夹下面。2.用pandas进行合并。

2022-11-16 14:55:33 3908 3

原创 Pandas提取非空行值

在做数据处理的时候,会遇到要提取表格中,某一列的值不为空的行,我们可以通过pandas来轻松处理。

2022-11-12 18:42:56 2719

原创 ModuleNotFoundError: No module named ‘nltk‘的解决方法

【代码】ModuleNotFoundError: No module named ‘nltk‘的解决方法。

2022-10-30 23:18:16 1945

原创 图卷积神经网络GCN、GAT的原理及Pytorch实现

ICLR作为机器学习方向的顶会,最近看了ICLR2023 Openreview的论文投稿分析,通过2022和2023年论文关键词、标题高频词等信息的可视化比较。根据前十的关键词频率排名频率来看,基本上和去年保持一致,大火的领域依旧大火。但是可以明显看到前五名关键词的频率差距逐渐减少。有意思的是这一关键词终于又重回前三,再次为「国际学习表征会议」(ICLR)正名。这一关键词则是掉了一名,与交换了位置,但相比于去年的频率仍然火爆。GCN作为GNN的变种,依然是一个发论文的热门。

2022-10-22 14:21:12 3752 4

原创 安装faiss 报错:找不到满足要求 faiss 的版本

【代码】安装faiss 报错:找不到满足要求 faiss 的版本。

2022-10-08 16:34:26 1067

原创 使用matplotlib绘图中文字符显示问题

一般的绘图上述方案均能解决,但是我在ubuntu系统下面发现没能解决。

2022-09-23 16:14:24 771

转载 关系抽取之远程监督算法(Distant Supervision)

信息抽取是自然语言处理中非常重要的一块内容,包括实体抽取(命名实体识别,Named Entity Recognition)、关系抽取(Relation Extraction)和事件抽取(Event Extraction)。这次介绍的关系抽取属于自然语言理解(NLU)的范畴,也是构建和扩展知识图谱的一种方法。

2022-09-14 16:09:33 1728

原创 KNN-KG论文学习笔记

最近在看知识图谱嵌入和知识推理方面的知识,考虑到TransC模型中关系传递性造成的语义缺失的错误传递,近期看的一篇论文《》(2022,记忆推理:最近邻知识图谱嵌入,已上传arxiv,暂未录用),可以利用增强记忆网络和KNN来学习新的实体embedding并存入knowledgestore。

2022-09-03 13:51:16 783

原创 Conda常用命令及Pycharm使用虚拟环境

2.打开后如下,Project:demo是我的项目名字不用管,如下图打开project Interperter。4.点击Existing environment,从...选择你的环境位置。5.因为anaconda的虚拟环境默认放在envs文件夹下,所以去选择即可。二、Ubuntu中pycharm中使用Anaconda中的虚拟环境。3.如图,看到最右边的Reset了吗,点击它下面的齿轮。首先退出虚拟环境,然后输入以下命令行。1.查看当前虚拟环境列表。4.base虚拟环境。退出 base 环境。......

2022-08-26 15:38:35 1065

原创 python统计csv文件内容词频

代码】python统计csv文件内容词频。

2022-08-09 23:16:32 1350

原创 解决pandas无法读取每行列数不同的csv文件

1. 遍历csv的每行长度,找到最大长度;2. 以最大长度定义整体csv列数。

2022-08-09 10:06:17 1133

原创 TransC知识表示模型

DifferentiatingConceptsandInstancesforKnowledgeGraphEmbedding》(2018)提出了一种新的区分概念和实例的知识图谱表示学习方法,将上下位关系与普通的关系做了区分,可以很好的解决上下位关系的传递性问题,并且能够表示概念在空间中的层次与包含关系。向量的和就是信息的积累。但实体和关系可能比这更复杂。将这种关系分为四种不同的关系,即(A,Relation,B),A和B之间的关系为B包含于A,二者无关,二者相交,A包含于B。...

2022-07-22 14:31:16 407

原创 TransE模型学习笔记

目录一、知识表示学习的引入二、论文摘要三、方法介绍(一)建模多关系数据(二)关系嵌入到向量空间中的翻译四、TransE模型(一)学习实体和关系的低维嵌入向量(二)基于“能量”的计算方法五、算法流程六、实验(一)数据集(二)实验设置(三)链接预测(四)详细结果(五)学习预测新关系七、结论参考文档今天分享的是NIPS 2013的一篇经典论文《Translating Embeddings for Modeling Multi-relational Data》原文连接:https://proceedings.neu

2022-07-09 00:15:48 2276

原创 The file is too large :xxx . Read-only mode解决Ubuntu

在ubuntu安装好Pycharm后,打开文件会出现“The file is too large :xxx . Read-only mode”的提示,原因是默认文件大小有限制,无法完全展示。先找到pycharm的安装路径,然后按照如下命令,进入pycharm的安装路径,vim修改配置文件idea.properties,shift+:保存修改。 会看到默认的size为2.5M修改为900M保存后,重启pycharm就没可以正常打开文件,显示全部内容了...............

2022-07-05 10:37:27 899

原创 ubuntu20.04设置截图功能

一、进入设置二、进入键盘快捷键设置三、设置截图快捷键按照提示输入想要使用的快捷键,这里我输入Ctrl+Alt+A,可以根据自己的习惯来设置 完成以上步骤就设置完成了,其他键盘快捷键方式的功能类似。...

2022-06-29 09:52:33 698

原创 ubuntu20.04安装Linux原生的微信

在优麒麟下有Linux原生的微信,虽然功能简陋了一些,但是有比没有强,基本的聊天需求是可以被满足的。ubuntu下是没提供这个的,需要去优麒麟的官网,找到优麒麟的应用下载,可以看到微信。链接如下:https://www.ubuntukylin.com/applications/106-cn.html注意:下载deb包,此时浏览器点了64位下载,提示出来后点击保存。找到下载的文件包weixin_2.1.1_amd64.debweixin_2.1.1_amd64.deb文件鼠标右键,在终端打开然后输入 然后就安

2022-06-29 09:44:04 848 1

原创 Win10系统下安装Ubuntu系统(双系统)

目录一、用U盘制作安装盘1. 安装UItraISO2. 下载Ubuntu20.04的ISO文件3. 将镜像写入U盘 二、BIOS配置三、设置分区四、安装Ubuntu20.04最近新入手一台DELL工作站,原装是Win10系统,准备安装Ubuntu系统,在双系统下,win10做日常办公,Ubuntu做深度学习。下面以截图的反应安装的过程:链接:https://pan.baidu.com/s/1ioq-3Ny-_Q0_Xcp3eiMjtA 提取码:orpz 链接:https://pan.baidu.com/

2022-06-28 21:53:25 3538 2

原创 KeyBert、TextRank等九种本文关键词提取算法(KPE)原理及代码实现

关键词提取 (Keyphrase Extraction,KPE) 任务可以自动提取文档中能够概括核心内容的短语,有利于下游信息检索和 NLP 任务。当前,由于对文档进行标注需要耗费大量资源且缺乏大规模的关键词提取数据集,无监督的关键词提取在实际应用中更为广泛。无监督关键词抽取的state of the art(SOTA)方法是对候选词和文档标识之间的相似度进行排序来选择关键词。但由于候选词和文档序列长度之间的差异导致了关键短语候选和文档的表征不匹配,导致以往的方法在长文档上的性能不佳,无法充分利用预训练模型

2022-05-10 16:36:09 4834 1

原创 Pandas数据(去重、筛选、匹配)及plt绘图

以下是记录自己数据分析的一次历程,包括使用pandas进行数据去重、筛选、合并、获取目录内容进行匹配,其中遇到了数据表的存储和重新获取以固定表结构。包括两个表的合并,合并后数据字段的修改、筛选。最后将结果使用Matplotlib进行绘图,分别绘制柱状图和饼状图,过程中遇到如何显示中文标签,状图数目,如何优化图像等问题并逐一解决。1. 数据去重import numpyimport pandas as pddata = pd.read_excel('data.xlsx')#按照name1,nam

2022-04-27 15:51:06 3587

原创 离线安装pandas、numpy等package指定版本

离线安装package,只需访问下面网址http://mirrors.163.com/pypi/simple/如想下载pandashttp://mirrors.163.com/pypi/simple/pandas则会出现pandas所以版本,根据自己需要下载相应的whl安装文件,然后pip安装即可例如:其他安装包,如numpy类似操作...

2022-04-23 20:42:03 1971

原创 Linux如何Kill掉python进程

一、显示所有进程ps -ef | grep python二、Kill掉不用的进程上面是进程的进程号kill -s 9 进程号若提示没有权限则使用下面的命令sudo kill -s 9 进程号

2022-04-18 19:09:39 3406

原创 pip安装package失败或者安装过慢问题解决

Anaconda在pip安装各种package时,很容易因为安装过慢导致安装失败。下面给出一种通用的方法可以快速安装各种package。一、更新pippython.exe -m pip install --upgrade pip二、pip安装pip install --index https://pypi.mirrors.ustc.edu.cn/simple/ 包名例如:pip install --index https://pypi.mirrors.ustc.edu.cn/s

2022-04-16 08:25:31 696

原创 PyTorch的torch.cat、squeeze()、unsqueeze()和size()函数

目录一、sequeeze()函数二、unsequeeze()函数三、size()函数四、torch.cat函数在Pytorch做深度学习过程中,CNN的卷积和池化过程中会用到torch.cat、squeeze()、unsqueeze()和size()函数,下面分别做讲解:一、sequeeze()函数x.squeeze(dim)用途:进行维度压缩,去掉tensor中维数为1的维度参数设置:如果设置dim=a,就是去掉指定维度中维数为1的示例:import ..

2022-04-13 10:16:16 1196

原创 Linux服务器上修改深度学习代码

由于本人本地电脑没有配GUP,跑深度学习代码非常慢,所以远程登录linux服务器来运行(但是没法Debug,不如本地用Pycahrm方便呀),下面归纳几个常用修改python代码的linux命令。一、进入文件夹cd + 文件目录然后配合命令 ls 来查看当前目录下的文件二、修改文件内容在选择的当前需要修改代码的路径下面(1)输入:vim + 文件名 (如:vim main.py)(2)shift+“:”,使文件变成可查询状态(3)找到位置后修改:按键盘 i 键 即变成可编辑状

2022-04-02 18:32:49 3487

原创 BERT(Pre-training of Deep Bidirectional Transformers forLanguage Understanding)论文笔记

目录一、Bert简介1.1 Transformer模型1.2 Bert模型二、BERT的发展历程2.1One-Hot 编码2.1.1无法计算词相似度2.1.2Sparsity(稀疏性)​2.2Word2vec2.3 BERT的诞生三、BERT 的训练过程3.1Masked LM(Language Model)3.2 Next Sentence Prediction四、BERT的用途4.1 文本分类4.2单词分类4.3判断两...

2022-03-31 12:48:58 513

原创 深度学习参数详解(Epoch,Batch,Iteration,Batch_Size)

名词 定义 Epoch 使用训练集的全部数据对模型进行一次完整训练,“一代训练” Batch 使用数据集中的一小部分样本对模型权重进行一次反向传播的参数更新,“一批数据” Iteration 使用一个Batch数据对模型进行一次参数更新的过程,“一次训练” batch_size 一个mini-batch所包含的样本数目称为batch_size 为什么要使用多于一个epoch?在神经网络中传递完整的数据集一次是不够的,而且我们需要将完.

2022-03-30 13:45:00 3643 2

原创 Bert+CNN文本分类(含代码实现)

一、什么是CNN?CNN的特点:(1)特定特征位移不变性(2)特征缩放不变性2. CNN模型构造过程2.1 Convolution(卷积)(1)获取关键特征(减少参数)(2)共享权重(再次减少参数)2.2 Max Pooling(池化)2.3 Flatten向量转换为如图所示可以进入全连接层的向量模式3. TextCNN上图可理解为:通过不同的size(如上图2、3、4等),上图红色代表 size=2,黄色...

2022-03-28 00:17:38 7253 15

原创 Bert文本分类实战(附代码讲解)

一、Bert简介BERT全称是Bidirectional Encoder Representations from Transformers,是google最新提出的NLP预训练方法,在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于我们关心的下游NLP任务(如分类、阅读理解)。 BERT优于以前的方法,因为它是用于预训练NLP的第一个**无监督,深度双向**系统,从名字我们能看出该模型两个核心特质:依赖于Transformer以及双向,同时它也是木偶动画《芝麻街》里面的角色,

2022-03-25 23:30:02 16144 55

原创 虚拟环境安装Pytorch详细教程

目录一、创建 PyTorch 虚拟环境1.1 打开 Anaconda 自带的 Anaconda Prompt1.2 打开 Anaconda Prompt 之后,在命令行输入命令1.3 输入命令,进入 pytorch 虚拟环境二、安装Pytorch2.1添加清华镜像源2.2搜索可用版本2.3安装2.4验证是否成功一、创建 PyTorch 虚拟环境1.1 打开 Anaconda 自带的 Anaconda Prompt1.2 打开 Anacond....

2022-03-16 13:49:49 8098

原创 用OpenPyXL将Excel文件转换为CSV文件

话不多说,直接上代码#导入需要的库import csvimport openpyxlimport pandas as pdfrom openpyxl import load_workbook#定义方法def excel_to_csv(excel_file, csv_file): workbook = load_workbook(filename = excel_file) sheet = workbook.active csv_data = [] .

2022-03-15 12:01:45 1028

原创 Python实现电影订票系统

一、效果展示通过Python实现一个电影订票系统,效果如下图所示:二、整体结构图三、代码分解3.1 infos.py一部电影的详细信息适合用字典结构来存储,我们可以给字典里添加多个键值对来保存电影的名称、座位表和宣传时用的字符画,比如电影《泰坦尼克号》的详细信息就可以按下面的形式保存到字典titanic中:infos = [ { 'name': '泰坦尼克号', 'symbol': '''+==================== 泰...

2022-03-03 21:10:34 1625 1

原创 Python画星星和星空

目录一、画一个N边形二、画五角星三、一闪一闪亮晶晶Python 中的画图工具——turtle(海龟绘图),turtle 是 Python 中自带的绘图模块,最初来自于 Wally Feurzeig, Seymour Papert 和 Cynthia Solomon 于 1967 年所创造的 Logo 编程语言。使用 turtle 控制画笔在画板上画画。而这个画笔是有形状的,默认是一个小箭头,我们可以使用turtle.shape('turtle')将其设成一个小海龟。除了变成小海龟外,..

2022-03-02 23:54:26 4292 1

原创 面向对象和面向过程的方法对比

面向过程的方法from random import randinttimes = 6lottery = []for i in range(0, times): number = randint(0, 99) lottery.append(number)print('本期彩票中奖号码为:%s' % lottery)

2022-02-27 11:03:52 156

原创 Python计算骰子出现的概率

大家肯定都摇过 🎲,我们知道一个骰子有六个面,分别对应 1-6 六个数字,这六个数字出现的概率是一样的,都是六分之一(0.166666...)。接下来我们使用random.choice()函数模拟摇骰子的过程,统计每个数字出现的次数,并按照数字 x 出现的频率为 xxx的格式,打印出每个数字出现的频率。# 导入 random 模块import randomcounts = {'1': 0, '2': 0, '3': 0, '4': 0, '5': 0, '6': 0}# 取出 co...

2022-02-23 00:53:51 1960

原创 文本词频统计

根据字典键必需是唯一的这个特性,我们可以进行简单的文本统计,即一段话中每个字出现的次数。比如空空如也,空字出现了 2 次,如和也字各出现了 1 次。我们接下来统计绕口令黑化肥发灰会挥发,灰化肥挥发会发黑中每个字出现的次数(包括标点),思路如下:创建一个空字典{}用来存放数据; 用for 循环遍历字符串; 将遍历的每个元素作为字典的键进行判断:如果该键存在于字典中,说明之前统计过该字,则将该键对应的值加 1。如果不存在,说明是第一次出现该字,则将该键...

2022-02-22 12:09:38 266

cips2021.pdf

NLP,AI,自然语言处理

2021-12-28

PDF转换器,用于PDF转换为各种需要的格式

PDF转换器,用于PDF转换为各种需要的格式

2021-06-27

四级人工智能自然语言处理与识别方向(2020年版试行考纲)模拟卷.pdf

2020年上海市高等学校信息技术水平考试(四级人工智能)

2021-06-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除