自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 基于bert构建自己的分词系统

这里,我们不使用上述的工具,而是利用bert训练一个自己的分词器。

2022-08-17 10:14:59 1252 5

原创 斗破苍穹新词发现

对于一个特定的领域而言,我们可能需要其相关的一些词语,这些词语可以用来进行分词、关键词提取、主题分析等。那么,如何去获得这些词语呢?本文接下来将通过斗破苍穹小说来介绍新词发现。......

2022-08-10 22:47:00 190 4

原创 西西成语接龙小助手

读完该文,你可以收获:python爬虫的简单使用。构建前缀树以进行搜索提示。构建一个简单的成语接龙小程序。

2022-08-04 16:49:03 426 4

原创 基于英雄联盟的知识图谱问答系统

该文介绍了英雄联盟知识图谱的构建以及搭建一个简单的基于知识图谱的英雄联盟问答系统。

2022-08-03 10:28:20 449

原创 【标注工具doccano导出数据为空的解决办法】

地址:https://github.com/taishan1994/doccano_exportdoccano_export使用doccano标注工具同时导出实体和关系数据为空的解决办法。doccano版本:1.6.2。标注平台地址:https://github.com/doccano/doccano安装其实安装挺简单的:pip install doccano# Initialize database.doccano init# Create a super user.doccano cr

2022-05-20 10:58:26 1271 5

原创 天池oppo-text-match比赛-苏剑林baseline代码解读

本文根据苏剑林的基于bert的baseline进行短文本匹配的讲解,其github地址是:https://github.com/bojone/oppo-text-match/blob/main/baseline.py赛题地址:https://tianchi.aliyun.com/competition/entrance/531851数据探索下载好相关数据之后,我们先看一下数据是什么样的:path = '/content/drive/MyDrive/oppo-text-match/baseline_

2021-03-23 10:27:24 949 9

原创 【关系抽取-mre-in-one-pass】模型的建立

模型创建相关代码def create_model(bert_config, is_training, input_ids, input_mask, segment_ids, labels, num_labels, use_one_hot_embeddings, extras): """Creates a classification model.""" model = modeling.BertModel( config=bert_config,

2021-03-19 14:36:22 174

原创 【关系抽取-mre-in-one-pass】加载数据(一)

模型训练命令python run_classifier.py \ --task_name=semeval \ --do_train=true \ --do_eval=false \ --do_predict=false \ --data_dir=$DATA_DIR/semeval2018/multi \ --vocab_file=$BERT_BASE_DIR/vocab.txt \ --bert

2021-03-19 09:49:36 243

原创 【关系抽取-mre-in-one-pass】加载数据(二)

接上一节加载数据(一)上一节我们说到了convert_single_example(ex_index, example, label_list, max_seq_length, tokenizer)这个函数,里面又分别调用了:loc, mas, e1_mas, e2_mas = prepare_extra_data(mapping_a, example.locations, FLAGS.max_distance)而在prepare_extr

2021-03-19 09:47:59 111

原创 colab下百度ERNIE的安装

安装paddlepaddle安装命令!python -m pip install paddlepaddle-gpu==2.0.1.post100 -f https://paddlepaddle.org.cn/whl/mkl/stable.html安装paddle-ernie安装命令!pip install paddle-ernie测试安装是否成功下载模型相关的文件!wget https://ernie-github.cdn.bcebos.com/model-ernie1.0.1.tar.

2021-03-18 17:09:12 607 2

原创 python实现并查集

什么是并查集?这里借用百度百科的一句话:并查集是一种树型的数据结构,用于处理一些不相交集合(disjoint sets)的合并及查询问题。常常在使用中以森林来表示。假设现在有一个武林大会,包含了少林、峨嵋、武当等门派,通过并查集就可以将每个人归类到自己的门派中。代码实现class UnionFind: def __init__(self): self.co = 0 # 用于记录群的个数 self.parent = [] # 索引是每个节点本身,值是每个节点的

2021-01-25 15:58:40 598

原创 python多维嵌套列表转换为一维列表

直接看代码:arr = [[1,1],2,[1,1,[4,5]]]res = []def flat(arr): for a in arr: if isinstance(a, int): res.append(a) else: flat(a)flat(arr)print(res)结果:[1, 1, 2, 1, 1, 4, 5]

2021-01-18 23:51:24 715

原创 python小例子

第一篇csdn博文,先占个坑=。=python小例子1. 格式化输出自定义对象class Person: def __init__(self, name=None, id=None): self.name = name self.id = id def __str__(self): return str(self.__dict__) def __repr__(self): return self.__str__() def __eq__(self, other): if s

2021-01-18 14:34:37 67

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除