- 博客(220)
- 资源 (5)
- 收藏
- 关注
原创 conda+jupyter+pycharm:如何在Windows conda环境下运行jupyter并使用浏览器或者pycharm运行.ipynb
conda+jupyter+pycharm:如何在Windows conda环境下运行jupyter并使用pycharm运行.ipynb
2025-01-08 15:38:41
388
原创 关系分类(RC)模型和关系抽取(RE)模型的区别
关系分类模型:对给定的实体对在给定句子中预测其关系类型。两阶段(RC)关系抽取模型:从句子中识别出所有潜在实体对,并为其预测关系类型。一阶段(NER+RE)
2025-01-02 17:47:44
416
原创 详解GPT-信息抽取任务 (GPT-3 FAMILY LARGE LANGUAGE MODELS)
自然语言处理信息提取任务(NLP-IE):从非结构化文本数据中提取结构化数据,例如提取实体、关系和事件。将非结构化文本数据转换为结构化数据可以实现高效的数据处理、知识发现、决策制定并增强信息检索和搜索。
2025-01-02 15:15:04
910
原创 word如何各级标题自动编号,需要设计多级列表
今日使用word越来越频繁,而我也遇到了一个很繁琐的问题,各级的标题手动设计很繁琐闹心,一级标题下的二级标题设计需要分别设计更繁琐。为了解决这个手动编号的问题,研究了一下word如何让各级标题自动编号,免去手动编号的繁琐工作。只需要简简单单的设计一下多级列表即可解决该问题,使用效果非常方便。
2024-12-30 15:44:40
179
原创 训练数据格式为<input,output>,为什么微调大模型时,模型所需的输入数据input_ids有时仅包含了input,而有时包含了input和output呢?
训练数据格式为,为什么微调大模型时,模型所需的输入数据input_ids有时仅包含了input,而有时包含了input和output呢?
2024-12-26 16:12:01
297
原创 JSON 和 JSONL 的区别
JSON 是一种树状嵌套结构,整个文件是一个完整的 JSON 对象。: JSONL 是一个轻量化的格式,每行表示一个独立的 JSON 对象。如果有具体的数据需求或处理场景,可以告诉我,我可以给出更针对性的建议!
2024-12-26 15:50:50
627
原创 Git完整使用经历
说在前面:本想使用pycharm打开本地cmd终端命令使用本地Windows git将该项目上传到github仓库中,报错如下。发生错误:解决方法:取消代理设置再次克隆仓库成功!!!
2024-12-25 22:36:04
483
原创 微调大模型时,如何进行数据预处理? 将<input, output>转换为模型所需的<input_ids, labels, attention_mask>
微调大模型时,如何进行数据预处理? 将转换为模型所需的
2024-12-24 15:26:37
1148
原创 Hugging Face PEFT LoRA 指令微调 glm4-9b-chat
Hugging Face 的 PEFT LoRA 指令微调 glm-4-9b-chat。
2024-12-24 12:05:18
189
原创 微调大模型的工具选择
如果需要一个功能丰富、支持多种微调方法的工具,并且希望有更多自定义选项,LLaMAFactory 可能是一个更好的选择。如果更倾向于一个有着广泛社区支持、易于使用和部署的工具,Hugging Face 的 PEFT 包更适合。
2024-12-24 11:20:06
435
原创 关系识别分类任务的评估指标: precision、recall、f1-score. 理解混淆矩阵
关系识别分类任务的评估指标: precision、recall、f1-score. 理解混淆矩阵。
2024-12-16 12:02:56
454
原创 gpt-4o/gpt-3.5-turbo的JSON格式化严格输出方法:Structured Outputs
进入使用gpt接口发现即使规定了模型的输出格式为json,但是样本数据太多了中途仍然会有些输出不符合我定义的json输出格式,对于我后续处理output很不友好,故探索了以下gpt的输出格式如何严格规范化json格式。
2024-12-11 08:30:00
546
原创 python 加载/保存json文件
近日经常需要加载json文件数据来使用,经过处理后又需要保存为json文件,频繁操作容易忘记,故在此记录下简单的操作方法代码。
2024-12-08 14:16:29
381
原创 关系抽取RE任务中的metrics:Precision、Recall、F1-score
最近在研究关系抽取任务,接下来会对抽取结果进行数据分析,需要使用到这3个评估指标,在此记录他们的计算方法,有没有代码等问题。精确度 (Precision, P)、召回率 (Recall, R) 和 F1-score,这三个指标是用来衡量模型在关系抽取任务中的性能的。
2024-12-08 09:00:00
758
原创 gpt-apt接口调用并行处理:python 多线程处理ThreadPoolExecutor
近日因使用open ai的api调用,因数据量大,故不能一一申请调用gpt api,现来学习一下pyhton并行处理的功能ThreadPoolExecutor。它可以开n个线程,给定任务量m,这n个线程会同时处理这m个任务,直至任务量处理完毕。
2024-12-07 22:07:37
485
原创 python正则表达式截取text字符串里面的内容
使用llm输出了字符串内容后,需要对该输出进行处理,获取到里面某些内容,故在此记录下python如何使用正则表达式来截取字符串内容里面指定字段内容。
2024-12-06 10:02:47
207
原创 word实践:正文/标题/表图等的共用模板样式设置
最近使用word新建文件很多,发现要给大毛病,每次新建一个word文件,标题/正文的字体、大小和间距都要重新设置一遍,而且每次设置这些样式都忘记了参数,今天记录一下,以便后续方便查看使用。现在就以论文的排版样式设置来作为参考记录,只做了一个小demo,详细样式设计等有时间了再来研究。今天就探索设置几个简单样式并保存便于后续新建word使用。
2024-12-05 12:10:23
939
原创 BERT模型的输出格式探究以及提取出BERT 模型的CLS表示,last_hidden_state[:, 0, :]用于提取每个句子的CLS向量表示
最近使用自己的数据集对bert-base-uncased进行了二次预训练,只使用了MLM任务,发现在加载训练好的模型进行输出CLS表示用于下游任务时,同一个句子的输出CLS表示都不一样,并且控制台输出以下警告信息。说是没有这些权重。
2024-12-04 13:32:59
1576
原创 Hugging Face 的 Transformers 库使用trainer.save_model()和model.save_pretrained()这两种模型保存方法有什么区别?
trainer.save_model() 和 model.save_pretrained()——都可以用来保存模型并且使用方法和代码是一样的。
2024-12-04 10:21:04
1995
原创 bert-base-uncased模型的tokenizer.json和vocab.txt的区别和联系
vocab.txt 是传统分词器(如 BertTokenizer)所必需的文件,加载时会使用该文件。tokenizer.json 是 Fast Tokenizer(如 BertTokenizerFast)的核心文件,包含更多的配置和细节,但不是必需的(只有 Fast Tokenizer 才会使用)。如果你训练的是传统的 BertTokenizer,那么只有 vocab.txt 文件即可,没有 tokenizer.json 文件也没有问题。
2024-12-04 10:07:32
1252
原创 模型训练前检查是否可以成功使用GPU训练,附上国内下载pytorch方法
模型训练前检查是否可以成功使用GPU训练,附上国内下载pytorch方法
2024-12-04 09:15:00
320
原创 matplotlib:module ‘backend_interagg‘ has no attribute ‘FigureCanvas‘. Did you mean: ‘FigureCanvasAgg
【代码】matplotlib:module 'backend_interagg' has no attribute 'FigureCanvas'. Did you mean: 'FigureCanvasAgg。
2024-12-04 09:00:00
139
原创 pypdf2+nltk数据预处理:基于句子切分文本数据,而不是基于固定单词数量分割。nltk报错:<urlopen error [Errno 111] Connection [nltk_data]
任务:当我们需要数据预处理时,会把一篇文章比如pdf格式的,以每200 words为单位进行分割为样本数据,每个样本数据都是200个words。缺点:很多样本数据上下文信息不完整。
2024-12-02 21:38:58
655
原创 python使用pdfplumber工具包加载pdf格式数据
pdfplumber大问题,对于两栏pdf数据,我这边提取出来的数据发现它很离谱。它居然直接忽略了两栏特性,直接将第1栏的句子拼接上了第2栏的句子。
2024-12-02 17:11:42
483
原创 使用PyPDF2工具加载pdf文件数据
预训练bert模型时需要加载到pdf文件数据进行预处理,这里使用了pypdf2这个工具包,简单记录一下代码。
2024-12-02 14:57:38
505
原创 Zotero7+better notes+Ethereal Style自定义笔记模版
Zotero7+better notes+Ethereal Style自定义笔记模版。
2024-09-28 08:30:00
1193
原创 Zotero(7.0.5)+123云盘同步空间+Z-library=无限存储文献pdf/epub电子书等资料
Z-library+Zotero+123同步空间=无限 存储/阅读/做笔记 pdf/epub电子书等资料。你想不想创建自己的电子书epub数据库,现在信息化时代,获取电子书epub格式的方法很多,获取书籍的成本很低,如果你也想免费创建自己的电子书epub数据库并且还有一个很棒的阅读软件,那你一定不要错过这个方法。
2024-09-22 14:29:02
1706
1
原创 情侣记录互动微信小程序+微信云开发
给女朋友(情侣)做的微信小程序,记录生活互动任务赚取金币购买有趣卡片,微信原生态语言+微信云开发,开发部署简单至极。
2024-09-18 09:00:00
758
原创 CMake的使用方法
介绍cmake的使用方法,简单CMakeList.txt的编写,如何构建和编译,以及如何直接在VScode上按下F5直接开始进行调试。
2024-06-12 13:51:14
315
原创 pytorch之保存模型训练好的参数状态以及直接加载该参数状态来进行预测
pytorch之保存模型训练好的参数状态以及直接加载该参数状态来进行预测
2024-01-19 09:00:00
706
原创 搜索结果多样化研究(Search Result Diversification)
强调结果文档之间的多样性,要求每个文档与查询相关,并且彼此之间尽可能不相似。MMR模型。要求当前返回的文档不仅与之前的文档不相似,还应包含之前文档没有包含的新信息。强调全体结果文档对查询相关的子话题的覆盖程度,使得结果集能够尽可能覆盖相关子话题。xQuAD模型。最终目标是给定一个查询,返回一个多样化的搜索结果。搜索结果应满足高相关性、低冗余、覆盖不同方面的信息需求,以最大程度地满足用户多样化的信息需求。
2024-01-16 09:00:00
2088
原创 TensorFlow基本知识以及使用python进行训练和预测案例
TensorFlow基本知识以及使用python进行训练和预测案例。使用TensorFlow进行线性回归模型的训练和预测。使用TensorFlow进行RNN的翻译模型的训练和预测。
2024-01-16 09:00:00
1436
原创 java.lang.NoSuchMethodError: org.apache.http.impl.conn.PoolingHttpClientConnectionManager解决方法亲测有效
使用腾讯云cos上传图片时发现报了这个错误,而之前是可以正常上传到cos的,经过查找问题发现是org.apache.httpcomponents这个包重复使用了,我是先做的cos上传功能,后边又做微信小程序的登录需要使用请求所以在pom中加了一个org.apache.httpcomponents包,就是这里产生的问题。
2023-05-13 10:46:34
796
1
原创 在哔站黑马程序员学习Spring—Spring Framework—(三)spring整合mybatis
spring整合mybatis核心就是删掉原来的mybatis配置文件,然后换成配置好两个bean:SqlSessionFactoryBean MapperScannerConfigurer
2023-02-15 09:00:00
183
原创 在哔站黑马程序员学习Spring—Spring Framework—(五)spring的第二特征AOP面向切面编程
AOP面向切面编程作用:在不惊动原始设计(不改变源代码)的基础上为其进行功能增强。
2023-02-15 09:00:00
560
JavaScript表单练习.zip
2021-12-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人