每天八杯水D-CSDN博客

原创【20260108-万方摘要猎手v1.0】爬虫小白也能跑！基于关键词驱动的Selenium 万能模板秒抓万方摘要

科研级语料“一库难寻”，传统 requests 爬虫又在 JavaScript 渲染的万方页面“寸步难行”。本文给出一条“真·浏览器”捷径：用 Selenium 复刻人手操作，让动态内容 100% 完整加载，再借 BeautifulSoup 精准“打捞”摘要。全文六章——Selenium/BeautifulSoup工具基础、万方库爬取原理、万方前端结构拆解（普通搜索/高级搜索）到可运行源码——手把手带你从零搭出「万方摘要猎手 v1.0」，一键收割关键词下的所有摘要，彻底告别复制粘贴。

2026-01-08 14:36:53 1004

原创解决 matplotlib 不支持中文字符

解决 matplotlib 不支持中文字符

2025-02-18 12:42:59 488

原创 conda+jupyter+pycharm：如何在Windows conda环境下运行jupyter并使用浏览器或者pycharm运行.ipynb

conda+jupyter+pycharm：如何在Windows conda环境下运行jupyter并使用pycharm运行.ipynb

2025-01-08 15:38:41 743

原创关系分类(RC)模型和关系抽取(RE)模型的区别

关系分类模型：对给定的实体对在给定句子中预测其关系类型。两阶段（RC）关系抽取模型：从句子中识别出所有潜在实体对，并为其预测关系类型。一阶段（NER+RE）

2025-01-02 17:47:44 1072

原创详解GPT-信息抽取任务 (GPT-3 FAMILY LARGE LANGUAGE MODELS)

自然语言处理信息提取任务（NLP-IE）：从非结构化文本数据中提取结构化数据，例如提取实体、关系和事件。将非结构化文本数据转换为结构化数据可以实现高效的数据处理、知识发现、决策制定并增强信息检索和搜索。

2025-01-02 15:15:04 1359

原创 word如何各级标题自动编号，需要设计多级列表

今日使用word越来越频繁，而我也遇到了一个很繁琐的问题，各级的标题手动设计很繁琐闹心，一级标题下的二级标题设计需要分别设计更繁琐。为了解决这个手动编号的问题，研究了一下word如何让各级标题自动编号，免去手动编号的繁琐工作。只需要简简单单的设计一下多级列表即可解决该问题，使用效果非常方便。

2024-12-30 15:44:40 855

原创 HuggingFace peft LoRA 微调 LLaMA

HuggingFace peft LoRA 微调 LLaMA

2024-12-26 16:52:45 992

原创训练数据格式为＜input，output＞，为什么微调大模型时，模型所需的输入数据input_ids有时仅包含了input，而有时包含了input和output呢？

训练数据格式为，为什么微调大模型时，模型所需的输入数据input_ids有时仅包含了input，而有时包含了input和output呢？

2024-12-26 16:12:01 678

原创 JSON 和 JSONL 的区别

JSON 是一种树状嵌套结构，整个文件是一个完整的 JSON 对象。: JSONL 是一个轻量化的格式，每行表示一个独立的 JSON 对象。如果有具体的数据需求或处理场景，可以告诉我，我可以给出更针对性的建议！

2024-12-26 15:50:50 3480

原创 Git完整使用经历

说在前面：本想使用pycharm打开本地cmd终端命令使用本地Windows git将该项目上传到github仓库中，报错如下。发生错误：解决方法：取消代理设置再次克隆仓库成功！！！

2024-12-25 22:36:04 561

原创 Wikidata+SPARQL联合使用获取结构化信息数据，用于构建自己的数据集

先查实例，再递归查其子类。：并列查找实例和子类。

2024-12-25 12:43:02 1339

原创微调大模型时，如何进行数据预处理? 将＜input, output＞转换为模型所需的＜input_ids, labels, attention_mask＞

微调大模型时，如何进行数据预处理? 将转换为模型所需的

2024-12-24 15:26:37 2684

原创 Hugging Face PEFT LoRA 指令微调 glm4-9b-chat

Hugging Face 的 PEFT LoRA 指令微调 glm-4-9b-chat。

2024-12-24 12:05:18 404

原创 LLaMA-Factory GLM4-9B-CHAT LoRA 指令微调实战

LLaMA-Factory GLM LoRA 指令微调

2024-12-24 11:59:06 1383 2

原创微调大模型的工具选择

如果需要一个功能丰富、支持多种微调方法的工具，并且希望有更多自定义选项，LLaMAFactory 可能是一个更好的选择。如果更倾向于一个有着广泛社区支持、易于使用和部署的工具，Hugging Face 的 PEFT 包更适合。

2024-12-24 11:20:06 1818

原创关系识别分类任务的评估指标: precision、recall、f1-score. 理解混淆矩阵

关系识别分类任务的评估指标: precision、recall、f1-score. 理解混淆矩阵。

2024-12-16 12:02:56 720

原创 gpt-4o/gpt-3.5-turbo的JSON格式化严格输出方法：Structured Outputs

进入使用gpt接口发现即使规定了模型的输出格式为json，但是样本数据太多了中途仍然会有些输出不符合我定义的json输出格式，对于我后续处理output很不友好，故探索了以下gpt的输出格式如何严格规范化json格式。

2024-12-11 08:30:00 1580

原创 python 加载/保存json文件

近日经常需要加载json文件数据来使用，经过处理后又需要保存为json文件，频繁操作容易忘记，故在此记录下简单的操作方法代码。

2024-12-08 14:16:29 713

原创关系抽取RE任务中的metrics：Precision、Recall、F1-score

最近在研究关系抽取任务，接下来会对抽取结果进行数据分析，需要使用到这3个评估指标，在此记录他们的计算方法，有没有代码等问题。精确度 (Precision, P)、召回率 (Recall, R) 和 F1-score，这三个指标是用来衡量模型在关系抽取任务中的性能的。

2024-12-08 09:00:00 1717

原创 gpt-apt接口调用并行处理：python 多线程处理ThreadPoolExecutor

近日因使用open ai的api调用，因数据量大，故不能一一申请调用gpt api，现来学习一下pyhton并行处理的功能ThreadPoolExecutor。它可以开n个线程，给定任务量m，这n个线程会同时处理这m个任务，直至任务量处理完毕。

2024-12-07 22:07:37 901

原创 python正则表达式截取text字符串里面的内容

使用llm输出了字符串内容后，需要对该输出进行处理，获取到里面某些内容，故在此记录下python如何使用正则表达式来截取字符串内容里面指定字段内容。

2024-12-06 10:02:47 437

原创 word实践：正文/标题/表图等的共用模板样式设置

最近使用word新建文件很多，发现要给大毛病，每次新建一个word文件，标题/正文的字体、大小和间距都要重新设置一遍，而且每次设置这些样式都忘记了参数，今天记录一下，以便后续方便查看使用。现在就以论文的排版样式设置来作为参考记录，只做了一个小demo，详细样式设计等有时间了再来研究。今天就探索设置几个简单样式并保存便于后续新建word使用。

2024-12-05 12:10:23 2596

原创 BERT模型的输出格式探究以及提取出BERT 模型的CLS表示，last_hidden_state[:, 0, :]用于提取每个句子的CLS向量表示

最近使用自己的数据集对bert-base-uncased进行了二次预训练，只使用了MLM任务，发现在加载训练好的模型进行输出CLS表示用于下游任务时，同一个句子的输出CLS表示都不一样，并且控制台输出以下警告信息。说是没有这些权重。

2024-12-04 13:32:59 2892

原创 Hugging Face 的 Transformers 库使用trainer.save_model()和model.save_pretrained()这两种模型保存方法有什么区别？

trainer.save_model() 和 model.save_pretrained()——都可以用来保存模型并且使用方法和代码是一样的。

2024-12-04 10:21:04 4834

原创 bert-base-uncased模型的tokenizer.json和vocab.txt的区别和联系

vocab.txt 是传统分词器（如 BertTokenizer）所必需的文件，加载时会使用该文件。tokenizer.json 是 Fast Tokenizer（如 BertTokenizerFast）的核心文件，包含更多的配置和细节，但不是必需的（只有 Fast Tokenizer 才会使用）。如果你训练的是传统的 BertTokenizer，那么只有 vocab.txt 文件即可，没有 tokenizer.json 文件也没有问题。

2024-12-04 10:07:32 2294

原创模型训练前检查是否可以成功使用GPU训练，附上国内下载pytorch方法

模型训练前检查是否可以成功使用GPU训练，附上国内下载pytorch方法

2024-12-04 09:15:00 419

原创 matplotlib：module ‘backend_interagg‘ has no attribute ‘FigureCanvas‘. Did you mean: ‘FigureCanvasAgg

【代码】matplotlib：module 'backend_interagg' has no attribute 'FigureCanvas'. Did you mean: 'FigureCanvasAgg。

2024-12-04 09:00:00 275

原创 pypdf2+nltk数据预处理：基于句子切分文本数据，而不是基于固定单词数量分割。nltk报错：＜urlopen error [Errno 111] Connection [nltk_data]

任务：当我们需要数据预处理时，会把一篇文章比如pdf格式的，以每200 words为单位进行分割为样本数据，每个样本数据都是200个words。缺点：很多样本数据上下文信息不完整。

2024-12-02 21:38:58 789

原创 python使用pdfplumber工具包加载pdf格式数据

pdfplumber大问题，对于两栏pdf数据，我这边提取出来的数据发现它很离谱。它居然直接忽略了两栏特性，直接将第1栏的句子拼接上了第2栏的句子。

2024-12-02 17:11:42 705

原创使用PyPDF2工具加载pdf文件数据

预训练bert模型时需要加载到pdf文件数据进行预处理，这里使用了pypdf2这个工具包，简单记录一下代码。

2024-12-02 14:57:38 634

原创 Zotero7+better notes+Ethereal Style自定义笔记模版

Zotero7+better notes+Ethereal Style自定义笔记模版。

2024-09-28 08:30:00 2454 1

原创 Zotero(7.0.5)+123云盘同步空间+Z-library=无限存储文献pdf/epub电子书等资料

Z-library+Zotero+123同步空间=无限存储/阅读/做笔记 pdf/epub电子书等资料。你想不想创建自己的电子书epub数据库，现在信息化时代，获取电子书epub格式的方法很多，获取书籍的成本很低，如果你也想免费创建自己的电子书epub数据库并且还有一个很棒的阅读软件，那你一定不要错过这个方法。

2024-09-22 14:29:02 3191 1

原创情侣记录互动微信小程序+微信云开发

给女朋友(情侣)做的微信小程序，记录生活互动任务赚取金币购买有趣卡片，微信原生态语言+微信云开发，开发部署简单至极。

2024-09-18 09:00:00 2030

原创 CMake的使用方法

介绍cmake的使用方法，简单CMakeList.txt的编写，如何构建和编译，以及如何直接在VScode上按下F5直接开始进行调试。

2024-06-12 13:51:14 371

原创全网影视vip会员7天免费送，还可领取年卡福利

今天给大家分享一款可以观看全网影视vip电影、电视剧的手机app

2024-03-13 14:14:44 5136

原创 pytorch之保存模型训练好的参数状态以及直接加载该参数状态来进行预测

pytorch之保存模型训练好的参数状态以及直接加载该参数状态来进行预测

2024-01-19 09:00:00 889

原创搜索结果多样化研究（Search Result Diversification）

强调结果文档之间的多样性，要求每个文档与查询相关，并且彼此之间尽可能不相似。MMR模型。要求当前返回的文档不仅与之前的文档不相似，还应包含之前文档没有包含的新信息。强调全体结果文档对查询相关的子话题的覆盖程度，使得结果集能够尽可能覆盖相关子话题。xQuAD模型。最终目标是给定一个查询，返回一个多样化的搜索结果。搜索结果应满足高相关性、低冗余、覆盖不同方面的信息需求，以最大程度地满足用户多样化的信息需求。

2024-01-16 09:00:00 2603

原创 TensorFlow基本知识以及使用python进行训练和预测案例

TensorFlow基本知识以及使用python进行训练和预测案例。使用TensorFlow进行线性回归模型的训练和预测。使用TensorFlow进行RNN的翻译模型的训练和预测。

2024-01-16 09:00:00 1666

原创 java.lang.NoSuchMethodError: org.apache.http.impl.conn.PoolingHttpClientConnectionManager解决方法亲测有效

使用腾讯云cos上传图片时发现报了这个错误，而之前是可以正常上传到cos的，经过查找问题发现是org.apache.httpcomponents这个包重复使用了，我是先做的cos上传功能，后边又做微信小程序的登录需要使用请求所以在pom中加了一个org.apache.httpcomponents包，就是这里产生的问题。

2023-05-13 10:46:34 976 1