123我是木头人-CSDN博客

原创 BGE M3-Embedding 模型介绍

BGE M3-Embedding来自BAAI和中国科学技术大学，是BAAI开源的模型。相关论文在https://arxiv.org/abs/2402.03216，论文提出了一种新的embedding模型，称为M3-Embedding，它在多语言性（Multi-Linguality）、多功能性（Multi-Functionality）和多粒度性（Multi-Granularity）方面表现出色。

2024-07-15 19:33:53 7490

翻译用检索增强生成让大模型更强大，这里有个手把手的Python实现

本文首先将关注 RAG 的概念和理论。然后将展示可以如何使用用于编排（orchestration）的 LangChain、OpenAI 语言模型和 Weaviate 向量数据库来实现一个简单的 RAG。本文介绍了 RAG 的概念，其最早来自 2020 年的论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》。在介绍了 RAG 背后的理论（包括动机和解决方案）之后，本文又介绍了如何用 Python 实现它。

2024-04-20 11:24:10 772

原创什么是大模型微调？微调的分类、方法、和步骤

大模型微调（Fine-tuning）是指在已经预训练好的大型语言模型基础上，使用特定的数据集进行进一步的训练，以使模型适应特定任务或领域。其根本原理在于，机器学习模型只能够代表它所接收到的数据集的逻辑和理解，而对于其没有获得的数据样本，其并不能很好地识别/理解，且对于大模型而言，也无法很好地回答特定场景下的问题。例如，一个通用大模型涵盖了许多语言信息，并能够进行流畅的对话。但是如果需要医药方面能够很好地回答患者问题的应用，就需要为这个通用大模型提供很多新的数据以供学习和理解。

2024-02-27 14:26:12 2410

原创 Linux命令—用到什么记录什么！！！！！随时补充

【代码】Linux命令随记—用到什么记录什么！！！！！随时补充。

2023-11-29 16:18:15 608

原创 Linux 新建 python 文件

Linux是一款非常流行的操作系统，可以使用任何文本编辑器编辑Python文件。2、输入以下命令，其中filename是你新建的文件名，.py表示Python文件的后缀名；5、按下Esc键，输入 :wq 保存并退出文件编辑模式；1、打开终端，进入需要新建Python文件的目录；4、在编辑模式下，输入Python代码；6、输入以下命令，运行Python文件。3、输入以下命令，进入文件编辑模式；

2023-10-19 19:24:44 2820 4

原创通过SVN拉取项目步骤

当你执行了前三步之后，你的Pycharm页面下方会显示出“SVN Repositories”，此时你执行第四步，点击旁边的加号，会跳出一个页面“New Repository Location”，此时，你执行第五步，填入你需要拉取的项目地址，点击OK即可。当你执行了前五步，点击了OK之后，你的“SVN Repositories”页面中会显示，你刚才拉取的项目地址，这个地址下面对应的就是你需要拉取的项目。然后执行第六步，右键这个项目地址，出现一个小窗口，此时，执行第七步，点击“Checkout”。

2023-10-18 16:52:07 5608

原创语音识别whisper的介绍、安装、错误记录

Whisper是OpenAI于2022年9月份开源的通用的语音识别模型。它是在各种音频的大型数据集上训练的模型，也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。论文链接：https://arxiv.org/abs/2212.04356github链接：https://github.com/openai/whisper。

2023-10-16 14:17:33 7698 6

原创 RuntimeError: “slow_conv2d_cpu“ not implemented for ‘Half‘

测试语音识别模型whisper时，出现上述错误！！max。

2023-10-11 16:51:50 934

原创 ImportError: cannot import name ‘OrderedDict‘ from ‘typing‘

唉，先给大家讲个故事听！由于小张昨天被迫需要将Anaconda环境迁移至一个新的磁盘，在博客上查了超级多的资料，终于把环境迁移成功了，但这个时候我的python项目在选择解释器时，却一直出错，一直显示选择的解释器无效！总结：实际上是因为在python3.7.0中，它的typing模块中没有OrderedDict，但是在python3.7.4中，typing模块中包含OrderedDict，可以直接通过。今天早上一心就想赶紧解决问题，果然早上是头脑最清晰的时候，三下五除二，就把昨天冥思苦想的难题给解决了！

2023-09-22 17:56:22 5478

原创 AttributeError: partially initialized module ‘charset_normalizer‘ has no attribute ‘md__mypyc‘

提示需要更新【Updating the charset-normalizer to latest version works for me】至此，问题解决~~~

2023-08-09 14:05:44 11621 2

原创 Latex中用到的希腊语字母表

2023-08-08 10:46:20 242

原创小白入门——基于sanic框架的蓝图对象Blueprint

【代码】小白入门——基于sanic框架的蓝图对象Blueprint。

2023-07-24 15:33:13 1059

原创小白记录 Linux常用命令

unzip mydata.zip -d mydata，将mydata.zip解压到mydata文件夹。zip -r mydata.zip mydata，将mydata文件夹压缩为mydata.zip。删除文件夹 rm -rf 文件夹名，例如 rm -rf ./demo/删除文件 rm -f 文件名，例如 rm -f demo.txt。unzip mydata.zip，直接解压到当前文件夹。cat file |grep ‘要搜索的词或表达式’grep ‘要搜索的词或表达式’ file。

2023-07-20 15:14:54 171

原创 ModuleNotFoundError: No module named ‘pkg_resources‘

【代码】ModuleNotFoundError: No module named ‘pkg_resources‘

2023-07-17 14:43:22 2401

原创一条命令帮助 pip 实现批量下载项目的requirements

【代码】一条命令帮助 pip 实现批量下载项目的requirements。

2023-07-13 15:57:49 719

原创编辑距离算法（Levenshtein Distance Algorithm）的概念理解及其应用

将两个字符串 a, b 的Levenshtein Distance表示为LDa,b(|a|, |b|)，如下公式所示。其中，|a|和 |b|分别对应字符串 a, b 的长度。LDa,b(|a|, |b|)表示 a 的前 i 个字符与 b 的前 j 个字符之间的编辑距离。其中，i 和 j 都是从1开始的下标。编辑距离是NLP领域中一个基本的评估文本相似度的算法，可以作为文本相似任务的重要特征之一。该算法的缺点在于，它是基于文本自身的结构去计算的，并没有利用到文本语义层面的信息。

2023-07-12 14:36:16 1982

原创歪打正着解决 ModuleNotFoundError: No module named ‘setuptools.command.build‘ 问题

哈哈哈，不知道怎么想的，直接省略了前一个步骤，执行了第二个命令，我的天，发生了啥，竟然成功了，虽然我也不知道原因出在哪里，但这个问题真的困扰了我很久了！pip install pinyin**进行安装，我真的，我开始怀疑python版本的影响了，哈哈哈。后来，我想着我得完整的看一下这个错误，看看到底是哪个环节出了问题？然而我的python3.7环境中，setuptools包的版本是。但这大家来说很有效的方法，对我来说毫无用处！setuptools**，果然，我发现这里的版本是。最开始，我只关注了**

2023-07-11 14:49:58 18571 12

原创 ModuleNotFoundError: No module named ‘XXX‘解决方法

注意：如果安装时显示时间过长，未安装成功，可以尝试在命令后面加上“”，哈哈反正我每次都会成功下载。

2023-07-10 14:47:46 863 3

原创什么是面向对象和面向过程？

一般认为，较典型的面向对象语言有：C++（支持多继承、多态和部分动态绑定）、Java（支持单继承、多态和部分动态绑定）、C#（支持单继承，与Java和C++等有很多类似之处）作为基本程序结构单位的程序设计语言，指用于描述的设计是以对象为核心，而对象是程序运行时刻的基本成分。

2023-07-10 14:46:50 247

原创【NLP】文本生成、文本纠错代码学习记录

1.1 创建一个解析对象1.2 向该对象中添加所需得命令行参数和选项，每一个add_argument方法对应一个参数或选项；1.3 调用parse_args()方法进行解析使用。1.4 HfArgumentParser是Transformer框架中的命令行解析工，它是ArgumentParser的子类，用于从类对象中创建解析对象。这里利用HfArgumentParser加载用于构建模型、微调模型的参数。其中，ModelArguments中包含的是关于模型的属性；DataTrainingArgumen

2023-07-04 14:18:01 921

原创今天来讲讲百度网盘下载速度只有几十KB怎么办？？

今天就来讲一讲，百度网盘的 “优化速率模式” 到底有多香？？？感觉省了好多 “前前”，哈哈哈哈哈哈哈哈哈哈

2023-06-12 15:20:22 9227

转载 python3下使Word2Vec每次运行结果保持一致

最近在学习使用gensim.models.word2vec.Word2Vec时发现一个奇怪的问题，那就是每次运行出来的结果不一致，这使得程序复现带来了很多麻烦。下面说一下我的解决方案。#### Word2Vec的官方文档，在seed参数哪里可以发现这样的解释：seed (int) – Seed for the random number generator. Initial vectors for each word are seeded with a hash of the concatenatio

2021-08-31 11:32:07 806

原创 tensorflow中tf.keras.models.Sequential()用法_小张学习之路分享

sequential 模型是那种最简单的结构的模型。按顺序一层一层训练，一层一层往前的那种。没有什么环的结构。比如像前馈网络那样。就像下图这样的，一层层的那种。由于自己还是个新手小白，尚没有总结这个用法的能力，这里分享几个自己看了，启发很大的学习网址：1. https://keras-cn.readthedocs.io/en/latest/getting_started/sequential_model/（这个网址是keras中文文档下的，还有很多其他的内容介绍）2. https://blog.cs

2021-08-22 09:59:23 2432

原创在jupyter notebook中使用conda创建的虚拟环境——学习分享

jupyter notebook新手小白，原本装的是tensorflow=1.14，但是在进行深度学习时，遇到需要tensorflow=2.x版本，这就需要我在jupyter notebook中更换tensorflow版本，下面是我看到的一些讲的比较清楚的网址分享：1. https://blog.csdn.net/qq_36017609/article/details/1042714292. https://blog.csdn.net/u013517182/article/details/9305134

2021-08-20 10:33:26 490

原创 “C:\Users\用户名\AppData\里面的文件是什么？可以删除么？？

很多人发现电脑中C:\Users\用户名\AppData 占据了很大的空间，这些文件都是什么？可以将其删除吗？下面为大家详细介绍相关知识！C:\Users\用户名\AppData里面一般有三个文件夹，分别是Local，LocalLow，Roaming，简单地来说，都是用来存放软件的配置文件和临时文件的，里面有很多以软件名称或软件公司命名的文件夹，理论上都可以删除。但是但是尽量不要删除，这里边存放的是软件运行时和结束后的数据和配置文件，如果删了，会导致软件不正常或者出错举个例子：例如，如果安装了Phot

2021-08-19 09:21:30 157120 5

原创 jupyter notebook出现kernel waitting,please wait一系列错误的解决办法

第一次使用jupyter notebook的常见问题kernel waitting,please waitImportError: cannot import name 'create_prompt_application' from 'prompt_toolkit.shortcuts'先找原因如何解决推荐参考博客网址kernel waitting,please wait第一步打开Anaconda Prompt，输入python -m ipykernel install --user到这一步，可能

2021-08-18 09:11:24 524

原创 Anaconda安装的python环境中“No module named pip” 和 “ ‘pip‘ is a package and cannot be directly executed”问题

一. 没有pip3问题找到安装anaconda的文件夹，点击Scripts(利用anaconda安装的python虚拟环境都在这里)，确定是否存在一个easy_install.exe的程序，如果有请往下看，如果没有进入直接进入第4步。打开 Anaconda Prompt 或 cmd ，进入到你需要安装pip3的那个环境下的Scripts文件夹（这里只给出了一个示例，每个人装的路径都不一样，需要你自己填写）。使用以下代码安装即可。easy_install.exe pipeasy_insta

2021-08-06 19:47:56 3331 2

转载我以为的NLP

作为一个小白，在接触NLP（Nature Language Process，自然语言处理）之前，完全不清楚这个领域究竟是干什么的。首先，Nature我懂，Language我也懂，但是Nature Language是什么就不懂了。那么了解这个领域的首要任务就变成了搞清楚Nature Language到底指什么。“自然”嘛，那就是自然进化形成的，不能是人造的，自然进化形成的语言那就是人类的语言呗，毕竟是伴随着人类的进化过程不断进化，慢慢形成了今天的语言体系。要处理这些数据，而且还形成的一个研究领域，不得不感慨

2021-06-10 08:43:52 371

原创 Neo4j错误处理——Caused by: org.neo4j.helpers.PortBindException: Address localhost:7687 is already in use,

以管理员身份打开命令行，然后进入neo4j的bin目录下，输入neo4j-console.cmd发生如上错误，解决办法如下端口占用问题：Caused by: org.neo4j.helpers.PortBindException: Address localhost:7687 is already in use, cannot bind to it.打开cmd命令行，执行命令netstat -ano|findstr “7474”，查,7474端口是否被占用及占用此端口的PID，从下图中可以看到

2021-06-02 18:11:10 1428 1

原创 PyCharm安装tensorflow时遇到的问题

问题描述：PyCharm使用pip install tensorflow命令在命令行cmd或者中断terminal安装tensorflow时，遇到如下问题解决方案：第一步：先装上wrapt第二步：重新输入pip install tensorflow

2021-03-24 21:51:23 298

原创 C输入输出格式符

常见的以进制输入输出的格式符有：%d：十进制整数%o：八进制整数%x或者%X：十六进制整数常见的以数据类型输入输出的格式符有：%d：整型，即int型 %i ：有符号十进制整数(与%d相同) %u：无符号的十进制整数%l：长整型，即long型%f：单精度浮点型，即float型%lf：双精度浮点型（默认保留6位小数），即double型%c...

2020-12-23 19:37:34 1145

原创【HDU2037】今年暑假不AC 贪心算法

Problem Description“今年暑假不AC？”“是的。”“那你干什么呢？”“看世界杯呀，笨蛋！”“@#$%^&*%...”确实如此，世界杯来了，球迷的节日也来了，估计很多ACMer也会抛开电脑，奔向电视了。作为球迷，一定想看尽量多的完整的比赛，当然，作为新时代的好青年，你一定还会看一些其它的节目，比如新闻联播（永远不要忘记关心国家大事）、非常6+7、超级女生，以...

2020-12-23 19:37:09 161

原创【HDU1051】Wooden Sticks 花样贪心算法

Wooden SticksTime Limit : 2000/1000ms (Java/Other)Memory Limit : 65536/32768K (Java/Other)Total Submission(s) : 7Accepted Submission(s) : 4Font: Times New Roman | Verdana | GeorgiaFont S...

2020-12-23 19:36:50 432

原创 LaTex常用命令介绍

LaTex常用命令LaTex介绍LaTex下载与安装LaTex中常用宏包LaTeX文件的框架LaTex中简单的规则LaTex中字号转换命令表LaTex中常见数学公式排版命令LaTex中常见的特殊符号使用LaTeX编辑表格UML 图表FLowchart流程图导出与导入导出导入LaTex介绍LaTeX（LATEX，音译“拉泰赫”）是一种基于ΤΕΧ的排版系统，由美国计算机学家莱斯利·兰伯特（Leslie Lamport）在20世纪80年代初期开发，利用这种格式，即使使用者没有排版和程序设计的知识也可以充分发挥

2020-12-23 19:30:42 10498

原创 C++刷题日常记录

*HDU 1708【Fibonacci String】斐波那契的变形，int型至多求出46*HDU 1789【Doing Homework Again】贪心算法*HDU 2136【Largest prime factor】筛选法！！！HDU 1009【FatMouse' Trade】背包问题-贪心HDU 1290{二维问题 y = a*x^2 + b*x+c三维问题 y = a*x...

2019-04-10 21:49:54 305

原创 C/C++ 常用函数总结

万能头文件 #include<bits/stdc++.h>#include"iomanip"C++中左对齐/右对齐cout<<setiosflags(ios::left)<<setw(对齐的数字)<<输出的数<<endl;cout<<setiosflags(ios::right)<<setw(对齐的...

2019-04-10 21:48:46 495

原创 JAVA_HOME从jdk8变到jdk7错误处理

当你的电脑装了JDK1.8后,你的JAVA_HOME也是设置的1.8如果你不彻底删除JDK8就安装JDK1.7，尽管你重新设置了环境变量，改了JAVA_HOME，并且path值里的C:\ProgramData\Oracle\Java\javapath也删了，但是当你WIN+R输入cmd打开命令行窗口，输入java -version回车，还是会出现以下错误Error: Registry ke...

2019-03-04 21:10:03 519

原创蓝桥杯---算法训练出现次数最多的整数

问题描述　　编写一个程序，读入一组整数，这组整数是按照从小到大的顺序排列的，它们的个数N也是由用户输入的，最多不会超过20。然后程序将对这个数组进行统计，把出现次数最多的那个数组元素值打印出来。如果有两个元素值出现的次数相同，即并列第一，那么只打印比较小的那个值。　　输入格式：第一行是一个整数N，N £ 20；接下来有N行，每一行表示一个整数，并且按照从小到大的顺序排列。　　输出格式：...

2018-12-15 11:43:39 962 2

原创蓝桥杯【基础练习】十六进制转十进制、八进制

十六进制转十进制问题描述　　从键盘输入一个不超过8位的正的十六进制数字符串，将它转换为正的十进制数后输出。　　注：十六进制数中的10~15分别用大写的英文字母A、B、C、D、E、F表示。样例输入FFFF样例输出65535方法一：巧用C语言的输入输出格式符#include"cstdio"int main(){ __int64 n; //等价于 long lon...

2018-12-14 12:37:52 674

原创 Sql server2010常见操作【简洁易懂】

1.建立名为‘自己学号+姓名’的数据库，在数据库中添加个人信息 Student01表中添加个人学籍信息, Course01表中添加个人上学期课程信息, SC01表中添加自己上学期所学过课程的相关分数Create table Student01(Sno CHAR(10) not null,/*添加完整性约束条件，Sno是主码，主码不为空*/ Sname CHA...

2018-12-14 12:35:43 3004

文本标注工具YEDDA

YEDDA 是一个简单易用的文本标注工具，其前身是 SUTDAnnotator，该标注工具支持键盘快捷键标注，用户只需选中文本并按快捷键如A，就会自动标注。标注结果用 .ann 文件来保存，可以直接到处序列后的标注结果，十分方便。 YEDDA 基于 python2 开发的，所以安装需要用 python2 。需要标注的文档用 txt 文件导入，编码方式为 utf-8 ，如果编码方式不对，会显示乱码。安装方便，标注方便，实现给同一个实体加多个标签。 YEDDA可以进行 chunk/entity/event 三种标注任务，当前只支持在python2.7环境下运行。它对外提供两种用户界面，一种是标注员界面（终端执行 python YEDDA.py ），一种是管理员界面（终端执行 python YEDDA_Admin.py ）。标注员界面用于给句子做标注，管理员界面提供针对同一文件的不同人员标注结果的对比等功能。注意：下载后解压即可使用。

2023-07-26

Synonyms-中文近义词工具包

Synonyms是一个中文近义词工具包，它可用于自然语言理解（Natural Language Understand，NLG）的多种任务，包括文本对齐、推荐算法、相似度计算、语义偏移、关键字提取、概念提取、自动摘要、搜索引擎等。但通常情况下，我们安装下载这个包时，总会出现超时错误，导致无法正常下载，这里是一个下载好的安装包，直接下载安装即可！！

2023-07-26

基于BIOES模式标注的中文糖尿病命名实体识别数据集

这是一个用于中文命名实体识别的数据集，采用BIOES模式标注的糖尿病领域的一些非结构化数据。该数据集对刚入门命名实体识别的同学来说，有很大帮助，不仅节省了大量的数据标注时间，而且有利于他们更快速理解命名实体识别任务。

2023-07-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人