自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zdm_0301的博客

千里之行始于足下。

  • 博客(48)
  • 收藏
  • 关注

原创 BGE M3-Embedding 模型介绍

BGE M3-Embedding来自BAAI和中国科学技术大学,是BAAI开源的模型。相关论文在https://arxiv.org/abs/2402.03216,论文提出了一种新的embedding模型,称为M3-Embedding,它在多语言性(Multi-Linguality)、多功能性(Multi-Functionality)和多粒度性(Multi-Granularity)方面表现出色。

2024-07-15 19:33:53 993

翻译 用检索增强生成让大模型更强大,这里有个手把手的Python实现

本文首先将关注 RAG 的概念和理论。然后将展示可以如何使用用于编排(orchestration)的 LangChain、OpenAI 语言模型和 Weaviate 向量数据库来实现一个简单的 RAG。本文介绍了 RAG 的概念,其最早来自 2020 年的论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》。在介绍了 RAG 背后的理论(包括动机和解决方案)之后,本文又介绍了如何用 Python 实现它。

2024-04-20 11:24:10 113

原创 什么是大模型微调?微调的分类、方法、和步骤

大模型微调(Fine-tuning)是指在已经预训练好的大型语言模型基础上,使用特定的数据集进行进一步的训练,以使模型适应特定任务或领域。其根本原理在于,机器学习模型只能够代表它所接收到的数据集的逻辑和理解,而对于其没有获得的数据样本,其并不能很好地识别/理解,且对于大模型而言,也无法很好地回答特定场景下的问题。例如,一个通用大模型涵盖了许多语言信息,并能够进行流畅的对话。但是如果需要医药方面能够很好地回答患者问题的应用,就需要为这个通用大模型提供很多新的数据以供学习和理解。

2024-02-27 14:26:12 1607

原创 Linux命令—用到什么记录什么!!!!!随时补充

【代码】Linux命令随记—用到什么记录什么!!!!!随时补充。

2023-11-29 16:18:15 507

原创 Linux 新建 python 文件

Linux是一款非常流行的操作系统,可以使用任何文本编辑器编辑Python文件。2、输入以下命令,其中filename是你新建的文件名,.py表示Python文件的后缀名;5、按下Esc键,输入 :wq 保存并退出文件编辑模式;1、打开终端,进入需要新建Python文件的目录;4、在编辑模式下,输入Python代码;6、输入以下命令,运行Python文件。3、输入以下命令,进入文件编辑模式;

2023-10-19 19:24:44 1493 4

原创 通过SVN拉取项目 步骤

当你执行了前三步之后,你的Pycharm页面下方会显示出“SVN Repositories”,此时你执行第四步,点击旁边的加号,会跳出一个页面“New Repository Location”,此时,你执行第五步,填入你需要拉取的项目地址,点击OK即可。当你执行了前五步,点击了OK之后,你的“SVN Repositories”页面中会显示,你刚才拉取的项目地址,这个地址下面对应的就是你需要拉取的项目。然后执行第六步,右键这个项目地址,出现一个小窗口,此时,执行第七步,点击“Checkout”。

2023-10-18 16:52:07 3130

原创 语音识别whisper的介绍、安装、错误记录

Whisper是OpenAI于2022年9月份开源的通用的语音识别模型。它是在各种音频的大型数据集上训练的模型,也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。论文链接:https://arxiv.org/abs/2212.04356github链接:https://github.com/openai/whisper。

2023-10-16 14:17:33 5314 5

原创 RuntimeError: “slow_conv2d_cpu“ not implemented for ‘Half‘

测试语音识别模型whisper时,出现上述错误!!max。

2023-10-11 16:51:50 543

原创 ImportError: cannot import name ‘OrderedDict‘ from ‘typing‘

唉,先给大家讲个故事听!由于小张昨天被迫需要将Anaconda环境迁移至一个新的磁盘,在博客上查了超级多的资料,终于把环境迁移成功了,但这个时候我的python项目在选择解释器时,却一直出错,一直显示选择的解释器无效!总结:实际上是因为在python3.7.0中,它的typing模块中没有OrderedDict,但是在python3.7.4中,typing模块中包含OrderedDict,可以直接通过。今天早上一心就想赶紧解决问题,果然早上是头脑最清晰的时候,三下五除二,就把昨天冥思苦想的难题给解决了!

2023-09-22 17:56:22 3113

原创 AttributeError: partially initialized module ‘charset_normalizer‘ has no attribute ‘md__mypyc‘

提示需要更新【Updating the charset-normalizer to latest version works for me】至此,问题解决~~~

2023-08-09 14:05:44 10284 2

原创 Latex中用到的希腊语字母表

2023-08-08 10:46:20 63

原创 小白入门——基于sanic框架的蓝图对象Blueprint

【代码】小白入门——基于sanic框架的蓝图对象Blueprint。

2023-07-24 15:33:13 419

原创 小白记录 Linux常用命令

unzip mydata.zip -d mydata,将mydata.zip解压到mydata文件夹。zip -r mydata.zip mydata,将mydata文件夹压缩为mydata.zip。删除文件夹 rm -rf 文件夹名,例如 rm -rf ./demo/删除文件 rm -f 文件名,例如 rm -f demo.txt。unzip mydata.zip,直接解压到当前文件夹。cat file |grep ‘要搜索的词或表达式’grep ‘要搜索的词或表达式’ file。

2023-07-20 15:14:54 53

原创 ModuleNotFoundError: No module named ‘pkg_resources‘

【代码】ModuleNotFoundError: No module named ‘pkg_resources‘

2023-07-17 14:43:22 1496

原创 一条命令帮助 pip 实现批量下载项目的requirements

【代码】一条命令帮助 pip 实现批量下载项目的requirements。

2023-07-13 15:57:49 479

原创 编辑距离算法(Levenshtein Distance Algorithm)的概念理解及其应用

将两个字符串 a, b 的Levenshtein Distance表示为LDa,b(|a|, |b|),如下公式所示。其中,|a|和 |b|分别对应字符串 a, b 的长度。LDa,b(|a|, |b|)表示 a 的前 i 个字符与 b 的前 j 个字符之间的编辑距离。其中,i 和 j 都是从1开始的下标。编辑距离是NLP领域中一个基本的评估文本相似度的算法,可以作为文本相似任务的重要特征之一。该算法的缺点在于,它是基于文本自身的结构去计算的,并没有利用到文本语义层面的信息。

2023-07-12 14:36:16 1407

原创 歪打正着解决 ModuleNotFoundError: No module named ‘setuptools.command.build‘ 问题

哈哈哈,不知道怎么想的,直接省略了前一个步骤,执行了第二个命令,我的天,发生了啥,竟然成功了,虽然我也不知道原因出在哪里,但这个问题真的困扰了我很久了!pip install pinyin**进行安装,我真的,我开始怀疑python版本的影响了,哈哈哈。后来,我想着我得完整的看一下这个错误,看看到底是哪个环节出了问题?然而我的python3.7环境中,setuptools包的版本是。但这大家来说很有效的方法,对我来说毫无用处!setuptools**,果然,我发现这里的版本是。最开始,我只关注了**

2023-07-11 14:49:58 9554 8

原创 ModuleNotFoundError: No module named ‘XXX‘解决方法

注意:如果安装时显示时间过长,未安装成功,可以尝试在命令后面加上“”,哈哈 反正我每次都会成功下载。

2023-07-10 14:47:46 322

原创 什么是面向对象和面向过程?

一般认为,较典型的面向对象语言有:C++(支持多继承、多态和部分动态绑定)、Java(支持单继承、多态和部分动态绑定)、C#(支持单继承,与Java和C++等有很多类似之处)作为基本程序结构单位的程序设计语言,指用于描述的设计是以对象为核心,而对象是程序运行时刻的基本成分。

2023-07-10 14:46:50 170

原创 【NLP】文本生成、文本纠错 代码学习记录

1.1 创建一个解析对象1.2 向该对象中添加所需得命令行参数和选项,每一个add_argument方法对应一个参数或选项;1.3 调用parse_args()方法进行解析使用。1.4 HfArgumentParser是Transformer框架中的命令行解析工,它是ArgumentParser的子类,用于从类对象中创建解析对象。这里利用HfArgumentParser加载用于构建模型、微调模型的参数。其中,ModelArguments中包含的是关于模型的属性;DataTrainingArgumen

2023-07-04 14:18:01 658

原创 今天来讲讲 百度网盘下载速度只有几十KB怎么办??

今天就来讲一讲,百度网盘的 “优化速率模式” 到底有多香???感觉省了好多 “前前”,哈哈哈哈哈哈哈哈哈哈

2023-06-12 15:20:22 5865

转载 python3下使Word2Vec每次运行结果保持一致

最近在学习使用gensim.models.word2vec.Word2Vec时发现一个奇怪的问题,那就是每次运行出来的结果不一致,这使得程序复现带来了很多麻烦。下面说一下我的解决方案。#### Word2Vec的官方文档,在seed参数哪里可以发现这样的解释:seed (int) – Seed for the random number generator. Initial vectors for each word are seeded with a hash of the concatenatio

2021-08-31 11:32:07 646

原创 tensorflow中tf.keras.models.Sequential()用法_小张学习之路分享

sequential 模型是那种最简单的结构的模型。按顺序一层一层训练,一层一层往前的那种。没有什么环的结构。比如像前馈网络那样。就像下图这样的,一层层的那种。由于自己还是个新手小白,尚没有总结这个用法的能力,这里分享几个自己看了,启发很大的学习网址:1. https://keras-cn.readthedocs.io/en/latest/getting_started/sequential_model/(这个网址是keras中文文档下的,还有很多其他的内容介绍)2. https://blog.cs

2021-08-22 09:59:23 2241

原创 在jupyter notebook中使用conda创建的虚拟环境——学习分享

jupyter notebook新手小白,原本装的是tensorflow=1.14,但是在进行深度学习时,遇到需要tensorflow=2.x版本,这就需要我在jupyter notebook中更换tensorflow版本,下面是我看到的一些讲的比较清楚的网址分享:1. https://blog.csdn.net/qq_36017609/article/details/1042714292. https://blog.csdn.net/u013517182/article/details/9305134

2021-08-20 10:33:26 327

原创 “C:\Users\用户名\AppData\里面的文件是什么?可以删除么??

很多人发现电脑中C:\Users\用户名\AppData 占据了很大的空间,这些文件都是什么?可以将其删除吗?下面为大家详细介绍相关知识!C:\Users\用户名\AppData里面一般有三个文件夹,分别是Local,LocalLow,Roaming,简单地来说,都是用来存放软件的配置文件和临时文件的,里面有很多以软件名称或软件公司命名的文件夹,理论上都可以删除。但是但是尽量不要删除,这里边存放的是软件运行时和结束后的数据和配置文件,如果删了,会导致软件不正常或者出错举个例子:例如,如果安装了Phot

2021-08-19 09:21:30 86814 4

原创 jupyter notebook出现kernel waitting,please wait一系列错误的解决办法

第一次使用jupyter notebook的常见问题kernel waitting,please waitImportError: cannot import name 'create_prompt_application' from 'prompt_toolkit.shortcuts'先找原因如何解决推荐参考博客网址kernel waitting,please wait第一步 打开Anaconda Prompt,输入python -m ipykernel install --user到这一步,可能

2021-08-18 09:11:24 330

原创 Anaconda安装的python环境中“No module named pip” 和 “ ‘pip‘ is a package and cannot be directly executed”问题

一. 没有pip3问题找到安装anaconda的文件夹,点击Scripts(利用anaconda安装的python虚拟环境都在这里),确定是否存在一个easy_install.exe的程序,如果有请往下看,如果没有进入直接进入第4步。打开 Anaconda Prompt 或 cmd ,进入到你需要安装pip3的那个环境下的Scripts文件夹(这里只给出了一个示例,每个人装的路径都不一样,需要你自己填写)。使用以下代码安装即可。easy_install.exe pipeasy_insta

2021-08-06 19:47:56 2468 2

转载 我以为的NLP

作为一个小白,在接触NLP(Nature Language Process,自然语言处理)之前,完全不清楚这个领域究竟是干什么的。首先,Nature我懂,Language我也懂,但是Nature Language是什么就不懂了。那么了解这个领域的首要任务就变成了搞清楚Nature Language到底指什么。“自然”嘛,那就是自然进化形成的,不能是人造的,自然进化形成的语言那就是人类的语言呗,毕竟是伴随着人类的进化过程不断进化,慢慢形成了今天的语言体系。要处理这些数据,而且还形成的一个研究领域,不得不感慨

2021-06-10 08:43:52 227

原创 Neo4j错误处理——Caused by: org.neo4j.helpers.PortBindException: Address localhost:7687 is already in use,

以管理员身份打开命令行,然后进入neo4j的bin目录下,输入neo4j-console.cmd发生如上错误,解决办法如下端口占用问题:Caused by: org.neo4j.helpers.PortBindException: Address localhost:7687 is already in use, cannot bind to it.打开cmd命令行,执行命令netstat -ano|findstr “7474”,查,7474端口是否被占用及占用此端口的PID,从下图中可以看到

2021-06-02 18:11:10 1086 1

原创 PyCharm安装tensorflow时遇到的问题

问题描述:PyCharm使用pip install tensorflow命令在命令行cmd或者中断terminal安装tensorflow时,遇到如下问题解决方案:第一步:先装上wrapt第二步:重新输入pip install tensorflow

2021-03-24 21:51:23 188

原创 C输入输出格式符

常见的以进制输入输出的格式符有:%d:十进制整数%o:八进制整数%x或者%X:十六进制整数常见的以数据类型输入输出的格式符有:%d:整型,即int型 %i :有符号十进制整数(与%d相同) %u:无符号的十进制整数%l:长整型,即long型%f:单精度浮点型,即float型%lf:双精度浮点型(默认保留6位小数),即double型%c...

2020-12-23 19:37:34 982

原创 【HDU2037】今年暑假不AC 贪心算法

Problem Description“今年暑假不AC?”“是的。”“那你干什么呢?”“看世界杯呀,笨蛋!”“@#$%^&*%...”确实如此,世界杯来了,球迷的节日也来了,估计很多ACMer也会抛开电脑,奔向电视了。作为球迷,一定想看尽量多的完整的比赛,当然,作为新时代的好青年,你一定还会看一些其它的节目,比如新闻联播(永远不要忘记关心国家大事)、非常6+7、超级女生,以...

2020-12-23 19:37:09 96

原创 【HDU1051】Wooden Sticks 花样贪心算法

Wooden SticksTime Limit : 2000/1000ms (Java/Other)Memory Limit : 65536/32768K (Java/Other)Total Submission(s) : 7Accepted Submission(s) : 4Font: Times New Roman | Verdana | GeorgiaFont S...

2020-12-23 19:36:50 188

原创 LaTex常用命令介绍

LaTex常用命令LaTex介绍LaTex下载与安装LaTex中常用宏包LaTeX文件的框架LaTex中简单的规则LaTex中字号转换命令表LaTex中常见数学公式排版命令LaTex中常见的特殊符号使用LaTeX编辑表格UML 图表FLowchart流程图导出与导入导出导入LaTex介绍LaTeX(LATEX,音译“拉泰赫”)是一种基于ΤΕΧ的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在20世纪80年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥

2020-12-23 19:30:42 6605

原创 C++刷题日常记录

*HDU 1708【Fibonacci String】斐波那契的变形,int型至多求出46*HDU 1789【Doing Homework Again】贪心算法*HDU 2136【Largest prime factor】筛选法!!!HDU 1009【FatMouse' Trade】背包问题-贪心HDU 1290{二维问题 y = a*x^2 + b*x+c三维问题 y = a*x...

2019-04-10 21:49:54 219

原创 C/C++ 常用函数总结

万能头文件 #include<bits/stdc++.h>#include"iomanip"C++中左对齐/右对齐cout<<setiosflags(ios::left)<<setw(对齐的数字)<<输出的数<<endl;cout<<setiosflags(ios::right)<<setw(对齐的...

2019-04-10 21:48:46 389

原创 JAVA_HOME从jdk8变到jdk7错误处理

当你的电脑装了JDK1.8后,你的JAVA_HOME也是设置的1.8如果你不彻底删除JDK8就安装JDK1.7,尽管你重新设置了环境变量,改了JAVA_HOME,并且path值里的C:\ProgramData\Oracle\Java\javapath也删了,但是当你WIN+R输入cmd打开命令行窗口,输入java -version回车,还是会出现以下错误Error: Registry ke...

2019-03-04 21:10:03 283

原创 蓝桥杯---算法训练 出现次数最多的整数

问题描述  编写一个程序,读入一组整数,这组整数是按照从小到大的顺序排列的,它们的个数N也是由用户输入的,最多不会超过20。然后程序将对这个数组进行统计,把出现次数最多的那个数组元素值打印出来。如果有两个元素值出现的次数相同,即并列第一,那么只打印比较小的那个值。  输入格式:第一行是一个整数N,N £ 20;接下来有N行,每一行表示一个整数,并且按照从小到大的顺序排列。  输出格式:...

2018-12-15 11:43:39 868 2

原创 蓝桥杯【基础练习】十六进制转十进制、八进制

十六进制转十进制问题描述  从键盘输入一个不超过8位的正的十六进制数字符串,将它转换为正的十进制数后输出。  注:十六进制数中的10~15分别用大写的英文字母A、B、C、D、E、F表示。样例输入FFFF样例输出65535方法一:巧用C语言的输入输出格式符#include"cstdio"int main(){ __int64 n; //等价于 long lon...

2018-12-14 12:37:52 556

原创 Sql server2010常见操作【简洁易懂】

 1.建立名为‘自己学号+姓名’的数据库,在数据库中添加个人信息   Student01表中添加个人学籍信息,   Course01表中添加个人上学期课程信息,   SC01表中添加自己上学期所学过课程的相关分数Create table Student01(Sno CHAR(10) not null,/*添加完整性约束条件,Sno是主码,主码不为空*/ Sname CHA...

2018-12-14 12:35:43 2813

基于BIOES模式标注的中文糖尿病命名实体识别数据集

这是一个用于中文命名实体识别的数据集,采用BIOES模式标注的糖尿病领域的一些非结构化数据。 该数据集对刚入门命名实体识别的同学来说,有很大帮助,不仅节省了大量的数据标注时间,而且有利于他们更快速理解命名实体识别任务。

2023-07-26

文本标注工具YEDDA

YEDDA 是一个简单易用的文本标注工具,其前身是 SUTDAnnotator,该标注工具支持键盘快捷键标注,用户只需选中文本并按快捷键如A,就会自动标注。标注结果用 .ann 文件来保存,可以直接到处序列后的标注结果,十分方便。 YEDDA 基于 python2 开发的,所以安装需要用 python2 。需要标注的文档用 txt 文件导入,编码方式为 utf-8 ,如果编码方式不对,会显示乱码。安装方便,标注方便,实现给同一个实体加多个标签。 YEDDA可以进行 chunk/entity/event 三种标注任务,当前只支持在python2.7环境下运行。它对外提供两种用户界面,一种是标注员界面(终端执行 python YEDDA.py ),一种是管理员界面(终端执行 python YEDDA_Admin.py )。标注员界面用于给句子做标注,管理员界面提供针对同一文件的不同人员标注结果的对比等功能。 注意:下载后解压即可使用。

2023-07-26

Synonyms-中文近义词工具包

Synonyms是一个中文近义词工具包,它可用于自然语言理解(Natural Language Understand,NLG)的多种任务,包括文本对齐、推荐算法、相似度计算、语义偏移、关键字提取、概念提取、自动摘要、搜索引擎等。 但通常情况下,我们安装下载这个包时,总会出现超时错误,导致无法正常下载,这里是一个下载好的安装包,直接下载安装即可!!

2023-07-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除