- 博客(38)
- 资源 (1)
- 收藏
- 关注
原创 人工智能 LLM LangChain的一些小例子
os . environ [ "OPENAI_API_KEY" ] = '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' # 导入文本 loader = UnstructuredFileLoader("abc.txt") # 将文本转成 Document 对象 document = loader . load() print(f'documents: {
2023-06-06 17:32:26 790
原创 人工智能 LLM langchain初步了解简记
所以,不管我们是使用 openai api embedding 功能还是直接通过向量数据库直接查询,都需要将我们的加载进来的数据 Document 进行向量化,才能进行向量运算搜索。转换成向量也很简单,只需要我们把数据存储到对应的向量数据库中即可完成向量的转换。不用进行训练,并且可以实时添加新的内容,而不用加一次新的内容就训练一次,并且各方面成本要比 fine-tuning 低很多。Youtube YoutubeLoader 等等,上面只是简单的进行列举了几个,官方提供了超级的多的加载器供你使用。
2023-06-06 16:37:54 863
原创 人工智能 AI项目 ROUGE评估算法简记
优点: 不要求词的连续匹配, 只要求按词的出现顺序匹配即可, 能够像n-gram一样反应句子级别的词序. 自动匹配最长公共子序列, 不需要预定义n-gram的长度超参数.将模型生成的自动摘要和人工摘要做对比, 通过统计两者之间重叠的基本单元的数量, 来评价模型摘要的表现.缺点: 只计算一个最长子序列, 最终的值忽略了其他备选的最长子序列及较短子序列的特征和影响.分子LCS(C, S1) = 5 (a cat on the table),缺点: 区分度不高, 且当N > 3时, ROUGE-N值通常很小.
2023-06-06 16:09:10 1013
原创 人工智能 AI项目 模型硬件优化简记
量化网络意味着将其转换为使用权重和/或激活的精度降低的整数表示。这节省了模型大小,并允许在CPU或GPU上使用更高吞吐量的数学运算。增加map_location。
2023-05-07 22:31:48 184
原创 人工智能 AI项目 Supervisord配置与使用总结
Supervisor是用Python开发的一个client/server服务,是Linux/Unix系统下的一个进程管理工具。它可以很方便的监听、启动、停止、重启一个或多个进程,并守护这些进程。
2023-04-23 19:57:18 699
原创 人工智能 AI项目 前向概率计算笔记
第一个时刻,i代表不同的状态,pi表示初始概率,b为发射概率,如:从5个盒子中抽球,第一个抽到红球,i对应的就是1,b为红球在第一个盒子中被抽出来的概率(发射概率)第二个时刻则是前一个时刻求出的5个数据,每个数据乘转移概率和再乘当前时刻的发射概率。a(t)j表示上个时刻求出的5个值,aji表示从j状态转移到i状态的概率。结果是5个数据,第i数据表示第1个时刻从第i球中抽出红球的概率。概率求和(算出的5个状态分别对应的值进行求和)随机从4个盒子中抽出5个球 ,求该序列的概率。的概率为前向概率,记作。
2023-04-16 23:26:10 581
原创 人工智能 AI项目 统计语言模型之HMM初步学习总结
马尔可夫假设,每个事件发生的概率只取决于前一个事件,将满足该假设的连续多个事件串联在一起,就构成马尔可夫链。问题:以一本书多几本书作为训练集,书中大部分句子不同,所以概率相等,而实际使用模型时,传入的句子在训练集中没有,则会概率为0。由于句子都是由单词构成的,句子没有重复的,但是单词却是不断重复使用的。第一行表示由第一个盒子 转移 到第一个盒子抽的概率为0,第二个盒子的概率为1,第三个盒子的概率为0,第四个盒子的概率为0。4行分别代表4个盒子,第一列则是从盒子中抽红球的概率,第二行表示抽白球的概率。
2023-04-10 00:02:17 570 1
原创 人工智能 AI项目 python中Cypher使用
Cypher是neo4j图数据的查询语言, 类似于mysql数据库的sql语句, 但是它允许对图形进行富有表现力和有效的查询和更新。心得:cypher在有SQL基础的情况下,上手还是比较轻松的,多练即可熟记。学过数据库,SQL的话不难理解,简单说就是满足ACID的操作。结果(未报错,运行正常)result:王阳明。
2023-04-03 00:16:33 471
原创 人工智能 自然语言处理 BERT、GPT、ELMO对比学习简记
ELMo根据上下文动态调整word embedding, 可以解决多义词的问题.GPT使用了Transformer提取特征, 使得模型能力大幅提升.第三种方式就是前后分别保留一部分token, 总数是510.BERT预训练模型所接收的最大sequence长度是512。GPT只使用了单向Decoder, 无法融合未来的信息.第一种方式就是只保留前面510个token.第二种方式就是只保留后面510个token.bert + 迁移学习 简单练习代码。
2023-03-27 00:02:10 1196
原创 【博学谷学习记录】超强总结,用心分享丨人工智能 自然语言处理 迁移学习部分笔记
微调脚本(Fine-tuning script)预训练模型(Pretrained model)保持较高精度的情况下, 快速的进行训练和预测。心得:已经了解些基本概念,还需要实践加深印象。微调(Fine-tuning)
2023-03-19 18:36:09 440
原创 人工智能 自然语言处理 Transformer模型初识
因为在Transformer的编码器结构中, 并没有针对词汇位置信息的处理,因此需要在Embedding层后加入位置编码器,将词汇位置不同可能会产生不同语义的信息加入到词嵌入张量中, 以弥补位置信息的缺失.相比于编码器部分,每层增加一个子层:多头自注意力子层和规范化层以及一个残差连接。第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接。第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接。每个编码器层由两个子层连接结构组成。Nx:由N个编码器层堆叠而成。
2023-03-12 22:12:09 376
原创 人工智能 自然语言处理 文本特征处理小结
如[“我”,“爱”,“你”] 对应向量[1, 23, 45] ,我爱两个字共现且相邻(bi-gram特),用1000表示这种关系,则包含2-gram特征的向量为[1,23,45,1000]给定一段文本序列, 其中n个词或字的相邻共现特征即n-gram特征, 常用的n-gram特征是bi-gram和tri-gram特征, 分别对应n为2和3.一般模型的输入需要等尺寸大小的矩阵, 因此在进入模型前需要对每条文本数值映射后的长度进行规范。以及对加入特征之后的文本语料进行必要的处理, 如: 长度规范.
2023-03-05 18:29:24 758
原创 人工智能 深度学习 神经网络基础知识点总结
1.当输入 6 时,sigmoid 激活函数图像的导数接近为 0,此时网络参数将更新极其缓慢,或者无法更新。Relu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生。Dropout 层的使用,减一部分梯度归0,达到无法更新参数的目的,用于控制网络复杂度,以此达到正则化的目的。数据在经过 BN 层之后,无论数据以前的分布是什么,都会被归一化成均值为 β,标准差为λ 的分布。简单的神经网络包括三层:输入层,隐藏层,输出层。
2023-03-01 17:24:54 629
原创 人工智能 机器学习 集成学习错题总结
学习过程是:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本进行调整,使得先前基学习器做错的训练样本在后续受到更多的关注,然后基于调整后的样本分布来训练下一个基学习器;训练一个元模型(meta-model)来将各个组件模型的输出结果进行结合,具体过程就是将各个学习器在训练集上得到的预测结果作为训练特征和训练集的真实结果组成新的训练集;分别采用全部的训练样本来训练n个组件模型,要求这些个体学习器必须异构的,比如可以分别是线性学习器,SVM,决策树模型和深度学习模型。bagging:降低方差;
2023-02-28 15:36:45 536
原创 人工智能 多场景实战 报表部分SQL命令总结
case when [字段] then [满足条件的返回值] else [不满足条件的返回值] end。left join: 左连接(保留左表全部数据和右表满足拼接条件的数据)max() : 聚合函数,求最大值,数据源为分组后每组中的所有数据。order by :按字段排序 [asc] [desc],默认升序。通过实例记忆sql命令的作用及效果,加深印象,加强应用能力。group by :按字段分组,分组字段须被select。with [临时表名] as (组成临时表的sql)
2023-02-28 15:29:57 105
原创 人工智能 特征筛选 求取特征重要程度
心得:记录一下使用Xgboost输出特征重要程度,分组交叉筛选可以使数据更加可靠。分组后进行5轮计算,得到5组特征重要程度。
2023-02-28 15:24:10 271
原创 人工智能 特征工程 特征变换 分箱学习总结
合并:遍历相邻两项合并的卡方值,将卡方值最小的两组合并,不断重复直到满足分箱数目要求。心得:分箱作为必不可少的一个过程,知道其中原理方可更好的处理数据。初始化:根据连续变量值大小进行排序,构建最初的离散化。使得不同箱体的好坏样本比例区别放大,容易获得高IV。使用toad库可以进行卡方分箱代码编写。将卡方值较小的两个相邻箱体合并。卡方值不同代表箱体差异化。
2023-02-28 14:46:15 446
原创 人工智能 机器学习 逻辑回归模型遗漏知识点总结
形式简单,模型的可解释性非常好。从特征的权重可以看到不同的特征对最后结果的影响,某个特征的权重值比较高,那么这个特征最后对结果的影响会比较大。模型效果不错。在工程上是可以接受的(作为baseline),如果特征工程做的好,效果不会太差,并且特征工程可以大家并行开发,大大加快开发的速度。训练速度较快。分类的时候,计算量仅仅只和特征的数目相关。并且逻辑回归的分布式优化sgd发展比较成熟,训练的速度可以通过堆机器进一步提高,这样我们可以在短时间内迭代好几个版本的模型。资源占用小,尤其是内存。
2023-02-28 14:24:11 272
原创 人工智能 Python面向对象 学习总结之Python与Java的区别
经过学习,对Python面向对象部分有了一定的了解。总结记录:面向对象上Python与Java的部分区别。
2023-02-28 12:50:39 277
原创 人工智能 Python基础 个人学习总结之列表排序
经过一周的学习,对Python基础部分有了一定的了解。在学习Python中list时,了解到了列表排序,于是对于列表排序有了兴趣,本文总结了Python列表排序的一些知识。
2023-02-28 12:41:07 349
原创 人工智能 Pandas数据分析 数据可视化方法总结
对于pairplot,存在冗余信息,上半部分下半部分相同,用如下方法手动指定上半部分、下半部分和对角线分别用什么图。心得:数据可视化部分涉及的方法和参数很多,需要多去使用,多去查阅资料才可牢记于心,可以再jupyter中通过。箱线图统计的数据说明:最小值,¼分位,中位数,¾分位,最大值,以及离群值。的方式查看方法和参数说明,用的时候需灵活使用。多变量数据画图(散点图)部分代码。修改x、y轴的标签和字体。
2023-02-28 12:35:37 207
原创 人工智能 多场景实战 常用英文缩写概念总结
心得:这些常用的英文缩写总结记录一下,方便日后查阅,还是需要理解性记忆。独立访客量,一定周期内(如1天)访问网站的用户数(需去重)页面浏览量或点击量,衡量用户访问的次数多少。如:统计每小时玩家数量,最后求平均。ARPPU = 付费金额/付费人数。ARPU = 付费金额/活跃人数。行动成本,按效果收费。平均同时在线玩家人数。最高同时在线玩家人数。
2023-02-28 12:21:58 577
原创 人工智能 Linux常用软件安装 CenOS 7 arm 安装 MySQL8
解压mysql安装包到/export/server目录(目录非固定)安装包上传到/export/software目录(目录非固定)MySQL版本:mysql-8.0.31 aarch64。心得:arm版本安装参考资料少,记录一下,方便以后使用。虚拟机:VMWare 13.0 arm64。主机:osx 12.0 arm64。删除mariadb默认配置文件。将mysql服务设置为开机启动。查看mariadb版本。
2023-02-28 12:10:41 486
原创 人工智能 Python进阶编程 深浅拷贝总结
所以改变原有被复制对象不会对已经复制出来的新对象产生影响。只有一种形式,copy模块中的deepcopy函数。浅拷贝之所以称为浅拷贝,是它仅仅只拷贝了一层,拷贝了最外围的对象本身,内部的元素都只是拷贝了一个引用而已。注:不可变类型进行浅拷贝不会给拷贝的对象开辟新的内存空间,而只是拷贝了这个对象的引用。id为id()的返回值(id()函数用于获取对象的内存地址)
2022-11-20 19:57:41 633
原创 人工智能 深度学习pytorch使用总结
自动微分模块是构成神经网络训练的必要模块,在神经网络的反向传播过程中,Autograd 模块基于正向计算的结果对当前的参数进行微分计算,从而实现网络权重参数的更新。torch.random.init_seed 和 torch.random.manual_seed 随机种子设置。torch.full 和 torch.full_like 创建全为指定值张量。torch.zeros 和 torch.zeros_like 创建全0张量。torch.ones 和 torch.ones_like 创建全1张量。
2022-11-13 21:49:28 523
原创 【问题记录】idea连接docker中的tomcat容器debug
Error running Debugger: Unable to open debugger port (localhost:40003): java.io.IOException "handshake failed - connection prematurally closed"
2022-01-19 15:26:16 1227
原创 CentOS7前后端分离项目部署过程Docker+Nginx+Spring Boot+Vue
目录部署方案部署环境此次部署所用工具及文件注意项目中路径问题基本系统环境搭建Docker安装拉取所需镜像移动前端包和后端包MySQL操作Nginx操作运行后端jar包运行前端dist包至此前后端分离服务器环境全部搭建完毕部署方案部署方案要达到的效果:前端不用管后端,后端不用管前端,各自往服务器上分别部署即可部署环境CentOS7.6+Dcoekr+Nginx+SpringBoot+Vue此次部署所用工具及文件数据库管理工具—NavicatLinux终端仿真程序—SecureCRTFTP客户端
2020-05-30 09:44:54 1439
原创 java实现文件加密(word、excel、pdf、ppt)
导航FileEncryUtils测试环境pom依赖log4j.properties代码FileEncryUtils提供word、excel、pdf、ppt的加密测试环境JDK1.8+idea+mavenpom依赖 <dependencies> <dependency> <groupId>com.itextpdf</groupId> <artifactId>itext7-
2020-05-28 13:42:05 3085
原创 th:href路径问题
th:href="@{路径}"路径问题记录测试路径http://127.0.0.1:8080/admin/blogs/input出错点th:href="@{lib/editormd/css/editormd.min.css}"问题测试时候没有找到该文件分析文件实际路径打开控制台发现实际请求路径为解决方法修改th:href的路径为th:href="@{/lib/edi...
2020-03-05 19:53:15 3171 4
原创 多线程下解决生产者消费者问题
借助缓冲区解决生产者消费者问题的代码仓库(缓冲区)有货则消费,无货则生产,关键在于何时进行生产和何时进行消费的控制,停止操作:wait()开始操作:notifyAll()public class CoTest01 { public static void main(String[] args) { SynContainer container = new SynContainer();...
2019-10-24 11:49:21 324
原创 java对象为什么要用接口类型而不用具体实现类类型
今天写了个简单的静态代理,逻辑很简单,但是有一句话不太明白。ok,先扔代码public class StaticProxy { public static void main(String[] args) { new Weddding(new I()).marry(); }}interface Marry{ void marry();}class I implements Ma...
2019-09-24 18:16:51 1603
原创 用java复制指定文件夹
通过IO流复制指定文件夹到指定目录(Java)思路1、复制子文件夹1)、创建源2)、创建下级File对象3)、判断目标文件夹是否存在4)、判断是文件夹还是文件(若为文件夹则改变目标源)5)、若是文件夹则创建该文件夹的对象再进行递归,否则复制文件2、复制文件1)、选择流2)、操作3)、释放资源代码public class Copy_dir { publi...
2019-09-05 19:46:08 288
原创 使用Wireshark抓包获取在网页中输入的账号密码
使用工具:Wireshark抓捕对象:4399网站的账号和登录密码第一步:抓包,设置捕获选项首先,以管理员身份运行Wireshark,我们抓取本机的网络包,进入捕获选项首先选取网卡,我用的是WiFi,选择的接口为就是WLAN设置捕获过滤器,过滤掉部分包ip src host 172.20.10.7,后面的IP地址为本地IPv4地址,多一嘴,开始→运行→输入cmd→输入ipconfig就...
2019-06-08 11:36:44 31878 13
原创 数据库连接异常处理(第一次编jsp+javaBean数据库连接中出现的问题)
先贴上可以成功运行的代码吧import java.sql.Connection;import java.sql.ResultSet;import java.sql.Statement;import java.sql.DriverManager;import java.sql.SQLException;public class DBManage { Connection conn ...
2019-05-26 13:20:35 1337 1
原创 TypeError: isinstance() arg 2 must be a type or tuple of types
TypeError: isinstance() arg 2 must be a type or tuple of types问题出在今天使用Python学习代码的时候敲到下面的语句便出现了该错误isinstance(“abcd”,str)其实方法很简单,错误产生的原因是因为我在练习代码的时候对str进行了赋值,导致了abcd这个字符串比较的时候报错,然后我就试了一下和int、float比...
2019-05-02 22:47:33 16519
原创 Linux初学者建议(个人学习笔记)
学习源:https://www.bilibili.com/video/av18156598/?p=11这是学习时敲的笔记,以便个人日后复习用,能帮到有需要的人更好Linux初学者建议注意事项Linux严格区分大小写Linux中多有内容以文件形式保存,包括硬件硬盘文件是/dev/sd[a-p]光盘文件是dev/sr0Linux不靠扩展名区分文件类型,靠的是文件权限约定俗成的一...
2019-04-27 18:52:36 536
原创 作为菜鸟写博客的初衷与愿望
我的第一篇博文 第一次写博客,心中也是热血沸腾,因为在一定角度我和大牛们也是一个行列了,他们也写,而我也要写,哈哈哈,当然这是玩笑话。 现如今作为信息管理与信息系统专业的大二本科生,从小对IT技术方面充满了兴趣,但是博客接触的很晚,...
2019-04-26 17:19:32 439 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人