学习笔记
文章平均质量分 76
鹏晓星
对计算机方面的技术充满兴趣的小菜鸟
展开
-
人工智能 AI项目 模型硬件优化简记
量化网络意味着将其转换为使用权重和/或激活的精度降低的整数表示。这节省了模型大小,并允许在CPU或GPU上使用更高吞吐量的数学运算。增加map_location。原创 2023-05-07 22:31:48 · 84 阅读 · 0 评论 -
人工智能 AI项目 collate_fn函数理解与记录
重写collate-fn函数就是手动将抽取出的样本进行自定义堆叠处理,返回自定义格式。原创 2023-04-30 23:02:54 · 564 阅读 · 0 评论 -
人工智能 AI项目 Supervisord配置与使用总结
Supervisor是用Python开发的一个client/server服务,是Linux/Unix系统下的一个进程管理工具。它可以很方便的监听、启动、停止、重启一个或多个进程,并守护这些进程。原创 2023-04-23 19:57:18 · 513 阅读 · 0 评论 -
人工智能 AI项目 前向概率计算笔记
第一个时刻,i代表不同的状态,pi表示初始概率,b为发射概率,如:从5个盒子中抽球,第一个抽到红球,i对应的就是1,b为红球在第一个盒子中被抽出来的概率(发射概率)第二个时刻则是前一个时刻求出的5个数据,每个数据乘转移概率和再乘当前时刻的发射概率。a(t)j表示上个时刻求出的5个值,aji表示从j状态转移到i状态的概率。结果是5个数据,第i数据表示第1个时刻从第i球中抽出红球的概率。概率求和(算出的5个状态分别对应的值进行求和)随机从4个盒子中抽出5个球 ,求该序列的概率。的概率为前向概率,记作。原创 2023-04-16 23:26:10 · 344 阅读 · 0 评论 -
人工智能 AI项目 python中Cypher使用
Cypher是neo4j图数据的查询语言, 类似于mysql数据库的sql语句, 但是它允许对图形进行富有表现力和有效的查询和更新。心得:cypher在有SQL基础的情况下,上手还是比较轻松的,多练即可熟记。学过数据库,SQL的话不难理解,简单说就是满足ACID的操作。结果(未报错,运行正常)result:王阳明。原创 2023-04-03 00:16:33 · 250 阅读 · 0 评论 -
人工智能 自然语言处理 BERT、GPT、ELMO对比学习简记
ELMo根据上下文动态调整word embedding, 可以解决多义词的问题.GPT使用了Transformer提取特征, 使得模型能力大幅提升.第三种方式就是前后分别保留一部分token, 总数是510.BERT预训练模型所接收的最大sequence长度是512。GPT只使用了单向Decoder, 无法融合未来的信息.第一种方式就是只保留前面510个token.第二种方式就是只保留后面510个token.bert + 迁移学习 简单练习代码。原创 2023-03-27 00:02:10 · 877 阅读 · 0 评论 -
【博学谷学习记录】超强总结,用心分享丨人工智能 自然语言处理 迁移学习部分笔记
微调脚本(Fine-tuning script)预训练模型(Pretrained model)保持较高精度的情况下, 快速的进行训练和预测。心得:已经了解些基本概念,还需要实践加深印象。微调(Fine-tuning)原创 2023-03-19 18:36:09 · 241 阅读 · 0 评论 -
人工智能 自然语言处理 Transformer模型初识
因为在Transformer的编码器结构中, 并没有针对词汇位置信息的处理,因此需要在Embedding层后加入位置编码器,将词汇位置不同可能会产生不同语义的信息加入到词嵌入张量中, 以弥补位置信息的缺失.相比于编码器部分,每层增加一个子层:多头自注意力子层和规范化层以及一个残差连接。第一个子层连接结构包括一个多头自注意力子层和规范化层以及一个残差连接。第二个子层连接结构包括一个前馈全连接子层和规范化层以及一个残差连接。每个编码器层由两个子层连接结构组成。Nx:由N个编码器层堆叠而成。原创 2023-03-12 22:12:09 · 178 阅读 · 0 评论 -
人工智能 自然语言处理 文本特征处理小结
如[“我”,“爱”,“你”] 对应向量[1, 23, 45] ,我爱两个字共现且相邻(bi-gram特),用1000表示这种关系,则包含2-gram特征的向量为[1,23,45,1000]给定一段文本序列, 其中n个词或字的相邻共现特征即n-gram特征, 常用的n-gram特征是bi-gram和tri-gram特征, 分别对应n为2和3.一般模型的输入需要等尺寸大小的矩阵, 因此在进入模型前需要对每条文本数值映射后的长度进行规范。以及对加入特征之后的文本语料进行必要的处理, 如: 长度规范.原创 2023-03-05 18:29:24 · 525 阅读 · 0 评论 -
人工智能 深度学习 神经网络基础知识点总结
1.当输入 6 时,sigmoid 激活函数图像的导数接近为 0,此时网络参数将更新极其缓慢,或者无法更新。Relu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生。Dropout 层的使用,减一部分梯度归0,达到无法更新参数的目的,用于控制网络复杂度,以此达到正则化的目的。数据在经过 BN 层之后,无论数据以前的分布是什么,都会被归一化成均值为 β,标准差为λ 的分布。简单的神经网络包括三层:输入层,隐藏层,输出层。原创 2023-03-01 17:24:54 · 346 阅读 · 0 评论 -
人工智能 机器学习 集成学习错题总结
学习过程是:先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本进行调整,使得先前基学习器做错的训练样本在后续受到更多的关注,然后基于调整后的样本分布来训练下一个基学习器;训练一个元模型(meta-model)来将各个组件模型的输出结果进行结合,具体过程就是将各个学习器在训练集上得到的预测结果作为训练特征和训练集的真实结果组成新的训练集;分别采用全部的训练样本来训练n个组件模型,要求这些个体学习器必须异构的,比如可以分别是线性学习器,SVM,决策树模型和深度学习模型。bagging:降低方差;原创 2023-02-28 15:36:45 · 378 阅读 · 0 评论 -
人工智能 多场景实战 报表部分SQL命令总结
case when [字段] then [满足条件的返回值] else [不满足条件的返回值] end。left join: 左连接(保留左表全部数据和右表满足拼接条件的数据)max() : 聚合函数,求最大值,数据源为分组后每组中的所有数据。order by :按字段排序 [asc] [desc],默认升序。通过实例记忆sql命令的作用及效果,加深印象,加强应用能力。group by :按字段分组,分组字段须被select。with [临时表名] as (组成临时表的sql)原创 2023-02-28 15:29:57 · 69 阅读 · 0 评论 -
人工智能 特征筛选 求取特征重要程度
心得:记录一下使用Xgboost输出特征重要程度,分组交叉筛选可以使数据更加可靠。分组后进行5轮计算,得到5组特征重要程度。原创 2023-02-28 15:24:10 · 126 阅读 · 0 评论 -
人工智能 特征工程 特征变换 分箱学习总结
合并:遍历相邻两项合并的卡方值,将卡方值最小的两组合并,不断重复直到满足分箱数目要求。心得:分箱作为必不可少的一个过程,知道其中原理方可更好的处理数据。初始化:根据连续变量值大小进行排序,构建最初的离散化。使得不同箱体的好坏样本比例区别放大,容易获得高IV。使用toad库可以进行卡方分箱代码编写。将卡方值较小的两个相邻箱体合并。卡方值不同代表箱体差异化。原创 2023-02-28 14:46:15 · 306 阅读 · 0 评论 -
人工智能 机器学习 逻辑回归模型遗漏知识点总结
形式简单,模型的可解释性非常好。从特征的权重可以看到不同的特征对最后结果的影响,某个特征的权重值比较高,那么这个特征最后对结果的影响会比较大。模型效果不错。在工程上是可以接受的(作为baseline),如果特征工程做的好,效果不会太差,并且特征工程可以大家并行开发,大大加快开发的速度。训练速度较快。分类的时候,计算量仅仅只和特征的数目相关。并且逻辑回归的分布式优化sgd发展比较成熟,训练的速度可以通过堆机器进一步提高,这样我们可以在短时间内迭代好几个版本的模型。资源占用小,尤其是内存。原创 2023-02-28 14:24:11 · 179 阅读 · 0 评论 -
人工智能 Python面向对象 学习总结之Python与Java的区别
经过学习,对Python面向对象部分有了一定的了解。总结记录:面向对象上Python与Java的部分区别。原创 2023-02-28 12:50:39 · 136 阅读 · 0 评论 -
人工智能 Python基础 个人学习总结之列表排序
经过一周的学习,对Python基础部分有了一定的了解。在学习Python中list时,了解到了列表排序,于是对于列表排序有了兴趣,本文总结了Python列表排序的一些知识。原创 2023-02-28 12:41:07 · 317 阅读 · 0 评论 -
人工智能 Pandas数据分析 数据可视化方法总结
对于pairplot,存在冗余信息,上半部分下半部分相同,用如下方法手动指定上半部分、下半部分和对角线分别用什么图。心得:数据可视化部分涉及的方法和参数很多,需要多去使用,多去查阅资料才可牢记于心,可以再jupyter中通过。箱线图统计的数据说明:最小值,¼分位,中位数,¾分位,最大值,以及离群值。的方式查看方法和参数说明,用的时候需灵活使用。多变量数据画图(散点图)部分代码。修改x、y轴的标签和字体。原创 2023-02-28 12:35:37 · 163 阅读 · 0 评论 -
人工智能 多场景实战 常用英文缩写概念总结
心得:这些常用的英文缩写总结记录一下,方便日后查阅,还是需要理解性记忆。独立访客量,一定周期内(如1天)访问网站的用户数(需去重)页面浏览量或点击量,衡量用户访问的次数多少。如:统计每小时玩家数量,最后求平均。ARPPU = 付费金额/付费人数。ARPU = 付费金额/活跃人数。行动成本,按效果收费。平均同时在线玩家人数。最高同时在线玩家人数。原创 2023-02-28 12:21:58 · 308 阅读 · 0 评论 -
人工智能 Linux常用软件安装 CenOS 7 arm 安装 MySQL8
解压mysql安装包到/export/server目录(目录非固定)安装包上传到/export/software目录(目录非固定)MySQL版本:mysql-8.0.31 aarch64。心得:arm版本安装参考资料少,记录一下,方便以后使用。虚拟机:VMWare 13.0 arm64。主机:osx 12.0 arm64。删除mariadb默认配置文件。将mysql服务设置为开机启动。查看mariadb版本。原创 2023-02-28 12:10:41 · 358 阅读 · 0 评论 -
人工智能 Python进阶编程 深浅拷贝总结
所以改变原有被复制对象不会对已经复制出来的新对象产生影响。只有一种形式,copy模块中的deepcopy函数。浅拷贝之所以称为浅拷贝,是它仅仅只拷贝了一层,拷贝了最外围的对象本身,内部的元素都只是拷贝了一个引用而已。注:不可变类型进行浅拷贝不会给拷贝的对象开辟新的内存空间,而只是拷贝了这个对象的引用。id为id()的返回值(id()函数用于获取对象的内存地址)原创 2022-11-20 19:57:41 · 529 阅读 · 0 评论 -
人工智能 深度学习pytorch使用总结
自动微分模块是构成神经网络训练的必要模块,在神经网络的反向传播过程中,Autograd 模块基于正向计算的结果对当前的参数进行微分计算,从而实现网络权重参数的更新。torch.random.init_seed 和 torch.random.manual_seed 随机种子设置。torch.full 和 torch.full_like 创建全为指定值张量。torch.zeros 和 torch.zeros_like 创建全0张量。torch.ones 和 torch.ones_like 创建全1张量。原创 2022-11-13 21:49:28 · 484 阅读 · 0 评论 -
多线程下解决生产者消费者问题
借助缓冲区解决生产者消费者问题的代码仓库(缓冲区)有货则消费,无货则生产,关键在于何时进行生产和何时进行消费的控制,停止操作:wait()开始操作:notifyAll()public class CoTest01 { public static void main(String[] args) { SynContainer container = new SynContainer();...原创 2019-10-24 11:49:21 · 274 阅读 · 0 评论 -
Linux初学者建议(个人学习笔记)
学习源:https://www.bilibili.com/video/av18156598/?p=11这是学习时敲的笔记,以便个人日后复习用,能帮到有需要的人更好Linux初学者建议注意事项Linux严格区分大小写Linux中多有内容以文件形式保存,包括硬件硬盘文件是/dev/sd[a-p]光盘文件是dev/sr0Linux不靠扩展名区分文件类型,靠的是文件权限约定俗成的一...原创 2019-04-27 18:52:36 · 448 阅读 · 0 评论