自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 第五章:Transformer(上)

学习了Transformer模型的作用:Transformer总体架构可分为四个部分:输入部分包含:输出部分包含:编码器部分:解码器部分:文本嵌入层的代码分析:nn.Embedding演示:位置编码器的作用因为在Transformer的编码器结构中, 并没有针对词汇位置信息的处理,因此需要在Embedding层后加入位置编码器,将词汇位置不同可能会产生不同语义的信息加入到词嵌入张量中, 以弥补位置信息的缺失.位置编码器的代码分析:nn.Drop

2020-06-22 15:03:46 1149 1

原创 招聘AIGC算法和产品经理

2024-06-13 03:14:34 133

原创 相关教程test

整体总结未来大模型技术展望(架构改进,多模态等)Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture (来自neurIPS2023 斯坦福大学)Retentive Network: A Successor to Transformer for Large Language Models(来自微软研究院)互动讨论。

2023-12-07 13:15:50 956

原创 大模型面试必考问题(一)

两者都是LLM的微调方法,在实验效果上都优于传统的fine-tuning;p-tuning通过调整LLM的embedding层参数,形成隐式的prompt表达,以此来提升模型效果;而p-tuningV2为了解决p-tuning中可变参数过于靠前,在多层transformer计算后效果被稀释,因此,它借鉴prefix-tuning的思想,在所有的transformer层前面加入网络层,以便保持隐式的prompt能够一直传递到最后,在多数标准测试集上,p-tuningV2比p-tuning都取得了更好的效果。

2023-11-05 23:43:30 515

原创 大模型面试必考问题(二)

在推理阶段:主要通过解码参数T(温度),以及topK,topP来实现;而topK和topP是beam search的采样参数,topK是个数阈值,topP是概率阈值;以上参数都可能对结果多样性产生影响。从技术上来讲,幻觉的根本原因是传统的解码算法会在每个采样步骤引入均匀随机性。但业界一般将幻觉从效果上又分为三类:特定知识幻觉,逻辑关系幻觉,干扰幻觉。针对不同类型的幻觉问题,我们可以选择特定的方法。在训练阶段:具体的解码算法及其参数会影响多样性,比如beam search算法中beam大小的选择。

2023-11-05 23:36:56 554

原创 【huggingface模型】huggingface模型的默认下载/加载位置

【代码】【huggingface模型】huggingface模型的默认下载/加载位置。

2023-06-15 14:23:59 2390

原创 【linux命令】查看大文件

查看/home路径下,前20个大文件。

2023-06-15 11:08:49 105

原创 【ffmpeg: /root/anaconda3/lib/./libuuid.so.1: no version information available (required by /lib64/l】

【代码】【ffmpeg: /root/anaconda3/lib/./libuuid.so.1: no version information available (required by /lib64/l】

2023-04-24 17:33:58 239 1

原创 Docker封装服务的常见命令

【代码】Docker封装服务的常见命令。

2023-04-24 10:14:36 60

原创 【知识图谱工具汇总】

该工具包采用 PyTorch 实现,集成了Deepwalk、LINE、node2vec、GraRep、NetMF、NetSMF、ProNE 等非图神经网络和GCN、GAT、GraphSage、DrGCN、NSGCN、GraphSGAN 等图神经网络模型基准模型的实现。如今已发布至0.4版本的DGL更是全面上线对于异质图支持模块,复现并开源了相关异质图神经网络的代码,如HAN、Metapath2vec等,此外,DGL也发布了训练知识图谱嵌入专用包DGL-KE,并在许多经典的图嵌入模型上进一步优化了性能。

2023-01-12 14:30:13 2977

原创 【mkdocs文档加密保护插件】

mkdocs 文档加密 插件

2023-01-10 14:00:53 521

原创 【安装fasttext error: command ‘gcc‘ failed with exit status 1】

安装fasttext==0.9.2出现安装异常,可能是时因为0.9.2版本本身就是不稳定的,更换成0.9.1即可pip install fasttext==0.9.1

2022-03-01 12:42:34 540

原创 【error: RPC failed; result=35, HTTP code = 0】

git提交时若出现以上问题,可能由于你当前传输的文件过大导致,需要设定缓存:git config --global http.postBuffer 50M

2022-02-28 15:29:33 2367

原创 【ImportError: cannot import name ‘json‘ from ‘itsdangerous‘】

一般是flask版本过低导致:pip install flask==2.0.2

2022-02-23 20:46:19 20950 5

原创 【CondaHTTPError: HTTP 404 NOT FOUND for url <https://conda.anaconda.org/conda-forg/noarch/repodata.】

恢复默认源,再尝试。conda config --remove-key channels

2022-02-23 10:54:55 2560

原创 【CommandNotFoundError: Your shell has not been properly configured to use ‘conda activate‘. If your】

按照给定提示: echo ". /root/anaconda3/etc/profile.d/conda.sh" >> ~/.bashrc

2022-02-21 16:01:15 435

原创 【安装TensorFlow 遇到错误 No such file or directory: ‘c++‘: ‘c++‘】

pip3 install --upgrade pippython3 -m pip install --upgrade setuptoolspip3 install tensorflow==1.14.0

2022-02-21 15:17:44 1757

原创 【ImportError: libXext.so.6: cannot open shared object file: No such file or directory】

在Centos系统中,当你使用pip install opencv-python,import cv2时,如果以上错误,请运行:yum install libXext

2022-02-11 09:52:29 1786

原创 模型蒸馏技术实践

7.4 模型蒸馏技术学习目标了解什么是模型蒸馏(model distillation)技术和相关原理。掌握使用Textbrewer进行模型蒸馏。什么是模型蒸馏Hinton(AI教父)在NIPS2014提出了知识蒸馏(Knowledge Distillation)的概念,至此开启了该领域的深入研究。我们将模型蒸馏看作是知识蒸馏体系的重要分支。它的目的是:进行模型压缩,就和模型量化和剪枝一样。它实现的方式是将预压缩模型定义为teacher model,这个teacher model在蒸

2021-12-12 13:22:09 5707 6

原创 GPU并行实践

学习目标了解模型并行与数据并行的区别.了解分布式训练与并行训练的关系.掌握在单机多GPU上进行模型并行训练的解决方案.相关知识并行/分布训练及其两者的关系:* 在机器学习领域(深度学习),并行/分布方式一般主要应用在模型的训练阶段以加速模型的训练效率。因此,利用计算机系统的多线程或多进程来提升模型训练效率的方式都可以称作并行训练。其中,利用多进程训练的方式又可以叫做并行分布式训练,简称分布式训练(因为单台计算机多进程间的通信等同于多>台计算机间的通信)。由此可见,分布式训练是并行

2021-12-12 13:09:39 605

原创 GLUE标准数据集

GLUE数据集合的介绍GLUE由纽约大学, 华盛顿大学, Google联合推出, 涵盖不同NLP任务类型, 截止至2020年1月其中包括11个子任务数据集, 成为衡量NLP研究发展的衡量标准.GLUE数据集合包含以下数据集CoLA 数据集SST-2 数据集MRPC 数据集STS-B 数据集QQP 数据集MNLI 数据集SNLI 数据集QNLI 数据集RTE 数据集WNLI 数据集diagnostics数据集(官方未完善)GLUE数据集合的下载方式:下载脚本代

2021-12-01 22:17:35 2628

原创 AI经典开放数据集概览

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3nuGOSyM-1636447704861)(http://www.tisv.cn/img/datasets.png)以下每个数据站点均已根据知识共享署名4.0国际许可协议获得许可。每个人都可以访问,并根据规则下载使用丰富的数据资源。精选数据网站1. VisualDataVisualData 被称为最好的CV数据集合网站, 在这里你将发现丰富的可用数据资源,助力你的CV学习之旅。[进入网站](https://ww

2021-11-09 19:24:23 1365

原创 如何成为顶级开源项目的贡献者(源码篇)

概述对于程序员来讲,成为顶级开源项目的贡献者是一件有意义的事,当然,这也绝非易事。如果你正从事人工智能有关的工作,那么你一定了解诸如Google Tensorflow,Facebook Pytorch这样的开源项目。下面我们就说一说如何成为这些顶级的开源项目的Contributor。准备1,首先你必须成为github的使用者,并已经熟悉了github上托管代码的基本逻辑。2,对于顶级的开源项目,一般需要你去签署一份Contributor License Agreement(简称CLA),例如Ten

2020-06-28 18:44:37 1040

原创 第七章:迁移学习

GLUE由纽约大学, 华盛顿大学, Google联合推出, 涵盖不同NLP任务类型, 截止至2020年1月其中包括11个子任务数据集, 成为衡量NLP研究发展的衡量标准.CoLA 数据集SST-2 数据集MRPC 数据集STS-B 数据集QQP 数据集MNLI 数据集SNLI 数据集QNLI 数据集RTE 数据集WNLI 数据集当下NLP中流行的预训练模型:BERTGPTGPT-2XLNetXLMRoBERTaDistilBERT。

2020-06-22 16:13:57 734 1

原创 第六章:Fasttext工具

文本分类的是将文档(例如电子邮件,帖子,文本消息,产品评论等)分配给一个或多个类别. 当今文本分类的实现多是使用机器学习方法从训练数据中提取分类规则以进行分类, 因此构建文本分类器需要带标签的数据.文本分类的是将文档(例如电子邮件,帖子,文本消息,产品评论等)分配给一个或多个类别. 当今文本分类的实现多是使用机器学习方法从训练数据中提取分类规则以进行分类, 因此构建文本分类器需要带标签的数据.二分类:文本被分类两个类别中, 往往这两个类别是对立面, 比如: 判断一句评论是好评还是差评.

2020-06-22 15:41:22 1348

原创 第五章:Transformer(下)

学习了什么是语言模型:以一个符合语言规律的序列为输入,模型将利用序列间关系等特征,输出一个在所有词汇上的概率分布.这样的模型称为语言模型.1, 根据语言模型的定义,可以在它的基础上完成机器翻译,文本生成等任务,因为我们通过最后输出的概率分布来预测下一个词汇是什么.2, 语言模型可以判断输入的序列是否为一句完整的话,因为我们可以根据输出的概率分布查看最大概率是否落在句子结束符上,来判断完整性.

2020-06-22 15:21:28 1071 1

原创 第四章:RNN

RNN(Recurrent Neural Network), 中文称作循环神经网络, 它一般以序列数据为输入, 通过网络内部的结构设计有效捕捉序列之间的关系特征, 一般也是以序列形式进行输出.一般单层神经网络结构:RNN单层网络结构:以时间步对RNN进行展开后的单层网络结构:RNN的循环机制使模型隐层上一时间步产生的结果, 能够作为当下时间步输入的一部分(当下时间步的输入除了正常的输入外还包括上一步的隐层输出)对当下时间步的输出产生影响.

2020-06-12 11:49:52 402 1

原创 第三章:经典的序列模型

学习了HMM与CRF模型的输入和输出.学习了HMM与CRF模型的作用.学习了HMM与CRF模型的使用过程.学习了HMM与CRF模型之间的差异.学习了HMM和CRF的发展现状.

2020-06-01 23:35:55 113

原创 第二章:文本预处理(下)

学习了文本数据分析的作用:文本数据分析能够有效帮助我们理解数据语料, 快速检查出语料可能存在的问题, 并指导之后模型训练过程中一些超参数的选择.学习了常用的几种文本数据分析方法:标签数量分布句子长度分布词频统计与关键词词云学习了基于真实的中文酒店评论语料进行几种文本数据分析方法.获得训练集和验证集的标签数量分布获取训练集和验证集的句子长度分布获取训练集和验证集的正负样本长度散点分布获得训练集与验证集不同词汇总数统计获得训练集上正负的样本的高频形容词词云。

2020-05-31 23:58:17 454

原创 第二章:文本预处理(上)

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符, 分词过程就是找到这样分界符的过程.举个栗子:工信处女干事每月经过下属科室都要亲口交代24口交换机等技术性器件的安装工作==>

2020-05-31 01:16:38 1151 2

原创 第一章:自然语言处理简介

自然语言处理(Natural Language Processing, 简称NLP)是计算机科学与语言学中关注于计算机与人类语言间转换的领域.

2020-05-30 16:03:19 215 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除