TiSV工作室-CSDN博客

原创第五章：Transformer（上）

学习了Transformer模型的作用:Transformer总体架构可分为四个部分:输入部分包含:输出部分包含:编码器部分:解码器部分:文本嵌入层的代码分析:nn.Embedding演示:位置编码器的作用因为在Transformer的编码器结构中, 并没有针对词汇位置信息的处理，因此需要在Embedding层后加入位置编码器，将词汇位置不同可能会产生不同语义的信息加入到词嵌入张量中, 以弥补位置信息的缺失.位置编码器的代码分析:nn.Drop

2020-06-22 15:03:46 1224 1

原创招聘AIGC算法和产品经理

2024-06-13 03:14:34 187

原创相关教程test

整体总结未来大模型技术展望（架构改进，多模态等）Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture （来自neurIPS2023 斯坦福大学）Retentive Network: A Successor to Transformer for Large Language Models（来自微软研究院）互动讨论。

2023-12-07 13:15:50 1041

原创大模型面试必考问题（一）

两者都是LLM的微调方法，在实验效果上都优于传统的fine-tuning；p-tuning通过调整LLM的embedding层参数，形成隐式的prompt表达，以此来提升模型效果；而p-tuningV2为了解决p-tuning中可变参数过于靠前，在多层transformer计算后效果被稀释，因此，它借鉴prefix-tuning的思想，在所有的transformer层前面加入网络层，以便保持隐式的prompt能够一直传递到最后，在多数标准测试集上，p-tuningV2比p-tuning都取得了更好的效果。

2023-11-05 23:43:30 819

原创大模型面试必考问题（二）

在推理阶段：主要通过解码参数T（温度），以及topK，topP来实现；而topK和topP是beam search的采样参数，topK是个数阈值，topP是概率阈值；以上参数都可能对结果多样性产生影响。从技术上来讲，幻觉的根本原因是传统的解码算法会在每个采样步骤引入均匀随机性。但业界一般将幻觉从效果上又分为三类：特定知识幻觉，逻辑关系幻觉，干扰幻觉。针对不同类型的幻觉问题，我们可以选择特定的方法。在训练阶段：具体的解码算法及其参数会影响多样性，比如beam search算法中beam大小的选择。

2023-11-05 23:36:56 764

原创【huggingface模型】huggingface模型的默认下载/加载位置

【代码】【huggingface模型】huggingface模型的默认下载/加载位置。

2023-06-15 14:23:59 2863

原创【linux命令】查看大文件

查看/home路径下，前20个大文件。

2023-06-15 11:08:49 131

原创【ffmpeg: /root/anaconda3/lib/./libuuid.so.1: no version information available (required by /lib64/l】

【代码】【ffmpeg: /root/anaconda3/lib/./libuuid.so.1: no version information available (required by /lib64/l】

2023-04-24 17:33:58 320

原创 Docker封装服务的常见命令

【代码】Docker封装服务的常见命令。

2023-04-24 10:14:36 104

原创【知识图谱工具汇总】

该工具包采用 PyTorch 实现，集成了Deepwalk、LINE、node2vec、GraRep、NetMF、NetSMF、ProNE 等非图神经网络和GCN、GAT、GraphSage、DrGCN、NSGCN、GraphSGAN 等图神经网络模型基准模型的实现。如今已发布至0.4版本的DGL更是全面上线对于异质图支持模块，复现并开源了相关异质图神经网络的代码，如HAN、Metapath2vec等，此外，DGL也发布了训练知识图谱嵌入专用包DGL-KE，并在许多经典的图嵌入模型上进一步优化了性能。

2023-01-12 14:30:13 3463

原创【mkdocs文档加密保护插件】

mkdocs 文档加密插件

2023-01-10 14:00:53 696

原创【安装fasttext error: command ‘gcc‘ failed with exit status 1】

安装fasttext==0.9.2出现安装异常，可能是时因为0.9.2版本本身就是不稳定的，更换成0.9.1即可pip install fasttext==0.9.1

2022-03-01 12:42:34 608

原创【error: RPC failed； result=35, HTTP code = 0】

git提交时若出现以上问题，可能由于你当前传输的文件过大导致，需要设定缓存：git config --global http.postBuffer 50M

2022-02-28 15:29:33 2411

原创【ImportError: cannot import name ‘json‘ from ‘itsdangerous‘】

一般是flask版本过低导致：pip install flask==2.0.2

2022-02-23 20:46:19 22121 5

原创【CondaHTTPError: HTTP 404 NOT FOUND for url ＜https://conda.anaconda.org/conda-forg/noarch/repodata.】

恢复默认源，再尝试。conda config --remove-key channels

2022-02-23 10:54:55 2641

原创【CommandNotFoundError: Your shell has not been properly configured to use ‘conda activate‘. If your】

按照给定提示： echo ". /root/anaconda3/etc/profile.d/conda.sh" >> ~/.bashrc

2022-02-21 16:01:15 458

原创【安装TensorFlow 遇到错误 No such file or directory: ‘c++‘: ‘c++‘】

pip3 install --upgrade pippython3 -m pip install --upgrade setuptoolspip3 install tensorflow==1.14.0

2022-02-21 15:17:44 1874

原创【ImportError: libXext.so.6: cannot open shared object file: No such file or directory】

在Centos系统中，当你使用pip install opencv-python，import cv2时，如果以上错误，请运行：yum install libXext

2022-02-11 09:52:29 1962

原创模型蒸馏技术实践

7.4 模型蒸馏技术学习目标了解什么是模型蒸馏（model distillation）技术和相关原理。掌握使用Textbrewer进行模型蒸馏。什么是模型蒸馏Hinton(AI教父)在NIPS2014提出了知识蒸馏（Knowledge Distillation）的概念，至此开启了该领域的深入研究。我们将模型蒸馏看作是知识蒸馏体系的重要分支。它的目的是：进行模型压缩，就和模型量化和剪枝一样。它实现的方式是将预压缩模型定义为teacher model，这个teacher model在蒸

2021-12-12 13:22:09 6428 6

原创 GPU并行实践

学习目标了解模型并行与数据并行的区别.了解分布式训练与并行训练的关系.掌握在单机多GPU上进行模型并行训练的解决方案.相关知识并行/分布训练及其两者的关系：* 在机器学习领域（深度学习），并行/分布方式一般主要应用在模型的训练阶段以加速模型的训练效率。因此，利用计算机系统的多线程或多进程来提升模型训练效率的方式都可以称作并行训练。其中，利用多进程训练的方式又可以叫做并行分布式训练，简称分布式训练（因为单台计算机多进程间的通信等同于多>台计算机间的通信）。由此可见，分布式训练是并行

2021-12-12 13:09:39 702

原创 GLUE标准数据集

GLUE数据集合的介绍GLUE由纽约大学, 华盛顿大学, Google联合推出, 涵盖不同NLP任务类型, 截止至2020年1月其中包括11个子任务数据集, 成为衡量NLP研究发展的衡量标准.GLUE数据集合包含以下数据集CoLA 数据集SST-2 数据集MRPC 数据集STS-B 数据集QQP 数据集MNLI 数据集SNLI 数据集QNLI 数据集RTE 数据集WNLI 数据集diagnostics数据集(官方未完善)GLUE数据集合的下载方式:下载脚本代

2021-12-01 22:17:35 2935

原创 AI经典开放数据集概览

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3nuGOSyM-1636447704861)(http://www.tisv.cn/img/datasets.png)以下每个数据站点均已根据知识共享署名4.0国际许可协议获得许可。每个人都可以访问，并根据规则下载使用丰富的数据资源。精选数据网站1. VisualDataVisualData 被称为最好的CV数据集合网站, 在这里你将发现丰富的可用数据资源，助力你的CV学习之旅。[进入网站](https://ww

2021-11-09 19:24:23 1521

原创如何成为顶级开源项目的贡献者（源码篇）

概述对于程序员来讲，成为顶级开源项目的贡献者是一件有意义的事，当然，这也绝非易事。如果你正从事人工智能有关的工作，那么你一定了解诸如Google Tensorflow，Facebook Pytorch这样的开源项目。下面我们就说一说如何成为这些顶级的开源项目的Contributor。准备1，首先你必须成为github的使用者，并已经熟悉了github上托管代码的基本逻辑。2，对于顶级的开源项目，一般需要你去签署一份Contributor License Agreement(简称CLA)，例如Ten

2020-06-28 18:44:37 1092

weixin_43891607的博客