weixin_44940947-CSDN博客

实质是通过微调（训练）student网络权重，使Total loss 最小。温度T用来平滑预测分数，减少数据间的相对值，但保持总体预测分布曲线和T=1（不使用平滑时）曲线一致。大模型体积越来越大，但实际工程中算力并没有增加，就需要提炼大模型中最有用部分，提高效率同时，增加推理速度。(无需联网，有时调用大模型API需联网，当网络延迟时，推理很不稳定)知识蒸馏总体实现框架：图1、图2;：使用大模型后，可实现。

2023-10-18 11:34:43 63 1

原创 stable-diffusion-webui 安装实录

3.安装后运行了webui.py 报错没有sam，就去gIthub上stable-diffusion-webui 的项目下找回答：看到可先运行launch.py,将没下载的补充上，pyhton launch.py之后，确实又更新了一些东西。运行之后，界面显示在127.0.0.1.2网址上，在服务器上打不开，就去修改输出网址，观察webui.py。采用Manual Installation，一步步安装。找到下面的文件里修改才是有效的。

2023-09-02 23:26:39 104

原创 alpaca-lora+Baichuan13B 合并量化问题

完成lora合并后，会生成一部分上述文件特别是pytorch_model.bin和pytorch_model.bin.index.json 一定不能传进去，合并后进行chatqptq量化，不需要。若将pytorch_model.bin传进去，量化时（chatqptq）avg loss会变成nan, 给了gptq多余的bin,造成混乱。pytorch_model.bin，且会生成合并后的pytorch_model.bin.index.json。

2023-08-31 17:10:33 190

原创安装yolov5库

pipinstallyolov5-ihttps//pypi.douban.com/simple/只需5分钟!下面是本人在安装时踩得坑单纯的以为pipinstallyolov5，速度极慢。目标检测，有网友已经将其做成了库，提交到了官方的索引库。conda一定要尽可能使用镜像源！......

2022-07-22 21:06:07 640 1

原创 VisDrone数据集转COCO格式（json）踩坑记录

注意VisDrone类别中【i.e.,ignoredregions(0),pedestrian(1),people(2),bicycle(3),car(4),van(5),truck(6),tricycle(7),awning-tricycle(8),bus(9),motor(10),others(11)】ignoredregions(0)、others(11)的score=0，代码中可通过score=0过滤掉(再具体详见上述链接)原因发现bboxheight为0；...

2022-07-20 17:22:38 1632

原创 UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0xaf in position 125: illegal multibyte sequence

直接报错，找了网上，有个靠谱(32条消息) 解决：UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x9a in position 14: illegal multibyte sequence_A&&K的博客-CSDN博客原因是windows会读utf-8编码的，我就找到代码中报错的地方change_xml_list_annotation（），进入发现：...

2022-05-25 15:15:23 272

原创 Apex使用

借师兄一臂之力，把apex装上后，也看了实现的主要源码，咱就按官方命令跑起来呗，不跑不知道，一跑吓一跳，就报上图的错:没DIR?好吧，又去看源码果断去建个data,注意：imagenet格式是图片在单个对应类别的文件夹里，建不好还是无DIR最后，你得把数据集传进来呐，苦逼的我将data置于何地。。。...

2022-04-13 22:43:31 200

原创 Swin transformer里的mask操作

实现批量操作问题：经shifted windows,特征图被划分成大小不一的小窗口，显然这样就无法进行批量操作，Swin trans提出使用循环移位方式cyclic shift ,又分成了4个小窗口。相关性不大的窗口做自注意力问题：如果直接循环移位后的各窗口进行自注意力操作，对于像上图C是天上的，与地上的（g）进行自注意力操作的话，两者本来就没大关系，没必要做自注意力。此时引入掩码操作：可以看到，将循环移位后的特征图还是分成4个window,（紫色方块表示移位过来的部分）（可以看到...

2022-03-29 10:21:15 403

原创 faster_rcnn学习

RPN具体详解：右边是RPN的结构，使用滑动窗口在特征图上滑动，每滑动到一个位置上，会生成1个一维的向量，（256_d 是 backbone的输出通道数(此处所用网络ZF，若用VGG16，就变成512-d)），在此向量上，分别通过两个全连接层，目标概率(cls layer)和边界框回归参数。2k是针对k个anchor box,是针对每个anchor生成的2个概率，一个是背景的概率，一个是前景的概率，针对每个anchor都会生成4个边界框回归参数。anchor是怎样生成的嫩？...

2022-03-17 22:40:55 146

weixin_44940947的博客

原创 pptx转pdf 代码实现

原创轻量化网络之知识蒸馏