yang_daxia
码龄6年
关注
提问 私信
  • 博客:454,309
    454,309
    总访问量
  • 198
    原创
  • 8,101
    排名
  • 353
    粉丝
  • 0
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2018-07-12
博客简介:

yang_daxia的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    5
    当前总分
    1,073
    当月
    6
个人成就
  • 获得326次点赞
  • 内容获得165次评论
  • 获得920次收藏
  • 代码片获得172次分享
创作历程
  • 30篇
    2024年
  • 14篇
    2023年
  • 13篇
    2022年
  • 23篇
    2021年
  • 58篇
    2020年
  • 46篇
    2019年
  • 20篇
    2018年
成就勋章
TA的专栏
  • 车牌识别
    付费
    45篇
  • 深度学习理论
    付费
    45篇
  • 多模态
    7篇
  • 大模型
    15篇
  • AIGC
    4篇
  • 自动驾驶
    4篇
  • leetcode
  • c++
  • 语音识别
    9篇
  • 系统搭建
    7篇
  • 语言模型
    6篇
  • 深度学习作业
    1篇
  • 文献阅读笔记
    15篇
  • 杂七杂八
    21篇
  • keras
    1篇
  • python
    7篇
  • shell命令
    7篇
  • ocr
    3篇
  • 目标检测
    15篇
  • 数据增强
    1篇
兴趣领域 设置
  • 人工智能
    opencv计算机视觉机器学习深度学习神经网络pytorch图像处理
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

176人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

cuda版本管理

背景,不同的项目需要不同的cuda版本。如一个需要cuda12, 一个需要cuda11。系统已经有一个cuda12了,那可以再安装一个cuda11, 然后通过切换版本进行管理。
原创
发布博客 2024.10.21 ·
204 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

sam2细节解析

模型输入prompt和image,特点是多了一个memory attention,将上一帧与当前帧通过attention机制进行融合,最后经过mask decoder推理输出。memory attention先self-attent,再和之前的帧(+目标点)cross-attention,最后接一个mlp。mask decoder结构,多任务的输出,除了mask输出,还有obj ptr、iou,occlusion。对于视频,是一帧一帧的进行输出的。不是batch的并行输出。
原创
发布博客 2024.10.15 ·
210 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

Image matting入门

Deep Image Matting:A Comprehensive Surveyhttps://www.zhihu.com/question/68146993/answer/2791899921https://github.com/michaelowenliu/awesome-image-mattinghttps://www.alphamatting.com/eval_25.phphttps://paperswithcode.com/task/image-matting
原创
发布博客 2024.09.20 ·
453 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

OPENAI O1总结Learning to Reason with LLMs

OpenAI 01在编程问题(Codeforces)上排名超过89%的人,在美国数学奥林匹克(AIME)预选赛中排名前500位,在物理、生物和化学问题(GPQA)的基准上超过了人类博士水平的准确性。参考:https://openai.com/index/learning-to-reason-with-llms/通过强化学习训练,O1推理时利用思维链,可以自动找到cot策略、纠正错误、简化推理步骤、再错误时换另一个思维链。和gpt4o相比,在编程、数据分析、数学计算等大幅领先gpt4o。所以这是一个偏科生。
原创
发布博客 2024.09.18 ·
636 阅读 ·
4 点赞 ·
0 评论 ·
3 收藏

LangChain学习

chain可以理解成一个pipeline。构建各种各样的pipeline。
原创
发布博客 2024.09.04 ·
572 阅读 ·
13 点赞 ·
0 评论 ·
10 收藏

LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs论文阅读

当前的LLMs能够处理100,000个token的输入,但在难以生成超过2,000个词。实验发现模型的有效生成长度本质上受到其在监督式微调(SFT)期间所见过的样本的限制。为了解决这个问题,我们引入了AgentWrite,它将超长生成任务分解为子任务,使现成的LLMs能够生成超过20,000个词的连贯输出。利用AgentWrite,我们构建了一个包含6,000个SFT数据的LongWriter-6k数据集,输出长度范围在2k到32k个词之间。
原创
发布博客 2024.08.29 ·
1075 阅读 ·
17 点赞 ·
0 评论 ·
29 收藏

大模型显存计算估算

xB的大模型,训练的显存占用约为16x GB, 使用lora大概占用4xGB。(默认全精度float32存储)推理的显存占用约为4xGB。
原创
发布博客 2024.08.28 ·
546 阅读 ·
3 点赞 ·
0 评论 ·
5 收藏

大模型微调算法汇总

Parameter-Efficient Fine-Tuning (PEFT) 技术旨在通过最小化微调参数的数量和计算复杂度,来提高预训练模型在新任务上的性能。一般新场景的业务,需要微调大模型。不需要从0训练。
原创
发布博客 2024.08.27 ·
361 阅读 ·
8 点赞 ·
0 评论 ·
5 收藏

Code Llama: Open Foundation Models for Code论文阅读

所有这些模型都是在大量代码数据上训练的,并且都经过了优化以提高在代码生成和理解任务上的性能。Code Llama - Python 专注于Python语言的代码生成,而 Code Llama - Instruct 专注于提高对自然语言指令的遵循能力,并增强了模型的安全性。基础模型 Code Llama 提供了广泛的代码生成能力,适用于多种不同的编程语言。Code Llama 发布了3款模型,包括基础模型、Python 专有模型和指令跟随模型,参数量分别为 7B、13B、34B 和 70B。
原创
发布博客 2024.08.26 ·
774 阅读 ·
6 点赞 ·
4 评论 ·
2 收藏

linux系统开机,进不去桌面问题等

显卡驱动问题,nvcc -V有结果,nvidia-smi没结果。
原创
发布博客 2024.08.20 ·
428 阅读 ·
4 点赞 ·
0 评论 ·
3 收藏

MiniCPM-V: A GPT-4V Level MLLM on Your Phone论文阅读

大模型的趋势:模型性能越来越好,模型参数变小,端边设备计算能力变强。
原创
发布博客 2024.08.19 ·
1179 阅读 ·
18 点赞 ·
3 评论 ·
13 收藏

论文阅读YOLO-World: Real-Time Open-Vocabulary Object Detection

RepVL-PAN由多尺度图像特征{C3, C4, C5}形成,利用了自顶向下和自底向上的路径来加强图像特征和文本特征之间的交互。模型架构:YOLO-World由YOLO检测器、文本编码器和RepVL-PAN组成,利用跨模态融合增强文本和图像表示。预训练方案:将实例注释重新定义为区域-文本对,通过大规模检测、定位和图像-文本数据进行预训练。V100上达到了52FPS!
原创
发布博客 2024.07.01 ·
1119 阅读 ·
5 点赞 ·
0 评论 ·
14 收藏

clip系列改进Lseg、 group ViT、ViLD、Glip、CLIPasso、CLIP4Clip、ActionCLIP

在clip后面加一个分割head,然后用分割数据集有监督训练。textencoder使用clip,frozen住。
原创
发布博客 2024.06.27 ·
455 阅读 ·
3 点赞 ·
0 评论 ·
8 收藏

论文阅读Vlogger: Make Your Dream A Vlog

论文介绍了一个名为“Vlogger”的通用人工智能系统,它能够根据用户的描述生成分钟级的视频博客(vlog)。与通常只有几秒钟的短视频不同,vlog通常包含复杂的故事情节和多样化的场景,这对现有的视频生成方法来说是一个挑战。剧本(Script):使用LLM根据用户故事创建剧本,描述多个拍摄场景及其相应的拍摄时长。演员(Actor):根据剧本总结角色,并使用角色设计师生成这些角色的参考图像。
原创
发布博客 2024.06.27 ·
934 阅读 ·
25 点赞 ·
1 评论 ·
17 收藏

论文阅读KVQ: Kwai Video Quality Assessment for Short-form Videos

短视频格式、内容与长视频不同,需要引入新的质量评估方法。作者构建了一个新的用于质量评估的数据集,提出了新的质量评估方法。如下图所示,短视频有不同的格式、有模糊、噪声、编码等各种畸变。
原创
发布博客 2024.06.26 ·
438 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

论文阅读MVBench: A Comprehensive Multi-modal Video Understanding Benchmark

MVBench定义了20个视频理解任务,这些任务需要对视频的时间维度有深入理解,不能仅通过单个帧来解决。作者提出了一种从静态到动态的方法,将先前定义的静态图像任务转化为具有动态目标的视频任务,涵盖了从感知到认知的一系列时间理解技能。
原创
发布博客 2024.06.25 ·
578 阅读 ·
3 点赞 ·
0 评论 ·
6 收藏

多模态大模型综述《A Survey on Multimodal Large Language Models》

在单模态的基础上,加了新的模态,encoder后,通过mlp或者其他方式与text对齐,再输入大模型。如果需要生成新的膜套,可以再通过生成器。(此处与SD不太一样),chatGPT不会生成图片,可以对图片进行理解。LLM 辅助的视觉推理:利用 LLM 强大的内嵌知识与能力,并借助其他工具,设计各种视觉推理系统,解决各种现实问题。多模态幻觉:可以增加图像分辨率、提高数据质量,图像token表征、图像文本的对齐方式等。多模态思维链:将复杂的问题分解为较简单的子问题,然后分别解决并汇总。
原创
发布博客 2024.06.14 ·
803 阅读 ·
3 点赞 ·
0 评论 ·
4 收藏

安装mmcv报错ERROR: No matching distribution found for tomli>=2.0.1 (from yapf)

原因:tomli>=2.0.1 (from yapf)导致的版本冲突。再pip install yapf --user。
原创
发布博客 2024.06.13 ·
1177 阅读 ·
4 点赞 ·
0 评论 ·
8 收藏

大模型SFT

supervised fine-tuning的缩写,即有监督的微调。如应用到一个新的场景,就可以使用SFT。
原创
发布博客 2024.06.06 ·
534 阅读 ·
4 点赞 ·
0 评论 ·
3 收藏

Stable Diffusion原理

目前常采用的定量指标是FID(Fréchet inception distance)和CLIP score,其中FID可以衡量生成图像的逼真度(image fidelity),而CLIP score评测的是生成的图像与输入文本的一致性,其中FID越低越好,而CLIP score是越大越好。训练条件扩散模型时,往往会采用Classifier-Free Guidance(这里简称为CFG),同时训练一个无条件的扩散模型(以一定的比例是text为‘’),然后将两者加权,可以改善最终的生成质量。
原创
发布博客 2024.06.05 ·
1166 阅读 ·
30 点赞 ·
0 评论 ·
16 收藏
加载更多