读论文
文章平均质量分 80
三天没吃小孩了
这个作者很懒,什么都没留下…
展开
-
<读论文>(CLIP)Learning Transferable Visual Models From NaturalLanguage Supervision--openai
在构建计算机视觉模型时,只是为了某一个或某一组任务而构建数据集,往往需要大量的劳动力来进行数据标注,并且数据集的构建成本很高。而且,这些标准的计算机视觉模型擅长一类任务,甚至只擅长这一类任务。若是想要让模型适应新的任务需要花费大量的精力和成本。同时,一些训练时表现好的模型可能在测试中表现不佳。为了解决这些问题,CLIP诞生了。OpenAI从互联网收集了4亿(图像,文本)对的数据集,在预训 原文讲解练后,用自然语言描述所学习的视觉概念,类似于GPT-2 5和GPT-3的“zero-shot”功能。原创 2024-02-24 17:32:53 · 1351 阅读 · 0 评论 -
<读论文>(ResNet)Deep Residual Learningfor Image Recognition--图像识别中的深度残差学习网络
1.深度网络难训练2.本文提出的残差学习易训练3.优点:易优化,精度高4.resnet-152与vgg对比5.在cifar-10训练100/1000层resnet1.coco检测上获得28%相对提升2.在4个任务均获得最优成绩。原创 2024-02-24 18:26:47 · 352 阅读 · 0 评论 -
<读论文>陶建华,陈俊杰,李永伟. 语音情感识别综述[J]. 信号处理,2023,39(4): 571-587. DOI: 10. 16798/j.issn. 1003-0530. 2023. 04
提取音频信号中的特定特征来描述语音中的情感内容,然后使用这些特征作为输入来训练情感识别模型。这些特征可以是基于声学、语言或语音的特征,用于捕捉语音信号中与情感相关的信息。韵律特种(基频、音强、音长、音调、停顿、语速、时长等特征)、谱特征(反应发声运动和声道形状变化的特征,表现为LPCC、MFCC等特种)、音质特征(语音音质,如喘息哽咽等)日本北陆先端科学技术大学院研究团队构建了三层模型:底层是声学特征、中层是形容词的组合、上层是情感类别或维度情感空间,中间层增加了人工成本。构建生态性较好的语音情感语料库。原创 2024-05-22 17:04:18 · 421 阅读 · 0 评论