自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

风信子的猫Redamancy的快乐星球

未来是什么样,不用去猜

  • 博客(343)
  • 资源 (50)
  • 问答 (2)
  • 收藏
  • 关注

原创 数字人对话系统 Linly-Talker(已加入Qwen和GeminiPro加强对话+上传任意图片的数字人)

Linly-Talker是一个将大型语言模型与视觉模型相结合的智能AI系统,创建了一种全新的人机交互方式。它集成了各种技术,例如Whisper、Linly、微软语音服务和SadTalker会说话的生成系统。该系统部署在Gradio上,允许用户通过提供图像与AI助手进行交谈。用户可以根据自己的喜好进行自由的对话或内容生成。

2024-01-04 11:43:23 1305

原创 数字人知识库:Awesome-Talking-Head-Synthesis

这份资源库整理了与生成对抗网络(GAN)和神经光辐场(NeRF)相关的论文、代码和资源,重点关注基于图像和音频的虚拟讲话头合成论文及已发布代码。论文合集及发布代码整理。✍️大多数论文链接到“arXiv”或学术会议/期刊的PDF。但是,一些论文可能需要学术许可才能查看。这个Awesome Talking Head Synthesis项目将持续更新 - 欢迎Pull Request。如果您有任何论文缺失、新增论文、关键研究人员或错别字建议,请编辑提交PR。您也可以打开Issue或直接通过电子邮件联系我。

2023-12-07 17:13:58 1378

原创 Pytorch CIFAR10图像分类 Swin Transformer篇

微软亚洲研究院提出的的Swin Transformer解决了这两个问题,并且在分类,检测,分割任务上都取得了SOTA的效果,同时获得了ICCV2021的best paper。Swin Transformer的最大贡献是提出了一个可以广泛应用到所有计算机视觉领域的backbone,并且大多数在CNN网络中常见的超参数在Swin Transformer中也是可以人工调整的,例如可以调整的网络块数,每一块的层数,输入图像的大小等等。该网络架构的设计非常巧妙,是一个非常精彩的将Transformer应用到图像领域的

2023-12-04 11:54:30 1767

原创 基于计算机视觉手势识别控制系统YoloGesture (利用YOLO实现) 有详细代码+部署+在线服务器尝试+开源可复现

Streamlit在线服务器体验网址: https://kedreamix-yologesture.streamlit.app/HuggingFace在线服务器体验网址:https://huggingface.co/spaces/Kedreamix/YoloGesture1、 了解项目研究的背景以及其意义,学习其中的创新点和科研价值。2、 使用python语言对项目中的代码进行编写。研究项目源代码,理解项目工程的代码结构、原理及其功能。3、 学习深度学习算法。理解卷积神经网络的相关概念

2023-04-21 19:43:13 4092 26

原创 基于CIFAR数据集 进行 MAE实现及预训练可视化 (CIFAR for MAE,代码权重日志全部开源,自取)

基于CIFAR数据集 进行 MAE实现及预训练可视化 (CIFAR for MAE,代码权重日志全部开源,自取)MAE for CIFAR,由于可用资源有限,我们仅在 cifar10 上测试模型。我们主要想重现这样的结果:使用 MAE 预训练 ViT 可以比直接使用标签进行监督学习训练获得更好的结果。这应该是自我监督学习比监督学习更有效的数据的证据。

2023-04-21 14:27:20 3658 21

原创 Pytorch&Keras CIFAR10图像分类(详情介绍以及汇总所有博客)

一开始写这个专栏的初衷是,有时候有些代码找的太繁琐了,并且找到了还运行不出来,或者运行了,但是没有一个很好的理解,所以基于此,我写了这个CIFAR10图像分类的专栏,借此希望,大家都能通过我这个专栏,找到自己想要的模型或者学习深度学习的代码。由于现在深度学习也在热度中,很多时候我们难免需要遇见深度学习的时候,在一些课程和项目的要求下,我们会发现,一个好的代码和一个好的可视化和清晰解释是能够节省特别特别多的时间的,基于此,我写出了这个专栏,这个专栏下的所有项目,都是**可运行无差错的。

2022-11-15 09:13:38 1604 4

原创 GAN Step By Step (一步一步学习GAN)

GSBS,顾名思义,我希望我自己能够一步一步的学习GAN。GAN 又名 生成对抗网络,是最近几年很热门的一种无监督算法,他能生成出非常逼真的照片,图像甚至视频。GAN是一个图像的全新的领域,从2014的GAN的发展现在,在计算机视觉中扮演这越来越重要的角色,并且到每年都能产出各色各样的东西,GAN的理论和发展都蛮多的。我感觉最近有很多人都在学习GAN,但是国内可能缺少比较多的GAN的理论及其实现,所以我也想着和大家一起学习,并且提供主流框架下 pytorch,tensorflow,keras 的一些实现教学

2022-09-28 09:20:21 753 1

原创 【论文泛读】 Deep Learning 论文合集

【论文泛读】 Deep Learning 论文合集文章目录【论文泛读】 Deep Learning 论文合集Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate ShiftImageNet Classification with Deep Convolutional Neural NetworksVery Deep Convolutional Networks for Large-Sca

2021-10-12 00:00:00 5298

原创 Pytorch Note 快乐星球

Pytorch Note这是我的Pytoch学习笔记,下面会慢慢的更新我的学习笔记Note1 Pytorch介绍Note2 Pytorch环境配置

2021-06-11 13:24:18 11227 16

原创 机器学习之路 The Road To Machine Learning

The Road to Machine LearningThe Road to Machine Learning吴恩达机器学习课程练习 Exercise机器学习实战项目 Project学习心得 Note吴恩达机器学习课程练习 Exerciseex1 Linear Regressionex2 Logistic Regressionex3 Multi-class Classfication and Neural Networks机器学习实战项目 Project泰坦尼克号生存预测 Titan

2021-03-11 14:18:22 18757 8

原创 EMO: Emote Portrait Alive - 阿里HumanAIGC

最近这一个星期,也就是2月28日的时候,阿里巴巴的HumanAIGC团队发布了一款全新的生成式AI模型EMO(Emote Portrait Alive)。EMO仅需一张人物肖像照片和音频,就可以让照片中的人物按照音频内容“张嘴”唱歌、说话,且口型基本一致,面部表情和头部姿态非常自然,发布的视频效果非常好,好的几乎难以置信,特别是蔡徐坤唱rap的第一段,效果非常好。

2024-03-04 11:21:34 1996

原创 数字人的未来:数字人对话系统 Linly-Talker + 克隆语音 GPT-SoVITS

📆📆📆在最近一段时间,我在尝试探索,如何克隆声音,因为在数字人对话系统中,虽然可能能够重建特定的人,但是还是存在一个问题:声音是用固定的人声生成的,导致没有真实性,如果我们能够去克隆出对应的声音,并且结合特定的数字人,那是否就完成了一个数字人的完整复刻。于是我就研究了一段时间,后面发现了两个非常有意思的项目,分别是GPT-SoVITS和XTTS两个开源项目,我认为这两个算是现在最好的两个开源项目了,像OpenVoice之类的效果还是比较差,火山效果不错,但是没有开源。

2024-02-25 17:21:02 1950

原创 探索元宇宙的未来:数字人对话系统 - Linly-Talker —— “数字人交互,与虚拟的自己互动”

最后说一下我想做什么吧,其实我一直把这个数字对话系统趋于实时化,最近也看到相关的项目有做音频和视频流式的东西,我也在不断的学习中,希望也不断的学习,不断的超越自己。最后也提一下,我做了一个个人博客,后续也会放出来我博客的笔记,和知乎同步更新应该哈哈,大家也可以多关注一下,一起学习交流。Kedreamix:“数字人交互,与虚拟的自己互动”——用PaddleAvatar打造数字分身,探索人机交互的未来2 赞同 · 3 评论文章。

2024-01-27 21:36:43 1255

原创 FastAPI 快速教程: 从零开始构建你的第一个API项目

FastAPI 是一个用于构建 API 的现代、快速(高性能)的 web 框架,使用 Python 3.8+ 并基于标准的 Python 类型提示。文档源码快速:可与NodeJS和Go并肩的极高性能(归功于 Starlette 和 Pydantic)。最快的 Python web 框架之一。高效编码:提高功能开发速度约 200% 至 300%。更少 bug:减少约 40% 的人为(开发者)导致错误。智能:极佳的编辑器支持。处处皆可自动补全,减少调试时间。简单:设计的易于使用和学习,阅读文档的时间更短。

2024-01-18 02:02:17 2170 4

原创 3DGS学习笔记(3D Gaussian Splatting)

3DGS学习笔记(3D Gaussian Splatting)

2024-01-04 14:15:55 737

原创 VS Code Server 离线安装(解决超时,XHR Failed等问题)

在设置远程开发环境时,我们首先需要获取并安装 VS Code Server 程序。由于不同的服务器版本和环境,不一定会事先预装 VS Code Server,那么我们需要手动进行下载安装。有时候安裝等半天,有时候还报错,为了防止这样的情况,我还是记录一下解决方法,免得每次都需要找好多资料,但是找不到一个很有效的。如果服务器是连接外网的,就根本不用有这个烦恼,因为下载很快,有时候主要是因为离线安装这里我就介绍一种方法,我觉得最有效的方法,其他可能太麻烦而且不一定有效

2024-01-03 13:33:58 1934 3

原创 Tailscale:随时随地远程和使用服务器

即使我的笔记本在公司内网,无法直接连接到家里的台式机,通过Tailscale的relay功能,它们依然能够直接连接,实现畅通无阻的通信。连接成功后即可远程办公了,比如我在家里,我们可以设置公司的电脑的ssh,后续我们就可以连接公司的电脑后对其进行操作,这样就比较的方便,当然,也可以对其进行远程,比如todesk等远程工具,这个可以见仁见智,我觉得都可以,有时候我只使用终端,我觉得都还好。无论身在何处,只需使用分配给设备的IP地址,就能连接到该设备,从而实现远程办公的功能,例如连接到服务器等。

2024-01-03 13:28:38 7882 1

原创 ChatPaperFree GeminiPro 一分钟读论文

实际上,这个项目是在ChatPaper的基础上进行的更新,采用了最近由Google开源的Gemini Pro大模型。这样一来,我们可以免费使用ChatPaper,并且未来我还计划加入对论文图片的读取以提取摘要(测试结果是OK的),大家可以关注一下目前,我们能够对用户输入的论文进行自动总结。未来,我还计划加入对论文图片/表格/公式的识别 extraction,从而生成更全面而易读的总结。如果在对话中chatbot能提供更优质的服务,我还会尝试进行更深层次的模型fine-tuning。

2023-12-17 16:38:56 1230

原创 数字人对话系统 Linly-Talker

Linly-Talker是一个将大型语言模型与视觉模型相结合的智能AI系统,创建了一种全新的人机交互方式。它集成了各种技术,例如Whisper、Linly、微软语音服务和SadTalker会说话的生成系统。该系统部署在Gradio上,允许用户通过提供图像与AI助手进行交谈。用户可以根据自己的喜好进行自由的对话或内容生成。

2023-12-07 21:20:26 1466

原创 Pytorch CIFAR10图像分类 ShuffleNetv2篇

ShuffleNetv2是ECCV2018的文章,也是来源于旷视和清华研究组,它的效果同时是比ShuffleNetv1更好的。并且在同等复杂度下,ShuffleNetv2比ShuffleNet和MobileNetv2更准确。该论文最大的贡献在于看到了 GPU 访存带宽(内存访问代价 MAC)对于模型推理时间的影响,而不仅仅是模型复杂度,也就是 FLOPs 和参数量 Params 对于推理时间的影响,使用直接指标(如速度)而非间接指标(如FLOPs),并由此提出了4个轻量级网络设计的原则和一个新颖的 卷积。

2023-12-03 09:00:00 1158

原创 Coggle 30 Days of ML(23年7月)任务十:使用Bert在比赛数据集中完成预训练

Coggle 30 Days of ML(23年7月)任务十:使用Bert在比赛数据集中完成预训练。准备比赛数据集和预训练参数。使用Bert模型对比赛数据集进行预训练,提取文本特征。定义数据集和训练函数。训练模型并验证,保存准确率最高的模型。加载最佳模型进行预测并保存结果为CSV文件。

2023-07-11 20:00:00 926

原创 Coggle 30 Days of ML(23年7月)任务九:学会Bert基础,transformer库基础使用

BERT模型是一种基于Transformer架构的深度学习模型,它使用了维基百科等大规模无标签的语料库数据进行无监督的预训练。BERT通过两个任务来训练模型:Masked Language Modeling和Next Sentence Prediction。Masked Language Modeling是通过在输入句子中遮盖一些词并让模型预测被遮盖的词来训练模型。Next Sentence Prediction是判断一个句子B是否是句子A的下一句。BERT模型可用于各种下游任务,如文本分类、问答和序列标注

2023-07-11 13:39:12 1043

原创 Coggle 30 Days of ML(23年7月)任务八:训练BILSTM模型

Coggle 30天ML任务8: 使用Word2Vec词向量训练和预测BILSTM模型。 BILSTM模型结合了前向和后向LSTM,用于文本分类。通过准备Word2Vec词向量模型和训练数据集。构建BILSTM模型,包括嵌入层、BILSTM层和全连接层,将词向量应用到模型中。使用训练数据对BILSTM进行训练。然后使用训练好的模型对测试数据集进行预测。 BILSTM模型对于捕捉长距离的依赖关系非常有效,尤其适用于情感分类等任务。最终,将预测结果保存到提交文件中。

2023-07-11 13:09:26 290

原创 Coggle 30 Days of ML(23年7月)任务七:训练TextCNN模型

任务七:使用Word2Vec词向量,搭建TextCNN模型进行文本分类的训练和预测。准备Word2Vec词向量模型和训练数据集。构建TextCNN模型,包括卷积层、池化层、全连接层等。将Word2Vec词向量应用到模型中。使用训练数据集对TextCNN模型进行训练。使用训练好的TextCNN模型对测试数据集进行预测,导入训练好的Word2Vec模型。准备词向量模型和训练数据集。获取词向量的维度并转换训练和测试数据集文本为词向量表示。构建TextCNN模型,包括卷积层、池化层、全连接层。训练模型,设置优化器和

2023-07-10 17:25:06 373

原创 Coggle 30 Days of ML(23年7月)任务六:训练FastText、Word2Vec词向量

任务六:学会训练FastText、Word2Vec词向量- 说明:在这个任务中,你将学习如何训练FastText和Word2Vec词向量模型,这些词向量模型可以捕捉文本中的语义信息。- 实践步骤: 1. 准备大规模文本语料库。 2. 使用FastText或gensim库中的Word2Vec类,设置相应的参数(如词向量维度、窗口大小、训练迭代次数等)来构建词向量模型。 3. 使用Word2Vec类的build_vocab()方法,构建词汇表。 4. 使用Word2Vec类的train()

2023-07-10 16:22:58 1222

原创 Coggle 30 Days of ML(23年7月)任务五:XGBoost训练与预测

Coggle 30 Days of ML(23年7月)任务五:使用TFIDF特征和XGBoost完成训练和预测,提升文本分类性能。TFIDF提取特征,训练XGBoost模型,评估模型性能。用模型预测并提交结果文件,得分0.8848。改进后加入交叉验证,使用cross_val_predict()函数评估模型性能和泛化能力。最终得到更好的成绩97.36,继续努力冲99+。XGBoost潜力大,还可以继续提升。

2023-07-09 18:49:11 400

原创 Coggle 30 Days of ML(23年7月)任务四:线性模型训练与预测

Coggle 30 Days of ML(23年7月)任务四:线性模型训练与预测。使用TFIDF特征和线性模型(如逻辑回归)完成训练和预测,评估模型性能,包括准确率、精确率、召回率。调整TfidfVectorizer超参数可提高模型精度。使用Sklearn中的线性模型进行训练,得到不错的结果。评估准确率、精确率和召回率均在95%以上。利用混淆矩阵进行可视化。最后使用模型对测试集进行预测并提交,得分为0.8837,存在过拟合情况,可考虑使用更强大的模型或防止过拟合的方法提高分数。

2023-07-09 18:35:03 268

原创 Coggle 30 Days of ML(23年7月)任务三:使用TFIDF提取文本特征

Coggle 30 Days of ML(23年7月)任务三:使用TFIDF提取文本特征。TFIDF提取器使用Sklearn库的TfidfVectorizer类。通过设置参数如ngram_range和max_features,可以构建TFIDF特征矩阵。TFIDF算法结合Term Frequency(单词频率)和Inverse Document Frequency(逆文档频率)对文本进行表示。TF用于计算查询关键字中单词在文档中出现的次数,而IDF对出现在太多文档中的单词进行“惩罚”。TfidfVector

2023-07-09 18:34:38 463

原创 Coggle 30 Days of ML (23年7月)任务二:数据可视化

Coggle 30 Days of ML (23年7月)任务二:数据可视化使用Pandas库对数据集字符进行可视化,统计标签和字符分布。数据读取后,对字段进行可视化展示,并统计标签和字符的分布情况。主要关注内容字段和标签字段。统计了字符列表长度,大部分为200,少数不是。标签分布呈现不平衡,大部分为0。字符分布统计显示最常出现的数字为3125。对不同标签数据进行分别查看字符分布统计,差异不大。可继续探究和学习。

2023-07-09 16:45:47 1019

原创 Coggle 30 Days of ML(2023年7月)任务一:比赛报名及数据读取

Coggle 30 Days of ML(2023年7月)任务一:报名比赛,下载比赛数据集并完成数据读取比赛报名及数据读取。访问比赛网站并完成报名,下载比赛数据集,并使用Pandas库读取数据。导入Pandas库并使用它来读取训练数据和测试数据。两个数据集包含“name”,“label”和“content”字段。

2023-07-09 16:45:06 219

原创 Coggle 30 Days of ML 打卡任务三:苹果病害模型训练与预测

本次打卡任务是 Coggle 30 Days of ML 中的第三项任务。任务要求参赛选手利用提供的苹果病害数据集构建模型,并进行模型训练和预测。参赛选手可以选择合适的深度学习框架和模型架构,并使用训练集进行模型训练。然后,选手需要利用训练好的模型对测试集中的苹果叶片病害图像进行预测。任务名称难度/分值任务1:两个赛题数据可视化低/1任务2:苹果病害数据加载与数据增强中/2任务3:苹果病害模型训练与预测中/2任务4:苹果病害模型优化与多折训练高/3任务5:建筑物检测数据加载与数据增强。

2023-06-13 10:51:08 650

原创 Coggle 30 Days of ML 打卡任务二:苹果病害数据加载与数据增强

本次打卡任务是 Coggle 30 Days of ML 中的第二项任务,要求完成苹果病害数据加载与数据增强。数据加载阶段,参赛选手需要编写代码来读取和处理提供的图像数据。数据增强阶段,选手可以使用各种图像处理技术和方法,如旋转、缩放、翻转、亮度调整等,来增强数据集的多样性和数量。任务名称难度/分值任务1:两个赛题数据可视化低/1任务2:苹果病害数据加载与数据增强中/2任务3:苹果病害模型训练与预测中/2任务4:苹果病害模型优化与多折训练高/3任务5:建筑物检测数据加载与数据增强。

2023-06-10 08:00:00 455

原创 Coggle 30 Days of ML 打卡任务一:两个赛题数据可视化

本次打卡任务是 Coggle 30 Days of ML 中的第一项任务,要求完成两个赛题的数据可视化。赛题1是苹果叶片病害识别,提供了九类自然环境下苹果叶片的病害图像数据,参赛选手需要展示图像及其标签。赛题2是建筑物变化检测,提供了"吉林一号"高分辨率卫星遥感影像作为数据集,选手需要展示影像中的建筑物变化。任务名称难度/分值任务1:两个赛题数据可视化低/1任务2:苹果病害数据加载与数据增强中/2任务3:苹果病害模型训练与预测中/2任务4:苹果病害模型优化与多折训练高/3。

2023-06-09 18:51:20 1529

原创 Pytorch CIFAR10图像分类 ShuffleNet篇

ShuffleNet是旷视科技提出的一种计算高效的CNN模型,其和MobileNet和SqueezeNet等一样主要是想应用在移动端。所以,ShuffleNet的设计目标也是如何利用有限的计算资源来达到最好的模型精度,这需要很好地在速度和精度之间做平衡。pointwise group convolution和channel shuffle,这在保持精度的同时大大降低了模型的计算量。目前移动端CNN模型主要设计思路主要是两个方面:模型结构设计和模型压缩。

2023-05-30 11:47:44 755

原创 Pytorch CIFAR10图像分类 SENet篇

我们之前已经学习了 AlexNet,VGGNet,InceptionNet,ResNet,DenseNet等,他们的效果已经被充分验证,而且被广泛的应用在各类计算机视觉任务上。这里我们再学习一个网络(SENet)。Squeeze-and-Excitation Networks(SENet)是由自动驾驶公司Momenta在2017年公布的一种全新的图像识别结构,它通过对特征通道间的相关性进行建模,把重要的特征进行强化来提升准确率。

2023-05-29 22:57:51 622 1

原创 “数字人交互,与虚拟的自己互动”——用PaddleAvatar打造数字分身,探索人机交互的未来

你是否曾经幻想过与自己的虚拟人交互?现在,使用,您可以将自己的图像、音频和视频转化为一个逼真的数字人视频,与其进行人机交互。是一种基于深度学习框架的数字人生成工具,基于Paddle的许多套件,它可以将您的数字图像、音频和视频合成为一个逼真的数字人视频。除此之外,还支持进一步的开发,例如使用自然语言处理技术,将数字人视频转化为一个完整的人机交互系统,使得您能够与虚拟的自己进行真实的对话和互动。使用,您可以将数字人视频用于各种场合,例如游戏、教育、虚拟现实等等。P。

2023-05-12 17:13:43 1557 1

原创 【论文精读】 SadTalker:Stylized Audio-Driven Single Image Talking Face Animation(CVPR2023)

不自然的头部运动扭曲的表情和身份变化。作者认为这些问题主要是因为从耦合的 2D 运动场中学习。另一方面,使用 3D 信息也存在表情僵硬和视频不连贯的问题。因此作者提出SadTalker,生成3DMM的三维(头部姿势、表情)系数,利用三维面部渲染器进行视频生成。为了学习逼真的运动场系数,作者建模音频与不同类别运动场系数之间联系。作者提出ExpNet,蒸馏运动场系数与三维渲染人脸学习准确面部表情。对于头部姿势,作者设计PoseVAE生成不同风格头部动画。

2023-03-24 18:22:25 4326

原创 第十四届蓝桥杯第三期模拟赛 【python】

这样在下一次搜索的时候,如果发现当前的dp数组的值已经被记录过了,那我们就直接返回值即可,就不需要那么多花里胡哨的操作,其实这道题可能也叫树形的DFS,有时候还是会出现的,不过思路还是OK的,就是类似于树形一样不断迭代dfs而已,最后就是还要加上这个递归深度的代码,这样保证自己不会出错!首先简单讲一讲DFS的思路吧,我们会从当前x,y进行不断搜索,然后发现下一个点符合条件,在范围内且严格小于当前点的高度,我们就继续搜索,因为我们要取最长,所以我们要取max,不断取最优的结果,最后都记录到我们的dp数组中。

2023-03-06 21:01:43 13257 20

原创 【虚拟人综述论文】Human-Computer Interaction System: A Survey of Talking-Head Generation

由于人工智能的快速发展,虚拟人被广泛应用于各种行业,包括个人辅助、智能客户服务和在线教育。拟人化的数字人可以快速与人接触,并在人机交互中增强用户体验。因此,我们设计了人机交互系统框架,包括语音识别、文本到语音、对话系统和虚拟人生成。接下来,我们通过虚拟人深度生成框架对Talking-Head Generation视频生成模型进行了分类。同时,我们系统地回顾了过去五年来在有声头部视频生成方面的技术进步和趋势,强调了关键工作并总结了数据集。

2023-03-04 13:31:18 4248

原创 【论文泛读】NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis

我们提出一种方法,使用较少的视图(view)作为输入,对一个连续、隐含的体积场景函数(volumetric scene function)进行优化,从而实现了关于复杂场景的新视图合成的最先进的结果。我们的算法用全连接深度网络来表示场景,其输入是5D 坐标空间位置xyz(x,y,z)xyz和视角方向(viewing direction)$ (θ,ϕ)$;其输出是体积密度(volume density)和该空间位置上发射出来的辐射亮度(radiance,与视角相关)。通过沿着。

2023-03-04 00:46:49 1189

八种最常用的GAN生成式对抗网络代码框架

包括多种GAN生成试对抗网络代码框架 ACGAN.py BEGAN.py CGAN.py CVAE.py DRAGAN.py EBGAN.py GAN.py LSGAN.py VAE.py WGAN.py WGAN_GP.py infoGAN.py

2022-04-13

【程序员面试必备】动画详解十大经典排序算法(内含代码)

排序算法是程序员必备的基础知识,弄明白它们的原理和实现很有必要。本文中将通过非常细节的动画展示出算法的原理,配合代码更容易理解。 由于待排序的元素数量不同,使得排序过程中涉及的存储器不同,可将排序方法分为两类:一类是内部排序,指的是待排序列存放在计算机随机存储器中进行的排序过程;另一类是外部排序,指的是待排序的元素的数量很大,以致内存一次不能容纳全部记录,在排序过程中尚需对外存进行访问的排序过程。

2022-04-13

Coursera-ML-using-matlab-python.rar

coursera吴恩达机器学习课程作业自写Python版本,使用jupyter notebook实现,使代码更有层次感,可读性强。 本repository实现算法包括如下: 线性回归: linear_regression.ipynb 多元线性回归:linear_multiple.ipynb 逻辑回归:logic_regression.ipynb 正则化用于逻辑回归: logic_regularization.ipynb 模型诊断+学习曲线: learnCurve.ipynb 一对多分类模型:oneVSall.ipynb 神经网络模型:neuralNetwork.ipynb SVM分类器:svm.ipynb kmeans聚类:kmeans.ipynb pca降维:pca.ipynb 高斯分布用于异常检测:anomaly_detection.ipynb 协调过滤推荐算法:Collaborative_Filter.ipynb

2022-04-13

对于吴恩达机器学习的学习笔记

本课程提供了一个广泛的介绍机器学习、数据挖掘、统计模式识别的课程。主题包括: (一)监督学习(参数/非参数算法,支持向量机,核函数,神经网络)。 (二)无监督学习(聚类,降维,推荐系统,深入学习推荐)。 (三)在机器学习的最佳实践(偏差/方差理论;在机器学习和人工智能创新过程)。 里面包含了自己的学习笔记,希望对你们有帮助

2022-04-13

Yolov2 pytorch版本

YOLOv2pytorch版本实现,可以运行结果进行目标检测等多种方法

2022-04-13

深度学习中的目标检测YOLOX代码以及权重

1、YOLOX-L和YOLOv4-CSP、YOLOv5-L有差不多参数量的情况下,YOLOX-L在COCO上取得50.0%AP(比YOLOv5-L高出1.8%的AP),且YOLOX-L在单张Tesla V100上能达到68.9FPS。 2、YOLOX-Tiny和YOLOX-Nano(只有0.91M参数量和1.08G FLOPs)比对应的YOLOv4-Tiny和NanoDet3分别高出10% AP和1.8% AP 3、在Streaming Perception Challenge (Workshop on Autonomous Driving at CVPR 2021) 只使用YOLOX-L模型取得第一名。 并且其中有源码提供了ONNX, TensorRT, NCNN, and Openvino版本

2022-03-23

各大联赛,欧冠,世界杯数据集.rar

各大联赛,欧冠,世界杯数据集.rar

2022-03-23

Pytorch对CIFAR10的图像分类全套代码(包含多个模型)

用Pytorch实现我们的CIFAR10的图像分类 模型有LeNet,AlexNet,VGG,GoogLeNet,ResNet,DenseNet 在资源中有全部代码的学习资料,并且包括所有的权重,代码所有都可运行,可执行,可复现代码的结果 可以利用所有的模型权重进行迁移学习 除此之外,还有所有迁移学习的代码,可以利用迁移学习的代码对猫狗数据集进行训练学习

2022-03-23

Kaggle猫狗大战dogs-vs-cats数据集全套以及图像分类代码

有猫狗大战数据集,其中有训练集20000张,验证集5000张,测试集有10000张 并且配套有迁移学习的代码可以对猫狗数据集进行运行图像分类 运行方法很简答,可以利用命令行运行,不需要构建模型,自动利用pytorch内置模型简单方便

2022-03-23

CIFAR-10分类工具函数utils.py

Pytorch CIFAR-10分类工具函数

2021-11-28

Pytorch CIFAR-10分类(DenseNet).ipynb

Pytorch CIFAR-10分类(DenseNet)

2021-11-28

Pytorch CIFAR-10分类(ResNet34).ipynb

Pytorch CIFAR-10分类(ResNet34)

2021-11-28

Pytorch CIFAR-10分类(LeNet5).ipynb

Pytorch CIFAR-10分类(LeNet5)

2021-10-02

Pytorch CIFAR-10分类(AlexNet).ipynb

Pytorch CIFAR-10分类(AlexNet)

2021-10-02

tensorflow-2.3.0-cp38-cp38-win_amd64_cpu_and_gpu.rar

这里面有tensorflow2.3的cpu和gpu两个版本的轮子,可以直接解压下来,就可以pip安装这个轮子whl了

2021-05-13

cifar-10-python.tar

CIFAR-10 是由 Hinton 的学生 Alex Krizhevsky 和 Ilya Sutskever 整理的一个用于识别普适物体的小型数据集。一共包含 10 个类别的 RGB 彩色图 片:飞机( a叩lane )、汽车( automobile )、鸟类( bird )、猫( cat )、鹿( deer )、狗( dog )、蛙类( frog )、马( horse )、船( ship )和卡车( truck )。图片的尺寸为 32×32 ,数据集中一共有 50000 张训练圄片和 10000 张测试图片。 与 MNIST 数据集中目比, CIFAR-10 具有以下不同点: • CIFAR-10 是 3 通道的彩色 RGB 图像,而 MNIST 是灰度图像。 • CIFAR-10 的图片尺寸为 32×32, 而 MNIST 的图片尺寸为 28×28,比 MNIST 稍大。 • 相比于手写字符, CIFAR-10 含有的是现实世界中真实的物体,不仅噪声很大,而且物体的比例、 特征都不尽相同,这为识别带来很大困难。 直接的线性模型如 Softmax 在 CIFAR-10 上表现得很差。

2021-05-13

img_align_celeba2.zip

CelebA是CelebFaces Attribute的缩写,意即名人人脸属性数据集,其包含10,177个名人身份的202,599张人脸图片,每张图片都做好了特征标记,包含人脸bbox标注框、5个人脸特征点坐标以及40个属性标记,CelebA由香港中文大学开放提供,广泛用于人脸相关的计算机视觉训练任务,可用于人脸属性标识训练、人脸检测训练以及landmark标记等 由于文件太大,所以分两个文件上传,,一个文件100,000图片,另一个102,599张图片,都在我的数据中

2021-04-06

img_align_celeba1.zip

CelebA是CelebFaces Attribute的缩写,意即名人人脸属性数据集,其包含10,177个名人身份的202,599张人脸图片,每张图片都做好了特征标记,包含人脸bbox标注框、5个人脸特征点坐标以及40个属性标记,CelebA由香港中文大学开放提供,广泛用于人脸相关的计算机视觉训练任务,可用于人脸属性标识训练、人脸检测训练以及landmark标记等 由于文件太大,所以分两个文件上传,,一个文件100,000图片,另一个102,599张图片,都在我的数据中

2021-04-06

MNIST_data.rar

MNIST数据集是机器学习领域中非常经典的一个数据集,由60000个训练样本和10000个测试样本组成,每个样本都是一张28 * 28像素的灰度手写数字图片 一共4个文件,训练集、训练集标签、测试集、测试集标签

2021-04-05

andrew_ml_ex7.zip

吴恩达机器学习ex7K-means Clustering and Principal Component Analysis数据集

2021-04-04

AI古诗生成器,唐诗,五言绝句自动生成(包含预训练模型,数据集,全套代码)

这是一个基于Keras的AI作诗程序,它利用LSTM和RNN算法来学习和预测古诗、唐诗、五言绝句等诗歌形式。该程序不仅提供了多种生成方式,包括藏头诗、随机写诗和给定第一句诗或字进行作诗等,还可以自由控制生成的诗歌形式和长度,让用户可以根据自己的喜好和需求进行创作。 在使用该程序时,用户可以自由调控生成诗歌的概率,从而产生更具有多样性的故事,迸发出更多的创意和灵感。除了用于生成诗歌,该程序还可以用于创作灵感的启发、诗歌风格的探索等,具有多种实用价值和趣味性。 此外,该程序还支持数据集的替换,用户可以根据自己的需要选择不同的数据集,从而让程序学习到更多的古诗,得到更好的结果。这使得该程序能够不断地迭代和优化,不断提升其生成诗歌的质量和多样性。

2023-05-30

基于CIFAR10 MAE的实现(含模型权重,TensorBoard可视化等)

由于可用资源有限,我们仅在 cifar10 上测试模型。 我们主要想重现这样的结果: 使用 MAE 预训练 ViT 可以比直接使用标签进行监督学习训练获得更好的结果。这应该是自我监督学习比监督学习更有效的数据的证据。 主要遵循论文中的实现细节

2022-10-12

口罩目标检测数据集(已标注好,VOC格式)

使用yolo进行口罩检测 里面包含口罩目标检测数据集(已标注好,VOC格式) xml文件和jpg文件都放在文件夹中,可以根据自己格式进行运行

2022-05-22

CRNN完整源码实现--用PyTorch攻陷文字识别

CRNN-Pytorch 记录CRNN的学习 CRNN是2015年提出的一种,端对端的,场景文字识别方法,它采用CNN与RNN的结合来进行学习。它相对于其他算法主要有以下两个特点: 端对端训练,直接输入图片给出结果,而不是把多个训练好的模型进行组合来识别 不需要对图片中的文字进行分割就可以进行识别,可以适应任意长度的序列 里面包括所有的代码,可以进行训练,本代码是训练了IIIIT-5k的数据集,得到了模型在文件夹内,可以进行训练和预测 除此之外,ipynb文件中,利用pytorch搭建CRNN,对验证码进行识别,准确率都是很不错的,达到很不错的结果,可以自定图片和网络结构

2022-05-18

Keras对CIFAR10的图像分类全套代码(包含多个模型)

利用tensorflow的后端Keras实现我们的CIFAR10的图像分类 keras简单易懂,代码量和工程都不大,可以自动利用GPU进行训练,调节显存的大小 模型有LeNet,AlexNet,VGG,GoogLeNet,ResNet,DenseNet等等 也可以通过进行可视化输出结果,也含有数据增强等方法提高准确率 在资源中有全部代码的学习资料,并且包括所有的权重,代码所有都可运行,可执行,可复现代码的结果 可以利用所有的模型权重进行迁移学习,利用自己的数据集进行运行得到结果都是可以的

2022-05-17

大数据驱动的深度模型在图像分类中的应用(VGG16+VGG19图像分类,源码结果都可运行)

简述VGG模型,说明其中的结构(描述模型的结构,哪一层是卷积、那一层是池化、那一层是全连接?),并使用VGG模型完成下面图像分类的实验(建议使用Python语言,Pytorch 框架)。图像分类数据集:CIFAR-10,由10个类的60000个32x32彩色图像组成,每个类有6000个图像;有50000个训练样本(训练集)和10000个测试样本(测试集) 分别使用数据集中训练集的1%、10%、50%、80%样本进行训练模型,使用测试样本进行测试,简述步骤并对比使用不同比例的训练样本对于训练结果的影响(即模型训练完成后,使用测试样本输入模型得到的准确率)。随着数据量的增大,观察每一次模型迭代(模型每完成一次迭代,即所有训练样本输入到模型中进行训练更新)所需的计算时间、内存消耗变化,并做比较。分析试验结果,回答下面问题: A. 说明你实验的硬件环境 B. 说明自己程序中使用的是哪种梯度下降算法(随机、批量、全部)? C. 训练过程中你调整了哪些参数,谈谈你的调参过程和调参技巧 D. 当数据量逐渐变大时,你的训练测试过程有没遇到实质性困难?

2022-05-17

GAN探索之数字样本生成(Pytorch实现LeNet网络进行对抗比较)

数字对抗样本生成 LeNet是一个小型的神经网络结构,仅包含两层卷积层、两个池化层以及三层全连接。该轻量级网络能快速、占内存小、高精确度的解决复杂度比较低的问题,如手写数字识别。本实验要求: (步骤1)用LeNet网络完成手写数字识别任务。 (步骤2)利用对抗样本工具包生成针对该网络的对抗样本。 首先简要介绍了GAN的原理,通俗易懂 我简要实现了这一部分,并且包括每一部分的数字可视化功能,包括LeNet模型的构建,以及对于LeNet的超参数的调节和一些方法,最后也把模型权重保存下来,不用训练也可以直接用。 在步骤二中,生成针对该网络的对抗样本。做了威胁模型,快速梯度符号攻击,定义扰动上限 epsilons,被攻击的模型,FGSM 攻击方式,测试函数的操作 最后启动攻击,得到对抗结果,最后比较准确性 vs Epsilon,就得到最后的实验结果。 所有的介绍和方法和代码都是可以直接运行的

2022-05-17

Implements of MATAB神经网络30个案例分析

Implements of MATAB神经网络30个案例分析 《MATAB神经网络30个案例分析》中各个章节的代码实现 里面包含着各个经典的模型,里面含有对应的代码可以进行学习和复现结果

2022-05-15

中文情感分析 Python

中文情感分析的实质是文本分类问题,本项目分别采用CNN和BI-LSTM两种模型解决文本分类任务,并用于情感分析,达到不错的效果。 两种模型在小数据集上训练,在验证集的准确率、号回率及F1因子均接近90% 项目设计的目标可以接受不同语料的多种分类任务,只要语料按照特定格式准备好,就可以开始调参训练、导出、serving。

2022-05-15

机器学习、NLP面试中常考到的知识点和代码实现

此项目是机器学习、NLP面试中常考到的知识点和代码实现,也是作为一个算法工程师必会的理论基础知识。 既然是以面试为主要目的,亦不可以篇概全,请谅解,有问题可提出。 此项目以各个模块为切入点,让大家有一个清晰的知识体系。 此项目亦可拿来常读、常记以及面试时复习之用。 每一章里的问题都是面试时有可能问到的知识点,结尾处都有算法的实战代码案例。

2022-05-15

利用Python opencv进行车牌识别

这包括以下内容,可以自行配置环境,并且利用opencv和百度的api进行一个简单的车牌识别,简单又有效 车牌搜索识别找出某个车牌号 对比识别车牌系统 车牌数据库认证系统 车牌图文搜索系统 车牌数据库搜索系统 文件图片识别车牌 网络图片地址识别车牌 实时截图识别车牌 图片自适应窗口大小 摄像头拍照识别车牌 使用 hyperlpr 提高识别率

2022-05-13

Keras和Tensorflow 对CIFAR10的图像分类(包含多个模型)

用Keras实现我们的CIFAR10的图像分类 模型有LeNet,Network_in_Network,VGG,GoogLeNet,ResNet,ResNeXt,DenseNet,SENet还有Multi-GPU的方式 在资源中有全部代码的学习资料,并且包括所有的权重,代码所有都可运行,可执行,可复现代码的结果,进行了一个简单的比较各个模型在cifar10的数据的结果 除此之外,也搭载了可视化的功能,能够对数据有一个更加清晰的认识

2022-05-13

快速上手Transfomer全套资料-为 Jax、PyTorch 和 TensorFlow 打造的先进的自然语言处理

Transformers 提供了数以千计的预训练模型,支持 100 多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨让最先进的 NLP 技术人人易用。 Transformers 提供了便于快速下载和使用的API,让你可以把预训练模型用在给定文本、在你的数据集上微调然后通过 model hub 与社区共享。同时,每个定义的 Python 模块均完全独立,方便修改和快速研究实验。 Transformers 支持三个最热门的深度学习库: Jax, PyTorch and TensorFlow — 并与之无缝整合。你可以直接使用一个框架训练你的模型然后用另一个加载和推理。

2022-05-11

数学公式识别 Math Formula OCR 识别LaTex

利用深度学习模型的注意力机制 对LaTex公式进行识别,本项目利用的是tensorflow 可以快速识别图片的latex公式,可以免除打LaTex公式太烦等 包括以下部分 1. 搭建环境 Linux Mac 2. 开始训练 生成小数据集、训练、评价 生成完整数据集、训练、评价 3. 可视化 可视化训练过程 可视化预测过程 4. 评价 5. 模型的具体实现细节 总述 数据获取和数据处理 模型构建 6. 踩坑记录 win10 用 GPU 加速训练 如何可视化Attention层

2022-05-07

利用CNN进行字符型图片验证码识别

use CNN recognize captcha by tensorflow. 本项目针对字符型图片验证码,使用tensorflow实现卷积神经网络,进行验证码识别。 项目封装了比较通用的校验、训练、验证、识别、API模块,极大的减少了识别字符型验证码花费的时间和精力。 里面有项目介绍和种种验证码识别的方法,可以快速部署到项目之中,或者对其进行改进和加强,都是很方便的,希望对你们有帮助

2022-05-06

手写算法实现xgboost(并与库模型进行比较)

Boosting 方法的主要⽬标是将弱分类器“提升” 为强分类器,根据前⼀个弱分类器的训练效果对样本分布进行调整,再根据新的样本分布训练下⼀个弱分类器,如此迭代,最后将⼀系列弱分类器组合成⼀个强分类器。 XGBoost是boosting算法的其中一种。Boosting算法的思想是将许多弱分类器集成在一起形成一个强分类器。因为XGBoost是一种提升树模型,所以它是将许多树模型集成在一起,形成一个很强的分类器。 手写xgboost算法,几乎实现xgboost的所有算法,之中有与xgboost库进行比较xgboos的性能和方法,结果是差不多的,达到了预期的要求,简单的数据集也放在了上面。 并且这之中包括详细的注释,也包括了很多有关于xgboost的原理,是我手写xgboost算法之中做的一些记录和笔记,这里面也有对数据集的种种可视化,数据集也在文件里面。

2022-05-06

10行代码搞定一个决策树

这是一个简单的实验,要求也特别简单 产生数据集:使用某种随机生成器产生10万个101维向量(每个分量非0即1);其中每个向量的1-100维是条件属性,第101维是决策属性。 将数据集按照8:2随机划分为训练集(80%)和测试集(20%) 包括十行代码搞定决策树的全套代码 并且齐全的包括所有树的可视化等等 保证可运行可复现结果。

2022-05-06

Pytorch实现数字对抗样本生成全套代码(GAN)

利用GAN的思想,进行数字对抗样本生成,以LeNet作为图像分类模型,LeNet是一个小型的神经网络结构,仅包含两层卷积层、两个池化层以及三层全连接。该轻量级网络能快速、占内存小、高精确度的解决复杂度比较低的问题,如手写数字识别。 (步骤1)用LeNet网络完成手写数字识别任务。 (步骤2)利用对抗样本工具包生成针对该网络的对抗样本。 整体包括一下部分 步骤1:用`LeNet网络`完成手写数字识别任务。 LeNet 网络 数据集的下载和预处理 Image displaying pytorch 搭建LeNet LetNet 训练 超参数的设置 训练及测试模型 可视化误差曲线,准确率曲线 结果可视化,查看每一类的准确率 模型的保存与加载 步骤2:生成针对该网络的对抗样本。 威胁模型 快速梯度符号攻击 定义扰动上限 epsilons 被攻击的模型 FGSM 攻击方式 测试函数 启动攻击 对抗结果 准确性 vs Epsilon 样本对抗性示例

2022-05-06

利用pytorch对CIFAR数据进行图像分类(包含全套代码和10+个模型的实现)

用Pytorch实现我们的CIFAR10的图像分类 模型有LeNet,AlexNet,VGG,GoogLeNet,ResNet,DenseNet,Efficientnet,MobileNet,MobileNetv2,ResNeXt,Pnasnet,RegNet,SeNet,ShuffleNet,ShuffleNetv2,Preact_ResNet,DPN,DLA 在models中有所有模型的实现,然后在main.py中定义了训练的代码,也可以进行预测我们的结果,除此之外,对所有的模型自己进行了测试,并且对准确率做了一个详细的比较,也可以根据此进行测试和比较训练。 在资源中有全部代码的学习资料,代码所有都可运行,可执行,可复现

2022-05-06

DenseNet-Cifar10 基于keras

Train the DenseNet-40-10 on Cifar-10 dataset with data augmentation. 做了数据及增强等操作 并且是一个完整的工程文件 包括cifar的预测训练等功能,自主训练即可,代码易懂

2022-05-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除