人工智能
文章平均质量分 75
AI强仔
人工智能爱好者、机器人爱好者
展开
-
轮腿机器人的PID控制
红色箭头形成闭环控制,保持平衡并有速度。当静态平衡时,就只需要平衡PID,无需无刷电机和速度PID原创 2023-08-16 17:25:38 · 2163 阅读 · 0 评论 -
轮足机器人硬件总结
本文主要根据“轮腿机器人Hyun”总结的硬件部分。原创 2023-08-02 16:38:39 · 2530 阅读 · 0 评论 -
OpenPose-人体姿态估计
本文根据2019年5月《OpenPose: Realtime Multi-Person 2D PoseEstimation using Part Affifinity Fields》翻译总结。不过openpose在2017年就发了。这个是更新版。人体姿态估计面临多种挑战:1)每张图片可能包含未知数量的人,他们出现在不同的未知,也不同的大小尺度;2)人体之间的交互,如接触,产生了复杂的空间预测;3)预测时间随着人的数量增加,增加了在实时场景预测的难度。翻译 2023-07-06 17:18:39 · 549 阅读 · 0 评论 -
自制小强机器人,能看能听能说能画
这个在上面版本基础上增加了图像显示系统、图像识别、手势识别、图像生成。所以硬件增加了显示屏、摄像头。B站视频:【给小强机器人增加了眼睛(深度相机),能看能听能说能画了-哔哩哔哩】原创 2023-07-05 11:54:39 · 366 阅读 · 0 评论 -
VQGAN图像生成(离散化加对抗训练)
我们显示了1)如何使用CNN学习了一个图像成分的语义丰富的词汇表,这部分也就是VQGAN;2)利用transformer在高分辨率图像中有效地对其组成(VQGAN压缩过的图片码书表示)进行建模。整体模型也就如下图,包括两部分,VQGAN和transformer。VQGAN先进行图片的压缩,然后输入到transformer。翻译 2023-06-19 16:18:12 · 1498 阅读 · 0 评论 -
Muse:采用mask transformer的图像生成模型
本文根据google research 团队2023年1月的《Muse: Text-To-Image Generation via Masked Generative Transformers 》翻译总结的。图像生成有GAN、扩散(diffusion)、自回归模型等,而Muse采用mask图像的建模方法,非扩散、非自回归。给定从预训练大预言模型(LLM)中提取的文本embedding,Muse是被训练来预测随机mask的图像token。翻译 2023-06-09 17:21:05 · 1447 阅读 · 0 评论 -
自己制作智能语音机器人(基于jetson nano)
主要采用jetson上编写python代码实现,支持离线语音唤醒、在线语音识别、大模型智能文档、在线语音合成。原创 2023-06-08 09:12:52 · 5250 阅读 · 6 评论 -
百度UNIMO模型--统一模态理解、跨模态对比学习
我们提出了UNIMO(UNIfied-MOdal ),可以同时使用单模态数据和多模态数据,在理解和生成任务。翻译 2023-05-25 17:28:40 · 585 阅读 · 0 评论 -
视频理解AI模型分类与汇总
人工智能领域视频模型大体也经历了从传统手工特征,到卷积神经网络、3D卷积网络、双流网络、transformer的发展脉络。原创 2023-05-12 17:29:25 · 2733 阅读 · 0 评论 -
语音唤醒工具:WeKWS
WeKWS是一个可以投入生产使用、容易构建、易应用的端到端(end-to-end (E2E) )关键词识别工具(Keyword spotting )。Keyword spotting(KWS)指从连续语音流中识别预定义的关键词。唤醒词识别(wake-up word(WuW))是KWS的一种。翻译 2023-04-29 11:31:48 · 2134 阅读 · 0 评论 -
stable diffusion(LDM)--图片生成模型
我们模型latent diffusion models (LDMs)是两阶段的。第一部分就是下面左半部分(红色),对图片进行压缩,将图片压缩为隐变量表示(latent),这样可以减少计算复杂度;第二部分还是扩散模型(diffusion与denoising),中间绿色部分。此外引入了cross-attention机制,下图右半部分,方便文本或者图片草稿图等对扩散模型进行施加影响,从而生成我们想要的图片,比如根据文本生成我们想要的图片。翻译 2023-04-20 16:41:55 · 4579 阅读 · 0 评论 -
各种文字生成图片的AIGC模型(openAI、谷歌、stable、Midjourney等)
ERNIE-ViLG , DALL-E ,Cogview , Make-A-Scene , and Parti 、LDM , DALL-E 2 , Imagen等原创 2023-04-14 23:25:42 · 8914 阅读 · 0 评论 -
tensorflow lite简介-移动设备端机器学习
TensorFlow Lite 是一组工具,可帮助开发者在移动设备、嵌入式设备和 loT 设备上运行模型,以便实现设备端机器学习。原创 2023-03-03 16:59:17 · 1931 阅读 · 0 评论 -
梯度下降优化器:SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam -> AdamW
梯度下降优化器:SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam -> AdamW原创 2023-02-24 17:17:14 · 2737 阅读 · 0 评论 -
Next-ViT: Next Generation Vision Transformer
ResNet倾向于捕获高频信号,而对低频信号较困难。ViT(Swin)倾向于捕获低频信号,忽略高频信号。而Next-ViT同时捕获高低频翻译 2023-02-17 17:45:39 · 537 阅读 · 0 评论 -
timm(图像Imagenet预训练模型库)
timm(图像Imagenet预训练模型库)原创 2022-12-23 17:18:16 · 1359 阅读 · 3 评论 -
Sparse Transformers
Sparse Transformers,即稀疏Transformers。翻译 2022-12-18 21:36:19 · 1891 阅读 · 0 评论 -
ChatGPT: Optimizing Language Models for Dialogue
ChatGPT: Optimizing Language Models for Dialogue。如标题,ChatGPT为了对话使用的翻译 2022-12-16 15:22:30 · 2983 阅读 · 0 评论 -
InstructGPT:chatGPT的姊妹模型
InstructGPT:chatGPT的姊妹模型翻译 2022-12-15 17:44:42 · 3098 阅读 · 0 评论 -
GPT-3论文翻译总结
GPT-3的 Few-Shot (FS)、One-Shot (1S)、Zero-Shot (0S)效果接近有时超越fine-tune模型的效果。翻译 2022-12-10 17:00:45 · 3956 阅读 · 0 评论 -
语音特征:spectrogram、Fbank(fiterbank)、MFCC
语音特征:spectrogram、Fbank(fiterbank)、MFCC原创 2022-12-02 15:07:55 · 2966 阅读 · 0 评论 -
语音识别与语音合成--百度PaddleSpeech
语音识别与语音合成--百度PaddleSpeech翻译 2022-12-01 14:20:28 · 1893 阅读 · 0 评论 -
语音识别预训练模型Hidden-Unit BERT (HuBERT)
语音识别预训练模型Hidden-Unit BERT (HuBERT)翻译 2022-11-18 15:44:53 · 7161 阅读 · 0 评论 -
语音识别预训练wav2vec 2.0
语音识别预训练wav2vec 2.0翻译 2022-11-14 17:15:11 · 3638 阅读 · 0 评论 -
语音识别VQ-WAV2VEC+BERT
语音识别VQ-WAV2VEC+BERT翻译 2022-11-13 21:55:32 · 845 阅读 · 0 评论 -
WAV2VEC:语音识别非监督预训练模型
WAV2VEC:语音识别非监督预训练模型翻译 2022-11-12 16:05:38 · 936 阅读 · 0 评论 -
语音识别kaldi初体验
语音识别kaldi初体验转载 2022-11-09 11:47:23 · 438 阅读 · 0 评论 -
语音识别DNN-HMM
语音识别DNN-HMM原创 2022-11-02 17:35:03 · 644 阅读 · 0 评论 -
语音识别GMM-HMM
语音识别GMM-HMM原创 2022-11-02 17:33:24 · 1545 阅读 · 0 评论 -
语音识别工具kaldi简介
语音识别工具kaldi简介原创 2022-10-27 14:28:36 · 4310 阅读 · 0 评论 -
Vision Transformer (ViT)
ViT有两个特点,一是采用纯Transformer,没有CNN;二是基于大量的预训练数据。翻译 2022-10-04 14:42:39 · 1029 阅读 · 0 评论 -
DALL·E 2 :OpenAI第二代文本生成图片模型(unCLIP--基于CLIP的文本生成图像模型)
《Hierarchical Text-Conditional Image Generation with CLIP Latents》翻译总结的。如题,基于CLIP进行图片生成翻译 2022-09-22 23:01:56 · 4075 阅读 · 0 评论 -
CLIP--zero-shot语言-图像对比学习模型
Contrastive Language-Image Pre-training,简称CLIP,即对比学习语言-图像预训练模型翻译 2022-09-18 11:28:27 · 4185 阅读 · 0 评论 -
各种生成模型:VAE、GAN、flow、DDPM、autoregressive models
各种生成模型:VAE、GAN、flow、DDPM、autoregressive models原创 2022-08-29 17:12:37 · 25117 阅读 · 1 评论 -
rasa 对话机器人--http rest api
rasa http restful api原创 2022-06-28 15:26:02 · 1553 阅读 · 0 评论 -
rasa 对话机器人初体验
rasa 对话机器人demo原创 2022-06-20 15:00:03 · 502 阅读 · 0 评论 -
WBF(Weighted boxes fusion)-模型融合与NMS、soft-NMS
WBF在融合多个模型的结果上效果好于NMS、soft-NMS,但如果只是处理单个模型,其效果没有NMS、soft-NMS的好,是因为NMS、soft-NMS在处理很多低可信度的box过滤上效果好吧翻译 2022-03-20 11:31:17 · 3294 阅读 · 0 评论 -
Tacotron2--语音合成
1 简介本文根据2018年《NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS》翻译总结的。通过标题可以看出来Tacotron 2包括Tacotron 和WAVENET。Tacotron 2是一个可以直接从文本合成语音的神经网络模型。有两部分构成,第一部分是循环序列到序列的特征预测网络,其将字符embedding转换为mel-scale 频谱(SPECTROGRAM);第二部分是修改的WaveNet模型翻译 2021-11-18 23:15:40 · 2437 阅读 · 0 评论 -
K-BERT:BERT+知识图谱
1 简介本文根据2019年《K-BERT:Enabling Language Representation with Knowledge Graph》翻译总结的。如标题所述就是BERT+知识图谱。本文贡献如下:1) 我们介绍了一个知识集成的语言表达模型,取名K-BERT。其兼容BERT,同时可以融合专有领域知识。解决了Heterogeneous Embedding Space(HES,多样化的Embedding空间)和Knowledge Noise (KN)问题。HES指文本中词语的embedding翻译 2021-10-01 10:20:53 · 1756 阅读 · 0 评论 -
训练RBM-Hinton系列论文《A practical guide to training Restricted Boltzmann Machines》
目录1 简介 12 RBMs和对比散度的概览 13 当使用对比散度时如何收集统计信息 23.1 更新隐藏状态 23.2 更新可见状态 34 Mini-batch大小 35 监控学习的过程 36 监控过拟合 37 学习率 38 初始化权重和偏置 49 Momentum 410 权重衰减 411 鼓励稀疏的隐藏活跃 412 隐藏单元的数量 413 单元的不同类型 514 contrastive divergence变体 515 显示在学习中发生了什么 516 使用RBM进行识翻译 2021-09-26 22:47:56 · 715 阅读 · 0 评论