- 博客(216)
- 收藏
- 关注
原创 什么是 AI 人工智能?什么是机器学习?什么是深度学习?三者啥关系
AI 到底是个啥?跟咱有啥关系?一文帮你搞懂!最近是不是老听到 “AI”、“人工智能” ,“机器学习”,“深度学习”这些词?感觉挺高大上,但又有点懵?别担心,今天咱们就用大白话聊聊,AI 到底是个啥玩意儿!
2025-05-20 19:19:54
981
原创 斯坦福大佬笔记曝光!带你彻底搞懂 Transformer 与 LLM 大语言模型
Transformer模型通过其独特的“注意力机制”彻底改变了自然语言处理(NLP)领域。与传统的RNN和LSTM模型不同,Transformer能够同时处理句子中的所有词,捕捉任意两个词之间的关系,无论它们之间的距离有多远。这种并行处理和全局依赖的能力,使得Transformer在理解上下文和语义关联方面表现出色,成为现代大型语言模型(如GPT、BERT等)的基石。Transformer的核心优势在于其并行处理、全局依赖和注意力机制,这些特性使其在处理长句子和复杂语言结构时更加高效和准确。
2025-05-15 18:45:00
435
原创 解密循环神经网络(RNN):序列数据的终极武器!斯坦福大学出品
今天我们要深入探讨一个在人工智能领域,尤其是在处理语音、文本等序列数据时,拥有不可替代地位的强大武器——循环神经网络(Recurrent Neural Networks, RNN)! 这份总结基于斯坦福大学深度学习课程的精华笔记,带你快速掌握 RNN 的核心。
2025-05-13 18:27:23
717
原创 比肩 Sora!国产MAGI-1 自回归视频生成模型——实时生成,逐帧可控
想象一下,你只需要打一段文字,比如“一只穿着宇航服的猫在月球上弹吉他”,AI就能给你生成一段栩栩如生的视频!这听起来是不是很神奇?这就是文生视频(Text-to-Video)技术。
2025-05-01 20:44:53
1771
原创 【视觉AI的基石】斯坦福大学笔记!带你吃透卷积神经网络 (CNN)
CNN:让计算机拥有“火眼金睛”的秘诀想象一下,你怎么认出一张图片里的是猫还是狗?你不会把图片所有像素点揉成一团再看。你会先注意到一些局部特征:猫有尖耳朵、胡须,狗可能有下垂的耳朵、突出的鼻子。然后,你会把这些局部特征组合起来:尖耳朵 + 胡须 + 圆脸 ≈ 猫。最后,你综合所有信息得出结论。
2025-04-30 07:15:00
29
原创 OpenAI 新王炸!GPT-4o 图像生成上线,AI 画画直接“卷”出新高度!
随便举个例子,你丢给它一句:“画个带文字的餐厅菜单,复古风格”,它就能给你整出一张清晰、好看还能直接打印的图,文字还不会乱飘,简直是设计师的“救命稻草”!它不是单独的图像模型,而是“天生”嵌在 GPT-4o 里,文字、图像无缝融合,堪称 AI 界的“全能选手”。当然,天下没有完美的 AI。第三步:更新为 16:9 比例的横向图像, 在 UI 中添加更多咒语,并缩小视觉效果, 以便我们以第三人称视角看到猫穿过蒸汽朋克曼哈顿, 创造出美丽的对比度和灯光,就像在最好的 3A 游戏中一样,具有冷色调。
2025-04-24 15:09:19
764
原创 AI绘画EasyControl来了,宫崎骏「吉卜力」画风开源免费使用
它能独立工作,即插即用,最关键的是,它不会跟你的基础模型或者其他自定义模型(比如你心爱的人物LoRA、画风LoRA)打架!大家有没有遇到过这种情况:现在最新的AI绘画模型(像基于Transformer的DiT,比如FLUX)效果超棒,但是想精确控制它生成的内容,比如固定人物姿势、保留特定人脸、或者控制画面布局,就感觉特别费劲?因为它的控制模块是轻量且独立的,它在施加控制(比如引导姿势、锁定主体)的同时,能够最大限度地保留你加载的自定义LoRA模型的效果。对最新的AI绘画模型(DiT架构)进行更精准的控制;
2025-04-16 07:00:00
815
原创 Meta 发布 Llama 4 模型家族:能看、能聊、还开源,2万亿参数炸裂!
Meta 在 2025 年 4 月 5 日正式发布了他们的新一代开源大模型——Llama 4!这次可不是小打小闹,Meta 直接甩出了“多模态智能”的大招,让 Llama 4 不仅能“听懂”文字,还能“看懂”图片,甚至未来可能处理视频和语音,简直是 AI 界的“全能选手”。
2025-04-14 07:00:00
563
原创 谷歌Gemini 2.0 Flash可同时输出图片与文字,图文并茂文章即刻生成
Gemini 2.0 flash image generation experimental模型虽然目前还处于实验阶段,但这项技术展示了 Gemini 模型在快速生成高质量图像和无缝融合文本与视觉方面的巨大潜力,无疑将为内容创作领域带来新的变革。
2025-04-12 09:41:59
1099
原创 9 行代码移除归一化层,Transformer性能不降反升?解密DyT
来自Meta AI、纽约大学、MIT和普林斯顿大学的顶尖研究者们(包括Kaiming He、Yann LeCun等)最近发表了一篇论文,提出了一种极其简单的方法,让Transformer模型在不需要任何Normalization层的情况下,依然能达到甚至超越原有性能!
2025-04-12 09:39:18
883
原创 谷歌开源单个 GPU 可运行的Gemma 3 模型,27B 超越 671B 参数的 DeepSeek
不仅参数少,模型小,还可以在单个 GPU 上面运行,普通电脑也可以直接跑大模型了,而 DeepSeek 系列的模型需要 32 个 GPU,不是普通玩家玩的模型。在 LMSys Chatbot Arena 上,Gemma 3 27B IT 的 Elo 分数为1339,跻身前 10 个最佳模型之列,包括领先的封闭模型。而且它是开源的,开发者可以根据需求进行定制!与 Gemma2 相比,虽然模型参数没有增加,但是上下文长度增加到了 128K,而且还是一个多模态的模型,不仅识别文本,还支持图片与视频内容的交互。
2025-04-05 09:04:25
1163
原创 使用OpenCV与Python编写自己的俄罗斯方块小游戏
俄罗斯方块小游戏是当年风靡一时的小游戏,该游戏由一个棋盘组成,该棋盘跨度为10个单元格,高度为20个单元格,如下所示。俄罗斯方块小游戏关于此小游戏的规则,我们不再介绍,本期文章主要用代码来实现,我们知道俄罗斯方块小游戏主要有如下7个方块组成,我们在代码中使用字母“ O”,“ I”,“ S”,“ Z”,“ L”,“ J”和“ T”表示它们。
2025-03-16 16:45:00
964
2
原创 八年来,Google首次挑战transformer模型,新框架一战成名
并基于长期记忆模块构建了 Titans 模型架构。从 transformer 模型发布后,至今也有 8 年时间了,8 年间,transformer 模型一跃成为了 AI 大模型的核心框架,虽然 transformer 模型存在一定的缺点,但是并没有一个更好的框架来取代 transformer 模型,因此主流的 LLM 大语言模型,甚至很多计算机视觉模型都是采用了 transformer 模型,当然,随着模型的使用,人们也相继推出了相关 transformer 模型的改善。Titans 模型表现。
2025-03-16 11:12:28
1358
原创 利用深度学习进行Web浏览器视频电话会议中的背景更换
Meet的新功能是通过MediaPipe开发的,MediaPipe是Google的开源框架,用于跨平台可定制的ML解决方案,适用于实时和流媒体,它还支持ML解决方案,例如设备上的实时手部,虹膜和身体姿势追踪。任何设备上解决方案的核心需求是实现高性能。为此,MediaPipe的Web管道利用了WebAssembly,这是一种专为Web浏览器设计的低级二进制代码格式,可提高执行繁重计算任务的速度。在运行时,浏览器将WebAssembly指令转换为本机代码,其执行速度比传统的JavaScript代码快得多。
2025-03-14 12:00:00
754
原创 YOLOV12竟抛弃祖传架构?看Transformer注意力如何突破物理边界
YOLOv12 的核心是将注意力机制融入 YOLO 框架,以提升目标检测的精度,同时保持 YOLO 系列一贯的快速推理速度。论文的核心观点在于,尽管注意力机制在建模能力上优于 CNN,但由于计算效率和内存访问的限制,以往的 YOLO 模型主要依赖 CNN。对象检测中,注意力机制帮助模型关注可能包含对象的区域,减少无关信息的干扰。其中包括新的骨干网络,新的无锚网络检测头和新的损失函数功能。YOLOv3 (2018):采用更深的 Darknet-53,支持多尺度预测,增强对小对象的检测。
2025-03-14 07:00:00
1816
原创 无人自动驾驶技术之使用OpenCV进行相机校准
照相机与摄像头,是机器人,人工智能,计算机视觉,工业自动化甚至娱乐行业等多个领域的组成部分。在我们使用此设备时,不仅要了解照相原理外,需要使用特殊的技术对摄像头进行相机校准,特别在自动化驾驶上,需要实时的对照相机进行校准操作
2025-03-11 07:00:00
35
原创 5天5连击!DeepSeek开源周改写AI规则,到底什么技术成就了DeepSeek
DeepSeek 开源周(2025年2月24日-28日)于28 号正式结束,当 OpenAI 当年连续进行圣诞特辑的时候,我们只有膜拜的份。但是当 DeepSeek 横空出世的时候,全世界的眼光都关注在了中国的科技公司上。过去一周的时间,DeepSeek也连续一周进行了开源讲座,那么本周DeepSeek都开源了什么?
2025-03-10 22:49:41
783
原创 USRNet端到端深度学习网络实现图片视频的超分辨率与清晰度
上期文章我们分享了基于OpenCV的超分辨率的代码实现,哪里主要使用到了EDSR、ESPCN、FSRCNN、LapSRN等模型,虽然使用OpenCV能够实现超分辨率,但是图片的清晰图并没有增加,当有一张稍微模糊的图片时,增加分辨率的同时,我们也更希望提高图片的清晰图,如上图的图片,本期文章,我们介绍一下USRNet模型结构
2025-03-05 07:15:00
43
原创 一步一步带你实战 FLUX.1 文生图大模型,在线体验一键出图
上期图文教程,我们分享了 flux.1 文生图大模型以及flux.1 的最新工具集,但是有网友反馈代码运行提示错误,其实代码并没有问题,只是基于 hugging face 的第三方库需要获取相关的权限,然后代码才能正常下载对应的模型权重,本期我们首先先从头介绍一下如何使用代码,并能够正常出图。
2025-03-05 07:00:00
178
原创 使用Python代码制作贪吃蛇小游戏,你也可以打造自己的AI
上期视频,我们分享了一个AI来玩贪吃蛇的视频,本期我们讲解一下其基础代码,利用本代码自己也可以写游戏了。
2025-03-03 23:17:18
718
原创 使用黑森林实验室发布的Flux.1 文生图模型进行 UI 创作以及 PS 操作
Flux 1.1 Pro Ultra: Flux1.1 Pro 是 Black Forest Labs 提供的旗舰型号。它旨在创建高分辨率图像,非常适合需要精细细节和清晰视觉效果的任务。此版本针对图像清晰度和精度至关重要的场景进行了优化,例如广告、印刷媒体以及艺术图片等。
2025-03-03 23:04:39
1171
原创 解锁DeepSeek完全体:2025官方提示词指南与高阶技巧
如何写好提示词,成为了如何高效使用各类人工智能工具的首要前提,而大伙的 Deepseek 官方也提供了提示词的各类模板,包含:代码改写,代码解释,代码生成,内容分类,格式化输出,角色扮演,散文写作,诗歌创作,文案大纲生成,宣传标语生成,模型提示词生成以及翻译等各个场景上给出了提示词案例。针对代码生成任务,需要写明使用什么编程语言,以及要完成的代码功能,并指定输出格式,例如如下 HTML 的代码,若不指定输出一个文件到 HTML 中,生成的代码很有可能包含 js,css等多个文件。
2025-02-25 22:52:37
925
原创 使用opencv实现深度学习的图片与视频的超分辨率
什么是视频与图片的超分辨率,总结一下便是给一张分辨率比较低的图片,进行超分辨率的处理后,生成比较清晰的高分辨率的图片,上图图片完美解释了超分辨率的过程,由于不同的算法不同,处理的结果也不相同,本期我们介绍一下如何进行图片的超分辨率的处理。
2025-02-13 19:04:39
443
原创 字节跳动发布国产 AI 编程器 Trae,对标 cursor,免费使用Claude 3.5
Trae是字节跳动推出的全新AI集成开发环境,集成Claude 3.5与GPT-4o双模型,专为中文开发者优化设计。作为首款实现端到端AI编程的国产工具,Trae正在引发全球开发者社区关注。Trae不仅是一款工具革新,更是中文开发者进入AI优先时代的通行证。
2025-02-13 19:00:24
1316
原创 Makesense AI 工具为深度学习照片添加标签
makesense.ai是可免费使用的用于为照片加标签的在线工具。由于使用了浏览器,因此不需要任何复杂的安装-只需访问网站即可开始使用。
2025-01-26 10:10:12
424
原创 开源先锋DeepSeek-V3 LLM 大语言模型本地调用,打造自己专属 AI 助手
DeepSeek-V3是一个强大的混合专家 (MoE) 语言模型,总共有 671B 个参数。为了实现高效的推理和经济高效的训练,DeepSeek-V3 采用了多头潜在注意力机制 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了彻底的验证。
2025-01-26 10:06:57
3119
原创 Yolo 对象检测系列更新无止境,Ultralytics 发布 Yolov11 更快,更强
本想打算更新下Yolov10 模型,但是Yolov11 就紧跟发布,不得不说人工智能是真的卷。而真正让人工智能领域更加内卷的便是今年的诺贝尔物理与化学奖都颁给了 AI 领域的大牛,不得不说 AI 是真的卷。
2025-01-15 19:25:18
1406
原创 opencv+python智能车道检测,助力无人驾驶
车道检测可通过使用单目摄像机、立体摄像机、激光雷达等实现[4]。相机因其丰富的内容功能和低廉的价格而最受欢迎。深度学习(DL)提出了一种新的数据驱动方法,并且比大多数基于特征的方法获得了更好的性能。虽然DL系统在许多应用中取得了优异的性能,但它们经常被用作"黑匣子",其性能没有保证。这限制了它们在安全关键任务中的应用,例如自动驾驶的车道检测。
2025-01-07 18:55:02
188
原创 Netron可视化深度学习的模型框架,大大降低了大模型的学习门槛
好在Netron把大模型的框架都使用可视化的方式呈现了出来,从输入,到输出,数据的每个步骤的流动,以及每个节点的数据维度与当前时间节点的计算名称都详细的罗列了出来,类似卷积的操作,从输入到输出,都是一条直线下来,光看代码也比较容易清晰。
2025-01-07 18:38:07
679
原创 labml.AI逐行详解深度学习模型代码与原理,transformer,GPT等等
labml.AI是一个在线平台,该平台主要来讲解深度学习模型(transformer,GPT,diffusion model,GAN,RNN,CNN,Lora,Resnet,U-Net,LSTM等等)的代码与原理解析。每行代码都有详细的解析,且当涉及到核心知识点时,会提供详细的简介。
2024-12-27 14:30:00
845
原创 MaskGCT——开源文本转语音模型,可模仿任何人说话声音
MaskGCT文本转语音模型是一个开源的模型,不仅可以生成语音,还可以模仿任何人说话的声音,且可以进行语气的转换。
2024-12-17 18:12:19
1354
原创 动画详解 CNN 卷积神经网络,每层数据流向清晰易懂
学习计算机视觉模型,首要的任务就是要学懂 CNN 卷积神经网络模型,因为很多计算机视觉模型都是基于 CNN 卷积神经网络模型进行优化升级设计的。而 CNN 卷积神经网络模型也是最基础的视觉模型,其中设计到的参数,定义,数据流向等如何操作,特别是 CNN 卷积的操作如何进行,本期介绍的这个工具,可以可视化 CNN 卷积的过程,以及整个 CNN 卷积神经网络模型的搭建。
2024-12-09 18:59:39
830
原创 NotebookLM 读论文,搞科研,写摘要,谷歌发布的 AI 助理可轻松拿捏
本期介绍的是 Google 发布的NotebookLM笔记本,其NotebookLM工具借助于 Gemini 大语言模型的多模态能力,让学生,科研工作者可以很容易记录,学习。
2024-11-27 18:30:09
941
原创 Meta 发布Sapiens人类视觉模型,2D 姿势估计、人体分割、深度估计
meta提出了 Sapiens,人类基础视觉模型。这是一个以人为中心的视觉任务的模型。包括: 2D 姿势估计、人体部位分割、深度估计和表面法线预测。
2024-11-27 18:26:23
1281
原创 Meta Movie Gen 对标 Sora,文生视频一经发布便是巅峰
Movie Gen不仅可以文生视频,还可以根据一张照片与文本生成个性化的视频,当然也可以根据视频与文本描述,进行视频剪辑,且可以根据视频或者图片内容生成背景音乐,简直是自媒体创作者的完美搭档。
2024-11-03 16:15:15
842
原创 使用Diffutoon把视频转换成动漫风格,无需部署,开箱即用
无论是图片动漫转换以及视频动漫转换,我们前期也介绍过相关的模型,但是其模型输出的动漫视频不是有瑕疵,就是动漫效果不唯美,今天介绍一个modelscope社区开源的动漫风格转换模型Diffutoon。
2024-10-20 15:59:36
854
原创 Python人工智能使用OpenCV进行图片形状的中心检测
我们都知道正方形(长方形)的中心是2条对角线的交点,圆的中心是一个圆的圆心,如何在对象检测以及图片检测与识别领域,判断一个形状的中心,便是计算机视觉领域中的一个基础检测
2024-09-30 10:08:15
905
原创 TTT大语言模型架构发布,成功撼动了Transformer与Mamba模型
上期图文,我们刚介绍了 transformer 模型与 Mamba 模型,觉得 Mamba 模型的发布可以有效改善 transformer 模型长序列输入复杂度的问题,应该能够成为下一个大语言模型的基石。谁想Mamba2 还没有发布几天,这边最新的大语言模型TTT模型发布,成功撼动了 transformer 与 Mamba 模型。
2024-09-30 10:05:20
869
原创 NVIDIA发布端到端自动驾驶框架Hydra-MDP
Hydra-MDP 提供了一个通用框架,展示了如何通过基于规则的规划器增强基于机器学习的规划。这种集成系统确保模型不仅模仿人类的驾驶行为,还遵守交通规则和安全标准,解决了传统模仿学习的局限性。Hydra-MDP 的数据驱动缩放定律证明了其稳健性和适应性。通过使用具有大量数据和 GPU 预训练基础模型,Hydra-MDP 展示了其可扩展性和持续改进的潜力。
2024-09-23 18:38:51
987
原创 Python代码使用OpenCV进行Blob检测
什么是Blob?blob是图像中一组共享的区域,它们具有一些共同的属性(例如灰度值,形状,尺寸等)blob检测的目的是识别并标记一些特定区域,blob检测在自动化工业领域比较常见。
2024-09-17 11:25:33
857
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人