- 博客(174)
- 资源 (36)
- 收藏
- 关注
原创 snowboy离线训练自己的pmdl模型
开发环境还是wsl ubuntu24.04,这里有个比较大的坑是这个项目是在python2.7环境下做的,而现在ubuntu24.04已经舍弃了python2的支持,所以我们还需要自己编译一个python2来运行项目,首先我们进入。然而,官方团队已停止维护 ,最后一个版本为1.3.0,自定义唤醒词训练网站也已关闭,目前仅依赖第三方平台提供服务。https://snowboy.hahack.com/,但是训练的语音文件只能使用三个,没办法做到更好的泛化,基于此,我们还得想办法训练更多的唤醒词语音文件。
2025-06-09 17:41:14
172
原创 ROS2 Jazzy 入门系列教程(七)—— Localization
上一章我们使用了SLAM进行了地图的构建,这次我们使用构建的地图进行定位操作。这次我们直接使用lauch文件来进行相关的操作演示。然后使用下面的命令启动。
2025-06-06 17:44:58
128
原创 ROS2 Jazzy 入门系列教程(六)—— SLAM ToolBox
use_sim_time:这里配置ROS2节点使用的clock是仿真时间,仿真环境使用的是自己的时间/clock,仿真时间与实时时间不同,可以改变时间或者暂停,当希望避免仿真与 ROS 节点之间出现时间不一致时使用。基于以下信息,我们将生成的地图发布到 /map,将估计的自身位置发布到 /tf (map→odom) 和 /pose。例如:SLAM最早用于军事核潜艇的定位与地图构建。红色箭头表示通过 /odom 发布的位置里程计的自定位估计,蓝色箭头表示通过 /pose 发布 SLAM 的自定位估计。
2025-06-05 17:43:45
670
原创 ROS2 Jazzy入门系列教程(五)—— Odometry
需要注意的是,IMU会随时间漂移,而轮子编码器会随行驶距离漂移,因此通常将它们结合使用以抵消彼此的负面特征。所有的操作和上一章一样,这里就不重复了,只是在桥接部分有所不同,在上一章的时候我们桥接了TF,这次我们需要将odometry桥接到Gazebo。虽然“/odom topic”与“/tf topic”中的“/odom 坐标系”有关联,但依然是属于不同的数据。“/odom topic”提供关于机器人自定位估计的位置、姿态和速度信息用于估计机器人位于何处以及如何运动。/tf 和 /odom 的比较。
2025-06-04 17:43:49
144
原创 Veo3——AI视频的“声画同步”时代
作为首个支持音画同步生成的模型 ,它不仅能合成高清画面,还能为鸟鸣、街头交通等场景自动生成逼真背景音效,甚至能为角色添加对白,让视频瞬间“活”起来更令人惊叹的是,Veo 3在物理模拟 和口型同步上的精准表现:人物说话时的口型与音频完美匹配,动作与环境互动自然流畅,堪称“细节控的福音”。这一发布不仅让AI视频生成告别了“默片时代”,更直接对标OpenAI的Sora,将行业竞争推向新高潮,从“无声”到“有声”:Veo 3实现了颠覆性突破。最终结果如下,相当震撼,视频帧的切换连转场都有,逆天!
2025-06-03 17:31:45
178
原创 ROS2 Jazzy系列入门教程(四)—— TF
simple_robot/odom → child_frame_id: simple_robot/base_link 的变换信息已发布。此次教程我们使用第二章的simple_robot.sdf进行仿真,打开终端,启动Ubuntu,然后启动仿真。string child_frame_id : 子帧名称(例如 camera_link)然后根据frame_id配置Fixed Frame为simple_robot/odom。string frame_id : 帧的名称 (base_link 等)
2025-06-02 10:43:43
243
原创 ROS2 Jazzy入门系列教程(三)——RVIZ2
大家可能想过一个问题,单纯的数据输出我们很难看出什么有用的信息,如果有一个可视化工具能对数据进行可视化分析就再好不过了,就比如matplotlib可以对一些数据进行相关的图标分析,很多分析结果一目了然。提供的一个可执行文件,用于创建一个桥接器,将 ROS 2 的 topic 与 Gazebo 的 topic 连接起来。然后再打开一个终端,将ROS2中的雷达和Gazebo中对应的topic进行桥接,使得ROS2和Gazebo能够互相通信。
2025-06-01 09:22:28
1027
原创 ROS2 Jazzy 入门系列教程(二)—— 相关设置
当我们在teleop-twist-keyboard的终端按下相应的按键的时候,会发现消息已经实时输出到话题/cmd_vel了,这里需要注意的是,我们使用的harmonic版本,需要使用半角输入法,然后大写,并按下shift+按键。在上一节中,我们安装了Gazebo,但是ROS2中的消息格式和Gazebo的消息格式不一样,需要有一个桥接软件,来将二者的消息格式进行转换。前两个命令是日志输出,“teleop_twist_keyboard”需要键盘输入,因此在“xterm”中进行屏幕输出,
2025-05-30 17:56:24
319
原创 ROS2 Jazzy入门系列教程(一)——安装
由于Ubuntu24.04目前只支持最新版本的ROS2,也就是jazzy版本,具体可参考网址:https://docs.ros.org/en/jazzy/Tutorials/Beginner-CLI-Tools/Configuring-ROS2-Environment.html。接下来,我们安装三维物理仿真平台Gazebo,目前支持Jazzy版本的Gazebo版本是Gazebo Harmonic。到这里ROS2 Jazzy以及Gazebo就成功安装了,下一节,我们再对相关设置进行说明。
2025-05-29 16:44:52
291
原创 聊聊康复医疗
康复治疗组或治疗学家针对每个人的问题建立特定的短期目标。治疗师可以根据患者对治疗的反应,在咨询转诊医生后修改这些目标,相关预防措施,例如针对心脏病患者的心率限制、针对骨折后或由于骨密度低而造成的负重限制、或针对有跌倒风险的患者的监督要求,可能有助于指导治疗师制定治疗计划。尽管年龄本身并不能成为改变治疗目的或康复治疗的强度的理由,但是其他疾病和基线限制条件可能改变治疗目的或康复治疗强度,康复治疗的种类、程度和目标经常不同,有些可能只是尽可能恢复自理生活能力,有些要恢复所有功能并参加剧烈的体育活动。
2025-03-29 15:53:05
397
原创 终于!文生图可以直接生成中文了
女模特的表情温和,目光直视前方,展现出自信与从容。作为当前开源文生图领域的SOTA(最先进技术)模型,CogView4不仅在复杂语义理解、指令跟随能力上表现卓越,还首次实现了对汉字生成的支持,解决了AI图像生成领域长期存在的痛点。例如,输入古诗“野径云俱黑,江船火独明”,模型能精准生成云雾笼罩的江船灯火画。可以看出,在不使用提示词增强的情况下,生成的效果还是差强人意,使用提示词增强后,文字效果和人像效果都不错。然后我们使用另外的提示词,使用提示词增强,且使用deepseek进行提示词增强,增强后提示词“
2025-03-17 17:44:36
1041
原创 医疗器械行业框架解析
对于刚涉足医疗器械领域的新手而言,全面了解医疗器械颇具难度。在日常工作中,各岗位人员各司其职,研发、注册、生产、销售、售后、财务等人员专注于自身业务。然而,工作一段时间后,大家会感觉有条 “绳” 在牵引,这是因为每项工作都有相应流程指引,且需严谨对待。整个项目按策划、输入、输出、验证、确认、转换等步骤推进,产品的整个生命周期都受质量管理体系监督。而这根 “绳” 正是《医疗器械监督管理条例》。接下来...
2025-01-15 11:16:59
670
原创 GB2828系列抽样检验标准解读
一、什么是GB2828GB2828 是中国国家标准中的计数抽样检验系列标准。它规定了以合格质量水平(AQL)为质量指标的一次、二次、五次抽样方案及抽样程序。这些方案主要用于连续批的检查,目的是通过抽样检验来判断一批产品是否符合规定的质量要求。该标准广泛应用于产品质量监督、验收等环节。例如在电子元器件、机械零部件、塑料制品等众多工业产品的批量生产检验过程中使用。无论是原材料的进货检验,还是成品的出厂...
2025-01-14 18:00:08
8095
原创 终于!ollama可以调用llama3.2-vision了
从9月24日Meta发布llama3.2以来,已经过了一个半月,虽然在发布的第二天,ollama就可以调用llama3.2-3B模型,但是没有办法使用llama3.2-vision,好在昨天ollama发布了0.4.0版本,正式支持vision版本,所以话不多说,我们来正式体验一下。不知道如何使用ollama的朋友可以参考我之前的文章《只需 1 分钟|拥有本地运行的大型模型|调用大模型的浏览器插件...
2024-11-08 14:15:58
1424
原创 无需动画制作基础也可以做出好看的数学动画
如果你是一个数学老师或者你是一个数学类博主,在进行教学或者科普知识的时候,是否考虑过用动画的方法来展现数学特别是涉及到几何图形的知识呢?但是又苦于动画的制作太麻烦而放弃,比如画一个圆,画一条直线,用传统的动画制作方法都会耗费大量的时间和精力。基于此,而往往陷入纠结两难的境地?今天给你介绍一款专注于数学动画制作的软件,完全开源,只需要你懂一点python编程即可,它就是Manim,传统上,技术概念的...
2024-10-11 18:30:18
925
原创 只需 1 分钟|拥有本地运行的大型模型|调用大模型的浏览器插件
LLM也火了很久了,各种开源闭源的大模型也是层出不穷,头部玩家当属ChatGPT,但是也是各种收费以及被墙,甚至连API也被封禁了,于是国内玩家也不得不转战于各种各样的国内免费模型,比如Qwen2,但是免费的功能毕竟有限,很多功能也只能试用。所以在本地运行大模型就很有必要了。说起来简单,做起来却并没那么容易,这么多的开源大模型,如果给每一个大模型都构建一个运行环境,那太复杂了,对普通玩家也不友好,...
2024-10-07 17:31:38
2089
原创 逆天!Kolors 虚拟试衣 AI!
Kolors 虚拟试衣 AI 展示了让用户以惊人的便捷和精准度虚拟试穿衣物的功能。通过利用这一 AI 驱动的平台,只需上传个人照片和想要的衣物图片即可改变您的购物体验。AI 然后生成穿着所选服装的真实视觉效果,无需实际试穿即可看到不同风格在您身上的效果。目前使用过的虚拟试衣AI,有阿里的outfit anyone,但是试用只能用官方固定的模特,不能选用自己的模特,生成的效果也算是差...
2024-09-09 17:37:21
782
原创 一款专业的Markdown转PPT工具
Markdown是一种轻量级标记语言,创始人为约翰·格鲁伯。它允许人们使用易读易写的纯文本格式编写文档,然后转换成有效的XHTML(或者HTML)文档。[4]这种语言吸收了很多在电子邮件中已有的纯文本标记的特性。由于Markdown的轻量化、易读易写特性,并且对于图片,图表、数学式都有支持,目前许多网站都广泛使用Markdown来撰写帮助文档或是用于论坛上发表消息。如GitHub、Reddit、D...
2024-08-29 17:46:30
2836
原创 这就是你们说的ZhipuAI的Sora平替?
最近有在B站刷到CogVideoX-2b这个文字生成视频的模型,甚者说是Sora和可灵的平替版本地模型,怀着好奇和憧憬,急不可耐的想体验一番,看看是否是真的如博主所说的这么牛,话不多说,我们还是先来看看paper.paper地址:2408.06072 (arxiv.org)有兴趣的可以通读一下。文中介绍了CogVideoX的架构如下:架构:• 3D因果VAE: 用于压缩视频数据,将其转换...
2024-08-21 18:05:56
510
原创 就这?Qwen2-Audio给我整笑了
前两天,阿里发布了Qwen2-Audio ,一个大规模音频语言模型,能够接受各种音频信号输入,并针对语音指令执行音频分析或直接文本响应,鉴于一直在使用Qwen作为主力AI工具,所以对这个音频语言模型的期待值还是蛮高的,从github主页来看,模型在各个测试集上取得了不错的成绩,目前该项目已经开源与复杂的分层标签相比,模型针对不同的数据和任务,利用自然语言提示简化了预训练过程,并进一...
2024-08-15 16:53:47
2390
原创 如何对深度学习模型进行类遗忘
在看到这个标题的时候,大家可能会比较疑惑,模型难道不是能识别的类越多越好吗,为什么还要对好不容易学会的类进行遗忘呢?这个领域到现在还是一个新兴领域,主要是为了满足监管需求以及提高对用户隐私的保护。随着针对数据保护的法律在加强,如欧洲的GDPR通用数据保护条例,用户是有权利请求删除其个人数据的,这包括要求从训练有数据驱动模型的数据集中移除其相关数据。针对此需求,传统的方案通常会重新训练...
2024-08-09 14:50:04
335
原创 在BLDC控制中使用ANNs来精确估算位置和速度
在之前的无感FOC学习笔记中,提到了多种关于速度和位置的估算方法,比如SMO滑膜控制、HFI高频注入、磁链观测器等等。今天给大家介绍一种新的估算方式,利用人工神经网络ANNs来对位置和速度进行估算,主要的思路来自于下面这篇文章《ANN-based position and speed sensorless estimation for BLDC motors》,具体文章的地址如下:http...
2024-08-08 14:05:53
487
原创 比SAM速度快6倍的SAM2来了
7月29日,META发布了Segment Anything Model 2 (SAM 2) ,一个通用的视觉分割系统,它不仅适用于图像,也适用于视频。它是对 Segment Anything (SA) 模型的升级,后者主要针对图像中的可提示分割。考虑到现实世界的视觉片段在视频中展现出的复杂动态特性,以及多媒体内容中视频数据的日益增长,因此SAM 2 提供了一种能够同时处理图像和视频的统一模...
2024-07-31 15:06:01
1495
原创 无感FOC学习笔记
clark变换/park变换和Clark逆变换/park逆变换,三相坐标系转换成αβ坐标系,然后转换成dq坐标系,让dq逼近磁链环Park变换原理 Park变换可以将正弦变量线性化,将α一β坐标系旋转度变为d-q坐标系,d指向转子中心,Q指向切线方向,其中θ是转子当前的角度。如下图:/***Clarkb变换**Ia+Ib+Ic=0**等幅值变换**Alpha=Iu**Beta=sqrt(...
2024-07-26 15:21:54
1061
原创 累了就休息,没有什么事情值得你拼命到生病
·无论睡多久都很困,明明很累却睡不着·早上一起床就已经累了,需要集中精力却提不起精神·不想努力了,对什么都没有兴趣,不记得上一次笑是什么时候·独处时觉得很空虚,不知道该做什么,表达不出自己的感受·不知为何非常压抑,每天都很疲倦·想摔东西·觉得动脑子很麻烦·想消失出现以上的信号就说明你已经过度疲劳了,要好好注意休息。不要想着自己还能再撑一撑,没有什么事情值得你努力到生病。...
2024-06-14 17:31:56
298
原创 openAI即将入局搜索引擎 | claude IOS app | Meshy-3 |
openai即将入局搜索引擎RAG增强搜索一直是AGI玩家必争之地之一,作为AGI领域的绝对强者,OpenAI 即将对谷歌搜索领域发起攻击。这很有可能是谷歌有史以来面临的最严重威胁。OpenAI 的 SSL 证书日志现在显示他们创建了 search.chatgpt.com据称,微软必应将为该服务提供动力。其实考虑到以下几点,这也就不足为奇了:1.OpenAI 有一个网络爬虫 GPTBot。2.Ch...
2024-05-05 16:27:48
378
原创 微软miniAI | 编程助手Augment| Adobe AI 升频项目
微软的迷你人工智能Phi-3 Mini可在手机上运行微软周二发布了一款为手机和个人电脑设计的新人工智能,它不需要这种连接。该公司称,其名为 Phi-3 Mini 的新人工智能可以与 OpenAI 的 ChatGPT-3.5 等流行的网络人工智能相媲美。微软告诉路透社,它的新人工智能可以与其他人工智能竞争,而其他人工智能的电源和运行成本要贵 10 倍。"微软 GenAI 研究副总裁塞巴斯蒂安-布贝克...
2024-04-25 09:36:06
541
原创 微软面向未来的制造 | 罗技 AI | 谷歌1000 亿美元|波士顿动力Atlas | 灵感源自大脑...
面向未来的制造:微软发布从云端到工厂车间的全新工业人工智能创新技术在全球最大的制造业创新盛会之一汉诺威工业博览会(Hannover Messe)召开之前,微软宣布将为制造商提供新的人工智能和数据解决方案,帮助他们开启创新、实现智能工厂、优化运营和提高员工生产力。在过去十年中,制造业一直保持着令人难以置信的韧性,新人工智能解决方案的注入标志着这一重要行业的关键转型。罗技发布 AI 提示生成器软件及配...
2024-04-18 11:26:46
1184
原创 Adobe 与 OpenAI 合作 | Google Cloud Next '24 | Maestro | iOS18 AI
Adobe 探索与 OpenAI 合作,增加人工智能视频工具Adobe(ADBE.O)周一表示,该公司正处于允许第三方生成人工智能工具(如OpenAI的Sora等)在其广泛使用的视频编辑软件中使用的早期阶段。Adobe 的 Premiere Pro 应用程序广泛应用于电视和电影行业。这家位于加利福尼亚州圣何塞的公司正计划在今年为该软件增加基于人工智能的功能,例如用人工智能生成的物体填充场景中的某些...
2024-04-17 08:55:11
442
原创 AI每日新闻 | 8B 视觉语言模型 | Premiere Pro|DaVinci Resolve 19 | Poe 多模聊天
Idefics2:功能强大的社区 8B 视觉语言模型Idefics2是一种通用的多模态模型,可将任意序列的文本和图像作为输入,并生成文本回复。它可以回答有关图像的问题、描述视觉内容、创建基于多幅图像的故事、从文档中提取信息以及执行基本算术运算。Idefics2 在 Idefics1 的基础上进行了改进:Idefics2 具有 8B 参数、开放式许可证(Apache 2.0)和增强的 OCR(光学...
2024-04-16 09:18:31
713
原创 AI每日新闻
卡牌游戏开发商向 "AI艺术家 "支付9万美元以生成卡牌艺术作品数字交易卡牌游戏《异界魔法冠军》的开发商透露,其已投入$90,000用于卡牌美术制作,所有费用均支付给了一位匿名的“AI艺术家”,该艺术家每月获得$15,000薪酬,但每月仅需工作不足两天。日前谷歌Deepmind研究人员推出人工智能音乐应用UdioUdio是前谷歌DeepMind的顶尖AI研究员和工程师创立,得到了a16z的投资,每...
2024-04-11 17:24:44
459
原创 斯坦福大学“Octopus v2”超级代理击败了GPT-4 | 运行在谷歌技术上 | 小型代理功能调用...
自主人工智能代理领域正在升温。最近斯坦福大学推出了这款宝藏模型,Octopus V2设备上的语言模型,用于超级代理,而且这是一个小型模型,在准确性和延迟方面超越了GPT-4的表现,它的速度有多快,它是什么呢?毋庸置疑,这是一个设备上的语言模型,用于超级代理,意味着它可以在你的电脑上、你的手机上、任何设备上运行。我们最近在苹果公司看到了非常相似的情况,他们也有一个设备上的模型,他们称之为RM。它基本...
2024-04-08 09:47:04
756
原创 AI绘本——《森林里的垃圾日》
《森林里的垃圾日》第一章:森林的早晨在森林深处,一片宁静而祥和的氛围笼罩着大地。清晨的露珠在初升的阳光下闪烁着晶莹的光芒,仿佛是大地的珍珠。小鸟奇奇从她温暖的巢中探出头来,她的羽毛在阳光下闪耀着金色的光辉。她伸了个懒腰,然后开始欢快地唱起歌来,她的歌声清脆悦耳,像是自然界最美的旋律。“哇,今天的阳光真温暖!”奇奇对刚刚醒来的松鼠萨姆说,她的眼睛闪烁着对新一天的期待。萨姆揉了揉眼睛,跳到一根树枝上,...
2024-04-06 16:48:33
175
原创 AI绘本——《我的身体属于我》
《我的身体属于我》## 第一章:认识自己的身体小宇是一个充满好奇心的小男孩,他总是对周围的世界充满了探索的欲望。一天,他的妈妈带他去了一个充满生机的森林。在那里,他们看到了各种各样的动物和植物,小宇的眼睛里闪烁着对大自然的好奇。妈妈轻轻地拉着小宇的手,指着一只正在跳跃的小松鼠说:“看,小宇,你的手也像松鼠的手一样灵巧,可以做很多事情。”小宇兴奋地模仿着松鼠的动作,他感到自己的手真的很神奇。他们继续...
2024-04-05 12:18:33
693
原创 AI绘本——《勤洗手的小猴米米》
《勤洗手的小猴米米》**第一页:米米的玩耍时光(约350字)**在遥远的热带丛林里,有一只名叫米米的活泼小猴。他的毛发如同阳光下的麦田一般金黄灿烂,他的眼睛明亮如星辰,总是充满了对世界的好奇。米米最喜欢的事情就是在丛林中攀爬树木,与朋友们一起探险。他的好朋友,一只长耳朵的小兔比比和一只机敏的小松鼠奇奇,总是陪伴在他的左右。一天清晨,当第一缕阳光穿透丛林,洒在米米温暖的小床上时,他就知道新的一天开始...
2024-04-03 19:03:35
259
原创 AI绘本——《斑马线上的冒险》
《斑马线上的冒险》第一章:小镇的早晨在温暖的阳光下,小镇的早晨总是那么宁静而美好。小镇的居民们,从勤劳的松鼠到悠闲的乌龟,都在享受着新的一天。在这个充满活力的地方,每一只动物都有自己的日常,而小兔子比比,一个充满好奇心和冒险精神的小兔子,总是梦想着探索未知的世界。比比住在小镇的东边,那里有一片美丽的花园,种满了五颜六色的花朵。他的家是一个小小的洞穴,藏在一片茂密的灌木丛中。每天早晨,比比都会在花园...
2024-04-02 09:33:52
162
数字图像处理论文(基于小波变换的图像压缩)
2010-11-24
基于matlab的数字图像处理论文
2010-11-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人