深度学习入门基础
文章平均质量分 70
cs231n,子豪兄带你无障碍解决烦恼
xwz小王子
机器人在读博士,研究方向具身智能、强化学习、多模态视听触感知与交互
展开
-
CoRL2024 聚焦「视听触感官」协同配合的具身智能操作
本文借鉴人类的基于阶段理解的多感官感知过程,提出了一个由阶段引导的动态多传感器融合框架 MS-Bot,旨在基于由粗到细粒度的任务阶段理解动态地关注具有更高质量的模态数据,从而更好地应对模态时变性的挑战,完成需要多种传感器的精细操纵任务。我们还放松了对阶段边界附近的样本上的相邻阶段分数惩罚,从而实现软约束效果,得到更平滑的阶段预测。如图 4 所示,MS-Bot 准确地预测了任务阶段的变化,并且得益于模型中由粗到细粒度的任务阶段理解,三个模态的注意力分数保持相对稳定,表现出明显的阶段间变化和较小的阶段内调整。原创 2024-11-09 10:16:42 · 437 阅读 · 0 评论 -
Nature Electronics 用于语音识别的液体声传感器,基于悬浮在载液的钕-铁-硼磁性纳米颗粒
我们的工作受到鲸鱼额头中的脂肪组织的启发,”该论文的通讯作者陈俊(Jun Chen音译)说,“脂肪组织集中并调节用于回声定位的发声,将其声学特性与周围的水体相匹配,从而使声音以最小的能量损失传播。”在他们最近的研究中,陈和他的同事着手开发一种很有前景的新型传感系统,该系统可以模拟鲸鱼额头中脂肪器官的功能。“人工智能在我们的感测系统中发挥着关键作用,特别是支持语音识别,”陈解释说,“得益于液态声学传感器捕获的低噪声信号,该系统在深度学习算法的支持下实现了高识别率。原创 2024-10-31 10:57:38 · 372 阅读 · 0 评论 -
Advanced Functional Materials 人工皮肤—基于视触觉传感的三维重建技术:材料、方法和评估
例如,集成涂层和标记阵列的视触觉传感器可以实现纹理映射/重建和力感知,但是标记影响了重建精度(引发小的肿块)。图2 三维重建所需的光照方案2 硬件对3D重建的影响深度相机直接输出深度信息,但是成像距离限制了其在视触觉传感器应用的通用性。基于光流法的三维重建是密集标记物在深度标定的一次有趣的探索。但是,需求突出标记的特异性,让网络对相邻的标记生成高灵敏的边界感。图1 基于视触觉传感三维重建技术概览1 三维重建技术概览视触觉传感的载体是视觉,其三维重建技术与基于机器视觉的三维重建技术有相似之处但也有本质区别。原创 2024-10-30 08:51:23 · 761 阅读 · 0 评论 -
李飞飞团队新突破:低成本高泛化机器人训练法,零样本迁移成功率90%!
基于这一理念,研究团队在实验的收官阶段选择了一个未经预设的真实厨房环境,对ACDC的完整流程和自动化策略学习框架进行了全面的端到端测试。值得注意的是,与数字孪生不同,数字表亲并不追求在所有微小细节上都完美重建给定场景,而是专注于保留更高层次的细节,如物体间的空间关系和语义信息。2、随着测试环境与训练环境差异的增大,数字表亲训练的策略展现出更强的鲁棒性。同时,团队比较了数字表亲和数字孪生在策略训练方面的效果,既在原始环境中进行评估,也测试了在分布外设置中的表现,以验证数字表亲训练策略的稳健性和适应能力。原创 2024-10-29 16:31:38 · 1146 阅读 · 0 评论 -
Google DeepMind推出DemoStart自主强化学习方法 利用少量示范样本实现复杂操作任务
首先,从基于特征的策略中筛选出成功的轨迹,这些轨迹代表了策略在不同任务参数下的有效行为。为了实现仿真到现实的迁移,DemoStart还引入了一种策略蒸馏技术,将基于仿真特征的策略转换为基于视觉的策略,从而使得训练出的策略能够在真实环境中执行。近日,谷歌DeepMind团队提出了一种名为DemoStart的新型自主强化学习方法,该方法能够在只有少量示范和稀疏奖励的情况下,让装备有机械手臂的机器人在仿真环境中学习复杂的操作技能,并成功实现了零样本的仿真到现实迁移。原创 2024-10-24 09:59:59 · 922 阅读 · 0 评论 -
PRCV 2024 - Day3
王院士在报告中分析了大模型驱动的人形机器人技术进展,介绍了人形机器人研究背景与意义、国内外研究现状、大模型驱动的人形机器人关键技术,如大型自然语言模型、多模态视觉语言模型、具身智能多模态大模型等,以及发展趋势与展望,并举例介绍了具身智能人形机器人是国际公认的机器人技术集大成者和科技竞争的制高点,可推广应用于工业制造、国防安全、智能服务和智慧医养等行业,具有广阔的前景和巨大的潜力。人工智能的发展和应用一直面临着智能孤岛的问题,即各种数据中的知识只能通过不同的模型学习,而不能累积学习。原创 2024-10-20 20:26:56 · 871 阅读 · 0 评论 -
Nature Communications 英国伦敦大学等提出仿生自适应多平面触觉系统,实现机械与振动双重感知结合
该子系统不仅提供稳定且可调的机械触觉与振动触觉脉冲刺激,以满足不同场景下的应用需求,而且其振动频率最高可达280Hz,这一频段恰好覆盖了与人类触觉感知紧密相关的四大机械感受器的敏感范围。研究结果显示,本研究创新性地提出的BAMH系统,不仅在精准激活手指各区域触觉机械感受器方面展现出显著优势,还有望凭借其广泛的覆盖范围、高度的模块化设计以及便携性特征,成为神经科学、心理学、社会学等多个学科领域探索人类触觉机制的重要工具。此外,随着管道长度的增加,力范围相应减小,但系统仍然能够保持较高的刺激强度。原创 2024-10-15 13:59:45 · 835 阅读 · 0 评论 -
DeepMind 机器人学习打乒乓球,朝着「专业运动员水平的速度和性能」发展
且由于内置的碰撞避免协议,机器人在处理非常低的球时存在问题,这些协议虽然对保护机器人的拍子至关重要,但也限制了机器人处理靠近桌面的球的能力;在泛化能力方面,机器人的表现依旧有限。虽然机器人在与最先进玩家的所有比赛中都“惨败”,但它赢得了与初学者的100%比赛和与中级玩家的55%比赛,充分展示了其拥有的乒乓球业余选手技能。这几天全球各界最火热的话题非奥运会莫属,而其中乒乓球比赛更是引起了互联网的讨论热潮,无论是欢呼也好、争议也罢,在现实世界人类的乒乓球大赛风生水起的同时,AI已经偷偷在乒乓球上“出师”了——原创 2024-09-01 08:51:25 · 1146 阅读 · 0 评论 -
微米级触觉感知的紧凑视触觉机器人皮肤
近期,北京邮电大学方斌教授联合中国地质大学(北京)杨义勇教授,在传感器领域Q1期刊IEEE Sensors Journal发表论文“ A Compact Visuo-tactile Robotic Skin for Micron-level Tactile Perception ”,在贴金工艺的基础上提出了涂层表面强化处理,有效提高了薄涂层的耐用性。与喷涂涂层相比,拉丝涂层具有更高的鲁棒性。实验E:通过与代表性的视触觉传感器对比,可以得出拉丝涂层和喷涂涂层轻薄、空间分辨率高,同时显著提高了薄涂层的耐磨性。原创 2024-07-06 15:48:26 · 1191 阅读 · 0 评论 -
非接触式装配监控技术实现对装配工作站操作的实时动作识别和定位
SMIRL 通过一个推断机检测动作,一个状态机定位动作,两者协同工作,不仅能够测量单个装配步骤和整个周期的持续时间,还能在错误发生时立即发出警报,通知操作员。传统上,装配操作的监控依赖于穿戴式传感器,这种方法不仅可能引起操作员的不适,还可能引发安全问题,有时甚至可能对正在装配的产品造成损害。该架构支持测量周期时间和步时间,并能够实时检测装配操作中的异常情况。异常检测能力:除了基本的识别和定位功能,SMIRL还能够检测装配过程中可能出现的异常情况,如违反预定义装配序列的“序列断裂”或遗漏的装配步骤。原创 2024-06-16 12:47:50 · 734 阅读 · 0 评论 -
Science Robotics 可实现中心聚焦与多光谱成像的鸟类视觉启发钙钛矿人工视觉系统
比例尺,50 μm。该系统包括一个人工中央凹和一个垂直堆叠的多光谱图像传感器,使用光学模拟优化设计人工中央凹,并确定了光电探测器阵列中的空间像素分布,为了实现多光谱成像,研究人员首先垂直堆叠了四个带隙不同的钙钛矿光电探测器阵列,通过转移印刷集成进行了对准,随后将多光谱图像传感器与人工中央凹结合起来构建了受鸟类眼睛启发的人工视觉系统,并使用这种人工视觉系统展示了中央凹成像能力和多光谱成像的功能。鸟类眼睛的较深的中央凹允许对视网膜图像的一小部分进行放大,而人类眼睛的中央凹由于其平坦的中心而无法提供这种放大。原创 2024-06-04 09:22:41 · 1000 阅读 · 0 评论 -
Science Robotics 手部增强设备“第六个手指”在大型和多样化样本中的可用性评估
因此,他们的明确目标是测试来自公众的参与者,他们通常不参与可穿戴机器人技术的早期开发,特别关注广泛年龄和惯用手的性别。在这种情况下,需要强调的是,尽管没有发现特定参与者人口统计学的重大障碍,但随着培训的增加,很可能会出现更多的差异。然而,由感觉运动和认知能力组成的技能学习的复杂过程可能为不同年龄段的用户提供不同的机会,以发展使用设备的高水平灵活性。98%的参与者在使用的第一分钟内就能够使用额外的拇指成功地操纵物体,参与者被要求完成涉及移动钉子或各种泡沫物体的两项任务之一。原创 2024-05-31 08:14:06 · 349 阅读 · 0 评论 -
ICML 2024 多视角融合驱动的通用具身操作算法SAM-E,为机器人学习复杂操作给出了可行解决方案
SAM-E提出了使用具有强大泛化能力的通用视觉大模型 SAM 进行视觉感知,通过在具身场景的高效微调,将其具有的可泛化,可提示(promptable)的特征提取能力、实例分割能力、复杂场景理解等能力有效迁移到具身场景中。为了进一步优化SAM基座模型的性能,引入了动作序列网络的概念,不仅能够捕捉单个动作的预测,还能够深入理解连续动作之间的内在联系,充分挖掘动作间的时序信息,从而进一步提高基座模型对具身场景的理解与适应能力。赋予智能体以身体,使其具备与真实世界直接互动的能力,成为了当前研究的重点方向之一。原创 2024-05-27 09:42:03 · 1045 阅读 · 0 评论 -
MIT团队基于AI发现物理学新方程,为解决复杂物理问题提供新工具
该图展示了 CQFinder 对不同偏微分方程的结果,分别是一般的 Burgers 方程(左),Korteweg-de Vries 方程(中),以及非线性薛定谔方程(右),其中实部(u)和虚部(v)用来参数化(来源:arXiv)用这样的方式来最大化守恒量的数量(number of conserved quantities,nCQ),以此进一步发现新的可积系统,这种进步是传统方法无法做到的。值得关注的是,KAN 的可视化以及交互性展现了它在研究中的应用潜力,有望助力科学家发现全新的数学规律以及物理规律。原创 2024-05-22 08:13:22 · 869 阅读 · 0 评论 -
[通用人工智能] 论文分享:ElasticViT:基于冲突感知超网的快速视觉Transformer
近期,Tang等人提出了一个新的两阶段神经结构搜索方法对于轻量级ViT——(ElasticViT: Conflict-aware Supernet Training for Deploying Fast Vision Transformer on Diverse Mobile Devices)[1],该方法减少了超网训练时产生的冲突,提高了超网训练权重的质量,并应用于搜索适配移动设备的轻量级ViT,取得了不错的效果。此外,使用性能感知采样来训练良好的子网,进一步的提高了最佳搜索ViT的准确度。原创 2024-05-12 21:37:53 · 831 阅读 · 0 评论 -
IJCAI 2024:吉林大学、中国科学院计算技术研究所和自动化研究所等揭示数据增强在开放场景下的“两面性”
具体来说,经典的对称蒸馏框架将MSA样本同时输入教师模型和学生模型中,在此基础上,我们将额外的原始样本输入教师模型,通过增加原始样本与混合样本之间的互信息约束使得学生模型更关注混合样本中每个类独有的特征,从而扩大教师模型对学生模型的影响。与此同时,教师模型对一些混合样本会产生错误预测(如对于第i类和第j类的混合样本,教师模型预测其为第k类),这些被错误预测的样本往往不包含该类独特的特征,我们重新赋予这些样本一个不确定度较高的标签,使学生模型降低对这些类无关特征的激活水平,学习更具有分辨性的特征。原创 2024-05-07 07:10:36 · 965 阅读 · 0 评论 -
斯坦福大学等科研人员开发了仿人指尖的视触觉传感器,探索应用于前列腺癌的触诊
然而,这些值表明两点之间的硬度差异很小,这再次证实了主治外科医生的判断,即肿瘤在 DRE 时是不可触及的。基于视觉的触觉传感器最近开始流行,因为它们具有低成本、非常高的空间分辨率(可以实现与人类指尖相匹配甚至超过人类指尖的触觉空间分辨率)以及易于使用广泛使用的微型相机的集成。出于内腔和类似受限环境中的触诊问题,斯坦福大学等科研人员提出了一种设计方法,该方法可以将基于视觉的触觉传感器小型化,以匹配普通人的指尖,如图所示。演示了传感器对医疗触诊的适用性,以及提供临床相关水平的组织刚度辨别能力的能力。原创 2024-04-17 07:45:31 · 739 阅读 · 0 评论 -
基于弹簧鞘复合纱和迁移学习算法的可穿戴人体重构和智能试衣系统
与传统的高级服装定制不同,基于动态人体重建的人体服装定制系统由于具有远程监测和试穿功能,对客户来说更加便利。该服装利用高弹性弹簧包裹的纱线传感器(SSYS)结合迁移学习算法,实现了对人体体型和运动的自动测量,满足了高端服装定制中对动态人体重构的需求(见图1E)。文章系统研究了SSYS的几何和力学行为,并采用迁移学习算法来弥合真实和虚拟数据集之间的差距,进而实现了3D人体的重构。文章以弹簧鞘复合纱线为基础,结合可伸缩传感器阵列和迁移学习,开发了一种可穿戴感知系统,用于实现3D动态人体的服装定制。原创 2024-04-16 07:40:08 · 989 阅读 · 0 评论 -
Nature Machine Intelligence 纽约大学团队提出基于深度学习和语音生成技术的脑电-语音解码
研究者还展示了能够从大脑的左右半球都进行有效的语音解码,将神经语音解码的应用扩展到了右脑。可微分语音合成器的原理借鉴了人的发生系统原理,将语音分为Voice(用于建模元音)和Unvoice(用于建模辅音)两部分,Voice部分可以首先用基频信号产生谐波,由F1-F6的共振峰组成的滤波器滤波得到元音部分的频谱特征,对于Unvoice部分,研究者则是将白噪声用相应的滤波器滤波得到对应的频谱,一个可学习的参数可以调控两部分在每个时刻的混合比例,在此之后通过响度信号放大,加入背景噪声来得到最终的语音频谱。原创 2024-04-14 08:12:07 · 1228 阅读 · 0 评论 -
仅通过头部便可控制机器人实现生活自理!四肢瘫患者福音真的来了?
通过揭示其最新的应用成果,研究团队证实了改良版HAT界面的高度可定制性和广泛的适应性。此外,驾驶员辅助功能的引入令HAT在获取红牛任务中取得了惊人的成效,将任务完成时间削减了70%(7分45秒),并且在NASA TLX工作负荷指数上得到了更低的评分,这意味着用户体验到了更少的压力和工作负荷。然而,对于HAT使用效果的评估,是在受控实验室环境下进行,且为主要针对健全人群的两小时短期研究,研究团队基于该项目已有基础,对HAT进行了深入研究,以考察其在真实世界环境中对于四肢瘫痪患者的长期应用潜力。原创 2024-03-07 08:22:33 · 398 阅读 · 0 评论 -
多阶段力控操作的鲁棒规划
此外,规划器还能够选择对不确定性具有鲁棒性的策略,其中行动的成本与其在开环执行中的成功概率挂钩,给定基于力的约束参数的扰动。为了完成这些复杂的、多步骤的力控操作任务,机器人需要做出离散的决定,例如,是否用手指、手掌或工具推动瓶盖,以及是否通过与表面的摩擦接触、使用另一个抓手或虎钳来固定瓶子。我们的系统可以对完成这项强力操作任务的组合策略进行推理,包括使用其末端执行器的各个部分进行推捻,使用工具(蓝色)进行推捻,用虎钳固定(灰色),固定在桌子上,或固定在高摩擦橡胶垫上(红色)。原创 2024-03-06 09:29:13 · 397 阅读 · 0 评论 -
重磅!| 2023年度中国科学十大进展揭晓
该研究发现全新的“眼-脑-外周脂肪轴”介导光对血糖代谢产热的调节机制,为防治光污染导致的糖代谢紊乱相关疾病提供了理论依据与潜在的干预靶点。由中国科学院高能物理研究所曹臻领导的高海拔宇宙线观测站(简称“拉索”,英文LHAASO)国际合作组凭借拉索前所未有的高灵敏度和大视场优势,在国际上首次完整记录了伽马射线暴万亿电子伏特以上高能光子爆发的全过程,包括高能光子亮度在早期的快速增强过程,以及后期亮度突然快速减弱,由此确定此伽马射线暴的极端相对论喷流具有迄今已知最小的张角,揭开了此伽马射线暴成为史上最亮的秘密。原创 2024-03-02 08:47:29 · 1055 阅读 · 0 评论 -
CyberDemo:增强模拟人体演示以实现现实世界的灵巧操作
通过在模拟环境中结合广泛的数据增强,CyberDemo 在转移到现实世界时优于传统的域内现实世界演示,可以处理不同的物理和视觉条件。无论数据收集的经济性和便利性如何,CyberDemo 在各种任务的成功率方面都优于基准方法,并且对以前未见过的对象表现出普遍性。首先,我们在模拟环境(蓝色区域)中收集人体演示,然后在模拟器中进行广泛的数据增强(黄色区域)。然后,在增强数据上进行训练并在一些真实数据上进行微调的模仿学习模型可以部署在真实的机器人上。接下来,我们结合所提出的数据增强技术,在模拟数据上训练策略。原创 2024-02-27 09:54:22 · 376 阅读 · 0 评论 -
OpenAI首个文生视频模型亮相,你觉得咋样?
同时OpenAI解释了Sora的工作原理,Sora是一个扩散模型,它从类似于静态噪声的视频开始,通过多个步骤逐渐去除噪声,视频也从最初的随机像素转化为清晰的图像场景。目前官网上已经更新了48个视频demo,在这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。在Sora生成的视频里,女士身着黑色皮衣、红色裙子在霓虹街头行走,不仅主体连贯稳定,还有多镜头,包括从大街景慢慢切入到对女士的脸部表情的特写,以及潮湿的街道地面反射霓虹灯的光影效果。原创 2024-02-17 08:08:17 · 456 阅读 · 0 评论 -
xilinx Vivado的使用详细
标题xilinx Vivado的使用详细介绍(2):创建工程、添加文件、综合、实现、管脚约束、产生比特流文件、烧写程序、硬件验证xilinx Vivado的使用详细介绍(2):创建工程、添加文件、综合、实现、管脚约束、产生比特流文件、烧写程序、硬件验证Author:zhangxianhe新建工程打开Vivado软件,直接在欢迎界面点击Create New Project,或在开始菜单中选择File - New Project即可新建工程。点击Next;输入工程名称和路径。选择默认的RTL P转载 2020-10-09 15:34:34 · 349 阅读 · 1 评论 -
下载graphviz安装包的方法,亲测有效
双击msi文件,然后一直next(记住安装路径,后面配置环境变量会用到路径信息),安装完成之后,会在windows开始菜单创建快捷信息,默认快捷方式不放在桌面。进入windows命令行界面,输入dot -version,然后按回车,如果显示graphviz的相关版本信息,则安装配置成功。windows版本下载地址:http://www.graphviz.org/download/下载安装、配置环境变量。原创 2020-07-24 10:03:22 · 4817 阅读 · 3 评论 -
使用飞桨实现图像分割模型U-net的心得
U-net作为图像语义分割的一种经典模型具有结构清晰、效果好的优点。在飞桨中实现起来较容易,效果较好。百度图像分割七日打卡营收获很大,推荐大家学习。U-net是U-net语义分割系列网络的最新作,其前作有U-net。最近参加了百度的图像分割打卡营,学习了如何使用飞桨实现图像分割模型U-net,收获很大。padding=1) # 3×3卷积的时候,padding=1的时候,尺寸不会变。代码实现比较简单,得益于PaddlePaddle的简单易用。使用飞桨实现图像分割模型U-net的心得。原创 2020-10-26 08:56:59 · 718 阅读 · 2 评论 -
轻量化Backbone | ShuffleNet+ViT结合让ViT也能有ShuffleNet轻量化的优秀能力
在图2(a)中,很明显,早期阶段的通道数量较少(例如Swin-ExtraTiny的48个通道和Shuffle Swin-ExtraTiny的96个通道),Shuffle模型(橙色)显示出比未Shuffle的模型(蓝色)更多样化的分布。为了解决这些挑战,作者提出了一种新的通道Shuffle模块,以改进小型ViTs,展示了在计算资源有限的环境中纯自注意力模型的潜力。为了缓解图像表示不足的类似问题,以往的高效CNN研究利用分组卷积的概念,降低计算复杂性和内存占用,而不损害特征通道的总数。原创 2023-10-15 10:07:38 · 593 阅读 · 0 评论 -
NeurIPS 2023 | 李飞飞团队提出SiamMAE:孪生掩码自编码器,刷榜视觉自监督方法
在关键点传播的任务上对SiamMAE进行了评估,需要传播15个关键点,并且要求空间上的精确对应关系,使用320×320的图像和一个单一的背景帧,SiamMAE的性能优于所有其他模型,并且比DINO更受益于较小的patch尺寸(+14.9到+10.9 PCK@0.1)像图像和视频这样的自然信号是高度冗余的,分别表现为空间和时空上的冗余。而且在视频上训练的MAE与图像MAE的表现相似,视频与图像的不同之处在于,图像是(近似)各向同性的,时间维度是特殊的,并不是所有的时空方向都是同等可能的。原创 2023-10-09 07:59:57 · 92 阅读 · 0 评论 -
下一代深度学习的思考与若干问题
下一代深度学习的思考和若干问题。原创 2023-08-13 19:10:15 · 229 阅读 · 0 评论 -
智能计算系统笔记——第四章编程框架使用(4.4-4.5TensorFlow实现深度学习)

第五讲:卷积神经网络回顾:多层感知机、非线性激活函数、梯度下降与反向传播这节课介绍计算机视觉领域大名鼎鼎的卷积神经网络,从卷积、padding、池化、全连接等基础操作,到局部连接、权值共享、下采样三大特性,并辅以大量的动图,以及LeNet5手写数字识别、MNIST手写数字识别、Cifar-10图像分类等几个交互式可视化网页,深入理解卷积神经网络基本原理。在后续课程中,我们会介绍各种经典的卷积神经网络架构,并解决图像分类、物体检测、语义分割等问题。...原创 2020-07-21 09:01:29 · 175 阅读 · 0 评论 -
cs231n(4)
第四讲:神经网络与反向传播回顾:线性分类器、Hinge Loss铰链损失函数、Cross Entropy交叉熵损失函数、Softmax、梯度下降构造损失函数之后,我们便有了优化的目标:通过梯度下降方法调整每个参数,使得损失函数最小化。但模型本身依旧存在问题,“直男”线性分类器只能产生线性决策边界,无法解决非线性分类问题。通过引入神经元细胞的非线性激活函数,可以将线性分类器升级为神经元,将神经元多层堆叠,便得到了强大的神经网络。如何调整神经网络的权重呢?方法仍旧是求出损失函数对于每个参数的梯度(偏导数原创 2020-07-20 09:51:11 · 124 阅读 · 0 评论 -
cs231n(2)
公开课精讲内容:如何让计算机读懂图像——计算机视觉的发展历史与广泛应用计算机视觉解决的基本问题——分类、定位、检测、分割机器学习利器——神经网络与深度学习如何训练神经网络——梯度下降、反向传播、优化器计算机视觉里程碑——卷积神经网络巨人肩膀——各经典卷积神经网络架构研究打破黑箱,可解释性——可视化卷积神经网络画框框与抠图图——物体检测与图像分割边缘计算,万物互联——加速卷积神经网络运算序列分析与机器创作——循环神经网络、LSTM、GRU周伯通的左右手互博——生成对抗网络GAN从下围棋原创 2020-07-19 14:36:34 · 131 阅读 · 0 评论 -
百度飞桨图像分类笔记
综述图像相比文字能够提供更加生动、容易理解及更具艺术感的信息,图像分类是根据图像的语义信息将不同类别图像区分开来,是图像检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。图像分类在安防、交通、互联网、医学等领域有着广泛的应用。一般来说,图像分类通过手工提取特征或特征学习方法对整个图像进行全部描述,然后使用分类器判别物体类别,因此如何提取图像的特征至关重要。基于深度学习的图像分类方法,可以通过有监督或无监督的方式学习层次化的特征描述,从而取代了手工设计或选择图像特征的工作。深度学习模型中的卷积原创 2021-03-13 08:55:32 · 165 阅读 · 1 评论
分享