自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

深度学习与计算机视觉

机器学习 深度学习 计算机视觉 Python 目标检测 语义分割 OpenCV中文教程

  • 博客(1256)
  • 收藏
  • 关注

原创 前向映射与反向映射在计算机视觉中的应用

本文将介绍并解释图像变形的两种算法:前向映射和反向映射。除了在理论层面上介绍这些算法之外,还将它们应用于实际图像,以查看每种算法的结果和能力。为了完全理解本文中的所有内容,有必要熟悉2D变换矩阵,这在先前的文章中已经介绍和解释过。https://medium.com/@JavierMtz5/2d-matrix-transformations-for-computer-vision-80b4a4f2...

2024-07-23 17:28:44 866

转载 CVPR 2024 录用数据出炉!这些方向是大趋势!

一年一度的计算机视觉和模式识别会议(CVPR)一直是 CV 界前沿研究的灯塔。CVPR 2024 录用结果显示,今年共有 2719 篇论文被接收,录用率 23.6%。那么大模型时代,今年的研究主题有哪些变化?最近,乔治亚理工学院计算机学院(College of Computing, Georgia Institute of Technology)对 CVPR 2024 录用数据的统计分析,直观呈...

2024-07-10 11:40:12 46

原创 OCR的有效数据增强

背景我面临着需要尽可能准确识别手写金额的挑战。难点在于保持误判率低于0.01%。由于数据集中样本数量固定,因此数据增强是合乎逻辑的选择。快速搜索未发现针对光学字符识别(OCR)的现成方法。因此,我挽起袖子,亲自创建了一个数据增强例程。它在训练过程中被使用,并帮助我的模型实现了目标。继续阅读以了解详情。通过每次训练图像时引入小的变化,模型不太可能过拟合,更容易泛化。我将其与TROCR一起使用,但任何...

2024-06-24 17:33:43 951

原创 Python中用于从图像中提取文本的8大OCR库

介绍你是否曾想过你的电脑如何能够从图像中读取文字?这都要归功于一种叫做光学字符识别(Optical Character Recognition, OCR)的技术。在Python中,有一些非常酷的库可以帮助你的电脑理解图片中的文字。从谷歌强大的Tesseract到EasyOCR时髦的深度学习,这些库能够做一些非常了不起的事情。让我们来看看Python中的OCR库,了解这些库是如何将图像转换成可读文字...

2024-06-21 18:03:42 2132

转载 使用 OpenCV 检测并提取表格数据

此示例演示如何使用 OpenCV 进行表格数据检测和提取。我们将分析以下代码生成的一些示例输出。此代码的 Colab 链接可在文章末尾找到。示例输出:检测到表格的输出检测到单元格的表格输出表格单元格的裁剪图像表格提取数据的输出fromgoogle.colab.patchesimportcv2_imshowimportpandasaspdimportcv2importnumpy...

2024-06-19 18:37:34 108

原创 使用 Mask R-CNN 进行血细胞分割

介绍血细胞分析是诊断各种医学疾病的重要步骤,从感染和贫血到更严重的疾病如白血病。传统上,这一过程是通过老方法进行的——实验室技术员通过显微镜查看血涂片玻片,花费几个小时。这一过程不仅令人乏味,还容易出现人为错误,尤其是在处理大量样本或复杂病例时。难怪医疗专业人员一直渴望自动化这一重要分析。借助计算机视觉和深度学习算法的力量,我们可以以更高的准确性和效率处理血细胞检查。一项改变这一应用的技术是图像分...

2024-06-17 18:50:37 771

转载 GPT-4o炸裂登场!大模型仍是最大赢家!

从一年前ChatGPT突然爆火,到不久前文生视频大模型Sora以霸屏之势吸引全球舆论,再到OpenAI发布的王炸GPT-4o,与AI大模型相关的议题越来越多地被大众所讨论,如果说2023年的大模型风暴还集中在“对话”上,那么,今年AI带来的亿点点震撼,就突破了文字乃至图像的范畴!大模型相关内容之所以那么火,与其相结合的技术原理绝对不容忽视,为了能让大家更能进一步了解时下大模型相关前沿热点,我们特邀...

2024-06-13 11:30:23 36

转载 Transformer登上nature,到底凭什么这么火?

AI领域的研究者应该还记得,在 Transformer 诞生后的三年,谷歌将这一自然语言处理届的重要研究扩展到了视觉领域,也就是 Vision Transformer。视觉Transformer(ViT)依靠出色的建模能力,在 ImageNet、COCO 和 ADE20k 等多个基准上取得了非常优异的性能。正如德克萨斯大学奥斯汀分校的计算机科学家 Atlas Wang 说:我们有充分的理由尝试在整...

2024-06-12 11:30:41 31

转载 只要敢捞“偏门”,篇篇都是顶会顶刊!

最近经常收到读者在后台的留言:科研真是太难了!导师要求发SCI/CCF,不仅给不了指导,还一个劲的push。自己一个人拼命想选题、做实验、写论文,仍旧无法把论文写的又快又好,更别说高区位会议了!01为什么很多人觉得科研很难?大家之所以感觉发论文太难,主要原因在于能发SCI/CCF的文章,idea必须有创新性,其次写作也要条理清晰!如果导师不管,只靠自己几乎不具备独立提炼idea的能力。我师弟张含,...

2024-06-11 15:00:40 119

转载 独自一人,怒发顶会!

万物皆卷的时代,升学、就业的竞争越来越激烈,想要保研、申博、进大厂,没有高质量论文在手就相当于“裸奔”!尤其是这个人人惶恐又内卷的时代,想要抓住点什么来增强安全感。有一份拿得出手的成绩——发论文的数量和质量无疑是最好的背书。手握一篇甚至多篇高质量的论文,就是学术成果最好的展现,当然它也意味着未来更优质的工作和薪酬。但是论文很多人来说,是一种挑战。大部分同学的困难不是不想发,而是……1、不知该如何对...

2024-06-04 11:40:34 32

原创 用Python从PDF文件中提取文本:全面指南

引言在大语言模型(LLMs)的时代,它们的应用范围从简单的文本摘要和翻译到基于情感和财务报告主题预测股票表现,文本数据的重要性前所未有。有许多类型的文档共享这种非结构化信息,从网页文章和博客帖子到手写信件和诗歌。然而,这些文本数据的大部分以PDF格式存储和传输。具体而言,每年在Outlook中打开的PDF文档超过20亿份,而每天在Google Drive和电子邮件中保存的新PDF文件达7300万份...

2024-06-03 18:16:38 749

原创 使用Python AI轻松编辑背景

你有一张自己很喜欢的照片,但你注意到周围图像的背景在照片上产生了抑制效果。你觉得如果背景不存在,或者通过在特定图像中保留你的照片并稍作修改,将会得到一张高质量的人像照片。执行以下操作的许多方式之一包括支付相当高的费用购买软件或聘请专业人员完成项目。还可能有一些显著的免费资源,但它们的可靠性或效率在某些限制下可能令人质疑。与解决这些问题的麻烦相比,设计自己的签名方法来处理此任务难道不是很酷吗?借助P...

2024-05-31 18:46:44 742

转载 完整实现迷你VGG网络进行图像识别

VGG网络是最流行的图像识别技术之一的基础。学习它是值得的,因为它打开了许多可能性。要理解VGGNet,你需要了解卷积神经网络(CNN)。在本文中,我们将仅关注VGGNet的实现部分。因此,我们将在这里迅速进行。关于VGG网络VGGNet是一种能够更成功地提取特征的卷积神经网络(CNN)。在VGGNet中,我们堆叠多个卷积层。VGGNet可以是浅层或深层。在浅层VGGNet中,通常只添加两组四个卷...

2024-05-29 18:29:09 41

原创 利用CNN和迁移学习检测太阳能电池板上的尘埃

太阳能电池板已经成为农业、交通、建筑和酒店等多个行业中受欢迎的可再生能源来源。通过利用太阳的能量,我们可以在不损害环境的情况下产生电力。然而,使用太阳能电池板面临着一些挑战,其中最大的之一是它们表面上尘埃的积累。这会显著降低它们的效率,限制它们在能源生产和其他应用中的实用性。为了解决这个问题,自动化可以在确保太阳能电池板定期及时维护方面发挥关键作用。通过自动化清洁过程,我们可以提高生产效率和效率,...

2024-05-28 18:47:20 713 1

转载 为啥本科生都能发顶会,而博士一篇都没有?

“已经5月了,大家的论文还顺利吗?”最近经常收到读者的留言 : 抱怨科研真是太难了,竞争压力大,想发SCI/CCF,拼命想选题,读文献,写论文,仍旧无法把论文写得又快又好,更别说顶刊顶会了!其实他不是个例,大家也会有这样的烦恼:前沿顶会、期刊论文、综述文献浩如烟海,不知道学习路径,无从下手?没时间读、不敢读、不愿读、读得少、读不懂、读不下去、读不透彻一篇完整的论文?CVPR、ICCV、ECCV、I...

2024-05-24 11:30:54 78

转载 超越NeRF,3DGS逆天了!52篇精选论文浅谈涨点技巧

3DGS作为先进的三维重建技术,通过3D高斯函数表示体积密度,可快速渲染出高质量图像,在计算机图形学和计算机视觉领域,呈现出巨大潜力,甚至超越NeRF重塑SLAM!今年火爆的算法岗招聘中,3DGS经验更是候选人加分项!研梦非凡于5月21日,特邀了自动驾驶AI专家杨导师,独家上线SIGGRAPH-Best Paper《AI前沿论文系列—3D Gaussian Splatting(3DGS)for R...

2024-05-22 11:30:29 131

转载 又一篇CV顶会!这个idea“杀疯了”

又水了一篇顶会。要说创新,也没啥大创新。要说没创新,确实也有一丢丢的新东西。毕竟能发顶会或者高区位会议的文章,idea必须有创新性。而一个科研新人几乎不具备独立提炼idea的能力。很多发了十几篇A会的科研大牛都在使用“简化、结合、迁移、解释分析”这4个高效的idea提炼方法。但是科研新人,即使知道了方法,也依旧无法挖掘到好的idea。我师弟张含,研二期间要发CV方向的CCF A类文章。奈何导师不给...

2024-05-15 11:31:15 59

转载 Transformer登上nature,被誉为大模型基石的它到底凭什么这么火?

Transformer模型最初由Google的研究人员在2017年提出,它是一种基于自注意力机制的深度学习模型,用于处理序列数据。不仅彻底改变了NLP领域,还在CV领域做出了一些开创性的工作。与卷积神经网络(CNN)相比,视觉 Transformer(ViT)依靠出色的建模能力,在 ImageNet、COCO 和 ADE20k 等多个基准上取得了非常优异的性能。随着Transformer的成功,研...

2024-05-14 12:57:34 64

转载 计算机视觉领域经久不衰的热点论文大盘点

特征提取是计算机视觉领域经久不衰的研究热点,不论是SLAM、SFM、三维重建等重要应用的底层都是建立在特征点跨图像可靠地提取和匹配之上。深度学习中的特征提取是指通过神经网络自动地学习出数据的高层次抽象表示。在传统机器学习中,特征工程是需要手动设计并选择特定的特征来描述数据,而这往往是一项非常耗时且需要专业知识的工作。深度学习进行特征提取的优势在于,它能够根据数据本身学习出最有用、最具区分力的特征,...

2024-05-13 11:33:44 53

转载 CVPR 2024 满分论文出炉!这些方向爆火!

作为计算机视觉方向的顶级会议,CVPR可以说是目前最前沿、权威的论文了。在众多研究中,EfficientSAM这篇工作以5/5/5满分收录于CVPR 2024!就连LeCun图灵奖得主也强烈推荐了该工作!“那么,你的论文什么时候发表呢?”升学、就业的竞争越来越激烈,想要保研、申博、进大厂,没有高质量论文在手就相当于“裸奔”!尤其是这个人人惶恐又内卷的时代,想要抓住点什么来增强安全感。有一份拿得出...

2024-05-08 11:30:14 152

转载 多模态融合56个创新点汇总,找idea必看!

大家好,今天分享一个我认为未来最好发论文的方向:多模态融合。我总结了56个多模态融合的创新点,并整理了对应论文,来自ICLR2024、AAAI2024等顶会。想发论文的同学们赶快扫下方二维码下载资料合集,找到你的顶会idea!下滑查看全部56个多模态融合创新点多模态融合的渐进式融合多模态学习中的正交序列融合视听融合中多任务学习的集成框架量化半监督多模态学习中的交互基于Hypergraph的自监督多...

2024-05-06 11:30:21 46

转载 yyds!谷歌更新了transformer新架构!

Transformer模型,作为深度学习领域中的一次重大突破,为自然语言处理(NLP)领域的发展注入了新的活力。ChatGPT和Sora这两个应用便是Transformer强大能力的生动体现,它们分别将Transformer应用于对话生成和文本到视频的转换,展现了Transformer的广泛适用性和巨大潜力。我们邀请到英国某名校博士,top一区期刊最佳论文获奖者Henry老师为我们带来——引爆顶会...

2024-04-29 11:30:38 55

转载 博士生们每天科研时间是多久?

链接:https://www.zhihu.com/question/27154943编辑:深度学习与计算机视觉声明:仅做学术分享,侵删作者:森屿https://www.zhihu.com/question/27154943/answer/2541621824科研真正的投入可能并不是坐在电脑前或泡在实验室里的时间,真正区别你与他人的,是你吃饭走路都在思考某个悬而未决的问题,并遵从好奇的驱使无时无刻不...

2024-04-26 18:13:28 57

转载 最新大模型论文研究论文合集,包含谷歌/苹果/亚马逊/港大、阿里最新研究报告!...

清华团队推出 MiniCPM:利用可扩展的训练策略挖掘小模型潜力;苹果MM1大模型:30B参数,多模态,在预训练指标上达到SOTA;亚马逊提出大规模视频语言对齐方法VidLA;英伟达参与,高效视频扩散模型CMD发布;谷歌、Stability AI新研究:由文本引导生成纹理3D服装;港大、阿里新研究:只需一张图,轻松即时定制个性化照片;上海 AI Lab 新研究:将 LVLM 分辨率提升到 4K H...

2024-04-25 11:31:03 47

转载 国内 top2 高校研一在读,为什么感觉深度学习越学越懵?

链接:https://www.zhihu.com/question/429256719编辑:深度学习与计算机视觉声明:仅做学术分享,侵删大家好,题主目前国内top2研一在读,方向是AI和NLP.本科没有怎么接触过科研,这学期刚刚开始在实验室搬砖.读过的关于DL的书和资料包括:1.<neural networks and deep learning> --Michael Nielsen2...

2024-04-23 20:30:54 63

转载 最新11个SAM+医学图像创新点,冲Nature!

今天分享一个能登Nature的idea——医学图像SAM。其中,MedSAM作为首个为医学图像分割设计的基础模型在2024登上Nature。在这之后,学界也开始针对SAM在医学图像中的适应性问题进行定制化改进。目前医学图像SAM方向上能够冲顶会的idea有很多。分享我总结的11个最新SAM+医学图像改进方案,并提供了源码,方便大家复现!1.MedSAM:医学图像领域的SAM,2024登Nature...

2024-04-18 11:30:57 159

转载 为什么现在的LLM都是Decoder only的架构?

链接:https://www.zhihu.com/question/588325646编辑:深度学习与计算机视觉声明:仅做学术分享,侵删作者:匿名用户https://www.zhihu.com/question/588325646/answer/2929459138关注点应该是模型属于Autoregressive(AR)还是Non-Autoregressive(NAR)范式,选择encoder+d...

2024-04-17 19:03:12 64

转载 炸裂!最新CVPR2024、ACL2024、AAAI2024、ICML2023论文+Code大合集!

我花了3个月的时间整理了包括CVPR 2023/2024、ECCV 2023、ICML 2023、ICLR 2024/2023、NeurIPS 2023、ACL 2024、EMNLP 2023、AAAI 2024/2023、WWW 2023/2024等顶会在内的超过20000篇人工智能优质论文,今天一次性分享给大家。为了方便大家阅读,我把各大顶会的论文整理打包,按会议合集、细分方向合集整理如下:0...

2024-04-16 11:30:42 511

转载 “大模型”根基—Transformer的360篇论文大盘点

2017年,来自谷歌的几个研究员写下《Attention is All you need》的题目,给世界带来了Transformer模型架构,它成为了今天“大模型”繁荣背后无可争议的根基。 OpenAI的GPT,Meta的Llama以及一众最主流大语言模型都是在Transformer的基础上生长起来,某种程度上,今天所有AI模型层面的研究都在围绕对Transformer的掌控与超越展开。如何快...

2024-04-11 11:54:19 85

转载 工科博士毕业去高校还是去研究所?

链接:https://www.zhihu.com/question/646227949编辑:深度学习与计算机视觉声明:仅做学术分享,侵删作者:炭烧腰果Xhttps://www.zhihu.com/question/646227949/answer/3437948835我是建议去研究所或者非军工国央企(如果专业和研究方向对口的话)。高校目前博士已经过于饱和,且现在好的高校(985,211)一般只能做...

2024-04-10 18:30:21 117

转载 检测一切,分割一切,生成一切!最强计算机视觉应用——SAM

SAM无疑是当前计算机视觉领域的一项重大突破,其强大能力让人们对未来的图像处理技术充满了期待。这款应用通过深度学习技术,展现出了惊人的“检测一切、分割一切、生成一切”的能力,为图像处理和计算机视觉带来了革命性的变革。我们邀请到了大厂算法工程师,手握多个专利的侯老师带来——ICCV2023最佳论文提名——SAM,引爆CV圈!带我们探索SAM未来的发展趋势!扫码参与课程领取导师亲自整理SAM论文合集&...

2024-04-09 11:31:32 93

转载 独自一人,怒发AI顶会!

万物皆卷的时代,升学、就业的竞争越来越激烈,想要保研、申博、进大厂,没有高质量论文在手就相当于“裸奔”!尤其是这个人人惶恐又内卷的时代,想要抓住点什么来增强安全感。有一份拿得出手的成绩——发论文的数量和质量无疑是最好的背书。手握一篇甚至多篇高质量的论文,就是学术成果最好的展现,当然它也意味着未来更优质的工作和薪酬。但是论文很多人来说,是一种挑战。大部分同学的困难不是不想发,而是……1、不知该如何对...

2024-04-08 11:30:33 37

转载 【AAAI2023】利用旧知识持续学习医学图像中的新类别

论文标题: Leveraging Old Knowledge to Continually Learn New Classes in Medical Images论文链接:https://arxiv.org/abs/2303.13752代码:https://github.com/EvelynChee/LO2LN引用:Chee E, Lee M L, Hsu W. Leveraging Old Kn...

2024-04-03 19:01:37 130

原创 【AAAI2023】修饰新人:用于持续测试时域适应的视觉领域提示

论文标题:Decorate the Newcomers: Visual Domain Prompt for Continual Test Time Adaptation论文链接:https://arxiv.org/abs/2212.04145代码:https://github.com/Jo-wang/Daily-Paper-Reading/blob/main/test-time/Decorate%...

2024-04-02 19:01:42 390

原创 微调、再训练及其他:通过自定义LLM取得进步

介绍很确定你们大多数人已经使用过 ChatGPT 。太好了,因为你已经迈出了我们即将踏上的旅程的第一步!你看,当谈到掌握任何新技术时,你要做的第一件事就是使用它。这就像学习游泳的第一步是跳入水中一样。你可能听说过模型消费者、调优者和构建者(consumers, tuners, and builders)。但请稍等,我们将进一步分解它。麦肯锡将其视为他们在 GenAI Recognize 会议中提到...

2024-03-29 18:22:24 628

转载 性能突破Transformer,新架构Mamba引爆AI圈

Transformer 是现今AI 大模型的主流架构,但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显。最近,一项名为Mamba的研究似乎打破了这一局面。它是一种基于选择性状态空间的线性时间序列建模方法,可以有效地解决传统Transformer模型在处理长序列数据时面临的计算效率问题。3月27日-3月28日,我们邀请到大厂AI算法工程师,手握多个专利的Sha...

2024-03-28 11:21:09 177

原创 农业与深度学习:改善土壤和农作物产量

介绍对于许多印度人来说,农业不仅仅是一份工作;这是一种生活方式。这是他们维持生计并为印度经济做出巨大贡献的手段。确定粘土、沙子和淤泥颗粒各自比例的土壤类型对于选择合适的作物和识别杂草的生长非常重要。发现深度学习在农业中的潜力。了解土壤类型和杂草检测对印度的重要性。深度学习是一项新兴技术,在各个领域都有帮助。深度学习已广泛应用于智能农业领域,包括田间监测、田间操作、机器人技术、预测土壤、水、气候条件...

2024-03-27 18:04:07 883

原创 成功实现销售转化的 MLOps 策略

介绍在现代商业的动态格局中,机器学习和运营 (MLOps) 的交叉已经成为一股强大的力量,重塑了传统的销售转化优化方法。本文将带你了解 MLOps 策略在彻底改变销售转化成功方面所发挥的变革性作用。随着企业努力提高效率和加强客户互动,将机器学习技术集成到运营中成为焦点。这一探索揭示了创新策略,利用 MLOps 不仅可以简化销售流程,而且可以在将潜在客户转变为忠实客户方面取得前所未有的成功。加入我们...

2024-03-25 18:27:10 921

原创 简易零钱分类程序

本程序主要利用影像处理,以及影像色彩统计并加以分析的方式,对台币进行分类标记。预处理使用函数HoughCircles 来侦测圆边,其中大多数数值都需要手动调整来提高标记的正确率,进行消除噪声的前处理可以减少误判的情况。关于函数使用可参考以下官方网址:https://docs.opencv.org/master/da/d53/tutorial_py_houghcircles.htmlcv2.Houg...

2024-03-22 17:45:35 996

转载 导师放养,偷偷发了顶会。。。

最近经常收到读者的留言 : 抱怨科研真是太难了,竞争压力大,导师不给指导、不开组会,一年见不到导师几次,对于论文初稿、毕业论文毫无建议!无论什么专业的研究生,面对这样的灵魂拷问,很有可能都要陷入沉思。万物皆卷的时代,升学、就业的竞争越来越激烈,想要保研、申博、进大厂,没有高质量论文在手就相当于“裸奔”!然而,导师时常无法抽出时间指导,想写论文却无人指点……没有不想顺利毕业的科研人,只是.........

2024-03-20 11:30:45 58

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除