自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

人工智能研究所的博客

专注人工智能领域分享

  • 博客(154)
  • 收藏
  • 关注

原创 开发者都在使用的OpenCV FFT傅里叶检测上传到服务器上的模糊图片

以上函数便是完整的图片模糊检测的全部代码,中间的FFT变换,若感兴趣的可以好好学习一下高等数学的基础知识,有了此函数,我们传入需要检测的图片,便可以进行图片的检测了。首先我们传入需要进行检测的图片,进行图片的resize,然后cv2.cvtColor把图片转入灰度空间,便于计算,使用先前建立的函数,进行图片的检测,等待返回结果。通过分析这些值,我们可以执行图像处理例程,例如模糊,边缘检测,阈值化,纹理分析,甚至可以进行模。然后,我们将结果的零频率分量(DC分量)移到中心,以便于后期数据分析。

2024-05-17 18:19:08 830

原创 YOLO对象检测模型更新无止境—— YOLOv9模型会不会是最终版本

自从yolov系列模型发布以来,平均按照每年更新一次的版本来更新yolov系列模型,但是yolo的作者已经参与其系列模型的更新了,而后期的模型更新都是不同的团队在yolo系列模型上来更新,只是大家按照一个约定俗成的做法,在前任的基础上,更新YOLO系列的版本号。

2024-05-17 18:14:54 104

原创 用于对象检测的OpenCV选择性搜索,是否可以代替YOLOV3算法

“选择性搜索”试图将超像素合并在一起,以找到可能包含对象的图像区域选择性搜索基于五个关键的相似度以分层方式合并超像素:

2024-05-11 10:30:08 10

原创 本地安装llama-3大模型,无需联网即可跟AI大模型聊天

Llama 3是Meta AI开源的第三代Llama系列模型,其新的 8B 和 70B 参数 Llama 3 模型在Llama 2的基础上,实现了更大性能的提升。由于预训练和训练后的技术改进,其Llama 3模型是当今 8B 和 70B 参数规模的最佳模型。Llama 3模型的改进大大降低了错误拒绝率,改善了一致性,并增加了模型响应的多样性。Llama 3模型在推理、代码生成和指令跟踪等功能也得到了极大的改善。而未来更大的4000亿参数大模型还在继续训练中。其Llama 3大模型可以直接在Meta AI官网

2024-05-11 10:18:10 26

原创 Streamlit 已经强大到如此地步,可以完全代替flask吗?

Streamlit是第一个专门针对机器学习和数据科学团队的应用开发框架,它是开发自定义机器学习工具的最快的方法,你可以认为 它的目标是取代Flask在机器学习项目中的地位,可以帮助机器学习开发者工程师快速开发用户交互工具,streamlit主要引用了如下第三方库,从如下引用的第三方库可以看出streamlit的强大

2024-04-30 18:15:41 898

原创 鼓吹开源无前途,Meta却开源了Llama 3模型,无需注册在线即可使用

Meta AI一直是人工智能领域开源领域的领导者,一边是OpenAI鼓吹闭源才是人工智能大模型的未来,但是Meta AI却开源了自己的Llama 3大模型,且Llama 3开源模型支持80亿与700亿参数,而未来更大的4000亿参数大模型还在继续训练中。其Llama 3大模型可以直接在Meta AI官网直接使用,且支持无需注册登陆即可使用,简直是开箱即用。

2024-04-30 18:04:35 598 2

原创 服务器上网友上传重复图片太多,几步操作检测重复图片并删除

电脑中重复图片很多,不删吧,占用电脑资源,删除吧,一个一个的找,很是麻烦。还好我们会python,毕竟python号称是世界上无所不能的编程语言(这里请不要讨论谁是世界上最好的编程语言)

2024-04-15 19:06:09 40

原创 7年来Google首次更新transformer框架,性能提升50%

虽然很多人对transformer模型并不太熟悉,但是要是提起ChatGPT,Sora文生视频,Google Gemini等大语言模型,也许会有很多人了解。岂不知这些大模型的主干都是由transformer模型框架构成,而transformer模型最核心的便是注意力机制了。

2024-04-15 19:02:28 1114

原创 Tesseract文字识别工具,可以本地直接运行

pytesseract 是python下的的文字识别库,但是pytesseract的运行,需要tesseract的软件,所以仍然需要安装esseract。这里是小编踩到的第一个坑。想着直接安装pytesseract,就可以运行图片识别。

2024-04-10 21:25:49 41

原创 字节发布AnimateDiff-Lightning文生视频模型——可在线免费试玩

字节发布的另外一个文生视频模型AnimateDiff-Lightning,其AnimateDiff-Lightning模型已经上线到hugging face,任何人都可以直接在线试玩。

2024-04-10 21:05:47 937

原创 使用LobeChat打造属于自己的聊天机器人界面——可本地运行部署

当然我们可以使用cmd终端窗口里面跟llama2大模型进行沟通交流,但是其界面只有一个黑色的框,并不美观。本期我们就介绍一下Lobe Chat,一个漂亮的UI可视化界面。

2024-04-03 12:30:00 214

原创 玩转人脸特效,就使用这些有趣的人脸镜像功能

人脸特效,现在很多app都有类似的功能,包括人脸美白,人脸瘦脸以及抖音上的人脸镜像视频等等,本期介绍几个人脸的镜像功能

2024-03-27 20:54:39 42

原创 本地部署Llama2,Gemma,Mistral等大语言开源模型

Llama2,Gemma,Mistral等大语言开源模型都开源免费给大家使用,但是基于这些模型的使用都要操作一堆代码,操作之繁琐。本期我们就基于ollama一键安装各大开源模型,且可以本地部署使用。告别繁琐的代码编程,不用联网,本地使用大语言模型。

2024-03-27 20:50:51 686

原创 微信小程序与云服务器沟通,学会这2招,你可以拥有自己的小程序

上期文章我们分享了如何使用Python+Flask+Tornado+Nginx部署自己的web服务器,待我们部署完自己的小程序后,如何使用微信开发,或者头条开发自己的小程序?小程序如何跟服务费打交道,本期文章带你看http 的get 与post 方法

2024-03-25 09:24:33 1025

原创 Anthropic发布Claude-3大模型,真实体验来评价是否超越GPT-4

Anthropic AI发布了Claude 3大模型,一共发布了三个版本的模型,分别是Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus,其中Claude 3 Opus是最大的模型,更加智能,但是API价格就越高。其Claude模型与GPT系列模型一样,是闭源的模型,若需要使用,需要购买API服务。若想使用免费的版本,可以使用Mistral Large大模型​

2024-03-25 09:15:50 955

原创 如何给视频实时添加马赛克,这个小技巧颠覆你的想象

上期文章,我们分享了如何给图片添加马赛克,但是很多时候,我们需要给视频添加马赛克。当然你能想到的是通过后期软件处理的方法来进行,本文教你使用简单的几行代码便可以很方便的给视频添加马赛克

2024-03-19 20:45:05 51

原创 Mistral Large大模型发布,性能直逼GPT-4,可免费在线使用

而Mistral Large大模型发布是Mistral AI社区发布的最大版本的大模型。这是Mistral AI社区最新、最先进的语言模型。 Mistral Large 大模型可直接通过 Le chat平台链接进行访问。Mistral Large 是Mistral AI社区最新的文本生成模型。它达到了顶级的推理能力。它可用于复杂的多语言推理任务,包括文本理解、转换和代码生成等任务上。

2024-03-19 20:37:56 595

原创 OpenAI Translator,无需任何代码,就可以在本地运行大模型

OpenAI Translator从名字可以看出来,这个可视化界面程序是一个基于OpenAI的ChatGPT开发的一款翻译软件,但是随着软件的不断升级迭代,其软件不仅可以直接ChatGPT,还可以使用其他开源的大模型。

2024-03-13 12:15:00 172

原创 自媒体创业,不愿意出镜,人工智能来帮你避免露脸的尴尬

本文利用人工智能技术,给图片或者视频添加马赛克,避免自己出镜的尴尬,再也不用担心朋友圈屏蔽老爸老妈了。

2024-03-13 07:00:00 152

原创 谷歌新一代Gemini 1.5多模态模型, 最长可达100万token上下文窗口

其Gemini模型是一个多模态模型,不仅可以支持文字输入,还支持图片输入。而在Gemini ultra发布不久,Gemini 1.5大模型也相继发布。Gemini 1.5在多个维度上都有了显著的改进,并且Gemini 1.5 Pro 实现了与Gemini 1.0 Ultra 相当的质量,但是Gemini 1.5大大降低了运算。

2024-03-04 21:54:32 830

原创 自媒体创业,不愿意出镜,人工智能来帮你自动添加马赛克

本文利用人工智能技术,给图片或者视频添加马赛克,避免自己出镜的尴尬,再也不用担心朋友圈屏蔽老爸老妈了。

2024-02-26 09:27:39 76

原创 Google发布开源Gemma LLM大语言模型,效果超越LIama-2

Gemma是Google开源的第一个大语言模型,其有了Gemini大模型的经验,开源的Gemma大语言模型,其性能在很多数据集上面远远超越了LIama-2大模型。Gemma采用了Gemini 模型相同的研究和技术。 除了模型权重之外,Google还发布了工具来支持开发人员创新、使用 Gemma 模型。

2024-02-26 09:17:58 88

原创 OpenAI 发布文生视频Sora大模型,一句话便可生成长达一分钟的视频

文生视频大模型必然会成为各个人工智能大厂竞争的核心领地,这不OpenAI刚刚发布了其自家的文生视频大模型Sora。

2024-02-19 10:21:29 1009

原创 opencv深度学习人工智能技术打假抖音“伪娘“之性别实时检测

抖音的美颜功能强大到能把男人变成伪娘,甚至还有年轻小伙刷礼物,疯狂追求,殊不知,你追求的大美女在生活中却是一个油腻大叔。本期文章带你如何使用人工智能技术打假抖音伪娘

2024-02-10 13:45:07 92 2

原创 Stable Video Diffusion图片转视频——Stability AI开源视频模型

​我们前期介绍过Stable Diffusion,stable diffusion模型是Stability AI开源的一个text-to-image的扩散模型,其模型在速度与质量上面有了质的突破,玩家们可以在自己消费级GPU上面来运行此模型。

2024-02-10 13:41:14 581

原创 人工智能opencv 使用深度学习进行人脸性别的检测

前期的文章我们分享了人脸的识别以及如何进行人脸数据的训练,本期文章我们结合人脸识别的模型进行人脸性别的检测

2024-01-26 17:16:23 398

原创 字节发布MagicVideo2文本生成视频模型,一句话便可生成动态视频

文生图大模型已经火了很长一段时间了,而随着技术与模型算法的不断提升,文生视频模型也越来越多。今天就介绍一下字节跳动发布的MagicVideo-V2文生视频大模型。

2024-01-26 17:08:43 1528

原创 使用深度学习opencv 进行人脸年龄的实时检测

为了神经网络的快速计算,我们把图片resize一下frame = cv2.resize(frame, (400*600)),获取一个小尺寸的图片,(400*600)这里是指的图片的尺寸(宽400,长600)capture = cv2.VideoCapture() 这行代码便打开电脑配置的默认摄像头,当打开后,稍微延时,等待摄像头的打开,摄像头打开后,便可以获取视频帧的图片。文章中提供的模型,年龄检测是一个阶段的检测,若想得到更精确的年龄检测,需要大量的数据进行计算训练。模型进行人脸年龄的实时检测。

2024-01-23 18:33:38 81

原创 Mistral AI社区发布SMoE混合专家模型Mixtral 8x7B性能超越ChatGPT

Mistral AI社区发布了Mixtral 8x7B混合专家模型。这是一种具有开放权重的高质量稀疏专家混合模型 (SMoE)。 根据 Apache 2.0 许可。 Mixtral 在大多数基准测试中都优于 Llama 2 70B模型,推理速度提高了 6 倍。 特别是,它在大多数标准基准测试中优于 GPT3.5。

2024-01-23 18:29:49 68

原创 Python+Flask+Tornado+Nginx服务器部署解决方案

上期文章,我们分享了flask的简单入门,哪里我们的代码都是运行在本机上面。flask作为一个web服务器,最后当然要部署在云服务器上

2024-01-22 19:27:13 895

原创 opencv 使用深度学习进行人脸年龄的检测

前期的文章我们分享了人脸的识别以及如何进行人脸数据的训练,本期文章我们结合人脸识别的模型进行人脸年龄的检测

2024-01-16 18:48:24 95

原创 字节发布Coze GPTs,可免费体验GPT-4与DALL3绘画模型

open AI发布ChatGPT以来,很多基于ChatGPT好玩的应用也随之而来。而OpenAI也发布了自己的GPT store。他允许任何人基于ChatGPT开发自己的应用并上传到GPT store里面。而字节基于发布的coze,可以让没有API的小伙伴免费使用GPT-4以及DELL-3等模型。

2024-01-16 18:44:17 255

原创 flask web服务器:运行在云服务器上的最简单的web服务器

上期文章我们分享了flask的基础知识以及如何安装flask,当你安装完成flask后,我们就可以打造自己的web服务器了。

2024-01-12 18:27:17 869

原创 AnyText多语言文字生成与编辑模型——让AI绘图自由添加精美文字

随着AIGC的爆火,图片生成技术得到飞速发展,当前AI生成的图片已达到真假难辨的高保真度。例如stable diffusion与midjourney为代表的文生图大模型。不过,当合成图片中出现文字内容时,现存的AI技术依然无法驾驭文字内容。因此,modescope提出了一种新型的文字生成方法,此方法称之为AnyTex。AnyTex可以支持中文、英语、日语、韩语等多语言的文字生成,还支持对输入图片中的文字内容进行编辑。

2024-01-12 18:21:46 276

原创 图片分分钟变视频,阿里AnimateAnyone让全民跳科目三

但是AI时代一直被静态的图片或者文字霸占,是否可以进军视频领域,一直是各大模型竞争的热点,本期我们就介绍一下阿里巴巴发布的AnimateAnyone算法,可以利用一张图片与一个动态模板视频,生产对应的图片视频。

2024-01-05 07:00:00 567

原创 flask python web开发的简单易学框架

Flask 是一个微型的 Python 开发的 Web 框架,基于Werkzeug WSGI工具箱和Jinja2 模板引擎。 Flask使用BSD授权。

2024-01-02 18:59:00 757

原创 基于mediapipe的人体姿态估计模型——没有GPU依然速度飞起

基于mediapipe的人体姿态检测模型,可以检测图片或者视频流中的人体姿态检测,最重要的是可以在CPU上面快速运行,且可以运行在移动终端设备上,大大提高了模型的使用。

2024-01-02 18:54:47 500

原创 keras 人工智能之VGGNet神经网络的图片识别

上期文章我们分享了如何使用VGGNet CNN网络结构搭建一个图片识别网络,以及训练了神经网络模型,利用上期训练好的神经模型,可以进行我们的图片识别

2023-12-27 18:17:40 385

原创 keras 人工智能之VGGNet神经网络的图片识别训练

本期我们基于VGGNet神经网络来进行图片的识别,且增加图片的识别种类,当然你也可以增加更多的种类,本期代码跟往期代码有很大的相识处,可以参考。

2023-12-25 18:10:26 397

原创 Mamba线性时间序列框架超越Transformer模型?注意力机制如何翻身

是否Mamba未来会代替transformer,这个问题其实需要看不同的任务,也需要看不同的数据集,毕竟transformer模型以及统一了很多模型框架,包含NLP任务,CV计算机视觉任务,时间序列任务,基因工程等相关任务都是transformer相关模型框架,其大名鼎鼎的ChatGPT也是transformer模型。Mamba模型采用门控MLP单元,并与归一化残差连接组成新的Mamba基础模型,并使用此模型搭建整体的Mamba模型,整个模型框架并未采用transformer模型的注意力机制。

2023-12-25 18:05:48 1330

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除