sam_vit_h_4b8939模型说明


📘 模型说明卡:sam_vit_h_4b8939.pth

模型名称:Segment Anything Model - ViT-Huge
文件名sam_vit_h_4b8939.pth
发布者:Meta AI
发布平台:Hugging Face
许可证Apache-2.0


🧠 简介

sam_vit_h_4b8939.pth 是 Meta AI 发布的 Segment Anything Model (SAM) 的最强版本,采用 ViT-H(Vision Transformer Huge)作为图像编码器,具备极高的零样本分割能力。

该模型支持基于提示的交互式分割:你可以提供“点、框、掩码”作为提示,它会高质量地生成目标区域的掩码。它也可在无需提示的自动模式下生成整张图的所有对象掩码。


🏗️ 模型结构组成

SAM 包括以下四个模块:

  1. VisionEncoder(ViT-H):主干特征提取器,对整张图像进行 patch 编码。

  2. PromptEncoder:处理用户输入的提示(如点、框等)。

  3. MaskDecoder(双向 Transformer):将提示和图像信息交互融合,生成多层 mask。

  4. Neck:对 mask decoder 的输出进行进一步处理,输出最终掩码图。


📦 模型下载链接(使用 HuggingFace 镜像):

wget -O sam_vit_h_4b8939.pth "https://hf-mirror.com/HCMUE-Research/SAM-vit-h/resolve/main/sam_vit_h_4b8939.pth?download=true"

📊 模型参数

项目
模型类型Promptable Image Segmentation
主干网络ViT-Huge
参数数量641M
权重格式PyTorch .pth
数据集SA-1B:1.1B Masks,11M 图像(全部人工审查 / SFW)
训练任务Prompt → Mask 映射,支持点、框、掩码作为 prompt

🚀 使用方式(HuggingFace Transformers 示例)

from PIL import Image
import requests
from transformers import SamModel, SamProcessor

model = SamModel.from_pretrained("facebook/sam-vit-huge").to("cuda")
processor = SamProcessor.from_pretrained("facebook/sam-vit-huge")

img_url = "https://huggingface.co/ybelkada/segment-anything/resolve/main/assets/car.png"
raw_image = Image.open(requests.get(img_url, stream=True).raw).convert("RGB")

input_points = [[[450, 600]]]  # 例如:目标窗口的一个点

inputs = processor(raw_image, input_points=input_points, return_tensors="pt").to("cuda")
outputs = model(**inputs)

masks = processor.image_processor.post_process_masks(
    outputs.pred_masks.cpu(),
    inputs["original_sizes"].cpu(),
    inputs["reshaped_input_sizes"].cpu()
)

🧪 自动掩码生成示例(Zero-shot 模式)

from transformers import pipeline
generator = pipeline("mask-generation", model="facebook/sam-vit-huge", device=0)

outputs = generator("your_image_path.jpg", points_per_batch=256)

🎯 应用场景

  • 高精度目标分割(医学图像、工业检测)

  • 图像标注工具(配合 Gradio / ComfyUI 等)

  • 自然图像中全图对象分割(无需标注)

  • 与 LoRA、ControlNet 等组合进行提示式增强


📝 模型引用(BibTeX)

@article{kirillov2023segany,
  title={Segment Anything},
  author={Kirillov, Alexander and Mintun, Eric and Ravi, Nikhila and Mao, Hanzi and Rolland, Chloe and Gustafson, Laura and Xiao, Tete and Whitehead, Spencer and Berg, Alexander C. and Lo, Wan-Yen and Doll{\'a}r, Piotr and Girshick, Ross},
  journal={arXiv:2304.02643},
  year={2023}
}

📁 推荐存放路径(ComfyUI 用户)

/ComfyUI/models/sam/sam_vit_h_4b8939.pth

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CCSBRIDGE

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值