自动识别、切割图片等，Meta发布CV界“ChatGPT”模型SAM并开源

添加书签

AIGC开放社区
2023-04-08

专注AIGC领域的专业社区，关注GPT-4、百度文心一言、华为盘古等大语言模型（LLM）的发展和应用落地，以及国内LLM的发展和市场研究，欢迎关注！

近日，Meta AI在官网发布了基础模型 Segment Anything Model（SAM）并开源。据悉，SAM已在1100万张图片和11亿个掩码的数据集上进行了训练，具有超强的自动识别、切割功能。

识别图片元素进行切割归类是CV（计算机视觉，Computer Vision）的核心功能之一，在科学研究、日常工作中有着广泛的应用案例，但该技术对使用人员要求较高。现在通过SAM模型使得普通人也能使用CV技术，实现交互式和自动化两种切割方式。

简单来说，可以把SAM看成CV界的“ChatGPT”。这种傻瓜式操作使得没有专业AI技术背景的人，也能将CV融合在实际业务中，例如，医疗、农业、气象、天文、媒体等都非常适用于SAM基础模型。同时也能将SAM集成在应用产品中，尤其是AR、VR应用。

开源地址：https://github.com/facebookresearch/segment-anything

体验地址：https://segment-anything.com/demo

论文地址：https://arxiv.org/abs/2304.02643

SAM解读与演示

2022年Meta（Facebook母公司）的元宇宙部门Reality Labs亏损了137亿美元，2021年则亏损 102亿美元，今年3月Meta又宣布裁员1万多人。一系列不如意的窘境使得Meta不得不调整战略计划寻找新的业务增长点。

ChatGPT的横空出世并实现指数级增长，让Meta看到了生成式AI的巨大商业潜力。而Meta拥有世界上运算速度最快AI超级计算机之一的RSC，同时也有庞大的AI人才库，具备从底层硬件、模型到应用层全套研发能力。

例如，Meta在今年2月开源的类ChatGPT大语言模型LLaMA，免费面向科研人员用于技术研究。如今，又开源了SAM模型，这足以看出Meta准备在AI赛道上大展拳脚的决心。

SAM简单介绍

根据Meta AI的说法，SAM是一种主要用于图像切割的的基础模型，通过在不同数据上进行广泛的训练具备“可提示”的能力，有点类似自然语言处理模型中使用提示的方式。例如，AR、VR用户的注视行为。

SAM已经具备了解“对象”的概念，可以为任何图像、视频中的任何对象生成掩码，甚至在数据训练中没有遇到的对象和图像也可以。

生成掩码

Meta AI认为，SAM的用于非常广泛并且对图片的理解能力非常强，无论是医疗、水下等复杂图片都能快速识别。因此，SAM可以集成在任何希望识别、切割对象的应用中，尤其是AR、VR领域，在商业化落地方面拥有非常大的空间。

物体识别与切割

SAM作为一种基础模型在AI系统生态中起到“扳手”的作用，对物理世界进行多模态理解，例如，理解网页的视觉和文本内容；帮助设计者进行图片切割，然后再进行拼装组合等。

SAM切割方法介绍

以前，要解决任何类型的切割问题有两种方法。第一种是交互式切割：允许切割任何类别的对象，但需要一个人通过迭代细化掩码来指导该方法。

第二种是自动切割：允许切割提前定义的特定对象类别（例如，猫、椅子、狗等）。但需要大量的手动注释对象来进行训练（例如，数千甚至数万个切割猫的例子），连同计算资源和技术一起训练切割模型。但这两种方法都没有提供通用、全自动的切割方法。

SAM则结合了这两种方法，可轻松实现交互式和自动式切割。用户只需为SAM提供点、框、文本等，便可以完成切割任务。

此外，SAM在超过10 亿个掩码的多样化、高质量数据集上进行训练。使得SAM能够感知超出数据训练的对象和图像。简单来说，就算图片不在SAM训练范围内，它也能识别。这意味着，用户无需再收集自己的细分数据，并为用例模型进行微调。

切割演示

SAM在执行切割任务时，4中方式解读：1）SAM允许用户通过交互式点击，来切割或排除对象。也可以使用边界框提示模型。2）当SAM在切割对象出现歧义时，可以输出多个有效掩码，这是解决现实世界中切割难题的重要能力。

3）SAM可以自动发现并屏蔽图像中的所有对象。4）SAM 可以在预计算图像嵌入后实时为任何提示生成分割掩码，允许与模型进行实时交互。

为SAM提供训练的数据集——SA-1B

为了训练SAM模型，Meta AI构建了目前世界上最大的切割数据集SA-1B，包含了大约1100万张得到许可的图片和超过11亿个分割掩码，数据体量比世界第二大的OpenImages V5大了400倍。

Meta AI表示，经过人工评估研究证实，这些掩码具有高质量和多样性，在某些情况下甚至在质量上可比之前更小，可与完全手动注释的数据集的掩码相媲美。

在商业场景化落地方面，Meta AI认为，SAM作为一种基础模型，在医疗、农业、气象、天文、媒体等主流行业拥有广阔的应用空间，例如，通过SAM模型监控家畜的饲养情况。

本文素材来源Meta AI，如有侵权请联系删除

END

加入AIGC开放社区交流群

添加微信：13331022201 ，备注“职位信息&名字”

管理员审核后加入讨论群

自动识别、切割图片等，Meta发布CV界“ChatGPT”模型SAM并开源

即将举行的活动

联系我们

最新网络研讨会

推荐

AIGC开放社区

加入 AIGC开放社区

自动识别、切割图片等，Meta发布CV界“ChatGPT”模型SAM并开源

即将举行的活动

联系我们

订阅我们的免费咨讯

最新网络研讨会

推荐

AIGC开放社区

加入 AIGC开放社区