如今,CV(计算机视觉)迎来了它的GPT时刻!(也可以称之为iPhone时刻)
Facebook母公司Meta最新发布了一篇图像分割论文 Segment Anything,顺便发布全球首个图像分割AI大模型SAM,可快速分离图像中物体。
Meta在官网中提供了SAM的免费演示,并为用户提供了三种分割图像部分的方法。
一是“悬停和点击(Hover&Click)”,当用户把鼠标放在想要分割出的部分上并点击时,SAM会自动提取出该部分。
另外,SAM的可提示设计使其能够与其他系统灵活整合。
SAM可以接受来自其他系统的输入提示,例如在AR/VR头盔中可以根据用户的目光来选择一个物体。
Meta之所以这样做,是因为他们从自然语言处理领域汲取了灵感。
在自然语言处理和计算机视觉领域,基础模型是其发展的重要基础,基础模型可以使用prompting技术对新数据集和任务执行零样本和少样本学习。
具体到SAM中,研究人员训练的SAM可以针对任何提示返回有效的分割掩码。提示可以是前景、背景点、粗框或掩码、自由格式文本,或者说能指示图像中要分割内容的任何信息。
有效掩码的要求仅仅意味着即使在提示模糊且可能指代多个对象的情况下(例如,衬衫上的一个点可能表示衬衫或者穿衬衫的人) ,输出应该是其中一个对象的合理掩码。(SAM 还能为为不明确的提示生成多个有效掩码)
在 Web 浏览器中,SAM 有效地映射图像特征和一组提示嵌入以生成分割掩码
在引擎盖下,一个图像编码器为图像产生一个一次性的嵌入,而一个轻量级编码器将任何提示实时转换为嵌入矢量。这两个信息源然后在一个预测分割掩码的轻量级解码器中结合起来。
在计算出图像嵌入后,SAM可以在短短50毫秒内产生一个分段,并在网络浏览器中给出任何提示。
除了发布的新模型,Meta还发布了迄今为止最大的分割数据集SA-1B。
这些数据是用SAM收集的,而且注释者使用SAM对图像进行交互式注释,然后新注释的数据被用来反过来更新SAM。通过不断重复,以迭代改进模型和数据集。
点这里关注我,记得标星哦~
相关文章
猜你喜欢