每日播报!CV不存在了?Meta发布“分割一切”AI 模型,CV或迎来GPT-3时刻
机器之心报道
机器之心编辑部
(资料图片)
CV 研究者接下来的路要怎么走?
「这下 CV 是真不存在了。
如标题所述,这篇论文只做了一件事情:(零样本)分割一切。类似 GPT-4 已经做到的「回答一切」。
Meta 表示,这是第一个致力于图像分割的基础模型。自此,CV 也走上了「做一个统一某个(某些?全部?)任务的全能模型」的道路。
在此之前,分割作为计算机视觉的核心任务,已经得到广泛应用。但是,为特定任务创建准确的分割模型通常需要技术专家进行高度专业化的工作,此外,该项任务还需要大量的领域标注数据,种种因素限制了图像分割的进一步发展。
Meta 在论文中发布的新模型名叫 Segment Anything Model (SAM) 。他们在博客中介绍说,「SAM 已经学会了关于物体的一般概念,并且它可以为任何图像或视频中的任何物体生成 mask,甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用,可以涵盖广泛的用例,并且可以在新的图像『领域』上即开即用,无需额外的训练。」在深度学习领域,这种能力通常被称为零样本迁移,这也是 GPT-4 震惊世人的一大原因。
论文地址:https://arxiv.org/abs/2304.02643
项目地址:https://github.com/facebookresearch/segment-anything
Demo 地址:https://segment-anything.com/
除了模型,Meta 还发布了一个图像注释数据集 Segment Anything 1-Billion (SA-1B),据称这是有史以来最大的分割数据集。该数据集可用于研究目的,并且 Segment Anything Model 在开放许可 (Apache 2.0) 下可用。
我们先来看看效果。如下面动图所示,SAM 能很好的自动分割图像中的所有内容:
SAM 还能根据提示词进行图像分割。例如输入 Cat 这个提示词,SAM 会在照片中的几只猫周围绘制框并实现分割:
SAM 还能用交互式点和框的方式进行提示:
此外,SAM 还能为不明确的提示生成多个有效掩码:
英伟达人工智能科学家 Jim Fan 表示:「对于 Meta 的这项研究,我认为是计算机视觉领域的 GPT-3 时刻之一。它已经了解了物体的一般概念,即使对于未知对象、不熟悉的场景(例如水下图像)和模棱两可的情况下也能进行很好的图像分割。最重要的是,模型和数据都是开源的。恕我直言,Segment-Anything 已经把所有事情(分割)都做的很好了。」
推特地址:https://twitter.com/DrJimFan/status/1643647849824161792
还有网友表示,NLP 领域的 Prompt 范式,已经开始延展到 CV 领域了,可以预想,今年这类范式在学术界将迎来一次爆发。
更是有网友表示蚌不住了,SAM 一出,CV 是真的不存在了。投稿 ICCV 的要小心了。
不过,也有人表示,该模型在生产环境下的测试并不理想。或许,这个老大难问题的解决仍需时日?
方法介绍
此前解决分割问题大致有两种方法。第一种是交互式分割,该方法允许分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法。第二种,自动分割,允许分割提前定义的特定对象类别(例如,猫或椅子),但需要大量的手动注释对象来训练(例如,数千甚至数万个分割猫的例子)。这两种方法都没有提供通用的、全自动的分割方法。
SAM 很好的概括了这两种方法。它是一个单一的模型,可以轻松地执行交互式分割和自动分割。该模型的可提示界面允许用户以灵活的方式使用它,只需为模型设计正确的提示(点击、boxes、文本等),就可以完成范围广泛的分割任务。
总而言之,这些功能使 SAM 能够泛化到新任务和新领域。这种灵活性在图像分割领域尚属首创。
Meta 表示,他们受到语言模型中提示的启发,因而其训练完成的 SAM 可以为任何提示返回有效的分割掩码,其中提示可以是前景、背景点、粗框或掩码、自由格式文本,或者说能指示图像中要分割内容的任何信息。而有效掩码的要求仅仅意味着即使提示不明确并且可能指代多个对象(例如,衬衫上的一个点可能表示衬衫或穿着它的人),输出也应该是一个合理的掩码(就如上面动图「SAM 还能为为不明确的提示生成多个有效掩码」所示)。此任务用于预训练模型并通过提示解决一般的下游分割任务。
如下图所示,在引擎盖(hood)下,图像编码器为图像生成一次性嵌入,而轻量级编码器将提示实时转换为嵌入向量。然后将这两个信息源组合在一个预测分割掩码的轻量级解码器中。在计算图像嵌入后,SAM 可以在 50 毫秒内根据网络浏览器中的任何提示生成一个分割。
在 web 浏览器中,SAM 有效地映射图像特征和一组提示嵌入以产生分割掩码
1100 万张图片,1B+ 掩码
数据集是使用 SAM 收集的。标注者使用 SAM 交互地注释图像,之后新注释的数据又反过来更新 SAM,可谓是相互促进。
使用该方法,交互式地注释一个掩码只需大约 14 秒。与之前的大规模分割数据收集工作相比,Meta 的方法比 COCO 完全手动基于多边形的掩码注释快 6.5 倍,比之前最大的数据注释工作快 2 倍,这是因为有了 SAM 模型辅助的结果。
最终的数据集超过 11 亿个分割掩码,在大约 1100 万张经过许可和隐私保护图像上收集而来。SA-1B 的掩码比任何现有的分割数据集多 400 倍,并且经人工评估研究证实,这些掩码具有高质量和多样性,在某些情况下甚至在质量上可与之前更小、完全手动注释的数据集的掩码相媲美 。
Segment Anything 对使用数据引擎收集的数百万张图像和掩码进行训练的结果,得到一个包含 10 亿个分割掩码的数据集,是以往任何分割数据集的 400 倍。
SA-1B 的图像来自跨不同地理区域和收入水平的多个国家或地区的照片提供者,在拥有更多图像的同时对所有地区的总体代表性也更好。Meta 分析了其模型在感知性别表现、感知肤色和年龄范围方面的潜在偏差,结果发现 SAM 在不同群体中的表现类似。
SA-1B 可以帮助其他研究人员训练图像分割的基础模型。Meta 也进一步希望这些数据能够成为带有附加注释的新数据集的基础,例如与每个 mask 相关的文本描述。
未来展望
通过研究和数据集共享,Meta 希望进一步加速对图像分割以及更通用图像与视频理解的研究。可提示的分割模型可以充当更大系统中的一个组件,执行分割任务。作为一种强大的工具,组合(Composition)允许以可扩展的方式使用单个模型,并有可能完成模型设计时未知的任务。
Meta 预计,与专门为一组固定任务训练的系统相比,基于 prompt 工程等技术的可组合系统设计将支持更广泛的应用。SAM 可以成为 AR、VR、内容创建、科学领域和更通用 AI 系统的强大组件。比如 SAM 可以通过 AR 眼镜识别日常物品,为用户提供提示。
SAM 还有可能在农业领域帮助农民或者协助生物学家进行研究。
未来在像素级别的图像理解与更高级别的视觉内容语义理解之间,我们将看到更紧密的耦合,进而解锁更强大的 AI 系统。
参考链接:
https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/
https://www.zhihu.com/question/593914819
标签:

每日播报!CV不存在了?Meta发布“分割一切”AI 模型,CV或迎来GPT-3时刻
2023-04-07

热消息:青海各地开展高素质农牧民培训累计培训超1.1万人(次)
2023-04-07

环球热门:恐怖十八载,回顾三上真司与《生化危机 4》的恩怨往事
2023-04-07

天天即时看!奥迪全新一代A4曝光,颜值和空间上有优势
2023-04-06

焦点热门:货币市场日报:4月6日
2023-04-06

环球资讯:300本最前沿的Python编程电子书免费下载,拿走不谢
2023-04-06

世界速读:太极实业:子公司签订2GW渔光互补发电项目光伏场区PC(二标段)合同
2023-04-06

天天新资讯:防爆PDA智能对讲手持终端可广泛应用于易燃易爆场所
2023-04-06

【世界独家】椰子水有什么营养 椰子水可以当水喝吗
2023-04-06

天天观点:清明假期北京餐饮热度再现,多家门店收获销售、客流小高峰
2023-04-06
热消息:青海各地开展高素质农牧民培训累计培训超1.1万人(次)
环球热门:恐怖十八载,回顾三上真司与《生化危机 4》的恩怨往事
天天即时看!奥迪全新一代A4曝光,颜值和空间上有优势
焦点热门:货币市场日报:4月6日
环球资讯:300本最前沿的Python编程电子书免费下载,拿走不谢
世界速读:太极实业:子公司签订2GW渔光互补发电项目光伏场区PC(二标段)合同
天天新资讯:防爆PDA智能对讲手持终端可广泛应用于易燃易爆场所
【世界独家】椰子水有什么营养 椰子水可以当水喝吗
天天观点:清明假期北京餐饮热度再现,多家门店收获销售、客流小高峰
资讯:研究:南极冰原极端后退速度可达每天600米,提速20倍
聚焦:莱昂纳德:威少让我们成为一支更好、更快的球队
环球观热点:在中国斡旋下沙特和伊朗外长在北京首次会晤
环球今日报丨河北平乡:开展“清明时节清廉行”活动
【世界独家】长岛黑山乡多措并举严抓清明节期间森林防灭火工作
天天看热讯:正式合同!海上风电施工巨头斩获大单
世界动态:美国有多少人感染新冠(美国有多少人)
今日精选:国轩高科电池3月份装车吉利熊猫mini超1.2万套
环球热议:公交专用道周末能否“共享”?专家解读
全球通讯!最低气温-8℃ 宁夏发布霜冻橙色预警
环球短讯!萨莉亚意式餐厅 恒宝广场店_关于萨莉亚意式餐厅 恒宝广场店的简介
环球快报:北京中赫国安在亚冠小组赛第五轮比赛中迎来了首尔FC的次回合较量
全球快消息!西方援乌老旧武器,德军火商嗅到商机,把武器4S店开到乌克兰边境
即时看!男生1900元买iPhone 14 Pro Max 竟然安卓系统
聚焦:五卅运动纪念碑前,致敬先烈 缅怀英雄
【环球播资讯】抢先看!复兴岛公园焕新升级
速读:江南电竞KPL今日首发:南京Hero久竞 与杭州LGD大鹅 谁将进入第三
环球资讯:“豫健”二十四节气•清明丨又是一年春草绿 梨花风起正清明
当前快讯:“莫奈花园”刷屏后出现“斑秃” 赏花变伤花?
环球信息:图片格式有哪些格式_图片格式有哪些常用的


- 环球热推荐:在北美轻松夺下票房冠军,但在中国内地却票房遇冷!
- 世界观热点:热门中概股普跌小鹏汽车跌超7%
- 天天观点:ldquo是什么意思_ldquo 咸湿佬 rdquo 是什么意思
- 全球即时看!时刻知道丨预防常见的春季传染性疾病,请收好这份健康指南!
- 【热闻】多地大动作 这项数字经济发展的核心要素或受益!机构扎堆关注这些概念股
- 全球今热点:这5种饭局,最好不要买单!
- 今日热文:航天彩虹:截止2023年3月20日,公司股东总户数为75,711户
- 精彩看点:厦门联想电脑售后服务网点_联想电脑售后服务网点
- 今日观点!石家庄海关查获走私进境琥珀饰品万余件
- 每日视讯:利柏特(605167):Q4毛利率同比提升 2023或是高增长序章
- 每日动态!值了!海港仅花20万欧引进“欧洲金靴”:3年独造76球!
- 全球新消息丨一季度宏观经济热度指数上升
- 全球即时看!襄精约线上 一起赏樊城
- 当前视点!理想汽车3月交付20823辆 同比增长88.7%
- 焦点热讯:新乡市凤泉区税务局深入企业走访调研助力企业高质量发展
- 焦点简讯:博云新材:4月3日融资买入357.66万元,融资融券余额1.99亿元
- 全球观热点:java线程的创建和管理(二)
- 即时焦点:第20届东博会新加坡巡展暨“桂品出海”今日开幕 近80家广西企业组团出海
- 天天热门:开源证券给予新泉股份买入评级
- 环球热点评!美国前总统特朗普已抵达纽约曼哈顿
- 天天新消息丨混凝土c25配合比例是多少_混凝土c25配合比
- 今日热议:我的初三生活作文800字_我的初三
- 天天最新:永和股份2022年净利3亿同比增长8.03% 董事长童建国薪酬61.53万
- 世界微头条丨【行情走势,操作建议】张彦溱:4.3今日黄金行情走势分析,欧盘修正,美盘跌,高空不变
- 世界信息:打造创新生态,临港3年引进、落户人才437万人
- 每日速递:关于幸福的文章题目_关于幸福的文章
- 环球观热点:河南商丘启动重大气象灾害(大风)Ⅳ级应急响应
- 最新资讯:211分数线:高考上211大概需要多少分
- 当前要闻:上海临港:到2025年前沿产业规上工业产值预计达到5000亿元
- 头条焦点:澄字怎么读的 澄字怎么读
- 【焦点热闻】越长大金牛座对于一个人的要求就变得越高 再去寻找喜欢的人的时候就很难
- 世界播报:华兴资本首席经济学家李宗光:2023年的A股 像极了2013年
- 焦点速递!中泰证券:给予中国中免买入评级
- 世界快播:logstash增量同步MySQL关于sql_last_value取值失败的问题
- 当前滚动:双色球第23036期晒票欣赏,人生的方向不对,正确看待彩票
- 全球热头条丨佛塑科技:公司将在2023年4月30日之前发布公司2023年一季度报告
- 每日视点!巩义市气象局发布大风蓝色预警【IV级/一般】
- 世界微资讯!泾源县气象台发布道路结冰黄色预警【III级/较重】
- 速读:预付费商家频“跑路”,消费者须短期少存看清合同
- 【全球新要闻】聚餐引发伤亡 劝酒陋习咋破
- 焦点滚动:定制公交蓟3路正式开通运营 带您领略蓟州之美
- 环球看点!广州灵活就业社保缴费价格表2023 2023广州灵活就业社保一个月要交多少?
- 世界新消息丨河池2023年3月16日星期四小雨转阴最高气温24度
- 每日时讯!首届丰台国潮艺术节今天举办第一场全园群众活动
- 世界实时:今天最新消息 台湾一男子偷拍瑜伽课女教师 被判拘50天
- 当前时讯:西兰花做法大全菜谱_西兰花做法
- 今日要闻!微星魔影15性能实测:性能强悍的高颜值游戏本新贵!
- 天天热头条丨厚衣服先别急着收起!清明节还有冷空气要来
- 环球今亮点!“狙击”肿瘤精准至0.1毫米,广东第三套机器人智慧放射治疗系统启用
- 环球视点!真实模拟职场环境,上海首个大学生求职能力实训营正式开营