【环球播资讯】CV圈又炸了?扎克伯格高调官宣Meta视觉大模型,分割检索无所不能

聚焦 >
腾讯网
分享


(资料图片仅供参考)

新智元报道  

编辑:桃子 拉燕  

【新智元导读】Meta在CV领域又放了个大的!自监督+无需微调,计算机视觉又要不存在了?

继「分割一切」后,Meta再发DINOv2。

这还是小扎亲自官宣,Meta在CV领域又一重量级开源项目。

小扎也是高调表示,Meta一直致力于开源各种AI工具,而今天发布的DINOv2更是SOTA级别的模型。能在深度估计、语义分割、图像相似性比较等方面实现自监督训练。

小扎表示,用这个模型可以借助卫星图像生成不同大洲的森林高度。而在未来,还可以帮助医学成像、粮食产量等方面。

当然,最后小扎还不忘了自己的主打——元宇宙。他认为,DINOv2可以极大地加持元宇宙的建设,让用户在元宇宙中的沉浸体验更出色。

网友高声大呼,「计算机视觉再一次不存在了!」

效果演示

Meta在官网上放出了深度估计、语义分割和实例检索的案例。

深度估计:

对于不熟悉计算机视觉的朋友来讲,深度估计(Depth Estimation)可能是一个比较陌生的词汇。但其实,只要理解了其应用场景就能明白是什么意思了。

简单来说,对于2D照片,因为图像是一个平面,所以在3D重建时,照片中每一个点距离拍摄源的距离就至关重要。

这就是深度估计的意义。

右侧的图片中,相同的颜色代表距离拍摄点距离相同,颜色越浅距离越近。这样子整个图片的纵深就出来了。

再来看几组例子:

语义分割:

语义分割的含义比较简单。从字面上看,语义这个词在不同的语境下含义也不同。比如说,在语音识别领域,语义指的就是语音内容。而在图像领域,指的就是图片内容。

分割就是把一张图片中不同的部分用颜色标明,这样就清楚各部分之间的划分了。

有点像小时候玩过的涂鸦画本,在空白的轮廓图上给不同的部分上色。

当然还是有区别的,画本中同一部分我们也可以用不同的颜色来装饰。

如上图中,桥是一种颜色,河水是一种颜色,草地是一种颜色,远处的树又是一种颜色。

更多示例:

实例检索:

这个就更好理解了。上传图片到模型中,就可以从有茫茫多图片的库中找到类似的图片。

上图中的埃菲尔铁塔就是输入的图片,模型随后检索出了大量同题材的图片,风格各异。

DINOv2

论文地址:https://arxiv.org/pdf/2304.07193.pdf

看完了SOTA级别的演示,接下来我们来看一看藏在背后的技术突破。

要知道,自然语言处理中对大量数据进行模型预训练的突破,为计算机视觉中类似的基础模型开辟了道路。

这些模型可以通过产生多种用途的视觉特征,大大简化任何系统中的图像使用,无需微调就能在不同的图像分布和任务中发挥作用的特征。

这项工作表明,现有的预训练方法,特别是自监督方法,如果在来自不同来源的足够的数据上进行训练,就可以产生这样的效果。

Meta的研究人员重新审视了现有的方法,并结合不同的技术,在数据和模型的大小上扩展我们的预训练。

大多数技术贡献的是加速和稳定规模化的训练。在数据方面,Meta提出了一个自动管道,目的是建立一个专门的、多样化的、经过整理的图像数据集,而不是像自监督文献中通常所做的那样,建立未经整理的数据。

而在模型方面,研究人员用1B的参数训练了一个ViT模型,并将其提炼成一系列较小的模型,这些模型在大多数图像和像素级别上超过了现有的OpenCLIP在图像和像素层面上的基准。

与学习任务无关的预训练表征已经成为自然语言处理(NLP)的标准。人们可以照搬这些特征,不用进行微调,并在下游任务中取得了明显优于特定任务模型产生的性能。

这种成功被大量原始文本预训练所推动,如语言建模或单词向量,而不需要监督。

在NLP的这种范式转变之后,研究人员预计,计算机视觉中会出现类似的基础模型。这些模型能产生在任何任务中都能发挥作用的视觉特征。在图像层面,有图像分类,而在像素层面,则有分割(如上例)。

对这些基础模型的大多数努力都集中在文本指导的预训练上,即使用一种文本监督的形式来指导特征训练。这种形式的文本指导的预训练限制了可以保留的关于有关图像的信息,因为标题只包含图像中的表层信息,而复杂的像素级信息可能不会体现。

此外,这些图像编码器需要一一对应的文本&图像语料库。文本指导的预训练的一个替代方法,是自我监督学习,其特征是单独从图像中学习。这些方法在概念上更接近于语言建模等任务,并且可以在图像和像素层面上捕捉信息。

然而,自我监督学习的大部分进展都是在小型策划数据集ImageNet1k上进行预训练的。一些关于将这些方法扩展到ImageNet-1k之外的努力已经被尝试过了,但他们的特点是,专注于未经整理的数据集,导致特征的质量大幅下降。

这是因为缺乏对数据质量和多样性的控制。

Meta的研究人员关注的问题是,如果在大量的策划过的数据上进行预训练自我监督学习,是否有潜力学习所有的视觉特征。他们重新审视了现有的在图像和斑块层面学习特征的鉴别性自监督方法,如iBOT,Meta的研究人员在更大的数据集下重新考虑了iBOT的一些选择。

Meta的大部分技术贡献都集中在针对模型和数据规模扩大时的稳定和加速判别性自我监督学习等方面。这些改进使新方法比类似的鉴别性自我监督方法快2倍左右,所需的内存少3倍,这样就能利用更大的批次规模进行更长时间的训练。

关于预训练数据,研究人员建立了一个模型来过滤和重新平衡包含大量未处理的图像的数据集。灵感来自于NLP中使用的办法,使用了数据相似性而非外部元数据,且不需要手动注释。

在这项工作中,一个简单的聚类方法能出色地解决这个问题。

Meta的研究人员收集了一个由1.42亿张图片组成的多样化的语料库来验证此办法。最终提供了各种预训练的视觉模型,称为DINOv2,也就是今天我们介绍的主角。

Meta也是发布了所有的模型和代码,以便在任何数据上都可以重新训练DINOv2。

研究人员在各类计算机视觉的基准上验证DINOv2的能力,并在图像和像素层面上,还对其进行了扩展,如下图。

网友:这才是「Open」AI

DINOv2发布后,网友们也是一致好评。

「计算机视觉基础模型正在取得令人难以置信的快速进展。类似于在大规模数据和模型上的自我监督学习所推动的LLMs。感谢Meta开源DINOv2和SAM--对于~~90%的普通领域任务来说,这些模型的能力越来越强,基本上不需要微调。」

「SAM+DINO,在农业方面上应用太强了。」

「Meta 才是真正的「Open」AI 公司 !」

参考资料:

https://www.maginative.com/article/meta-ai-unveils-dinov2-a-game-changer-in-self-supervised-vision-transformer-models

https://github.com/facebookresearch/dinov2

标签:

THE END
广告、内容合作请点击这里 寻求合作
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代表中国财投网的观点和立场。

相关热点

资讯播报

【环球播资讯】CV圈又炸了?扎克伯格高调官宣Meta视觉大模型,分割检索无所不能
华为Mate 60秋季发布、将首发鸿蒙4.0、集成AI技术
云南锗业:公司2022年度研发投入中资本化研发投入占研发投入的51.17%
焦点信息:可提供回迁房447户 海口江东新区瑞祥园主体结构全面封顶
当前报道:今日头条诉今日油条侵权索赔200万被驳回!案件进入二审
每日看点!西藏珠峰:围绕着“一体两域”发展战略,公司已经确立了“到2025年的中期发展目标”,未来主要的业绩体现在中亚的有色金属矿山开发业务和南美的盐湖提锂项目
当前速看:劲嘉股份:公司投资的珠海芯褀科技合伙企业(有限合伙)对先导薄膜材料有限公司进行了投资
环球热消息:安踏拟配售1.19亿股新股,筹资约118亿港元
好好过足春天的瘾,斯凯奇举办CITY WALK城市漫游行走活动
江苏睢宁一河道发现千年古墓?官方:有待鉴定,暂未出土文物
全球今热点:中网公司携手屹立集团 共建青少年优质人才选培基地
天天报道:玉玑子歌曲_玉玑子
世界看点:@杨浦人,购车优惠活动多多!赶紧看过来~
当前速看:“智”与“勇”的对决!
让红色故事和城市记忆,走进孩子们的课后生活
每日动态!盔犀鸟头骨鉴别 盔犀鸟
我睡不着胸口闷脑壳有点晕_睡不着胸口闷脑壳有点昏怎么回事
全球微动态丨小学生学习计划_小学生学习计划范文
全球快资讯:网贷逾期无力偿还怎么处理?探讨如何处理网贷逾期?
水痘疫苗几岁打_水痘疫苗需要打几次
gta5闪退回桌面(gta5闪退)
【全球热闻】南宁扶绥票价3元起!广西首条跨市公交18日开通
环球观察:4月21日起,广西新一轮明显降雨过程又将开启
肠胃不好怎么办总是有点肚子痛_肠胃不好怎么办
【全球报资讯】踏青赏花看表演,青秀山“三月三”系列活动抢先看
【4.27课程预告】彭湃:光学膜配方称重计量解决方案及应用案例
世界快看点丨金刚石功率半导体:电力损失为硅的1/50000,期待用于人造卫星
环球速讯:7种人不宜接种新冠疫苗_7z
焦点日报:自驾汕头南澳(自驾汕头南澳要核酸吗)
每日观点:爱奇艺如何取消自动续费的_爱奇艺如何取消自动续费
百亚股份(003006.SZ):2022年度权益分派10派3元 股权登记日为4月25日
全球观察:国泰集团(603977.SH):2022年净利润同比下降40.13% 拟10派0.8元
ipad怎么下载微信_ipad怎么下载微信
焦点速讯:专访:中国将帮助备受冲击的全球经济恢复活力——访经合组织中国政策研究室主任玛吉特·莫尔纳
奈雪的茶(02150.HK)一季度净新增38间奈雪的茶茶饮店
全球滚动:生活成本持续上涨 促使英国人重返工作岗位
16岁非裔少年按错门铃遭枪击 美国数百人抗议游行
兴胜创建(00896):陈繁昌获委任为独立非执行董事
美研究:贫困是美国人第四大死因
今日关注:美国8名警察开枪94次击毙非裔男子 大陪审团:不起诉
消息!韩日寻求沟通解决2018年舰机矛盾
世界快资讯:大众将投资10亿欧元在合肥建电动汽车研发及采购中心,目标加快产品上市时间
当前快看:战争歌词完整版原唱_战争歌词
天天微动态丨山鹰国际收上交所监管工作函,涉控股股东增持承诺延期事项
威唐工业:集中式储能用电池箱体总成项目已批量供货
双林股份:2022年年度业绩说明会定于2023年4月21日举行
焦点短讯!内蒙一机:2022年第一季度业绩说明会定于2023年4月26日举行
【世界新视野】疫情红利过后业绩暴跌 “手套茅”英科医疗欲靠花式营销破局?
稳定收益率+贷款机遇 私募股权与信贷获机构投资者青睐
环球信息:渡海登陆并不是一件很简单的事。
拜登夫人发与岸田夫人在白宫“植樱花树”照片,被质疑是“摆拍”
慢性直肠炎吃什么药效果最好_直肠炎吃什么药
传说中的全新Hi4技术首次落地,长城汽车打破合资品牌混动技术天花板!
焦点滚动:信贷紧缩与衰退预期急剧升温!华尔街最准策略师:极度悲观=风险资产反转信号
【全球快播报】河池市宜州区2023年“壮族三月三”系列活动安排来了
痔疮塞回去要多深为好?
环江:唱响“柳浪咧”乐嗨“三月三”
世界即时看!最新!广西四个设区市发布一批人事任免信息
新冠感染时期恐惧焦虑身体会出现哪些异常表现
珍酒李渡IPO蓄势待发,多品牌战略能否为其提供持续增长势能?
憨鼠网找家具 憨鼠网
世界聚焦:相比疫前 超市罐头加价逾三成
【快播报】一直咳嗽咳痰是怎么回事
上海启动生物医药产业投资促进伙伴计划 2023年产业规模目标超过9000亿
广西检察机关依法对梁志军决定逮捕
全球热门:厄瓜多尔在加拉帕戈斯群岛发现新珊瑚礁
全球信息:青甘川滇四省联动报道|黑颈鹤之旅 生态美之路
能源重地山西孝义邀客投资兴业 “拥抱”绿色发展
焦点滚动:国家统计局:当前中国经济没有出现通缩
全球焦点!于正否认借钱给张继科,自嘲是铁公鸡一毛不拔,还说赚钱非常辛苦
赛场内外都要赢的“全能运动员”,王濛的人生不只有速滑
世界实时:盗用CDN流量类黑产适用破坏计算机信息系统罪更加贴切
天天热点!窦骁迎娶何超莲被调侃和奚梦瑶“顶峰相见”,女方早已澄清公开二人关系
环球播报:如何制作 3D 工艺泡沫喙
天天简讯:一季度财政收入回稳向上 财政支出保持较高强度
一季度航空客运需求快速恢复 旅客运输量同比增长68.9%
世界即时看!结构性复苏?旅游及酒店板块持续调整
天天即时:中央财政向实际种粮农民发放100亿元补贴资金 统筹支持春耕生产
全球今热点:新武商MALL迎全国首秀
AI出题,外语教育专家在汉热议外语双创
全球简讯:蒙克:追梦的举动激励了我们 这就是追梦&我没什么好说的
环球快报:香港2月商品整体出口及进口货量分别同比下跌11.8%及6.5%
今亮点!2023年全国“新时代好少年”推荐名单和广西“新时代好少年”名单公示
今日热文:国信期货20230418日报:金银震荡回调,油价小幅回调,纯碱震荡运行
专家学者共话信息资源管理学科发展
最新!广西四个设区市发布一批人事任免信息
全球今头条!重庆银行(601963.SH):增持额度已过半 股东以集中竞价累计增持205万股
世界微头条丨Orbit Fab获得2850万美元A轮融资
当前速递!浩洋股份:公司重视技术研发,作为高新技术企业,公司在演艺灯光设备的造型、电子、光学、热学、机械结构及控制系统等技术领域拥有多项自主知识产权
环球即时:华宝新能:家庭储能行业前景广阔,未来,公司将进一步推出更大功率、更大容量的固定式家庭光伏储能产品
中国品牌首个MPV专属架构车展亮相,江淮瑞风迈入崭新时代
观天下!汉威科技:公司已经实现了落地商用,主要在燃气管网巡检、空气质量检测、大气VOC监测、工矿业点线面型气体探测等应用方面
快资讯丨AllRight获得100万美元A+轮融资
全球关注:港股日报 | 恒生指数跌0.63%,南向资金净买入22.59亿港元,保险板块领涨
焦点热讯:涉嫌侮辱死者自嗨锅商家被罚80万 涉嫌侮辱死者自嗨锅商家被从重处罚
什么叫贷款证明人?贷款证明人和担保人的区别在哪?
股票分红的钱什么时候到账?股票分配方案通过后多久可以分配?
世界报:夏奇拉将巴塞罗那家中的雪松挪到了迈阿密的新家
南宁沃柑、茉莉花、火龙果等产业规模稳居全国第一
天天速看:本赛季即将成为自由身的八位知名球员1.梅老板,梅...

相关推荐

精彩推送

3