Yann LeCun 朝“世界模型”理论迈一步,Meta 开源“像人一样学习”的图像模型
时间:2023-06-16 20:49:02来源:36氪

文 | 周鑫雨


(资料图)

编辑 | 苏建勋

六根手指、机器猫圆手……手部细节一直是图像生成式 AI 的盲区。

用 Midjourney 生成的图,手部有 6 根手指。

而如今,这一图像生成的阿喀琉斯之踵有望被 Meta 破解。6 月 14 日,Meta 推出了 I-JEPA(Image Joint Embedding Predictive Architecture, 图像联合嵌入预测架构),实现无需手动变换图像对额外知识进行编码的情况下,生成基于世界常识的图像。

这一研究由纽约计算量子物理中心研究院 Anna Dawid,以及图灵奖获得者 Yann LeCun 共同提出—— I-JEPA 也被视作继 LeCun 提出 " 世界模型(World Model)" 构想后,第一个卓有成效的进展。

从自回归到世界模型

为何图像生成模型普遍难以精确生成手部?其根本原因在于以自回归为框架的模型缺乏对现实世界的常识。

在自回归框架下,模型利用当前的上文信息对下文信息进行预测。应用至图像生成领域," 图像像素 " 则成了上下文信息:自回归模型通过将训练图像转换为一维序列输入,利用 Transformer 转换器自回归预测图像像素。

这一方法的优势在于可以很好地建立像素和高级别属性,如纹理、语义和尺寸等属性之间的关系。但劣势依然明显,由于缺乏常识,模型对图像像素的预测时常违反常理,比如 " 六根手指 " ——这也造成了自回归模型常出现的 " 幻觉 " 现象。

LeCun 认为,想要让 AI 接近人类水平,其需要像婴儿一样学习世界如何运作。由此,他提出了 " 世界模型 " 的概念,解决方案即为 JEPA(联合嵌入预测架构)。

JEPA 通过一系列的编码器提取世界状态的抽象表示,并使用不同层次的世界模型预测器,来预测世界的不同状态,并在不同的时间尺度上做出预测。

LeCun 在论文中提出的基于 " 世界模型 " 的自主化 AI 的模块化结构。图源:论文

在智源大会的演讲中,LeCun 有关 " 层级规划 " 举了一个例子:我想从纽约前往北京,第一件事是去机场,第二件事是乘去往北京的飞机,最终的代价函数(cost function)可以表示从纽约到北京的距离。那么我该如何去机场?解决方案是把任务分解到毫秒级,通过毫秒级的控制来找到预测成本最小的行动序列。

LeCun 表示,所有复杂的任务都可以通过这种 " 分层 " 的方式完成,而层次规划则是其中最大的挑战。

迈向 " 世界模型 " 的第一步

为何说 I-JEPA 是迈向 " 世界模型 " 的一步?

从训练原理来看,I-JEPA 预测的并非是图像像素,而是抽象的预测目标。其中的预测器能够从部分可观察的上下文中,对静态图像中缺失的空间进行模拟。

基于图像的联合嵌入预测体系结构:使用单个上下文块来预测来自同一图像的各种目标块。图源:论文I-JEPA 训练过程:给定一张图像,从中随机抽取 4 个目标块,比例范围为 ( 0.15,0.2 ) ,宽高比范围为 ( 0.75,1.5 ) 。接下来,随机采样一个范围为 ( 0.85,1.0 ) 的上下文块,并删除任何重叠的目标块。在这种策略下,目标块是相对语义化的,而上下文块在保证信息量足够大的同时又很稀疏 ( 处理效率高 ) 。图源:论文

为了理解可观察的内容,Meta 训练了一个随机解码器和生成模型,将 I-JEPA 预测的内容映射为像素,再输出为预测的内容草图。

I-JEPA 预测器可以正确地捕捉空间的不确定性,并正确生成预测对象的部件 ( 例如,鸟的背部和汽车的顶部 ) 。图源:论文

从效果而言,I-JEPA 的计算效率远高于主流计算机视觉模型。比如 Meta 在 72 小时内用了 16 块 A100 训练了一个参数规模为 632M 的视觉 Transformer 模型,所用 GPU 小时数是一般方法的 1/10 到 1/2,并且在相同训练数据量下,误差率更低。

与以前的方法相比,I-JEPA 所需的计算量更少,性能更强:与 MAE 和 data2vec 相比,I-JEPA 所需的预训练时间更少。与 iBOT 相比,I-JEPA 所需的手动标注的数据更少。与此同时,最大的 I-JEPA 模型 ( ViT-H/14 ) 比其他两款中最小的模型 ( ViT-H/16 ) 所需的计算更少。图源:论文

I-JEPA 已经显示出世界模型在图像生成上的作用。可预见的是,JEPA 在视频、音频等更多模态的预测和生成中将发挥作用。目前,I-JEPA 的训练代码和模型检查点已在 GitHub 上开源。

延伸阅读

I-JEPA 论文链接:https://arxiv.org/pdf/2301.08243.pdf

JEPA 原理解释论文链接:https://arxiv.org/abs/2306.02572

GitHub 链接:https://t.co/DgS9XiwnMz

欢迎交流

标签:

最新
  • 退休人取暖费的领取该如何申请?灵活就业人员取暖费领取条件是什么?

    退休人取暖费的领取该如何申请?1 参保人员在新就业地按规定建立基本养老保险关系和缴费后,由用人单位或

  • 潮汐车道是什么意思(潮汐车道作用)

    潮汐车道是什么意思?潮汐车道就是可变车道,城市内部根据早晚交通流量不同情况,对有条件的道路设置一个

  • 沈阳市地税局网上申报的流程以及相关的事项说明

    沈阳市地税局网上申报由沈阳市地税局主办,为纳税人提供涉税服务,协调税收征管关系,组织开发网上纳税

  • 五大国有银行是哪几个?我国的银行分类是如何划分?

    五大国有银行是哪几个?中国工商银行中国工商银行在中国拥有最大的客户群,是中国最大的商业银行之一,也

  • 股票分红股价下跌那还有什么意义?分红是利好还是利空?

    股票分红股价下跌那还有什么意义?如果在股票下跌时,采取现金分红的方式分红,这样投资者可以获得一部分

  • 蒜蓉炒胜瓜怎么做?胜瓜是丝瓜吗?

    蒜蓉炒胜瓜怎么做1 将蒜头洗净,剁碎成蓉。2 加花生油,少量盐搅拌均匀。3 胜瓜去皮,切段,洗净。 且

  • 诱变育种具体对它有哪些描述? 杂交育种相关解释有哪些?

    诱变育种具体对它有哪些描述?诱变育种:指利用人工诱变的方法获得生物新品种的育种方法。原理:基因突变

  • 键盘没反应是哪个键锁了?键盘无法输入字符按什么键?

    键盘没反应是哪个键锁了?键盘打不了字是因为fn+F8键对键盘进行了锁定。在键盘上靠左侧的位置,有一个fn

  • 无法识别exFAT格式怎么办?exfat格式优缺点有什么?

    无法识别exFAT格式怎么办?1、在win10桌面左下角的开始菜单上右键,点击磁盘管理,2、在磁盘管理界面,找

  • 8小时工作时间是否包括午休时间?因为不加班被公司开除怎么办?

    8小时工作时间是否包括午休时间?8小时工作时间,一般不包括午休时间的,而是指劳动者正常完成工作任务的

  • 宝山区属于浦东还是浦西?宝山区离外滩远吗?

    上海宝山区既不是浦东也不是浦西。上海浦东和浦西分别是两个不同的概念,其中浦东指的是浦东新区,而浦西

  • 独角兽基金什么意思?独角兽基金什么时候可以赎回?

    独角兽基金是战略配售基金独角兽基金又叫做战略配售基金。那么这个战略配售基金是是什么意思呢?战略配售

  • 精神出轨离婚怎么判?精神出轨算不算出轨?

    精神出轨离婚怎么判精神出轨并不是法院可以直接判决离婚的条件,但是以精神出轨为由提出离婚是可以的。

  • 申请停息挂账需要满足哪些条件? 停息挂账的申请流程是什么?

    申请停息挂账需要满足哪些条件?1、欠款超出还款能力用户已经确认信用卡的欠款超出了自己的还款能力,自

  • 阳光保险怎么样可靠吗?平安车险好还是阳光车险好?

    阳光保险怎么样可靠吗?阳光保险当然是靠谱的,因为所有的保险公司都是由银保监会管理,是绝对正规、并且

  • 使用银行卡存钱的用户存款的流程?柜台存钱和ATM机存钱的区别是什么?

    相信目前很多小伙伴对于理财都比较感兴趣,那么小搜今天在网上也是收集了一些与理财相关的信息来分享给

  • 旅游
    • 劳动合同订立的条件有哪些?解除劳动合同的条件都有什么?劳动合同解除的特征都有哪些?

    • 股票打板是什么意思?股票打板技巧有哪些?

    • 英雄联盟无法连接服务器怎么办?英雄联盟无法连接服务器请检查网络怎么解决?

    • 转债转股是什么意思? 债转股和可转债转股有什么区别?