
无编码器多模态大模子被拓展到 3D 领域——
3D 编码器的功能被融入 LLM 自己,无编码器 3D LMM 顺应不同的点云分辨率,解脱预检修编码器的依赖。
来自上海 AI Lab、西北工业大学、香港汉文大学、清华大学等忽视ENEL,在预检修阶段探索了若何使用自监督亏损将 3D 编码器的功能整合到 LLM 自己,在提醒调优阶段忽视了一种档次几何团聚战略,基于 PointLLM 初度全面参谋了无编码器架构在 3D 多模态大模子中的后劲。

在 Objaverse 基准测试中,ENEL 发挥凸起,性能上高出当今 SOTA ShapeLLM-13B。

基于编码器架构的 3D LMM 的局限性
针对 3D 大型多模态模子(LMMs),基于编码器的架构存在以下潜在问题:

(1)点云分辨率轨则。3D 编码器时时在固定分辨率的点云数据上进行预检修(如 PointBERT 中的 1024 个点)。然则在推理流程中,点云的分辨率可能发生变化(举例,8192 或 512 个点),这导致检修与推理分辨率不一致,从而在索求 3D 镶嵌时丢失空间信息,影响 LLM 的清晰身手,如图 ( a ) 所示。
(2)镶嵌语义相反。3D 编码器时时接纳自监督学习才能(如掩码自编码器和对比学习)进行预检修,但其检修主张与 LLMs 的语义需求可能不全齐一致,因此无法捕捉 LLMs 清晰 3D 物体所需的要害语义信息,如图 ( b ) 所示。
浮浅的 MLP 时时也难以达成充分的语义调遣。从上图可见,ENEL 的无编码器架构提供了更高的活泼性和更强的泛化性,更多矜恤到 3D 要害语义。
应用自监督亏损将 3D 编码器纳入 LLM 自己
无编码器结构最初靠近的问题是若何索求高级次 3D 语义信息,幸免模子难以捕捉 3D 点云的复杂空间结构。不错不雅察到从 PointLLM 中拿掉 Encoder 后,模子性能权贵下落。


PointLLM 原生的 token embedding 模块过于粗粒度,为了减少信息亏损并提供紧密的局部特征,团队接纳了一个来自 Point-PN 的轻量化变体袖珍收罗。
具体而言,关于点云团队通过 FPS 进行下采样,接纳 knn 进行局部团聚,并使用可学习的线性层进行特征编码。收尾标明团队筹算的 embedding 模块比较不错带来昭彰的性能进步。
为了让 LLM 进一步承担 encoder 的编码功能,在预检修阶段尝试了将 LLM 的前几层设为可学习来挖掘点云特征中的高级语义信息,收尾发现较小的学习率大略带来更好的收尾。
通过以上两种蜕变,无编码器结构如故与基于编码器的 PointLLM 在形容任务上合手平。

刻下的 3D 编码器大多依靠自监督亏损学习索求并编码高级次 3D 语义信息 , 主要分为掩藏建模亏损 ( a ) 、重建亏损 ( b ) 、对比亏损 ( c ) 和学问蒸馏亏损 ( d ) 。
基于编码器架构的 3D LMM 在检修时依靠对翰墨部分应用自回想亏损进行学习,那是否能同期对点云部分应用自监督亏损,将 3D 编码器的身手整合进 LLM 自己?
团队在预检修阶段达成并评估了这些亏损对无编码器 3D LMM 的影响。
具体而言,掩藏建模损成仇重建亏损诀别对点云掩码 token 的部分进行规复和对整体点云 token 进行重建,而学问蒸馏亏损接纳 uni3d-L 在特征层面进行蒸馏。
临了团队忽视了一种夹杂语义亏损,先对点云 token 进行当场掩码,然后将 mask token 拼接在 visible token 的背面以适应自回想逻辑,同期对 visible token 斟酌重建亏损,这种夹杂才能不仅大略灵验地将高级次语义信息镶嵌 LLM 中,还能确保在通盘这个词点云学习流程中,几何信息的一致性得以保合手。

从本质收尾中不错不雅察到,自监督学习亏损在无编码器 3D LMM 中时时具有积极影响,通过用心筹算的任务促使 LLM 在学习流程中捕捉潜在的几何联系以及深档次的语义信息。
其中,掩藏建模亏损展现出最为权贵的性能进步。
相较之下,学问蒸馏亏损的进步效用较为有限,发挥失色于前两种亏损类型。
档次几何团聚战略感知 3D 局部细节
传统的 3D 编码器时常通过将显式的归纳偏置镶嵌其架构中,冉冉捕捉多档次的 3D 几何特征。举例,像 Point-M2AE 这么的模子接纳了局部到全局的档次结构,这一结构在 2D 图像经管中常见于卷积层。比较之下,无编码器架构的 LLM 莫得明确的局部建模模块,主要依赖自郑重力机制来建模全局交互。
因此,若何将归纳偏置灵验地整合到 LLM 中,以增强其对 3D 几何结构的感知身手,成为一个报复问题。
基于忽视的夹杂语义亏损,在提醒调优阶段,团队探索了若何促使 LLM 主动感知 3D 局部细节,同期补充其已学习的全局语义信息。为此,团队筹算了档次几何团聚战略。

具体来说,从 LLM 的第二层开动,通过最远点采样将输入点云 token 下采样,将令牌数目减少至 M/2 并中式局部中心。接着,应用 k-NN 算法获得足下点,并通过门控自郑重力机制捕捉局部几何信息。
最终,通过池化操作交融足下点特征,得到 M/2 长度的特征暗意,并重迭 l-1 次,完成几何团聚。通过多层 LLM 层后,再通过 l 次几何传播将团聚后的特征从局部中心传播至足下点,最终规复为长度为 M 的点云特征,增强模子对局部和全局几何结构的感知。
本质收尾:定性定量分析

定性本质中,团队可视化了 PointLLM 和 ENEL 临了一层中,平均文本 token 与点云 token 之间的郑重力得分。
团队选拔了三种物体类别:椅子、飞机和台灯。
图中红色暗意较高的郑重力得分。
收尾线路,ENEL 算作无编码器架构,大略达成两种模态特征之间的高关联性,平均文本 token 聚焦于物体的要害几何结构。

在 Objaverse 基准测试中,ENEL-7B 在形容和分类任务上高出了同等领域以致 13B 的模子。此外,在 3D MM-Vet 数据集的 3D-VQA 任务中,尽管检修数据短少空间和具身交互信息,ENEL 仍取得了 42.7% 的 GPT 得分,跳跃 PointLLM-7B 1.5%。
定性定量收尾考据了夹杂语义损成仇档次几何团聚战略在无编码器架构中的灵验性。
代码麇集:
https://github.com/Ivan-Tang-3D/ENEL.
论文麇集:
https://arxiv.org/pdf/2502.09620v1
— 完 —
学术投稿请于职责日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿实质
附上论文 / 表情主页麇集,以及斟酌样貌哦
咱们会(尽量)实时修起你

一键矜恤 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「注意心」
迎接在评述区留住你的思法!开yun体育网
XINWEN
大河报·豫视频记者 梁奇慧欧洲杯体育 近日,安徽亳州市蒙城县多位破费者在外交媒体上反应称,我方购买了当地一家网红流动摊贩出售的提拉米苏,食用后出现了形体不适。5月24日,出售“提拉米苏”的商家、当地12315热线针对此事回复大河报《看见》记者,现在涉事商家的外交媒体账号已拓荒成高深景色。 5月23日晚,大河报《看见》记者干系上了多位曾购买上述提拉米苏的破费者。其中,李女士称,我方于5月20日本日购买了提拉米苏,当晚10点傍边食用,第二天上昼9点多,她和两个孩子连续出现高烧、泻肚、吐逆等症状,“
朝鲜拆伙舰5月21日下水时发生“要紧事故”。当地工夫24日欧洲杯体育,事故访谒组向朝鲜就业党中央军事委员会报告了更多访谒实质。 访谒显露,为止24日莫得发现其他损坏情况,成立责任正在按筹画进行。 功令机关字据最新访谒长途又拘留了三名包袱东说念主员欧洲杯体育。(总台记者 董海涛)
深海科技是指用于探索、建树和愚弄深海资源以及盘问深海环境的一系列先进时间和关系学科的总称。2025年,“深海科技”被初次纳入政府使命论说欧洲杯体育,近期山东、海南等地接踵出台复旧策略,鼓励关系产业发展。 在三亚南山港船埠,正在进行水下机器东说念主测试的公司珍爱东说念主刘港告诉记者,这款机器东说念主在近远海风电场运维、海缆检测等场景齐有平庸应用,当今正在作念领略性能、水下通讯和数据传输模块的关系测试。 在公司的研发坐褥厂房,记者看到摆放着多台也曾参加现实应用的水下机器东说念主,它们被平庸应用于海
五粮液功绩再创历史新高,但增速放缓至个位数。 4月25日晚间,宜宾五粮液股份有限公司(五粮液,000858.SZ)发布2024年度解说以及2025年一季度解说。2024年,五粮液杀青买卖收入891.75亿元,同比增长7.09%;归母净利润318.53亿元,同比增长5.44%。本年一季度五粮液杀青营收369.4亿元,同比增长6.05%;归母净利润148.6亿元,同比增长5.80%。 据Wind数据透露,五粮液年度功绩以及一季度功绩连年来稳步提高,不外增速放缓,连年来初次年度营收、净利增速降至个位
永辉超市仍处于调改转型带来的前期阵痛。 4月25日晚间,永辉超市(601933.SH)公布了2024年年度陈述及2025年第一季度财务陈述。客岁全年永辉超市完毕营收675.74亿元,同比下滑14.07%;归母净耗损14.65亿元,耗损同比增多1.36亿元,扩大10.26%。2025年一季度完毕营收174.79亿元,同比下滑19.32%;净利润1.48亿元,同比下落79.96%。 据Wind数据泄露,比年来永辉超市年度以及一季度营收逐年下滑,近四年来全年仍处于耗损现象,本年一季度净利润大幅下滑。