
无编码器多模态大模子被拓展到 3D 领域——
3D 编码器的功能被融入 LLM 自己,无编码器 3D LMM 顺应不同的点云分辨率,解脱预检修编码器的依赖。
来自上海 AI Lab、西北工业大学、香港汉文大学、清华大学等忽视ENEL,在预检修阶段探索了若何使用自监督亏损将 3D 编码器的功能整合到 LLM 自己,在提醒调优阶段忽视了一种档次几何团聚战略,基于 PointLLM 初度全面参谋了无编码器架构在 3D 多模态大模子中的后劲。

在 Objaverse 基准测试中,ENEL 发挥凸起,性能上高出当今 SOTA ShapeLLM-13B。

基于编码器架构的 3D LMM 的局限性
针对 3D 大型多模态模子(LMMs),基于编码器的架构存在以下潜在问题:

(1)点云分辨率轨则。3D 编码器时时在固定分辨率的点云数据上进行预检修(如 PointBERT 中的 1024 个点)。然则在推理流程中,点云的分辨率可能发生变化(举例,8192 或 512 个点),这导致检修与推理分辨率不一致,从而在索求 3D 镶嵌时丢失空间信息,影响 LLM 的清晰身手,如图 ( a ) 所示。
(2)镶嵌语义相反。3D 编码器时时接纳自监督学习才能(如掩码自编码器和对比学习)进行预检修,但其检修主张与 LLMs 的语义需求可能不全齐一致,因此无法捕捉 LLMs 清晰 3D 物体所需的要害语义信息,如图 ( b ) 所示。
浮浅的 MLP 时时也难以达成充分的语义调遣。从上图可见,ENEL 的无编码器架构提供了更高的活泼性和更强的泛化性,更多矜恤到 3D 要害语义。
应用自监督亏损将 3D 编码器纳入 LLM 自己
无编码器结构最初靠近的问题是若何索求高级次 3D 语义信息,幸免模子难以捕捉 3D 点云的复杂空间结构。不错不雅察到从 PointLLM 中拿掉 Encoder 后,模子性能权贵下落。


PointLLM 原生的 token embedding 模块过于粗粒度,为了减少信息亏损并提供紧密的局部特征,团队接纳了一个来自 Point-PN 的轻量化变体袖珍收罗。
具体而言,关于点云团队通过 FPS 进行下采样,接纳 knn 进行局部团聚,并使用可学习的线性层进行特征编码。收尾标明团队筹算的 embedding 模块比较不错带来昭彰的性能进步。
为了让 LLM 进一步承担 encoder 的编码功能,在预检修阶段尝试了将 LLM 的前几层设为可学习来挖掘点云特征中的高级语义信息,收尾发现较小的学习率大略带来更好的收尾。
通过以上两种蜕变,无编码器结构如故与基于编码器的 PointLLM 在形容任务上合手平。

刻下的 3D 编码器大多依靠自监督亏损学习索求并编码高级次 3D 语义信息 , 主要分为掩藏建模亏损 ( a ) 、重建亏损 ( b ) 、对比亏损 ( c ) 和学问蒸馏亏损 ( d ) 。
基于编码器架构的 3D LMM 在检修时依靠对翰墨部分应用自回想亏损进行学习,那是否能同期对点云部分应用自监督亏损,将 3D 编码器的身手整合进 LLM 自己?
团队在预检修阶段达成并评估了这些亏损对无编码器 3D LMM 的影响。
具体而言,掩藏建模损成仇重建亏损诀别对点云掩码 token 的部分进行规复和对整体点云 token 进行重建,而学问蒸馏亏损接纳 uni3d-L 在特征层面进行蒸馏。
临了团队忽视了一种夹杂语义亏损,先对点云 token 进行当场掩码,然后将 mask token 拼接在 visible token 的背面以适应自回想逻辑,同期对 visible token 斟酌重建亏损,这种夹杂才能不仅大略灵验地将高级次语义信息镶嵌 LLM 中,还能确保在通盘这个词点云学习流程中,几何信息的一致性得以保合手。

从本质收尾中不错不雅察到,自监督学习亏损在无编码器 3D LMM 中时时具有积极影响,通过用心筹算的任务促使 LLM 在学习流程中捕捉潜在的几何联系以及深档次的语义信息。
其中,掩藏建模亏损展现出最为权贵的性能进步。
相较之下,学问蒸馏亏损的进步效用较为有限,发挥失色于前两种亏损类型。
档次几何团聚战略感知 3D 局部细节
传统的 3D 编码器时常通过将显式的归纳偏置镶嵌其架构中,冉冉捕捉多档次的 3D 几何特征。举例,像 Point-M2AE 这么的模子接纳了局部到全局的档次结构,这一结构在 2D 图像经管中常见于卷积层。比较之下,无编码器架构的 LLM 莫得明确的局部建模模块,主要依赖自郑重力机制来建模全局交互。
因此,若何将归纳偏置灵验地整合到 LLM 中,以增强其对 3D 几何结构的感知身手,成为一个报复问题。
基于忽视的夹杂语义亏损,在提醒调优阶段,团队探索了若何促使 LLM 主动感知 3D 局部细节,同期补充其已学习的全局语义信息。为此,团队筹算了档次几何团聚战略。

具体来说,从 LLM 的第二层开动,通过最远点采样将输入点云 token 下采样,将令牌数目减少至 M/2 并中式局部中心。接着,应用 k-NN 算法获得足下点,并通过门控自郑重力机制捕捉局部几何信息。
最终,通过池化操作交融足下点特征,得到 M/2 长度的特征暗意,并重迭 l-1 次,完成几何团聚。通过多层 LLM 层后,再通过 l 次几何传播将团聚后的特征从局部中心传播至足下点,最终规复为长度为 M 的点云特征,增强模子对局部和全局几何结构的感知。
本质收尾:定性定量分析

定性本质中,团队可视化了 PointLLM 和 ENEL 临了一层中,平均文本 token 与点云 token 之间的郑重力得分。
团队选拔了三种物体类别:椅子、飞机和台灯。
图中红色暗意较高的郑重力得分。
收尾线路,ENEL 算作无编码器架构,大略达成两种模态特征之间的高关联性,平均文本 token 聚焦于物体的要害几何结构。

在 Objaverse 基准测试中,ENEL-7B 在形容和分类任务上高出了同等领域以致 13B 的模子。此外,在 3D MM-Vet 数据集的 3D-VQA 任务中,尽管检修数据短少空间和具身交互信息,ENEL 仍取得了 42.7% 的 GPT 得分,跳跃 PointLLM-7B 1.5%。
定性定量收尾考据了夹杂语义损成仇档次几何团聚战略在无编码器架构中的灵验性。
代码麇集:
https://github.com/Ivan-Tang-3D/ENEL.
论文麇集:
https://arxiv.org/pdf/2502.09620v1
— 完 —
学术投稿请于职责日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿实质
附上论文 / 表情主页麇集,以及斟酌样貌哦
咱们会(尽量)实时修起你

一键矜恤 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「注意心」
迎接在评述区留住你的思法!开yun体育网
XINWEN
2月28日,住房城乡建造部副部长姜万荣在国务院策略例行吹风会上暗意,吸取了代表的办法,扩大城中村纠正的策略因循限制,从原有的35个城区常住东谈主口在300万以上的大城市扩大到了地级及以上城市,全面不错进行城中村纠正。 著述作家 屠晨虹 关连视频 01'09'' 严跃进:来岁可期待住房公积金、城中村纠正等方面策略助力楼市回稳 31 2024-12-25 22:46 01'45'' 政事局会议聚焦“稳住楼市” 业内:更多策略有望加速落地落实 80 2
在好意思甲沙龙和顺的灯光下,莉莉的指尖正在经验第十次化学障碍。当好意思甲师用打磨机削去终末一层自然甲面时,她俄顷念念起三天前指甲根部泛起的白斑。这个场景正在广大城市换取演出,那些被水钻和渐变颜色覆盖的甲面,正在用千里默的面孔诉说着当代好意思学与东说念主体健康之间的遮蔽博弈。 指甲当作皮肤的延迟器官,其生理构造远比咱们念念象的精密。角质层与甲母质组成的贯注体系,本来是东说念主体抵御外界侵害的自然障蔽。当咱们反复用丙酮洗去甲油、用紫外线固化凝胶时,这层厚度仅有0.3毫米的角卵白结构,正承受着远超其
在跑步爱好者心中,索康尼(Saucony)无疑是一个值得信托和期待的品牌。它以其悠久的历史、出色的性能以及前锋的规划开云体育(中国)官方网站,在大家范围内取得了平时赞扬。今天,咱们就来深刻了解索康尼这个品牌,望望它为何能成为浩大跑者的首选。 品牌简介:百年传承,品性保证 索康尼品牌缔造于1898年,名字源自好意思国宾夕法尼亚州库兹镇隔壁的一条秀好意思河流。过程一个多世纪的发展,索康尼照旧成长为大家四大慢跑鞋品牌之一。其家具涵盖了专科畅通系列和畅通失业系列两大类,非论是专科跑者如故跑步初学者,皆
#图文创作引发筹画#黑舒俱来戴深化感情会发生变化,会变得比刚开动更鲜亮,色泽变得愈加富余。其质量会变得愈加空洞,手感会很润泽,看起来也极端好意思不雅。但黑舒俱来的硬度在6傍边,相比容易产生刮痕开yun体育网,因此时时佩带时要幸免磕碰。 1、感情:舒俱来戴深化感情会发生变化,但蓝本玄色部分是不会变紫的,仅仅有部分小谬误会变淡,看起来会比刚开动更细致,色泽也会变得愈加富余。 2、质量:黑舒俱戴深化会变得更有色泽,黑俱来不错接收东说念主体分泌的油脂,质量会变得愈加空洞,还会变得更有色泽,好意思不雅性
开yun体育网 热门栏目 自选股 数据中心 行情中心 资金流向 模拟往还 客户端 早盘收盘,国内期货主力合约涨跌互现。菜粕、焦炭、焦煤、锰硅、沪锌、原木、螺纹钢、沪铝、玻璃、铁矿石、热卷跌超1%。涨幅方面,20号胶(NR)涨超1%,豆一、生猪涨近1%。 焦炭:煤焦共振下行,焦炭连降十轮 本日焦炭价钱筹划实施第十轮降价,自2024年10月下旬以来焦炭畅达下调十轮,累计降500-550元/吨,降幅达26.46%。诚然跟着焦炭价钱握续下行,重复节后排库压力,局部焦化厂开工略降,但因焦煤价钱同步下行,