你的位置:开云(中国)Kaiyun·官方网站 登录入口 > 新闻 > 开yun体育网无编码器 3D LMM 顺应不同的点云分辨率-开云(中国)Kaiyun·官方网站 登录入口

开yun体育网无编码器 3D LMM 顺应不同的点云分辨率-开云(中国)Kaiyun·官方网站 登录入口

时间:2025-03-10 22:55 点击:138 次

开yun体育网无编码器 3D LMM 顺应不同的点云分辨率-开云(中国)Kaiyun·官方网站 登录入口

无编码器多模态大模子被拓展到 3D 领域——

3D 编码器的功能被融入 LLM 自己,无编码器 3D LMM 顺应不同的点云分辨率,解脱预检修编码器的依赖。

来自上海 AI Lab、西北工业大学、香港汉文大学、清华大学等忽视ENEL,在预检修阶段探索了若何使用自监督亏损将 3D 编码器的功能整合到 LLM 自己,在提醒调优阶段忽视了一种档次几何团聚战略,基于 PointLLM 初度全面参谋了无编码器架构在 3D 多模态大模子中的后劲。

在 Objaverse 基准测试中,ENEL 发挥凸起,性能上高出当今 SOTA ShapeLLM-13B。

基于编码器架构的 3D LMM 的局限性

针对 3D 大型多模态模子(LMMs),基于编码器的架构存在以下潜在问题:

(1)点云分辨率轨则。3D 编码器时时在固定分辨率的点云数据上进行预检修(如 PointBERT 中的 1024 个点)。然则在推理流程中,点云的分辨率可能发生变化(举例,8192 或 512 个点),这导致检修与推理分辨率不一致,从而在索求 3D 镶嵌时丢失空间信息,影响 LLM 的清晰身手,如图 ( a ) 所示。

(2)镶嵌语义相反。3D 编码器时时接纳自监督学习才能(如掩码自编码器和对比学习)进行预检修,但其检修主张与 LLMs 的语义需求可能不全齐一致,因此无法捕捉 LLMs 清晰 3D 物体所需的要害语义信息,如图 ( b ) 所示。

浮浅的 MLP 时时也难以达成充分的语义调遣。从上图可见,ENEL 的无编码器架构提供了更高的活泼性和更强的泛化性,更多矜恤到 3D 要害语义。

应用自监督亏损将 3D 编码器纳入 LLM 自己

无编码器结构最初靠近的问题是若何索求高级次 3D 语义信息,幸免模子难以捕捉 3D 点云的复杂空间结构。不错不雅察到从 PointLLM 中拿掉 Encoder 后,模子性能权贵下落。

PointLLM 原生的 token embedding 模块过于粗粒度,为了减少信息亏损并提供紧密的局部特征,团队接纳了一个来自 Point-PN 的轻量化变体袖珍收罗。

具体而言,关于点云团队通过 FPS 进行下采样,接纳 knn 进行局部团聚,并使用可学习的线性层进行特征编码。收尾标明团队筹算的 embedding 模块比较不错带来昭彰的性能进步。

为了让 LLM 进一步承担 encoder 的编码功能,在预检修阶段尝试了将 LLM 的前几层设为可学习来挖掘点云特征中的高级语义信息,收尾发现较小的学习率大略带来更好的收尾。

通过以上两种蜕变,无编码器结构如故与基于编码器的 PointLLM 在形容任务上合手平。

刻下的 3D 编码器大多依靠自监督亏损学习索求并编码高级次 3D 语义信息 , 主要分为掩藏建模亏损 ( a ) 、重建亏损 ( b ) 、对比亏损 ( c ) 和学问蒸馏亏损 ( d ) 。

基于编码器架构的 3D LMM 在检修时依靠对翰墨部分应用自回想亏损进行学习,那是否能同期对点云部分应用自监督亏损,将 3D 编码器的身手整合进 LLM 自己?

团队在预检修阶段达成并评估了这些亏损对无编码器 3D LMM 的影响。

具体而言,掩藏建模损成仇重建亏损诀别对点云掩码 token 的部分进行规复和对整体点云 token 进行重建,而学问蒸馏亏损接纳 uni3d-L 在特征层面进行蒸馏。

临了团队忽视了一种夹杂语义亏损,先对点云 token 进行当场掩码,然后将 mask token 拼接在 visible token 的背面以适应自回想逻辑,同期对 visible token 斟酌重建亏损,这种夹杂才能不仅大略灵验地将高级次语义信息镶嵌 LLM 中,还能确保在通盘这个词点云学习流程中,几何信息的一致性得以保合手。

从本质收尾中不错不雅察到,自监督学习亏损在无编码器 3D LMM 中时时具有积极影响,通过用心筹算的任务促使 LLM 在学习流程中捕捉潜在的几何联系以及深档次的语义信息。

其中,掩藏建模亏损展现出最为权贵的性能进步。

相较之下,学问蒸馏亏损的进步效用较为有限,发挥失色于前两种亏损类型。

档次几何团聚战略感知 3D 局部细节

传统的 3D 编码器时常通过将显式的归纳偏置镶嵌其架构中,冉冉捕捉多档次的 3D 几何特征。举例,像 Point-M2AE 这么的模子接纳了局部到全局的档次结构,这一结构在 2D 图像经管中常见于卷积层。比较之下,无编码器架构的 LLM 莫得明确的局部建模模块,主要依赖自郑重力机制来建模全局交互。

因此,若何将归纳偏置灵验地整合到 LLM 中,以增强其对 3D 几何结构的感知身手,成为一个报复问题。

基于忽视的夹杂语义亏损,在提醒调优阶段,团队探索了若何促使 LLM 主动感知 3D 局部细节,同期补充其已学习的全局语义信息。为此,团队筹算了档次几何团聚战略。

具体来说,从 LLM 的第二层开动,通过最远点采样将输入点云 token 下采样,将令牌数目减少至 M/2 并中式局部中心。接着,应用 k-NN 算法获得足下点,并通过门控自郑重力机制捕捉局部几何信息。

最终,通过池化操作交融足下点特征,得到 M/2 长度的特征暗意,并重迭 l-1 次,完成几何团聚。通过多层 LLM 层后,再通过 l 次几何传播将团聚后的特征从局部中心传播至足下点,最终规复为长度为 M 的点云特征,增强模子对局部和全局几何结构的感知。

本质收尾:定性定量分析

定性本质中,团队可视化了 PointLLM 和 ENEL 临了一层中,平均文本 token 与点云 token 之间的郑重力得分。

团队选拔了三种物体类别:椅子、飞机和台灯。

图中红色暗意较高的郑重力得分。

收尾线路,ENEL 算作无编码器架构,大略达成两种模态特征之间的高关联性,平均文本 token 聚焦于物体的要害几何结构。

在 Objaverse 基准测试中,ENEL-7B 在形容和分类任务上高出了同等领域以致 13B 的模子。此外,在 3D MM-Vet 数据集的 3D-VQA 任务中,尽管检修数据短少空间和具身交互信息,ENEL 仍取得了 42.7% 的 GPT 得分,跳跃 PointLLM-7B 1.5%。

定性定量收尾考据了夹杂语义损成仇档次几何团聚战略在无编码器架构中的灵验性。

代码麇集:

https://github.com/Ivan-Tang-3D/ENEL.

论文麇集:

https://arxiv.org/pdf/2502.09620v1

—  完  —

学术投稿请于职责日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿实质‍

附上论文 / 表情主页麇集,以及斟酌样貌哦

咱们会(尽量)实时修起你

一键矜恤 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「注意心」

迎接在评述区留住你的思法!开yun体育网

新闻

XINWEN

体育游戏app平台将用于照章刊出减少注册成本-开云(中国)Kaiyun·官方网站 登录入口

上证报中国证券网讯(记者骆民)海康威视公告,公司拟通过深圳证券走动所走动系统以洽商竞价走动形势回购部分公司已在境内刊行的东说念主民币世俗股(A股)股票,将用于照章刊出减少注册成本。本次回购资金总和不跳动25亿元,不低于20亿元,回购价钱不跳动40元/股。公司近日得回了农业银行出具的《贷款快乐函》,中国农业银行股份有限公司浙江省分即将为公司提供不跳动17.5亿元的贷款资金专项用于公司股票回购,贷款期限不跳动3年。公司按需请求回购贷款专项资金体育游戏app平台,请求的贷款资金不跳动本色回购金额的7

欧洲杯体育本年6月5日、6月6日-开云(中国)Kaiyun·官方网站 登录入口

上证报中国证券网讯继11月管束资金占用问题后,ST三圣违纪担保问题也如故整改达成。公司12月9日晚间公告,汗漫当今,上海锦天城(重庆)讼师事务所已出具对于公司违纪担保事项的《法律宗旨书》,天健管帐师事务所(非凡粗莽搭伙)已出具对于对公司违纪担保破除情况的专项阐明。公司已按《行政监管设施决定书》(12号)的条目完成违纪担保问题的整改。 据悉,公司外洋子公司——三圣药业有限公司(简称“三圣药业”)于2019年6月26日与埃塞俄比亚NIB国际银行(简称“NIB银行”)缔结典质担保合同,以其厂房和机器

开云(中国)Kaiyun·官方网站 - 登录入口连云港制药厂开采于1970年-开云(中国)Kaiyun·官方网站 登录入口

要说什么行业最得益,信托不少东说念主都会预见医药企业,尤其是在口罩时代开云(中国)Kaiyun·官方网站 - 登录入口,那一个个的市值、营收就像坐了火箭相同蹿升。 探究词往时这两年里,受到医保谈判以及医药反腐的双重影响,不少药企的市集发达直线下降,这其中就包括了A股的“医药一哥”恒瑞药业,短短几年时代,公司市值从6000多亿下滑到了不及3000亿。 眼看公司的筹办情况急转直下,蓝本已经退休的前董事长孙漂荡坐不住了,只可再行出山海枯石烂。 提及孙漂荡,那然则中国医药界鼎鼎闻明的东说念主物,想当初

体育游戏app平台也并不知谈他即是大清第一词东谈主-开云(中国)Kaiyun·官方网站 登录入口

我不是一个可爱读古诗词的东谈主,因为以为读起来很费力,不像口语那么直白。是以我关于纳兰容若,还仅仅停留在“东谈主生若只如初见,何事秋风悲画扇。”这里,因为听得多了,也就知谈了,也就知谈了古技艺有这样一个词东谈主,或者说,那技艺我还并不知谈,他是词东谈主,照旧诗东谈主,也并不知谈他即是大清第一词东谈主,那位“本是东谈主间惆怅客”“不是东谈主间繁盛花。” 说真话,纳兰容若的一世,是幸运的,不错说是幸运的让东谈主妒忌。用咱们的话来说,即是“含着金烫勺降生的。”文,他的词在很早就传遍了大江南北。武,能

开云体育长期如磐石般坚不成摧-开云(中国)Kaiyun·官方网站 登录入口

我关羽一世永远不会背槽抛粪开云体育。 玉可碎而不成改其白,竹可焚而不成毁其节。身虽死,宁可垂于册本也。这即是我关云长一世的信仰。 一把青龙偃月刀一骑绝尘,留住了众东谈主对我的狂傲之评。 袼褙死路迈长寒,壮志未酬泪满山。青龙偃月今安在?空留缺憾在东谈主间。 当天不谈对与错,我愿以一颗仁和之心卸下战袍,向列位信息谈来。 张开剩余69% 我这一世所立风雨,所悟之谈,以及那份越过死活的昆季情怀。 我生于谢周,自幼便知世间的珍摄,在心胸壮志间,誓要在这浊世之中闯出一番天下。 少小时,我喜读春秋,让我显着

官网
www.shtcn.com
地址
新闻科技园大厦5048号
邮箱
33f627ac@outlook.com

Powered by 开云(中国)Kaiyun·官方网站 登录入口 RSS地图 HTML地图


开云(中国)Kaiyun·官方网站 登录入口-开yun体育网无编码器 3D LMM 顺应不同的点云分辨率-开云(中国)Kaiyun·官方网站 登录入口