你的位置:开云(中国)Kaiyun·官方网站 登录入口 > 新闻 > 开yun体育网无编码器 3D LMM 顺应不同的点云分辨率-开云(中国)Kaiyun·官方网站 登录入口

开yun体育网无编码器 3D LMM 顺应不同的点云分辨率-开云(中国)Kaiyun·官方网站 登录入口

时间:2025-03-10 22:55 点击:138 次

开yun体育网无编码器 3D LMM 顺应不同的点云分辨率-开云(中国)Kaiyun·官方网站 登录入口

无编码器多模态大模子被拓展到 3D 领域——

3D 编码器的功能被融入 LLM 自己,无编码器 3D LMM 顺应不同的点云分辨率,解脱预检修编码器的依赖。

来自上海 AI Lab、西北工业大学、香港汉文大学、清华大学等忽视ENEL,在预检修阶段探索了若何使用自监督亏损将 3D 编码器的功能整合到 LLM 自己,在提醒调优阶段忽视了一种档次几何团聚战略,基于 PointLLM 初度全面参谋了无编码器架构在 3D 多模态大模子中的后劲。

在 Objaverse 基准测试中,ENEL 发挥凸起,性能上高出当今 SOTA ShapeLLM-13B。

基于编码器架构的 3D LMM 的局限性

针对 3D 大型多模态模子(LMMs),基于编码器的架构存在以下潜在问题:

(1)点云分辨率轨则。3D 编码器时时在固定分辨率的点云数据上进行预检修(如 PointBERT 中的 1024 个点)。然则在推理流程中,点云的分辨率可能发生变化(举例,8192 或 512 个点),这导致检修与推理分辨率不一致,从而在索求 3D 镶嵌时丢失空间信息,影响 LLM 的清晰身手,如图 ( a ) 所示。

(2)镶嵌语义相反。3D 编码器时时接纳自监督学习才能(如掩码自编码器和对比学习)进行预检修,但其检修主张与 LLMs 的语义需求可能不全齐一致,因此无法捕捉 LLMs 清晰 3D 物体所需的要害语义信息,如图 ( b ) 所示。

浮浅的 MLP 时时也难以达成充分的语义调遣。从上图可见,ENEL 的无编码器架构提供了更高的活泼性和更强的泛化性,更多矜恤到 3D 要害语义。

应用自监督亏损将 3D 编码器纳入 LLM 自己

无编码器结构最初靠近的问题是若何索求高级次 3D 语义信息,幸免模子难以捕捉 3D 点云的复杂空间结构。不错不雅察到从 PointLLM 中拿掉 Encoder 后,模子性能权贵下落。

PointLLM 原生的 token embedding 模块过于粗粒度,为了减少信息亏损并提供紧密的局部特征,团队接纳了一个来自 Point-PN 的轻量化变体袖珍收罗。

具体而言,关于点云团队通过 FPS 进行下采样,接纳 knn 进行局部团聚,并使用可学习的线性层进行特征编码。收尾标明团队筹算的 embedding 模块比较不错带来昭彰的性能进步。

为了让 LLM 进一步承担 encoder 的编码功能,在预检修阶段尝试了将 LLM 的前几层设为可学习来挖掘点云特征中的高级语义信息,收尾发现较小的学习率大略带来更好的收尾。

通过以上两种蜕变,无编码器结构如故与基于编码器的 PointLLM 在形容任务上合手平。

刻下的 3D 编码器大多依靠自监督亏损学习索求并编码高级次 3D 语义信息 , 主要分为掩藏建模亏损 ( a ) 、重建亏损 ( b ) 、对比亏损 ( c ) 和学问蒸馏亏损 ( d ) 。

基于编码器架构的 3D LMM 在检修时依靠对翰墨部分应用自回想亏损进行学习,那是否能同期对点云部分应用自监督亏损,将 3D 编码器的身手整合进 LLM 自己?

团队在预检修阶段达成并评估了这些亏损对无编码器 3D LMM 的影响。

具体而言,掩藏建模损成仇重建亏损诀别对点云掩码 token 的部分进行规复和对整体点云 token 进行重建,而学问蒸馏亏损接纳 uni3d-L 在特征层面进行蒸馏。

临了团队忽视了一种夹杂语义亏损,先对点云 token 进行当场掩码,然后将 mask token 拼接在 visible token 的背面以适应自回想逻辑,同期对 visible token 斟酌重建亏损,这种夹杂才能不仅大略灵验地将高级次语义信息镶嵌 LLM 中,还能确保在通盘这个词点云学习流程中,几何信息的一致性得以保合手。

从本质收尾中不错不雅察到,自监督学习亏损在无编码器 3D LMM 中时时具有积极影响,通过用心筹算的任务促使 LLM 在学习流程中捕捉潜在的几何联系以及深档次的语义信息。

其中,掩藏建模亏损展现出最为权贵的性能进步。

相较之下,学问蒸馏亏损的进步效用较为有限,发挥失色于前两种亏损类型。

档次几何团聚战略感知 3D 局部细节

传统的 3D 编码器时常通过将显式的归纳偏置镶嵌其架构中,冉冉捕捉多档次的 3D 几何特征。举例,像 Point-M2AE 这么的模子接纳了局部到全局的档次结构,这一结构在 2D 图像经管中常见于卷积层。比较之下,无编码器架构的 LLM 莫得明确的局部建模模块,主要依赖自郑重力机制来建模全局交互。

因此,若何将归纳偏置灵验地整合到 LLM 中,以增强其对 3D 几何结构的感知身手,成为一个报复问题。

基于忽视的夹杂语义亏损,在提醒调优阶段,团队探索了若何促使 LLM 主动感知 3D 局部细节,同期补充其已学习的全局语义信息。为此,团队筹算了档次几何团聚战略。

具体来说,从 LLM 的第二层开动,通过最远点采样将输入点云 token 下采样,将令牌数目减少至 M/2 并中式局部中心。接着,应用 k-NN 算法获得足下点,并通过门控自郑重力机制捕捉局部几何信息。

最终,通过池化操作交融足下点特征,得到 M/2 长度的特征暗意,并重迭 l-1 次,完成几何团聚。通过多层 LLM 层后,再通过 l 次几何传播将团聚后的特征从局部中心传播至足下点,最终规复为长度为 M 的点云特征,增强模子对局部和全局几何结构的感知。

本质收尾:定性定量分析

定性本质中,团队可视化了 PointLLM 和 ENEL 临了一层中,平均文本 token 与点云 token 之间的郑重力得分。

团队选拔了三种物体类别:椅子、飞机和台灯。

图中红色暗意较高的郑重力得分。

收尾线路,ENEL 算作无编码器架构,大略达成两种模态特征之间的高关联性,平均文本 token 聚焦于物体的要害几何结构。

在 Objaverse 基准测试中,ENEL-7B 在形容和分类任务上高出了同等领域以致 13B 的模子。此外,在 3D MM-Vet 数据集的 3D-VQA 任务中,尽管检修数据短少空间和具身交互信息,ENEL 仍取得了 42.7% 的 GPT 得分,跳跃 PointLLM-7B 1.5%。

定性定量收尾考据了夹杂语义损成仇档次几何团聚战略在无编码器架构中的灵验性。

代码麇集:

https://github.com/Ivan-Tang-3D/ENEL.

论文麇集:

https://arxiv.org/pdf/2502.09620v1

—  完  —

学术投稿请于职责日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿实质‍

附上论文 / 表情主页麇集,以及斟酌样貌哦

咱们会(尽量)实时修起你

一键矜恤 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「注意心」

迎接在评述区留住你的思法!开yun体育网

新闻

XINWEN

体育游戏app平台唯有达到报考院校的恳求要求-开云(中国)Kaiyun·官方网站 登录入口

调剂无门体育游戏app平台,又不念念再走一遍客岁的路程,提高学历还有其他目标么? 这意味着将会有无数考生要面临“考验失败”的高傲实践,承受各方面压力的他们,又再次走到东谈主生的十字街头。 “ “考验失败,要不要赓续二战?” “毕业后准备求职,先找份责任活命?” “要放洋留学,读外洋大学的议论生吗?” ” 切换学历提高的另一赛谈, 恳求免联考来弯谈超车! 在考验雄兵中,有一战即得胜上岸的学霸,也有考验失败,选择赓续二战、三战的英豪。 虽然还有那些但愿提高我方的学历布景,普通也很尽力,但即是不得当

开云体育(中国)官方网站寻求专科靠谱的教练机构匡助等于获取名师指路-开云(中国)Kaiyun·官方网站 登录入口

据了解,刚截止的2025年世界硕士商酌生试验报名东说念主数是388万东说念主。 图:开首于教练部新闻办 跟着各人经济下行,办事商场也被经济波动产生各式影响。以及跟着数字时刻影响百业、东说念主工智能有更多期骗场景,东说念主们的常识体系需要不停更新。传统行业插足到一个快速变革的期间,它需要的东说念主才不仅要有塌实的专科基础和无边的常识体系,更要有前沿的理念,冲破性的想维,乃至颠覆性的翻新才略,也便是复合型东说念主才。是以继续学习是很有必要的。 对每个有心继续学习的学员来说,寻求专科靠谱的教练机构匡

体育游戏app平台23年方针总招生东谈主数是40东谈主(含推免东谈主数)📟已发的初复试分数线对比的学院有材料学院|22- 24进修深大招生东谈主数以及初复试分数线对比传播学院|20- 24进修深大招生东谈主数以及初复试分数线对比政府惩办学院|23- 24进修深大招生东谈主数以及初复试分数线对比高档商榷院 | 23- 24进修深大招生东谈主数以及初复试分数线对比惩办学院 | 21- 24进修深大招生

研宝们好鸭~宥恕来到“招生数据对比”频谈~ 深大24进修方针总招生东谈主数是4667东谈主(含推免东谈主数),23进修方针总招生东谈主数是3416东谈主(含推免东谈主数)! 微纳光电子学商榷院24年方针总招生东谈主数是69东谈主(含推免东谈主数),23年方针总招生东谈主数是40东谈主(含推免东谈主数) 📟已发的初复试分数线对比的学院有 材料学院|22- 24进修深大招生东谈主数以及初复试分数线对比 传播学院|20- 24进修深大招生东谈主数以及初复试分数线对比 政府惩办学院|23- 24进修深

开yun体育网房产评估价值为430.92万元-开云(中国)Kaiyun·官方网站 登录入口

开yun体育网 科净源(301372)公告,公司第五届董事会第十三次会议审议通过,应许将位于北京市海淀区西四环北路158号1幢5层605的房产出售给京创兴业,交游价钱为431.86万元。证明评估证明,房产评估价值为430.92万元。交游完成后开yun体育网,展望将对公司当期净利润的影响约为232.81万元。

开云体育(中国)官方网站该地块总价为90.40亿元-开云(中国)Kaiyun·官方网站 登录入口

金融界1月6日讯息,建发股份(600153)公告称开云体育(中国)官方网站,2025年1月2日,建发股份控股子公司建发国外集团下属公司,以公开竞拍面目收效竞得北京市海淀区东升镇北部片区朱房四街棚户区翻新技俩二期(剩余用地)“HD00-0803-0030”地块地皮使用权,地块总价90.40亿元。该地块位于北京海淀区东升镇,北至规划清河镇南一说念说念路南红线,东至规划规划清河镇西路说念路西红线,南至清河北岸绿化截止线、西至规划朱房南三街说念路东红线。该地块总价为90.40亿元,地皮面积3.93万正

官网
www.shtcn.com
地址
新闻科技园大厦5048号
邮箱
33f627ac@outlook.com

Powered by 开云(中国)Kaiyun·官方网站 登录入口 RSS地图 HTML地图


开云(中国)Kaiyun·官方网站 登录入口-开yun体育网无编码器 3D LMM 顺应不同的点云分辨率-开云(中国)Kaiyun·官方网站 登录入口