开云(中国)Kaiyun·体育官方网站-登录入口-开yun体育网若胜仗套用现存视频架构-开云(中国)Kaiyun·体育官方网站-登录入口
你的位置:开云(中国)Kaiyun·体育官方网站-登录入口 > 新闻动态 > 开yun体育网若胜仗套用现存视频架构-开云(中国)Kaiyun·体育官方网站-登录入口
开yun体育网若胜仗套用现存视频架构-开云(中国)Kaiyun·体育官方网站-登录入口
发布日期:2025-11-09 08:59    点击次数:50

开yun体育网若胜仗套用现存视频架构-开云(中国)Kaiyun·体育官方网站-登录入口

李飞飞的寰宇模子创业,最新后果来了!

刚刚,教母躬行布告对外推出全新模子RTFM(A Real-Time Frame Model),不仅具备及时开动、抓久性和 3D 一致性,更要道的是——

单张 H100 GPU 就能跑。

此外,RTFM 的设想罢黜三大中枢原则:

效能:仅需单张 H100 GPU,RTFM 便能以交互级帧率及时完成推理运算。

可彭胀性:该架构具备随数据量与算力增长而抓续彭胀的智商。它通过端到端的通用架构从海量视频数据中自主学习,无需依赖显式 3D 表征即可构建三维寰宇模子。

抓久性:用户可无尽时长与 RTFM 交互,扫数场景将永远留存。该系统构建的抓久化 3D 寰宇不会因视角调遣而消失。

底下具体来看。

寰宇模子需要多半筹划资源

庞杂的寰宇模子偶而及时重建、生成并模拟具有抓久性、可交互且物理精准的寰宇。这类模子将澈底更正从媒体到机器东谈主时间等百行万企。

以前一年,生成式视频建模的推崇已告捷欺诈于生成式寰宇建范例围。

跟着时间发展,一个事实愈发昭着:生成式寰宇模子对算力的需求将远超咫尺的大型讲话模子。

若胜仗套用现存视频架构,生成 60 帧的 4K 交互视频流每秒需产生进步 10 万个 token(约就是《弗兰肯斯坦》或首部《哈利 · 波特》的篇幅)。

而要防守一小时以上的抓续交互,需处治的凹凸文 token 更将按捺 1 亿大关。基于现时筹划基础设施,这既不行行也不具备经济性。

李飞飞团队服气"惨痛教训"揭示的法例:

那些能随算力增长优雅彭胀的简略设施终将在 AI 范围占据主导,因为它们能享受数十年来股东时间发展的算力本钱指数级下落红利。生成式寰宇模子正处在绝佳位置,必将从抓续裁减的算力本钱中获益。

这也就引出一个要道问题:生成式寰宇模子是否会被现时硬件条目所遣散?能否现在就预览这项时间的雏形?

于是,李飞飞团队设定了一个明确方针:设想一款迷漫高效、可立即部署,并能随算力升迁抓续彭胀的生成式寰宇模子。

他们的目的是打造仅需单张 H100 GPU 即可驱动的模子,在保抓交互帧率的同期,确保编造寰宇永不用散。杀青这些时间筹算,将让他们提前窥见将来——在当下硬件上体验明日模子可能达到的高度。

这一方针深化影响着他们从任务设定到模子架构的扫数这个词系统设想。通过用心优化推理堆栈的每个设施,和会架构设想、模子蒸馏与推理优化的前沿按捺,他们勤快于于在咫尺硬件上呈现对将来模子最高保真度预览。

寰宇模子看成学习渲染器

传统的 3D 图形管线接受显式 3D 表征(如三角网格、高斯泼溅)构建寰宇模子,再通过渲染生成 2D 图像。这些管线依赖东谈主工设想的数据结构与算法来模拟 3D 几何、材质、光照、暗影及反射等效果。

数十年来,这类设施历久是筹划机图形学范围的擎天玉柱,但其难以随数据量与算力增长杀青线性彭胀。

RTFM 则匠心独具。基于生成式视频建模的最新按捺,议论团队通过造就单一神经收罗,输入场景的单张或多张 2D 图像,即可从全新视角生成该场景的 2D 图像,全程无需构建任何显式 3D 表征。

RTFM 还接受作用于帧序列的自追忆扩散变换器架构,通过海量视频数据进行端到端造就,杀青基于历史帧的后续帧推断。

RTFM 不错被视为一种可学习的渲染器(learned renderer)。它最初将输入的图像帧调遣为神经收罗中的激活(即 KV cache),这些激活以隐式神气示意扫数这个词寰宇,在生成新帧的经过中,收罗通过属观点机制从这种示意中读取信息,从而凭据输入视角生成与之保抓一致的寰宇新视图。

从输入视图调遣为寰宇示意,以及再从该示意中渲染新帧的机制,并不是通过手工设想的,而是通过端到端的数据造就自动学得的。

RTFM 只需在造就经过中不雅察到这些忻悦,就偶而学会建模诸如反射、暗影等复杂效果。

不错说,RTFM 依稀了"重建"(在已有视角之间进行插值)与"生成"(创造输入视角中不行见的新内容)之间的界限,而这两者在筹划机视觉中历史上一直被视为两个寂寥的问题。

当 RTFM 被提供多半输入视角时,由于任务拘谨更强,它更倾向于实践重建;当输入视角较少时,它则被动进行超出已有视角的外推生成。

将姿态帧看成空间系念

践诺寰宇的一个要道特色是抓久性(persistence):当你移开视野时,寰宇不会消失或统共更正,无论你离开多永劫期,你老是不错回到之前往过的地方。

这对自追忆帧模子来说一直是一个挑战。寰宇仅通过二维图像帧被隐式示意,因此,杀青抓久性要求模子在用户探索寰宇的经过中,对束缚增长的帧蚁合进行推理。这意味着每生成一帧的本钱都比前一帧更高,因此模子对寰宇的系念本色上受到其筹划资源预算的遣散。

RTFM 通过将每一帧建模为在三维空间中具有一个姿态(位置和所在)来障翳这一问题。他们通过向模子提供待生成帧的姿态来生成新帧。

模子对寰宇的系念(包含在其帧中)具有空间结构。它将带有姿态的帧看成空间系念使用。这为模子提供了一个弱先验——即它所建模的寰宇是三维欧几里得空间——而无需强制模子显式推断该寰宇中物体的三维几何款式。

RTFM 的空间系念使得抓久性不受遣散。在生成新帧时,他们会从已姿态帧的空间系念中检索近邻帧,合计模子构建一个定制的凹凸文。

团队将这一时间称为凹凸文切换(context juggling):模子在不同空间区域生成内容时会使用不同的凹凸文帧。这使得 RTFM 偶而在永劫期交互中保抓对大型寰宇的抓久系念,而无需对束缚增长的帧蚁合进行推理。

终末,该模子即日起以预览版局面绽放体验,现在就不错试起来了…

试完迎接回来补个反映评述哦,笔芯~

参考王人集:

[ 1 ] https://x.com/drfeifei/status/1978840835341914164

[ 2 ] https://x.com/theworldlabs/status/1978839175320186988

[ 3 ] https://www.worldlabs.ai/blog/rtfm

一键三连「点赞」「转发」「注重心」

迎接在评述区留住你的思法!

—  完  —

� �  年度科技风向标「2025 东谈主工智能年度榜单」评比报名开启啦!咱们正在寻找 AI+ 期间领航者  点击了解细目

❤️‍� �   企业、家具、东谈主物 3 大维度,共树立了 5 类奖项,迎接企业报名参与   � �  

一键热心 � � 点亮星标

科技前沿推崇逐日见开yun体育网



相关资讯