科幻很近，好用很远：说说苹果Vision Pro们的困境

游戏天地 2025年08月24日 20:54 1 admin

朋友，你听说过元宇宙吗？

AR、VR、MR、XR和元宇宙这个概念一样，完全不新鲜，甚至在互联网出现前，在很多的科幻文学里就有类似的想法，现在无数的新词乍现其实就是旧瓶装新酒。

它们从不神秘，也不难理解，所有人都知道这个东西未来能实现。

但不知道的是，做到人人都能用、好用、爱用的那一天，到底需要多久？

就像人人都知道我们总得飞出银河系，但是这个过程到底是一百年还是几千年还是上万年？

这才是最大的麻烦。

做不出来那就是无意义的，未来的宏景设想再美好也和现在的我们没有任何关系。

大家喜欢畅想元宇宙，喜欢折腾AR、VR、MR、XR，无非是因为这东西相比于最终的理想形态还只是一个设想，非常遥远，也很难证伪，渲染一下就是一个很好的概念。

事实上，相比搭建一个完全架空的虚拟世界，现在大家更需要一些最终落点是现实生活的东西，也就是那种可以增强互联网和现实之间联系的东西，这也正是AR、VR、MR、XR……最具价值的地方。

至少，我想要的一直都不是从头开始构建的虚拟世界，而是尽可能的把现实传到虚拟世界，让更多原本需要线下接触的东西可以利用虚拟的能力来减少时空限制。从一个巨大的尺度上增加信息量级，让更多本来需要当面传递的东西虚拟化。

这样原本受制于时空限制和物理距离的体验会得到更大的应用半径。

现在ICT领域有一个词叫“数字孪生”，基本就是对这种东西的定义，用数字完全模拟现实中的东西，做到每一样参数都完全一样的拟真。

有意思的是，被“拟真”影响最大的其实不是各个时期的AR、VR、MR、XR，而是游戏。

我记得很多年前欧美游戏大厂就喜欢模拟现实，但是因为数字技术太菜，做出来的东西最后全是鬼畜素材。

同时期的日本大厂选择的是概括现实，让大家先能上手玩起来。

结果就是日本游戏一段时间之内横扫全球，欧美游戏长期被压着打。

然而，后来随着图形技术的硬件软件大爆炸，一切反转，掀起画质军备竞赛、拟真程度丧心病狂的3A大作原地起飞。

事实证明，哪怕玩法手感、趣味性都很差，大家如果有的选，还是喜欢看起来更真实的东西。

技术的成熟度与市场的选择偏好之间，一直都存在清晰的时间差和验证期。

这在AR、VR、MR、XR领域如出一辙。

而且，单靠等是等不来的，你要想办法去做，来费尽心思更进一步。

之前的Apple Vision Pro，现在的vivo Vision探索版，都是如此。

从vivo Vision探索版的展示来看，这东西与其它的非Apple MR产品最大的不同之处在于，这可能是Apple之外难得一见的完全体MR，它和那些带有一点MR功能的纯VR产品不一样——有着非常完善的眼手交互，丢掉手柄，优雅省力。

并且，目前来看，vivo Vision探索版和Apple Vision Pro一样，都做到了将选择和确定完全解耦，不会像海外的一些个别产品那样点击要十分小心精确的控制手指的位置，不需要提防在捏合时手位置的偏移带来的选择失败。

而在对手部的处理上，你从大量的实机演示当中不难发现，vivo Vision探索版一直在无情在展示第二代骁龙8XR2+强大算力的任性。

要知道，vivo Vision探索版和Apple Vision Pro之前的设备是做不到的。

例如，巨硬绝大多数时候不对手部的遮挡做任何处理。

例如，搞元宇宙的那家只有一个还算精细的半透明手部模型。

现在看起来，Vision Pro选择的是高帧的视频流与深度流进行实时的手部抠像和合成，而且从演示看起来边缘非常精细。这其中的巨大开销，是很多自封MR的VR产品想都不敢想的。

同时手部的明暗和色彩看起来会根据所处虚拟场景的不同动态变化，提供了不同于手部模型的沉浸感。

无论是vivo Vision探索版和Apple Vision Pro，都是在用一种最为“暴力”的办法，将巨大的投入隐于无形。

我觉得完全可以这么说，愿意投入大量的资源去打磨看似不影响核心体验的做法，Apple之后那么长的时间里，我所看到的，只有蓝厂去做了。

而在延迟处理方面，我们都知道Vision Pro是通过分层策略将画面处理分为三个不同的层级：

第一层，摄像头采集画面立即渲染显示，延迟约12ms；

第二层，对该帧图像进行扣像，旧扣像蒙版与新的视频帧一起合成这个过程要 30-40ms；

第三层，也就是非常复杂的手势识别和手部关节三维位置重建，100ms不算多。

目前来看，vivo Vision探索版自己所说的13ms延迟，主要应该指的是从摄像头采集到屏幕显示的全链路视频透视（VST）延迟，也就是对应Vision Pro的分层处理的第一层。

从现有信息来看，vivo没有明确地像Apple那样以“分层”这个概念来解释其延迟处理方式，但从技术实现的角度来看，我觉得任何先进的MR头显，包括基于高通XR平台的vivo Vision探索版在哪，都必然会采用一种事实上的分层或优先级处理机制。

这跟技术领先与否无关，而是由实时计算的物理限制和处理任务的复杂性不同所决定的。

所以，无论你是用Apple Vision Pro还是体验vivo Vision探索版，到时候可以花点力气重点关注一下快速移动手部的显像效果——抠像一定会略有滞后，但是系统不需要显示手部建模，在大多数情况下很难察觉手部追踪延迟。

这套方案完全是基于对拟真的极限追求。

当然，也就有反其道而行之的。

有MR产品不让手部模型与现实保持一致——比如在使用视觉手部模型抓握一个具有碰撞盒的物体时，即使我现实里已经握拳，但是我眼里看到的我的时候仍然是最自然的抓握状态，用简单的代码预设捏合，掌握、手部自动贴合……可以提升沉浸感并降低延迟，但不真实。

这个各有好处，也各有代价，主要看你怎么选了。

说了这么多，我估计你会发现，无论是vivo还是苹果的交互，其实都是你拿着遥控器，遥控你眼睛看到的任何东西。

当然在很多情况下这种体验是更省力的，但我觉得并不是所有东西，都适合被遥控。

尤其是在真正的3D互动中，就像是隔着一层窗户纸，也难免会产生更强的距离感。包括现有所有MR产品在内，无论价格高低，无论品牌，目前的纯光学手势识别，无论算法再强大，都会受到视角，光线，移动速度等各种影响，造成准确性下降和延迟。并且信息密度低，同时没有振动反馈。

当然，两者的手追在绝大多数日常场景下都能完美工作。但对于游戏和 3D 创作这类场景，我觉得还是可以把手柄加回来的，vivo Vision探索版似乎也考虑到了这一点——目前在vivo Vision探索版上可以体验的《光之乐团》的体感游戏就支持第三方手柄接入。

在MR上，空间视频是绕不过去的。

我觉得你可以把空间视频当成3D电影，就是使用两颗模拟人眼间距的摄像头同时记录画面，这不新鲜，你如果手上有vivo X100 Ultra或者vivo X200 Ultra，打开空间相机，按下快门就能秒懂我说的是什么意思。

和Apple Vision Pro一样，vivo在vivo Vision探索版的流程设计上，将空间视频无缝融合在相册中，你不用像玩其它VR那样开3D播放器选文件调格式。它就在你的眼前，让你能直接留存和回看。

vivo早在X100 Ultra就推出了手机空间视频拍摄。

那你其实可以先手机拍着空间视频，等到vivo Vision探索版普及之后，这些在手机相册里的空间视频就变成了3D的，一举两得。

只是，并没有看上去那么简单。

这也是为什么，从vivo X200 Ultra开始，vivo的超广角为什么会做的这么强——甚至和广角一样使用接近1英寸的LYT818。

因为空间视频的立体感完全来源于两颗摄像头的视差，那么只能使用广角和超广角裁切作为两个摄像头，自然素质要接近。

并且，由于手机相机只能拍摄30帧的空间视频。如果在硬件素质不过关的情况下快门速度过快。在大范围移动时，会出现闪烁效果。而如果光线过暗，超广角镜头进光量不足就出现噪点，影响观感，这就要求超广角端CMOS的光学素质要足够强大。

所以用手机拍摄空间视频，无论是对光线，运镜，题材都有很多要求。

更重要的是，除非你一直戴着头显回看，否则你无法立刻知道成片的效果。同时你还失去了变焦，4K 60fps 杜比。

那么用手机拍空间视频，你一定要上真正的影像旗舰，要有足够好的硬件底子才行。

值得玩味的是，vivo Vision探索版发布于今天，然而蓝厂的相关布局，很早就开始了：

你在vivo X100 Ultra和vivo X200 Ultra身上看到的3D相机，其实至少在2023年这个时候就已经于重庆的vivo智能工厂现身，那是vivo动捕实验室的所在地，一系列vivo未来影像当中与之相关的影像技术基本都是在此开发。

按照当时vivo影像副总裁于猛的说法，这套实验室在2022年就有了，是vivo与位于加州大学联合建立的，同等规格的实验室在大洋彼岸也有一套，都专注于AI和3D技术的预研。

这些年，他们所做的工作，基本都消耗在了储备人脸、人体和手势为核心的三大人像3D感知算法能力，实现对人脸面部表情、人体姿态动作以及手势交互感知的精准捕捉和驱动等方面，一直在忙于交付到手机软件端能够适应手机应用场景、能被手机芯片的有限算力成功驱动的软件模型。

3D相机只是其中的一个具体应用。

人像3D感知能力之于vivo影像所擅长的人像赛道相当重要，比如你在vivo X系列手机后置影像模组人像模式中的蔡司镜头包里看到的那些风格模拟景深的算法，都建立在3D感知算法的能力上，比如发丝等弱纹理边缘的抠像效果如果不翻车，都是因为有动捕模型护航。

还有，将建模的3D人像置于不同实景之中，足不出户便可穿越四季的四季人像也与之有关。

要知道，在当时，国内的端侧AIGC尚在萌芽阶段，能为传统影像带来哪些杀手级应用并不明确，但在储备未来技术以备产品化这方面，vivo确实超前。

所以，vivo Vision探索版与vivo手机在开发过程当中的很多能力，其实都在相互迁移。

除了强悍的空间计算能力和完备的硬件之外，vivo Vision探索版还拥有Google的Android XR支持的移动端 App 开发框架。

没错，vivo Vision探索版应该是国内第一个Android XR头显。

在其它的VR/MR产品上，开发者基本只能使用 Android Studio开发出一套纯平面的 App。一旦涉及到 3D，就要使用 Unity 或者 Unreal 这些非常陌生的游戏引擎。而在这里面进行 UI 绘制，对于普通的开发者来说相当炼狱。

但在vivo Vision探索版中, 开发者、软件厂商基于Android XR，原来在Android手机、Android平板上的平面 UI 框架，摇身一变，仅需要增添一些3D UI代码，就能显示3D物体。无论是纯 2D，还是2D与3D 结合，还是纯3D，都能获得比在Unity更高的抽象层级。

再加上Google对开发者的号召力，vivo Vision探索版后续依托Android XR的开发生态，内容生态一定是值得期待的，这就是虚拟现实界的Android，自由、开放程度可想而知。

不过从另一个角度来说，无论是vivo Vision探索版还是Vision Pro都不像是当年的iPhone一样从无到有的颠覆性产品。只能说是它们都是各自在多年恐怖研发能力加持下符合预期的产品。

而作为一款核心是空间计算的设备，我觉得有些地方还是要锐评一下的。

为什么这么说？

我们先要谈谈空间计算的发展历史：

纯显示器：比如HTC Vive, Valve Index。它们对空间的感知停在自己离基站的距离和角度，具体的画面是PC 渲染的。

自定位：比如Oculus Quest。通过头显摄像头完成定位，不需要架设基站，但和VR的体区别不大。

混合现实MR：完善的手势识别，深度感知，以及与之相关的 API。产生了更多依托于手势与空间的应用与场景。

由感知位置，到双手，再到空间，感知能力才是空间计算最具进步性也是最有趣的地方。

那vivo Vision探索版与我们这两年来一直在说的那个MR在这方面有什么继续突破吗？

真的没有。

目前我们这两年来一直在说的那个MR开放出的 API 中，开发者能访问的空间信息只有：

1. 手部结构

2. 识别到的桌子，墙，地面，窗户等不同平面位置

3. 空间Mesh

4. 2D图像空间锚点

5. 预处理的3D模型位置

目前Android XR开放出的API当中，开发者能访问的空间信息有：

1、平面检测

识别和追踪环境中的平面。包括水平面（如地板、桌子）和垂直面（如墙壁）。API会提供这些平面的位置、姿态、尺寸和边界多边形等信息。

2、锚点

锚点允许将虚拟内容固定在真实世界的特定位置和方向上。除了空间锚点，还有云锚点，以及地理空间锚点。

3、场景几何与环境网格

获取环境几何信息的能力，比如街景几何。

场景网格：允许获取周围环境的3D网格表示。

4、深度信息

5. 场景语义理解

能够对场景中的不同部分进行识别和分类。

6、手部追踪

7. 其他空间感知能力

光线投射、眼动追踪。

看上去都不少对吧？

但这些东西，手机基本全都能跑，性能指标还能做的更好，追踪帧率还能更高。

所以在当下绝大多数App都还是平面，感知能力并没有颠覆式进步的MR中，把桌面窗口摆满整个房间就是空间计算和虚拟现实的未来了吗。

当然不是。

所以在这一点上，我觉得无论是vivo Vision探索版还是Vision Pro都像是黑暗森林里的地球舰队，拥有目前最顶尖的科技，但在面对水滴时仍旧欠缺能力。

当我们被各种概念轰炸时，一定要冷静下来仔细考虑一下，如何让一台头显知道各种对象的位置。如何将很多东西准确跟踪在人脸上，如何让不同的东西出现在对应的位置上。

这可能需要的是更强大的空间感知和空间理解能力。

只是，空间计算的iPhone 4时刻，至少现在于整个世界范围内还没有到来。

虚拟现实脱离不了现实，虚拟现实本身就是现实的延伸。

无论是vivo Vision探索版还是Vision Pro，它们都并非凭空出现的颠覆性产品。

两者都在现有技术边界下，依靠顶级研发投入和对现有路径极限优化的结果。

它们全都基于多年的积累，在特定方向上做足了功夫，比如像眼手交互、空间感知、低延迟VST等方面，非常超前。

特别是Google Android XR的引入，更是为MR的开发生态和内容生态带来了希望。

两者的方向无疑是正确的，意义也是清晰的。

目前的这种体验只是起点，通往最终形态，它们还在继续完成更多挑战。

给科技以时间。

继续埋头苦干打地基。

加油啊！以高达形式出战的大哥哥们！

以上。

脑机接口新突破：难以置信大脑植入物可以将内心想法解码成语言

重大通报“微信小程序掼蛋辅助器”（必赢神器)

发表评论

科幻很近，好用很远：说说苹果Vision Pro们的困境

脑机接口新突破：难以置信大脑植入物可以将内心想法解码成语言

重大通报“微信小程序掼蛋辅助器”（必赢神器)

最新评论

最新留言

标签列表