Apple Vision Pro深度使用体验

拿到Apple Vision Pro（AVP）也有两三周的时间了。在这两三周的时间里我尝试重度使用了AVP，写了几个App，也和苹果店的客服支持聊了几次。有一些在其他媒体上可能比较少看见的别致想法，想和大家分享一下。尤其是对AVP来说，一个非常重要且根本的问题是，它到底是一个怎样的设备，适合怎样的场景，不适合怎样的场景。在我们已经有了手机，平板和电脑的世界中，它所占据的生态位究竟是怎么样的。这篇文章主要就想探讨一下这些问题。

Apple Vision Pro不适合的场景

在具体探讨适合AVP的使用场景之前，我想先讨论几个看起来很火,看起来非常适合Apple Vision Pro，但实际体验之后感觉并不是非常理想的几个场景。尤其是AR游戏，办公，VR看片，和ppt报告。

增强现实

现在很多媒体和评测提到AVP有很多很酷的AR应用。比如有人用AVP让用吸尘器就像在玩搜集金币的游戏一样，或者是实时更换赛博男友的脸部。但是，其实它做不到这些。原因在于，苹果在系统层面上禁止应用程序开发者获取相机信号。这种做法不仅是苹果的决策，也是整个虚拟现实（VR）行业的通行做法。包括HTC， Facebook和字节跳动的VR眼镜在内，都不允许应用程序作者获取用户的原始相机流。

因为获取不到相机视频流，应用程序就无法知道用户的吸尘器当前位置，也就无法继续进行类似搜集金币的游戏。同样，应用程序也无法知道男友的脸部的确切位置、朝向和光照条件，因此很难将更换的脸部图像准确贴合。从原理上讲，app就无法支持这类应用。

这个限制非常有意思且重要，意味着在Apple Vision Pro或包括Quest 3在内的应用程序世界里，我们实际上无法进行一些精细的与环境交互的操作。例如，我们无法开发一个应用程序，根据以往的录像帮助用户找东西，或者像HoloLens的广告那样，当你旁边经过一个人时，能够使用他的人脸在LinkedIn里搜索，并自动弹出他的LinkedIn个人资料。这些都是不可能实现的。

然而，苹果在ARKit中留了一个口子。ARKit允许App在一定程度上保持对周围环境的感知能力，例如能够感知到距离你两米远有个墙壁，或者在你下方一米五处有个地板。它提供的三维模型和一些不太精确的语义信息，可以用来开发一些应用。例如，我们可以发射一个小球，让它在碰到用户的墙壁后看起来像是真的反弹了。但是，更高级的应用，如与机器视觉和生成式模型相关的，仍然受到严格限制。

我想表达的观点是，AVP并不是一个AR设备，而是一个非常传统的VR设备。从所有的评论或官方演示视频来看，周围透视的背景，或者所谓的pass through，在所有例子中并没有与UI有交互。它们更像是一个VR显示器，像显示器一样在我们周围展示各种二维或三维的虚拟显示屏，这些显示屏甚至可以穿透墙壁。这引出了一个重要的定位问题，即与HoloLens等AR/MR设备相比，苹果虽然将AVP称为XR/MR，但归根到底，它实际上是纯纯的VR设备。至少在这方面，它与Quest 3是完全相同类型的产品——一个带有透视功能的VR设备。

办公

从办公的角度来看，AVP的360度全景视角和4K高分辨率似乎非常适合办公使用。但实际体验后，我发现它的操作体验并不如直接坐在电脑前。主要有三个原因：

第一，尽管我们面对的是一个特别大的屏幕，但可能由于眼动追踪技术的精度限制，苹果对窗口中文字的大小有严格的限制。例如，除了Safari可以缩放文字大小以外，绝大多数原生app无论如何缩放和移动窗口，文字始终很大。缩小窗口时只能看到很少的内容，而文字大小不会随之改变。这严重限制了我们能够接收的信息密度。根据苹果的文档，这主要是因为眼动追踪的分辨率有限。当文字或图标太小（小于60x60点）时，无法保证良好的用户体验。因此，在使用原生App时，360度的全景并没有能显示更多的信息。

第二，与桌面操作系统不同，Apple Vision Pro的窗口管理主要依赖于空间上的排布。它没有最小化的概念，也没有桌面管理工具，这限制了我们同时打开多个窗口的能力。例如，在Mac上，尽管屏幕不大，但我们可以同时打开许多窗口并且在其中方便地切换，需要某个窗口时只需在Dock中点击相应图标即可。Windows也有类似的任务栏。但Apple Vision Pro缺乏类似的概念，你只能在屏幕上平铺或层叠窗口。层叠多了之后，后面的窗口就难以访问，必须关闭前面的窗口才能操作后面的。这种设计，加上360度屏幕信息量本就不足，使得我们在使用Apple Vision Pro进行办公或生产力应用时，实际上只能开启几个窗口，严重限制了使用效率。

第三，让我们来讨论一下Mac投屏。这本来是一个很好的idea，因为通过Mac投屏，Vision Pro的屏幕可以突破其原生app字体大小的限制，实现更小的字体显示。这可能是因为此时是通过触摸板而不是眼动跟踪来进行控制的。但实际体验发现，Mac投屏存在一个严重的限制，那就是分辨率。根据各种评测，Mac投屏的分辨率大约在4K左右，这实际上比不上现在高端电脑屏幕的分辨率。例如，我现在家里用的是两块6K屏幕，但通过Mac投屏后，只能得到一块4K屏幕的体验（现在有一些第三方app可以实现多个屏幕的投屏），这样操纵体验反而下降了。而当屏幕太大时，为了看清屏幕最左边或者最右边的内容，就必须要动脑袋。这是因为Vision Pro的FOV（视场角）相对较小。这种情况下，频繁地动脑袋会让人感到非常疲惫。我之前就是因为这个原因，从三块物理屏幕减少到两块屏幕。

因此，总的来说Apple Vision Pro的办公体验是比不上正儿八经的多物理显示器的。当可以坐在电脑+显示器前面的时候，我是不愿意戴着AVP工作的。

VR看片，ppt和长时间佩戴

从看片的角度来说，我最初对这个产品抱有很高的期望，毕竟之前体验过的小派8K VR显示效果确实令人印象深刻。而且小派的设备需要连接PC才能使用，AVP则允许我不必坐在电脑旁，可以自由移动观看，这点非常吸引我。但经过深入研究，我发现目前App Store中所有声称支持播放VR180、VR360等开放格式的软件，评分普遍很低，许多用户抱怨视频播放时会出现黑屏现象。进一步的研究发现，目前在AVP上能够正常播放的VR视频格式，似乎仅限于苹果自家的一种特殊视频格式。这种格式具有高帧率、高动态范围、高色域等特性，非常先进。但遗憾的是，网上似乎没有关于这种格式的任何文档和库，这意味着除了使用iPhone和Apple Vision Pro这两种设备拍摄1080P的VR视频外，我们无法利用其他任何文档和库来制作或观看视频。例如，我自己使用的Red相机加上佳能的VR镜头，或者是观看网上开放的VR片源，都受到了巨大的限制。但也许苹果未来会逐渐开放这种格式，至少目前来看，看片似乎是一个应用上的巨大局限。

另一个非常有意思的应用领域是商务生产力，正如苹果、Quest和HoloLens在演示中所展示的。VR眼镜引入了多种全新的交互方式。交互变成了三维的，展示的信息也是三维的。这为许多生产力应用带来了新的想象空间，例如CT扫描的可视化、高维数据的可视化和探索，甚至是PPT演示。如果说以前在电脑上显示的PPT即使加入了三维动效也仍然是2.0版本，那么现在，如果大家都使用AVP，无论是动画效果还是3D素材都会显得非常酷炫。但在尝试了一些可视化方面的工作后，我意外地发现存在一个巨大的障碍，这个障碍仍然与眼动跟踪有关。当AVP设备与一个人绑定后，如果要借给其他人使用，他们需要重新进行眼动跟踪的校准，这需要大约两三分钟的设置时间才能开始使用，而且无法戴着普通眼镜使用，必须使用专门的磁吸蔡司镜片来校正视力。因此，它在生产力方面的应用似乎只有在每个人都拥有一个AVP设备时，体验才会比较流畅。否则，比如你要给公司的大老板做一个演示，你递过去的眼镜还需要他现场进行校准，如果他戴眼镜的话，还得忍受看那些模糊不清的画面，整个体验大打折扣。

此外，我在购买AVP之前幻想过24小时带着这个眼镜，就等于有了一个到处有屏幕的科幻世界。但实际使用过以后很快就打消了这个念头。倒不是因为重的原因——其实在用那个两个环的头带的时候对头和脖子的压力并不大。也不是因为屏幕视场角的原因，而主要是它的摄像头的画质实在是和我的想象相差太远。严重的噪点和动作模糊实在很出戏。因此只要我需要取下30秒的时候我都会愿意把它拿下来。在目前的摄像头下，在现实生活中使用AVP还是一件得不偿失的事情。

Apple Vision Pro适合的应用场景

接下来，我们将探讨AVP最适宜的应用场景。正如之前所述，AVP并不能取代传统的桌面办公体验。然而，在多种使用场景中，AVP与iPad存在显著的功能重叠，并且在这些场景下，AVP不仅能够胜任，有时其表现甚至超越iPad。例如，在观看视频、阅读书籍和小说、上网浏览、配备键盘时处理文档、进行网络聊天、发送电子邮件等方面，AVP均能提供流畅的体验。得益于其配备的全景视角、高分辨率、高动态范围以及高刷新率屏幕，AVP在使用体验上往往优于iPad。经过一段时间的体验，我发现AVP在特定场景下能够提供极为出色的使用感受。

第一，在某些场景下，手持iPad可能会非常困难，但AVP的使用并不需要手持，也不需要任何控制器，因此非常适合这些场景。一个典型的例子是躺着时使用。许多人可能都有过躺着看iPad时，设备掉下来砸到脸上的经历，但使用AVP就不会有这个问题。同时，当配合蓝牙键盘使用时，AVP的体验非常自然，而且由于它是戴在脸上的，重量和舒适度也不再是问题。因此，AVP为躺着工作或娱乐这种非传统场景提供了便利，打破了手机屏幕大小和体验的限制，这甚至让人想要升级家里的沙发或购买按摩椅。

另一个例子是运动时使用AVP。手持手机或平板电脑在运动时会非常不舒服，而AVP则完全解决了这个问题。我现在经常在运动时用它看小说或电影，这在一定程度上增加了我的运动激情。对于奶爸奶妈们，另一个场景是，在照顾新生儿时，喂奶、拍嗝和哄睡都需要双手，这时候就无法手持手机或平板。但是，戴上AVP后，通过简单的手指操作或语音识别，就可以在照顾宝宝的同时看书或刷剧，这对于iPad来说开辟了一个全新的应用领域。

第二个更适合的使用场景是当我们需要一个非常宽广的可视范围，比如需要很多窗口平铺并且在中间频繁切换的时候，这是非常适合AVP的。比如，我在审Paper的时候，由于iPad触屏阅读的体验非常好，一般都会使用iPad来进行。但是iPad的屏幕非常小，即使全屏显示PDF，看起来都费劲，更不用说我要频繁的在其他APP之间切换。但是AVP可以给我们一个完整的视野：左边放Telegram用我写的一个AI Bot做arXiv paper的总结和问答，右边放Safari用来做调研，前面放一个巨大的PDF屏幕，旁边再放一个笔记APP用来记录Review Notes。整个工作流就非常的流畅。相比于iPad非常重量级的APP切换，它可以提供更加自然和高效的工作流。当然，相比于AVP，我仍然觉得如果正经坐在电脑前效率可能会更高，但是在这种情况下，iPad和AVP这种类似触摸屏的操控体验，而且它也可以让我们不用正襟危坐在电脑前，而是可以躺着看paper，整体的门槛就降了一个台阶。

此外，一个类似的应用场景是在网上买菜的时候，由于不同的买菜商家会卖不同的菜，同时还有不同的凑单的标准，因此我们在iPhone或者iPad上买菜的时候，也都会需要频繁的切换APP。但是AVP又给我们提供了另一种途径，我们可以直接平铺多个窗口，在中间跳转起来就非常方便。具体可以参照这个视频。

第三个非常适合AVP应用的场景是观看视频。尽管我们提到了AVP对开放VR标准的支持并不是特别理想，但即便是观看普通的B站视频，AVP也能提供非常惊艳的表现。这主要得益于它那参数极高的显示屏，它具备全景、高动态范围、高刷新率、广色域和高分辨率等特点。特别是在开通了B站大会员后，观看杜比世界的4K60P视频在大屏幕上的体验真的非常震撼。我当时就是看的这个视频，有兴趣的话也可以试试看。

思考与不足

我后来又投入了很多精力继续学习AVP app开发。在深入了解Apple Vision Pro的设计原则后，我发现iPad/iPhone上的App能在Apple Vision Pro上跑起来其实是一件非常反直觉的事情。以Apple Vision Pro中的App为例，它们之所以看起来如此自然可用，是因为这些App能够根据用户的视线位置做出响应，从而让用户清楚地知道自己正在看向哪里。例如，在AVP原生app中的按钮，当你的视线移动到按钮的不同位置时，按钮仿佛在三维空间中细微旋转，其反光也随之变化，从而反映了用户的视线位置。这种设计在苹果的术语中被称为responsive design，旨在通过细微的UI反馈，让用户实时了解系统识别出来的视线位置，类似一个光标，但又比光标更加自然。

然而，iPad/iPhone App本身并不具备这种特性。因为大多数情况下用户是通过直接触摸屏幕来进行交互的，没有视线这个东西，更别提三维翻转之类的东西了。所以用户在使用这些app的时候应该觉得非常难受，因为没有视觉反馈，两个手指tap的时候不知道系统到底有没有正确识别，会不会点中正确的按钮。但实际上完全没有这样的情况，iOS app在使用的时候同样有类似原生app的responsive design，有的是非常精细的高亮变化（尤其是系统原生控件），有的是至少给个高亮（比如微信的控件）。但也有一些app完全自定义控件，可用性就非常差（比如telegram），完全没有视觉反馈。

苹果是如何做到这一点的呢？我进一步学习后发现，在iOS的程序设计中，22年引入了一个类似的空间反馈机制叫做hover。当用户使用Apple Pencil并将笔尖悬停在屏幕上方，或者使用触控板操作将光标停留在控件上时，系统控件就会做出反应，来告诉用户识别到的笔尖/光标的位置。在Apple Vision Pro中，这个机制被调整为对眼睛视线移动的响应，或者说用户实际上在用眼睛控制虚拟的apple pencil在app上方移动。这使得即使是普通的iOS App也能在Apple Vision Pro中满足responsive UI的设计原则。这种设计思路非常巧妙，尽管在iOS App设计中，hover机制似乎不那么重要，但正是因为苹果的这一招"闲棋"，才使得iOS App能够如此自然地迁移到Apple Vision Pro上。不禁让人感慨苹果在下一盘很大的棋。

好了果粉时间结束。AVP的硬件也存在各种局限和不足。正如我之前提到的，它的人体工学设计并不构成问题，它相对较窄的视场角（FOV）也未给我带来困扰。但有两个问题在日常使用中给我带来了较大的不便。首先是麦克风的位置问题，我不太确定麦克风具体位于何处，但可以肯定的是，它离嘴的距离比我们将iPhone的麦克风靠近嘴边说话时要远。这导致语音识别的成功率大幅下降。特别是考虑到在很多情况下，语音输入比键盘输入或手势输入更快捷，尤其是AVP目前还不支持中文输入法，我们只能通过语音输入进行中文输入。这使得语音输入在整个生态系统中占据了不可替代的核心位置。然而，由于麦克风的问题，我们的语音识别率相比直接对着iPhone说话的识别率低了不少，这对使用体验极为不利。一个可能的解决方案是使用一些蓝牙耳机，比如AirPod Pro来改善这一点，或者AI领域可能会针对这种嘈杂的声音信号开发出其他模型，以提高语音识别的成功率。

第二个也许是最严重的缺陷是屏幕的眩光。我刚拿到AVP时，感觉它的屏幕显示效果非常惊艳。但是，经过两周的使用，这个屏幕变得越来越模糊，上面就像蒙了一层雾。在咨询了苹果店员后，我了解到这可能由两个原因造成。首先，AVP使用了Pancake Lens，这导致它在一些强对比的场景下会有比较严重的眩光。但对于我的这个特定情况，因为我明显感觉到这种对比度的下降和有雾的感觉是随着时间的流逝而不断变得更加严重，所以一种可能的原因是比如我皮肤上的油脂或汗水到了镜片上导致眩光。解决方法是使用苹果批准的一些清洁液，比如蔡司的Lens Spray，来对镜片进行清洁，把上面的指纹、油脂等附着物彻底清洁掉。我在使用蔡司的Lens Spray清洁之后确实感到有了明显好转。但现在也可以注意到，在全黑的背景下看全白的窗口时，也的确有切实可感的眩光。这部分看来就是Pancake Lens导致的眩光。也有一些方法能够让这个眩光大幅减轻，比如尽可能的避免在暗色背景下显示非常亮的前景，如可以考虑使用各个App的黑夜模式。在最新的Vision OS 1.1 Beta 3中，苹果也给一些原来不支持黑夜模式的App加入了相关的支持，比如说Safari现在也可以使用黑夜模式了。此外，在一些必须要看亮前景的场景下，比如看片的时候，此时可以考虑将背景换成一个带一定亮度的背景，这样可以降低对比，减少眩光的产生。

小结

总的来说，AVP不仅为我的生活和工作带来了便利，更重要的是提供了许多启发。它为工作流的优化和内容展示提供了新的工具和视角。特别是对我们APP开发者而言，在完成任务时，它提供了一个新的选择。我们可以思考，如果这是针对个人的工作流，为了尽可能高效地完成任务，引入基于眼球追踪和手势交互的第三维度会带来什么样的创新机会？这让我感到非常兴奋和好奇，充满了想象空间。这种对未知的期待和切实的便利是我在大多数朋友都选择退货或转卖他们的第一批AVP之后，仍然坚持使用它的原因。

Computing Life