雷峰网

野心藏不住，雷鸟创新发布V3 AI拍摄眼镜对标Meta

Mon, 13 Jan 2025 18:22:00 +0800

“站在Meta的肩膀上，设计一款超越Meta的眼镜。”

近日，在雷鸟创新举行的“Meta，Beyond”发布会上，雷鸟创新创始人兼 CEO 李宏伟如是说。

而这款要超越Meta的眼镜，即是当天正式推出的 RayNeo V3 AI 拍摄眼镜。

媲美Meta，雷鸟V3 AI拍摄眼镜正式发布

近日，雷鸟创新举行“Meta，Beyond”发布会，正式发布雷鸟V3 AI拍摄眼镜。该产品搭载猎鹰影像系统、通义千问独家定制大模型、第一代骁龙(®)AR1旗舰级芯片、定制扬声器等诸多创新技术，定价1799元，于北京时间1月7日开始预售，1月10日现货发售。

区别于以往雷鸟Air 系列和雷鸟X2等以“显示”为主的智能眼镜，此次发布的 RayNeo V3 AI 拍摄眼镜，是雷鸟首款不带显示功能的产品。无论是从功能性还是体验感来看，V3 AI 拍摄眼镜近乎可以视作Meta RayBan 智能眼镜的“中国版本”，甚至在性能上有多项指标比后者更胜一筹。

在核心配置上，雷鸟V3搭载高通技术公司的第一代骁龙(®)AR1处理器，该处理器集成高通HexagonTM NPU，并拥有双ISP高速图像信号处理功能，在为下一代AI功能提供算力支持的同时，也为画质算法提供算力支持。

在影音系统上，雷鸟创新联合TCL开发了猎鹰影像系统，独家定制了猎鹰光学镜头，采用 5 层镀膜、16mm 大广角和 F2.3 的大光圈配置，传感器选用索尼 IMX681，支持 4K 照片拍摄和多种视频录制格式。

同时，雷鸟创新还与虹软合作量身打造了眼镜拍摄设备专属的色彩风格，并集成了多帧降噪、HDR 拍摄、EIS 电子防抖、暗光增强等技术。

在音频体验上，雷鸟V3通过3D结构堆叠技术平衡小体积和高音质，其采用了雷鸟创新与AAC联合开发的全新定制扬声器，其具备0.6mm长冲程，有更真实的音频空间感。

在佩戴舒适性上，雷鸟V3采用高密度3C电池、轻量钛金属转轴和电路优化设计，整机重量仅39克，并进行支撑平衡优化，配备婴儿肤感级鼻托，根据亚洲人头型优化的转轴和夹持力，使不同头型用户都可以像普通眼镜⼀样全天佩戴。续航方面，搭配便携充电盒，雷鸟V3可支撑30小时超长续航时间，满足长途出行。

尤其值得一提的是其强大的AI能力。

此前，雷鸟创新与阿里云宣布达成战略合作，针对雷鸟AI眼镜的场景和硬件特点，阿里云基于通义系列大模型底座，设计了整体多模态交互架构，定制化开发“云+端”模型，帮助产品实现高响应、低延迟、高质量的多模态 AI 交互体验。通义系列将为雷鸟 AI 眼镜独家定制 AI 大模型。

作为双方合作后，首个搭载定制大模型的 AI 眼镜，雷鸟 V3 搭载的 RayNeo AI 呈现“快、准、狠”三大特性。据悉，雷鸟V3 的AI平均响应速度为1.3s，识别准确率高达98%。不仅支持语音助手、百科问答等常见功能，后续还将上线RayNeo 电台、探索视界2.0、手机通知AI总结播报、QQ音乐点播、AI新闻播客、全场景录音总结、支小宝扫码支付等功能。

两大技术突破，雷鸟X3 Pro Q2上市

作为业内唯一拥有核心光学方案全链路自研及量产能力的AR品牌，一直以来，雷鸟创新通过并线布局 MicroLED + 光波导、MicroOLED + BirdBath、AI 等技术，持续在光波导技术上进行突破，以实现更高的显示效果和更轻便的佩戴体验。

继2023 年发布全彩MicroLED光波导AR眼镜雷鸟X2后，此次发布会上，雷鸟创新再度展示了自家在AR 技术上的两项重要突破。

一是，雷鸟创新自研光引擎「萤火光引擎」。

据悉，萤火光引擎是雷鸟创新自研的全彩 MicroLED 光引擎，是目前行业最小的彩色光引擎。光引擎在X2光引擎的基础上完全进化，通过在极致的设计和工艺，最终实现了0.36cc的极限体积，较上一代缩小了整整40% 。并且，萤火光引擎由雷鸟创新完全自主研发和完全自主生产，产品将在雷鸟RayNeo嘉兴工厂生产。

二是，全球首个可量产的表面浮雕光栅刻蚀光波导「RayNeo 光波导」。

RayNeo波导由雷鸟创新与美国应用材料公司合作开发，是全球首个可量产的表面浮雕光栅刻蚀光波导。测试数据显示，RayNeo波导能有效减少95%的彩虹纹问题，保障AR 眼镜在多场景下都不受杂光干扰。

除此之外，RayNeo波导的单层全彩技术较过去的双层波导，产品厚度减少0.6mm，重量下降了25%，峰值亮度则达到了 5000nits，达到了真正能直面阳光，出门使用。而且，据雷鸟创新透露，公司还在积极探索碳化硅光波导技术，向着10000nits的峰值亮度进发。

出色的技术最终需转化为优质的产品。发布会上，搭载了萤火光引擎和RayNeo波导的雷鸟X3 Pro同步亮相。据悉，该产品将于2025年Q2正式上市。

正如李宏伟所言，2025年注定是智能眼镜的世纪大战之年。

但在这场世纪大战中，谁将脱颖而出尚难以预料。胜负尚未尘埃落定，任何参与者都有可能成为一匹黑马？最终决定胜负的关键在于技术创新的能力以及能否持续进行更新迭代的实力。

雷鸟X3 Pro、V3 亮相 CES 2025，集中展示中国创新力

Thu, 09 Jan 2025 19:14:00 +0800

1月8日，CES 2025在美国拉斯维加斯正式开幕，全球领先的消费级AR品牌雷鸟创新RayNeo展示了雷鸟V3 AI拍摄眼镜、全新 MicroLED 光波导 AR 眼镜雷鸟X3 Pro、雷鸟 Air 3等一众新品，以全新的 AI+AR体验，吸引了众多参展观众和行业媒体驻足体验。

雷鸟V3 AI拍摄眼镜于2025年1月 7日正式发布，搭载猎鹰影像系统、通义独家定制大模型、第一代骁龙®AR1旗舰级芯片、定制扬声器等诸多创新技术，定价1799元。

影像方面，雷鸟V3 搭载了独家定制猎鹰光学镜头，配备索尼IMX681传感器+5P定制光学镜头，支持4K照片拍摄、1080P横向、1440P竖向视频，让生活的每一刻都能清晰记录。AI方面，雷鸟V3 搭载由通义独家定制的大模型，可实现1.3s的响应速度、识别准确率高达98%。

在此基础上，雷鸟V3将支持业内首个连续视觉大模型，通过摄像头用户可以简单地“看懂”周边环境信息，真正做到所见即做得。除此之外，V3还将上线RayNeo 电台、手机通知AI总结播报、QQ音乐点播、AI新闻播客、全场景录音总结、支小宝扫码支付等丰富功能，让AI真正服务于用户的日常生活。

（图片：雷鸟 V3）

雷鸟X3 Pro是雷鸟最新一代光波导AR眼镜，搭载萤火光引擎、RayNeo波导,将于2025年Q2正式上市。萤火光引擎是业内最小的可量产彩色 MicroLED 光引擎，由雷鸟创新完全自主研发和完全自主生产。通过在极致的设计和工艺，光机体积仅0.36cc的极限体积，较上一代缩小了整整40% 。RayNeo波导是全球首个可量产的表面浮雕光栅刻蚀光波导，能有效减少95%的彩虹纹问题，并实现了夸张的5000nits的峰值亮度，让AR眼镜达到了真正能直面阳光，出门使用。雷鸟 X3 Pro将于2025年Q2季度正式上市。

（图片：雷鸟 X3 Pro）

（图片：现场观众体验雷鸟 X3 Pro）

雷鸟Air 3搭载了全新孔雀显示引擎、第五代Micro-OLED微型显示屏和独家双单元背靠背音频结构，在显示亮度、屏幕色彩、清晰度、音效等方面均实现了跨越式提升，使这款仅76克的轻量级眼镜成为AR眼镜影音体验天花板，为用户带来沉浸式体验。

（图片：雷鸟 Air 3）

（雷峰网）

AR眼镜出海难的不光是卖货，还有建立内容生态｜鲸犀百人谈No.24

Thu, 21 Nov 2024 09:36:00 +0800

随着Ray-Ban Meta在海外爆火，累计出货量超过100万副，众多国内企业纷纷涌入AI智能眼镜赛道。

今年7月的时候，业内分析Ray-Ban Meta带起了至少50个潜在的AI智能眼镜团队涌入该赛道，如今四个月过去，这一数字可能已经飙升到了100家。仅仅过去一周，便有多家厂商相继亮出了AI智能眼镜新品，一场“百镜大战”一触即发。

在这形形色色的AI智能眼镜企业中，Rokid是一个极为独特的存在，它已经在这条赛道上默默耕耘了十年。

十年前，祝铭明目睹了谢尔盖·布林（Sergey Brin）率着一队跳伞运动员从策帕林飞艇上一跃而下，用一种惊心动魄的方式将谷歌智能眼镜带入了公众的视野。这一幕让他激动不已，他找到自己在阿里巴巴的领导，提出要离职去追寻梦想。

他预测，未来有两个领域将彻底改变人类的生活：AI（人工智能）和AR（增强显示），更重要的是，这两者最终会融合在一起。他决心要去做一件能够改变人类生活的事，而且要做得比谷歌更好。

十年后，Rokid Jungle 2024合作伙伴暨新品发布会上，祝铭明带着他的Rokid站在了同一个地方，阿里巴巴园区内，向全世界展示他的梦想成果。

本期鲸犀出海百人谈，我们邀请到了Rokid创始人兼CEO祝铭明，分享他对当下这波AI智能眼镜热潮的看法，以及Rokid在AI智能眼镜赛道上十年求索的心得和经验。以下是专访的全部内容，雷峰网鲸犀进行了不改变原意的编辑与整理：

好眼镜、好耳机、好相机、好助手

鲸犀：此次推出的新品，从外形上看，已经很贴近普通眼镜了，和上一代产品相比我们做了哪些改进？给用户会有哪些更优化的体验感？

祝铭明：虽然都叫做 AR 眼镜，但实际上 AR 眼镜在现在这个阶段有两个完全不同的品类。一个品类就是我们过去一直在做的产品，交互能力、展现能力、计算能力等都非常强，比如像Rokid AR Lite AR空间计算套装，其特点就是能力很强、展现能力也很强，但它没办法日常佩戴，因为还是一个非传统眼镜形态的产品，在办公、玩游戏时可以带上。

另一个方向上的产品，叫做AI+AR，AI+AR 的产品展现力有限，但是它特点就是轻便、一体，就像一个普通眼镜不到 50 克，有点像Ray-Ban Meta，本质上讲是一个AI眼镜。

Rokid即将推出的这款产品，跟最近很多企业一窝蜂推出的产品最大的区别就是，我们是从AR眼镜演变出来的加上AI能力的眼镜，它不是一个纯粹的AI眼镜。当然AI是非常重要的一个能力，但它核心强调四个能力（这四个能力本身也是按照优先级排的）：

第一个能力就是它首先是一个好眼镜，你可以日常佩戴，且佩戴很舒服，而且可以取代近视镜、老花镜，所以我们的宣传口号叫不止一副好眼镜。第二它是一副好耳机。它是一个非常不错的耳机，因为本身只要打电话或者语音，都需要一个耳机。第三它是个好相机，跟雷朋一样，它在拍照摄影方面品质非常好。第四它是个好助手，像 AI 的一些能力，比如翻译、信息提醒、导航，AI 搜索、AI 问答等系列功能。

总的来说，即好眼镜、好耳机、好相机、好助手。

鲸犀：目前，我们发现海报披露的合作伙伴除了互联网科技品牌之外，还出现时尚眼镜品牌BOLON，这一合作是否意味着我们将产品线拓展到时尚眼镜产品？还是将我们的技术赋能BOLON？具体合作模式可否展开讲讲？

祝铭明：眼镜作为日常佩戴的产品，其优先级非常高。刚才我们讲到一副好眼镜，一副好眼镜如何定义，那就是除了戴着舒服之外，它还天然具备时尚属性，得是一个戴在脸上好看的眼镜，所以跟时尚品牌的合作就会变得非常重要，这也是为什么Meta会跟雷朋合作。

BOLON是中国第一眼镜品牌，所以我们跟BOLON合作。这是此次合作的出发点，其实简单地讲还是因为它是一副日常佩戴的眼镜，所以要把时尚属性拉满。

鲸犀：这次合作，分工是怎样的？

祝铭明：BOLON负责设计，我们负责整个技术和体验。不是贴牌。这次发布会BOLON 市场负责人也会来的，发布会上他们的团队也会上去讲，你会发现他们团队在设计上花了好多功夫，而且这次产品是非常典型的BOLON风格的设计。

鲸犀：Rokid的产品设计本身也不错。

祝铭明：跟BOLON是不一样的。Rokid一看就是科技产品，但是BOLON纯粹就是时尚产品。即将发布的新品，你第一眼看的时候，如果不告诉你，你会以为它是一副时尚眼镜。是跟Rokid之前完全不一样的设计语言。

我们非常尊重BOLON，所以这款产品是以BOLON的设计师为核心设计的，我们的设计师只是从技术角度提供了参考，这是一次非常深度的合作。你会看到新款产品跟市面上的其他眼镜都不一样。

AI补齐了轻便型眼镜展现力不足的短板

鲸犀：近来AR眼镜风起，在您看来，大模型这波AI浪潮对AR眼镜行业的发展有哪些影响？

祝铭明：Rokid之前为什么不推这款眼镜，一个根本的原因是如果纯粹从AR的角度来讲，它的展现力不足，不能看电影，不能玩游戏、不能办公、不能社交，所以Rokid一直没有去做。但是AI，通过后台能力的增强弥补了它在展现力上的不足，让它变得很有用。原来这个眼镜就很尴尬，你做一个轻便的眼镜，但是用途有限，但 AI 就让它的用处一下就变广了，比如说搜索、拍照、翻译一系列的这种功能，它的能力就变得很实用。

所以AI肯定是对日常佩戴的这种类型的眼镜，是一个强助力。这也是为什么，在过去两年AI的基础上，推出了整个产品。其实这个产品从AR的技术讲，早就ready了，实验室早在两三年前就已经完成了这个产品的原型设计。

Meta与雷朋的合作，一开始是基于社交属性来的，它并没有做AI的东西，它是希望做一个社交拍照分享，它更像是一个戴在头上的相机，这是Meta与雷朋合作当时的设计出发点。对于很多美国人来讲，本身就要买一副雷朋的眼镜，再加上有一点社交属性。

Rokid的出发点不一样，Rokid是从AR的角度出发，思考的是AI跟AR有没有真正增强的能力，反而社交不是我们的核心。

可以理解为Ray-Ban Meta和Rokid即将推出的新品，看起来都是日常佩戴的眼镜，但是它的理念是完全不同的。Rokid是原生的AI AR产品，雷朋其实是从社交拍照类的眼镜衍生而来，加了一些AI的能力。

这也是为什么Rokid一定会有显示，因为Rokid本身就是一个AR公司，所以我们思考的是AR的眼镜如何跟AI进行结合，而glasses就是我们交的第一份答卷。

鲸犀：大模型火了以后，又涌现出了一批新的AI眼镜创业公司，这些公司和上一批智能眼镜企业有哪些不同？Rokid的技术区别于其他企业，有不一样吗？我们的优势有哪些？

祝铭明：Rokid真正的积累是在软件和系统层面，这次为什么我会更强调AR和AI合作，也是这个原因。一直以来，我们是以操作系统、生态、算法、交互这些东西组成的，大部分的宣传也是围绕这些来做，而不是简单地讲一个显示的眼镜。目前，除了Rokid之外，其他人基本上还在单纯去讲一个戴在头上的显示的大屏，Rokid早就不讲这个故事了，但是戴在头上的大屏是一个最基本的能力。打一个不太恰当但比较接近的比方，以电脑或手机为例，我们是做手机/电脑的，其他人是做显示屏/显示器的，这就是最大的区别。而且我们跟Apple一样，在操作系统层面直接就有完整的一套解决方案。所以你可以理解为我们跟现在大部分的玩家不是一类公司，我们更多的还是从一个计算平台的角度去思考。

一句话来说就是Rokid打造一个完整的全栈的计算平台，AR AI计算平台，这是我们跟大家最大的区别。计算平台就意味着从硬件、软件、操作系统、算法、生态都是完整的，所以我一直说，Rokid是一个隐藏在精美硬件下的软件系统平台。我们公司的工程师60%以上是软件工程师。

这个产业太早期了，所以你不能有太大的短板，不能说我是一个软件公司，就做一个很丑的硬件，这没有道理。尤其是一开始的玩家，都是比较挑剔的玩家，更不能有太大的短板。从本质上来讲，我还是希望大家能理解，Rokid之所以做一个很漂亮很好用的硬件，是为了承载我们的软件和生态。

尤其是这次的产品，它作为一个时尚眼镜，首先得强调它是一副时尚眼镜，但它的功能非常强大，强大到让你吃惊。举个例子，我前几天拿X光底片问它得了什么病，它就能直接告诉我；有个盲人戴上眼镜，他的太太告诉他桌子上有个西红柿，眼镜可以告诉他西红柿在他的右手边，他可以直接去拿；一个化妆品，它可以告诉你适不适合干性或油性皮肤；下象棋的时候，它可以引导你怎么走，一步步赢得这盘棋。它对物品的识别能达到这种地步。

预计明年海外收入占总收入一半

鲸犀：很多新的AI眼镜公司都选择先在海外市场发展，您如何看待这种现象？Rokid在海外有哪些布局？在您看来，出海仅仅是卖货这么简单吗？企业出海需要什么能力？

祝铭明：其实对于很多企业来讲，纯粹消费类的产品，其实就是出海卖货，品牌渠道建设，但是对于 AR 眼镜，对于我们这样的智能终端眼镜，它的任务更重。首先出海非常重要，Rokid也会不遗余力来做，我们接下来也会宣布一系列的出海动作，但实际上对于我们来讲更关键的是如何建立，除了品牌、渠道、营销这些基本的操作之外，更重要的是建立生态，海外的内容、生态。

我们在去年的时候就跟谷歌合作，把Android TV所有的生态都挪到我们上一代的海外的产品上，那个影响力还是非常大的。因为这是一个智能终端产品，如果你拿回去它只是一个硬件的显示器，其实还是太薄弱了，你肯定还是要考虑海外的生态怎么对接，整个合作伙伴怎么去建设，这个Rokid花了大量的精力。目前为止谷歌也只授权了Rokid一家。

所以信息类的，像我们这样AR 类的产品，其实比其他的标准的快消类的产品还是要难很多，但我们也必须得迎接这个挑战。

鲸犀：目前，Rokid的海外市场主要集中在哪些地方？

祝铭明：跟其他企业都差不多。作为电子快消品，基本上还是北美、日韩、欧洲。欧洲市场，我们刚刚进入，北美和日本我们已经做了一年了。

未来会持续经营海外市场，计划是要做到海外收入占整体收入的一半。

鲸犀：计划什么时候可以实现？

祝铭明：明年应该就能实现，今年已经比较接近一半了。

鲸犀：海外团队占比多少？

祝铭明：团队不多，因为海外毕竟只是渠道、营销和生态的团队，核心研发还是在国内。

鲸犀：您刚才提到说接下来会宣布一系列出海动作，能提前透露一下吗？

祝铭明：比如说这次与BOLON联合的产品就是面向全球销售的，不是只针对中国市场。接下来Rokid所有的产品都是一上来就面向全球，这次的发布会，你会发现我们也有一些海外的合作伙伴也在现场，而且都是非常大的合作伙伴。

很多人把全球化理解为中国产品出海，这个思想还是有点狭隘，其实从一开始产品设计的时候就要考虑到它就是一个全球化的产品，就像iPhone，它没有说中国iPhone，美国iPhone，它就是iPhone，最多在生态内容上做个差别，应付一下当地的政策，其他的都一样。

鲸犀：那在发展策略上，Rokid将注重对C端市场的挖掘，还是对B端市场的深耕，亦或者是“To B+To C”双轮驱动？

祝铭明：海外重点肯定是To C，To B 是顺带着做一做。如果有类似文博这些业务，他们有兴趣合作，我们也会加强做，但核心海外还是以C端为主，因为想快速做影响力，B 端我们就稳扎稳打去做就好了。

鲸犀：Rokid虽然已经成立很多年了，但要同时拓展国内和海外市场需要投入的资源是非常大的，Rokid是怎么来分配有限的资源的？

祝铭明：其实营销资源，Rokid国内国外本来就差不多，而技术、平台和产品我们从一开始就是统一设计的，由同一个团队支撑，大家都复用的，也就营销和品牌团队上可能会做一定的切割，但总体来说，海内外投入都是相同的，甚至海外可能还会多一点。

鲸犀：海外的XR产品仍旧是领先于国内的，作为追赶者我们怎么在海外市场去跟他们竞争，国内这批XR企业的优势在哪里？

祝铭明：首先我纠正你一个观点，其实从AR产品的角度来讲，Rokid是领先于他们的，我如果把5年以后研发的 prototype（原型机）拿给你看，你也会觉得很先进。我们跟大公司最大的区别就是我们不会拿一个像Orion一样到2030 年都不会量产的产品给大家看而已，这不是我们的风格。

如果我拿一个我们2030年才会去考虑生产的产品，它一定是非常非常惊艳和先进的。Vision Pro的技术是非常强大的，但是在产品方向上，Apple自己也认为它是个错误的方向，所以我觉得在这个领域里面，Rokid从来都不是追赶者，Rokid做的事跟很多人都是不一样。

应该说我们也是引领者，或者我们是另外一个坚持自己的产品路线和思考的公司，怎么与他们一起共同引领这个行业的发展，所以每一次Rokid发布的产品都不仅仅在中国，在全球都会引发关注。这次发布会，海外的大的媒体也会非常关注，比如像时代周刊等都会关注我们的发展。

鲸犀：ok，换个说法，在一个巨头看中的领域，国内的创业公司，如何找到自己差异化的优势和前进路径？

祝铭明：国内企业天然的优势就是数据、应用、生态它是不同的，Meta做得再好，Apple做得再好，他们在国内的生态基本上还是比较匮乏的，甚至进不来的，比如Meta。

其实，海外竞争也没有其他的诀窍，就是靠产品，做出更好的产品，做一个用户更喜欢的产品。尤其是海外用户，他们其实更理性，不大在意产品是来自大公司还是小公司，他们更看重的还是产品好不好。

Rokid判断这些东西通常会剥掉大公司、小公司的外衣，我们还是要看产品是不是真的做得比别人更好。

Rokid还是那句话，如果你真的想参与全球竞争，就真正扎扎实实做好产品，做好用户价值。

鲸犀：您会认为财力不是决定因素？

祝铭明：坦白来说，大公司烧钱也不一定能做出来。产品不是靠烧钱做出来，是用心，要用心去做，其他都是假的。

如果靠烧钱就能做产品，那任何行业都没有创业公司的机会了。

而且创业公司还有一个好处，就是包袱不大，他可以更专注地做好这个产品，大公司反而有些光环和包袱，就像vision Pro，一个典型的光环包袱下的产品，看着很强大，但最后其实用户不买单。所以我觉得不用太迷信大公司，还是要回归产品，Rokid从来都是这样的，对于比我们小的更早期的创业公司，我们反而会很尊重，他们是怎么去思考产品的。大公司我们也一样，大公司我们会更重视去分析它的产品思考是怎么样的，什么是对的，什么是错的，哪些东西值得借鉴，但不会因为它是Apple所以我们就跟随它。

Rokid一直以来都是走自己的风格，走自己的思考，我们不是一个跟随者。所以还是那句话，赢得这个市场本质靠一个好产品，其他都是假的。

Rokid叫AR时代的引领者，我们是没有限定“中国”两个字的，我们叫Rokid，AR时代的引领者，是要做全球AR时代的引领者，至少我们要在全球的竞争里面有自己的话语权和自己的特色。

鲸犀：您认为智能眼镜行业的春天快到了吗，Rokid的「iPhone 时刻」在什么时候？

祝铭明：大概是在2026年～2027年之间，不会再晚了。

鲸犀：为什么这么说呢，依据是什么？

祝铭明：其实Rokid基本上是能够代表行业的节奏，每一次Rokid发布会之后，对行业都会有一个大的启发。我们设定的时间点就是这个时间点，所以大概率这件事情会在2026～2027之间。我们不仅仅是预测未来，我们实际上是在实践这个预测。

另外再加上行业的整个生态差不多是在2026年到2027年间，各个环节都会趋向成熟，所以在那个时候一定会引发一个大高潮。

所以，一方面是基于Rokid在行业的影响力，我们自己把时间点设定在2026～2027年之间；另一方面就是目前整个生态都在往这个方面去做，上下游供应链将会在2026～2027年间有翻天覆地的变化。

咱们先把话留在这，以后我们再来对照这个时间点，看我说得准不准。

最大的困扰是教育市场而非竞争

鲸犀：最近很多小米这样的大厂也开始杀入XR赛道，这会对Rokid这样的企业产生什么样的影响？

祝铭明：肯定会产生影响，但这个影响是好的影响。

现在的大方向是一个巨大的蓝海市场，最大的困扰并不是竞争，当然，未来也许是。但现在最大的困扰是教育市场，而不是竞争，我觉的这才是核心。

首先你对自己的产品有信心的话，不要去担心竞争。我还是那句话，不管大公司、小公司，是产品第一。第二就是这个市场现在更需要的是共同热闹和引发大家的关注，而不是去瞄准怎么竞争，这不是Rokid要做的事，Rokid产品差异化非常明显。目前，小米也好，百度也好，推出的产品还是比较follow雷朋的路线的。Rokid是有自己的路线，他们是以耳机为核心出发点，Rokid是以AR为核心出发点。所以大家目前为止是没有大的竞争的，但即便是有竞争也不用怕，因为这个行业现在太蓝海了，你稍微错开一点，稍微做点外观的区别，可能就会有不同的受众人群。

所以现在，竞争不是主旋律，教育市场才是主旋律。有大公司进来，或者更多的人进来绝对是好事。如果还是自己一个小的创业公司在教育市场，能力是非常有限的，那对于创业公司来讲，就是如何保证在未来的竞争中你的产品、技术和用户价值仍然是走在前面的，这才是我们更多要思考的问题。

但至少到今天为止，我觉得在单位密度上，在投入上，Rokid在行业内哪怕跟大公司相比，也是最大的一家公司。不是看整体的体量，而是看专业的战场上，大家投入和影响力到底是什么样的。比如说这次的发布会，是AR全球最大的发布会，在这个领域，Rokid的投入和影响力绝对是最大的。

还是那句话，这竞争不是主旋律，共同教育市场才是现在的主旋律，以后也许会竞争，但现在先不要去思考。

尤其如果一个企业在早期靠低价去打市场，一定是错误的。当然，大公司经常会用这种简单粗暴的方式，这也许是他们能够最快速、最简单去试错的方法，所以对于创业公司来说，一定要抗住前两年大公司的进攻，Rokid已经扛了10年。没有的任何一个产业在早期是靠低价赢得战争的。

鲸犀：所以要先将蛋糕做大，将这个市场做大。

祝铭明：如果用户真的喜欢你的产品，真的愿意用你的产品，总有一群人会愿意为你的理想和梦想买单。如果你一开始就聚集了这么一群爱占便宜的、低价的人作为早期的种子用户，可想而知，未来整个的社区、用户文化，将是多么糟糕的一个结果。

鲸犀：Rokid已经成立10年，可能不用像初创公司一样兢兢战战。基于当前这股AR眼镜的热潮，Rokid将在这一波浪潮中如何把握新机遇？

祝铭明：首先，Rokid一直有自知之明，仍然把自己定位成初创公司，而且更重要的是，Rokid一直在思考做好的产品和不一样的产品。

竞争是最低程度的能力，真正的能力是做差异，Rokid希望做出自己特色和差异的东西，哪怕我们最终在一个同质竞争中赢得战争，也并不是Rokid最好的战略。

假设Rokid未来也成为大公司，我们永远要思考三个问题：一是其他人做不到，我们为什么能做到；二是其他人做到了但做不好，我们为什么能做好；三是其他人已经做得很好了，我们能不能做得不同。

真正优秀的战略是差异，而不是竞争，即便你竞争能赢，可能也是一个比较惨烈的结果，比如可能会面临价格竞争或同质竞争。

鲸犀：对于国内外AR眼镜市场现状和趋势，您有哪些预判？

祝铭明：未来AR眼镜一定会变成一个所有能力都具备的东西，大概在3～5年内，变得又轻便，展现能力又好，画面精致，使用起来也很智能，而且佩戴舒适时尚。在这3～5年中，AR眼镜将会形成非常清晰的两个技术路线，一个是空间计算路线，一个是便携式日常佩戴眼镜的路线，这两条路线会独立发展3～5年，然后在3～5年之后，他们会融合在一起。

空间计算和AI+AR眼镜会各自引领不同的方向去跑，但Rokid是两只脚同步在跑。

我们之所以两只脚同步在跑，是因为我们相信在未来3 ~ 5年后他们又会合到一起来。大家在这个领域各自寻找机会，有人专注做空间计算或大屏，有人专注做便携式，甚至有的就做一个没有显示的耳机类的眼镜，也都没有问题，但总的来说，就是在这两个大的方向里各自寻找自己的细分市场，但在未来3～5年之后他们会变成一个事，那个时候手机行业就要面临大的挑战了。

（雷峰网）

Rokid Glasses 发布，AR眼镜跑步进入消费时代

Tue, 19 Nov 2024 19:41:00 +0800

2024年11月18日，Rokid Jungle 2024 合作伙伴暨新品发布会在杭州举行。此次发布会 Rokid 推出一款与BOLON眼镜联名的新一代 AI + AR 眼镜—— Rokid Glasses，同时也向行业展示其丰富的内容生态。

“减负满配”的AI+AR眼镜来了

在本次发布会上，Rokid 推出了其新一代 AR 眼镜——Rokid Glasses，这款眼镜集成了AR技术与时尚美学于一体，标志着AR技术向更广泛的日常应用场景迈进的重要一步。基于衍射光波导成像技术打造而成的Rokid Glasses，在设计理念上追求极致轻盈与无缝融合现实世界的愿景，实现了从外观到功能上的全面革新。

与以往分体式设计不同的是，此次发布的Rokid Glasses采用了一体化结构布局，重量仅49g。Rokid产品团队将主板、电池等核心组件巧妙地集成于纤薄框架之中，使得整体造型更加接近传统眼镜样式，极大地提升了佩戴者的舒适度及便携性。借助光波导技术的支持，该款AR眼镜能够在不影响正常视线的前提下，通过透明镜片展示出清晰细腻的虚拟界面，实现信息叠加显示效果，从而开辟了全新的人机交互模式。

在功能性方面，Rokid Glasses配备了一颗高达1200万像素的专业级摄像头，不仅支持竖屏模式下的高清拍照和视频录制功能，还设置了拍摄状态指示灯，当摄像头启用时，指示灯点亮提示相机处于拍摄状态。此外，通过深度整合阿里巴巴旗下通义千问大模型的强大算法能力，这款智能眼镜能够轻松完成物体识别、文字翻译乃至数学题解答等多种任务，为用户提供前所未有的便捷体验。例如，它能快速准确地计算食物卡路里含量，并即时呈现给使用者；或者是在跨文化交流场景下，自动捕捉对话内容并实时转化为对方语言的文字提示，极大地方便了国际旅行者之间的沟通交流。

Rokid Glasses还具备接收来自钉钉等应用程序的通知提醒、天气预报等功能，并且作为一款理想的导航辅助工具，无论是在步行还是骑行过程中均能发挥出色表现，给予用户精准的方向指引，同时播报前方路况信息。为了进一步优化听觉享受，本产品采用了双声道高保真定向扬声器配置，既保证了音质的饱满丰富又有效减少了声音外泄现象，确保个人隐私得到妥善保护。

从硬件规格来看，Rokid Glasses搭载了第一代骁龙®AR1平台，配合2GB RAM+32GB ROM存储组合，足以应对各类复杂应用需求；而蓝牙5.3的引入，则使其能够顺畅连接至智能手机、平板电脑等多种外部设备，拓展更多可能性。整副眼镜仅重49克，却蕴含着不俗的续航表现，满电状态下日常使用可以持续使用4小时。电池可在十分钟内充电至90%，完全充满仅需20分钟，配合磁吸式充电底座设计，通过眼镜盒进行充电，让充电过程变得异常简便快捷，满电状态下眼镜盒可充满十次Rokid Glasses。

此次Rokid Glasses新品正是最时尚与最科技的完美结合，新品外观整体由BOLON眼镜操刀完成，以经典为本，以时尚为锋打造新一代AI+AR眼镜。

本次合作的联名产品外观整体由BOLON眼镜开发设计，根据人体工学研发，充分考虑产品所承载的科技功能需求，对眼镜结构进行调整，在材质选择上以轻便的高品质材料为主，让产品在佩戴时更加轻盈舒适，真正做到“减负满配”。消费者在享受时尚与舒适的同时，能够更好体验科技带来的便捷生活。

戴上眼镜，看清世界。在当下这个时期，眼镜逐渐变成刚需，甚至是身体延伸的一部分，它的意义绝不仅仅只是帮助人们看清的工具，更是陪伴着我们好好看这个世界的朋友。BOLON眼镜通过“每一刻都值得好好看”的价值传递，来唤起大众对视力保护的感知和对生活的珍视；同时表达出对自身产品的期待：兼顾功能、舒适与时尚，让BOLON的产品陪伴大家好好看见生活的美好。

高通全球副总裁陈勇出席发布会，并表示对搭载第一代骁龙AR1的Rokid Glasses发布的祝贺。第一代骁龙AR1旨在为轻巧省电的智能眼镜提动作，从而增强用户体验，并使其佩戴体验更舒适。

全新的Rokid智能眼镜拥有强劲性能，采用14-bit双ISP，具备多种拍摄顶级特性，比如自动曝光、自动人脸检测、EIS电子防抖等；同时也支持AI能力，能够帮助增强照片和视频的拍摄质量，通过降噪实现更清晰的通话，并通过计算机视觉实现更清晰的视频拍摄；这一切都得益于第一代骁龙AR1集成的高通Hexagon™️ NPU，以及专用的AR级计算视觉模块，带来低功耗和低延迟的感知。此外，搭配健康和运动传感器，用户通过点头摇头等动作即可触发指令。

在眼镜应用方面，Rokid Glasses也将接入支付宝旗下的“AI生活管家”支小宝，引入AI办事、声纹支付等能力。未来通过Rokid Glasses，用户可语音唤起支小宝，说句话就能让AI帮你点餐、打车。比如，用户对着Rokid眼镜说一句：乐奇，点一杯大杯冰拿铁，到店取，支小宝就可以直接帮忙“跑腿”买咖啡。

Rokid Glasses还将引入支付宝“声纹支付”技术，作为传统数字密码的补充。未来用户在使用Rokid眼镜打车、点餐或扫描二维码时，语音说出付款金额，即可通过声纹进行身份校验，实现快速小额支付。同时，为了保障用户在声纹支付过程中的资金安全，支付宝将提供深度AIGC音频防伪技术、软硬件结合的联合防控体系等多项安全保障，用户也可以用传统数字密码等其他支付方式。

发布会上，Rokid创始人兼CEO Misa还宣布了一项激动人心的消息：官方将推出一项特别优惠——仅需支付9.9元即可获得价值200元的F码。如今，这项活动已经正式上线Rokid官方微信公众号，感兴趣的用户可提前锁定Rokid Glasses。

本次发布会除 Rokid Glasses 外，Rokid 还推出 Station 2 创作版，在原有的 Station 2 基础上增加了2颗空间拍摄摄像头，支持空间照片和空间视频的拍摄，方便用户以空间影像的方式记录精彩瞬间，留下回忆。

为了让更多设备支持空间计算，让更多的设备能够快速接入空间大屏的优秀体验，Rokid也推出了Spatial Link，通过Spatial Link，传统小屏设备可以快速把画面投射到300吋的空间大屏中，并且可以支持巨幕、运动模式等特殊场景，获得更好的交互和显示体验。

Rokid丛林茂盛，生态伙伴积极拥抱AR

在此次发布会上，Rokid邀请了众多合作伙伴共同探讨他们在AR领域的创新理念与实践。特别是在办公场景中，Rokid携手钉钉探索未来AR办公的新模式。

Rokid曾经与钉钉联合发布WorkSpace、钉钉数字展厅、钉钉数字文化墙等项目。打破了有限的现实显示空间，利用AR技术让展现内容更加丰富多元。在新品方面钉钉与Rokid深度合作，基于Rokid Glasses打通钉钉应用，佩戴眼镜时可随时查看聊天并做出快捷回复，也可以通过眼镜随时查看日程提醒、加入视频会议，极大提升交互效率。

钉钉COO傅徐军于会上介绍道，钉钉硬件生态策略保持开放态度，钉钉做好软件、数字化能力、AI能力，我们的合作伙伴做好硬件、做好场景、做好创新，两者起到1+1＞2的效果，在更多场景实现创新和突破。在未来钉钉希望和Rokid继续展开深度的合作，实现工作效率最大化。

而在娱乐领域，Rokid与爱奇艺的合作则旨在开创AR娱乐体验的新纪元。据爱奇艺创新终端事业部总经理黄双喜透露，依托其“全场景、多终端”的视频娱乐服务策略，爱奇艺XR正在构建“高品质、多样化”的3D内容生态，通过推出诸如空间多屏显示、空间交互以及云台模式等创新功能，爱奇艺正与Rokid一道重塑AR娱乐格局，引领沉浸式观影潮流

在其他领域Rokid也与合作伙伴展开深度合作。Rokid与淘宝合作，将AR技术引入在线购物体验，推出3D商品展示和虚拟样板间功能。消费者可以查看并互动于三维模型，提升购物沉浸感和决策准确性。在教育领域，Rokid与网易有道合作，利用AR技术提供虚拟英语教师互动交流，增强学习趣味性和口语表达能力，解决了传统教育模式的互动不足问题，为学生创造个性化学习环境。

Rokid还与哔哩哔哩合作，为《时光代理人》IP注入AR游戏元素，使用户能够与虚拟角色互动，并在现实世界中再现动画场景，增强了内容消费者的参与感和文化价值感知。此外，Rokid与智象未来合作，在AR设备上实现了AI生成三维内容，简化创作流程，提高生产效率与作品质量。

AR的十年也是Rokid的十年

在过去的一年里，Rokid在全球文博市场上的占有率高达99%，其AR眼镜服务的用户数量突破了250万大关，而实际购买并使用这些设备的人数也超过了30万。更为令人注意的是，Rokid用户日使用时长 2小时45分，这不仅证明了Rokid产品的吸引力，同时也体现了广大消费者对于增强现实技术日益增长的兴趣与认可。此外，截至目前Rokid生态的注册开发者6200+、企业开发者2500+，说明Rokid在开放生态体系方面所取得的重大成就。

此次发布会是Rokid成立的十周年，也是下一个AR十年的开始，自2014年成立以来，Rokid始终专注于人机交互技术的研究与发展。从最初定义了行业标准的Rokid Glass到后来广受好评的消费级产品Rokid Air，再到如今引领潮流的AR Studio和AR Lite，每一步都见证了这家公司在推动整个AR产业向前迈进过程中所扮演的关键角色。今天，随着最新款Rokid Glasses的震撼登场，无疑再次向世人宣告：Rokid正站在时代的潮头，引领着新一轮的技术革命。

可以说，今年既是智能眼镜爆发式增长的一年，也是Rokid发展历程中最关键的一年。无论是在技术创新还是商业模式探索上，Rokid均展现出了非凡的实力与无限潜力。展望未来，我们有理由相信，Rokid将继续保持其行业领先地位，开启一个前所未有的AR眼镜新时代。

（雷峰网）

雷鸟Air 3正式发布，李宏伟：年轻人的第一台消费级AR眼镜

Thu, 31 Oct 2024 11:00:00 +0800

10月28日，雷鸟创新线上举办 “开创全民AR时代”雷鸟Air 3系列秋季新品发布会，正式推出第三代口袋电视雷鸟Air 3和雷鸟Air 2三周年冠军版，定价1699元和1399元，首次将分体式AR眼镜的价格带进2000元以内。雷鸟创新创始人兼CEO李宏伟在发布会上表示，此次发布的新品无论是在光学显示、音质效果，还是佩戴舒适度等方面都堪称AR眼镜影音体验天花板，触达了消费级AR眼镜技术上限。

抛弃伪需求，Air 3专注观影和游戏体验

“91%的分体式AR眼镜用户主要使用眼镜来观影和游戏。”这是发布会上李宏伟分享的一则调研结果，也是此次Air 3在市场上瞄准的定位——聚焦真实需求，专注影音体验。

李宏伟在分析调研结果时指出，当前国内 AR 厂商正致力于把 AR 眼镜打造成下一个计算平台，相继推出具有镜上办公、空间计算等功能的产品。但其实在用户的实际使用过程中，涉及空间计算、多人办公等场景的使用率不到 9%，绝大多数用户购买 AR 产品主要还是用来看电影、玩游戏，而不是复杂的多任务应用。然而，综合当前市场情况来看，却有大量AR公司在用户 9% 的使用场景里，投入了 90% 的精力，这实际上是与用户需求相背离的。

“Air 3的定位十分清晰，即抛弃其他一切伪需求场景，专注于用户的观影和游戏体验，打造影音AR眼镜的下一代天花板。”李宏伟如是说。

基于用户洞察是雷鸟Air 3定位影音体验的一方面原因，另一方面也跟当下AR眼镜成熟度有关。

李宏伟坦言，当前的AR眼镜尚未成熟到可以完全取代手机的地步，离真正成为主流智能终端还有一段路要走。因此，雷鸟创新一方面持续在最前沿的光波导技术上进行突破，以实现更高的显示效果和更轻便的佩戴体验。另一方面，对于采用 BirdBath方案的分体式AR眼镜来说，当前最重要的是精准满足用户的实际需求，而购买此类产品的用户其核心诉求就是观影和游戏。因此，雷鸟Air 3的推出，不仅优化了用户体验，也有效降低了硬件和研发成本，使分体式AR眼镜的价格进一步贴近大众可接受的范围。

也正是基于这样的考量，雷鸟Air 3率先将分体式AR眼镜的价格带进2000元以内，定价 1699 元；同期发布的雷鸟Air 2三周年冠军版，则定价1399元，为年轻消费者打开了通往AR世界的大门。李宏伟表示，希望这款产品能够成为“年轻人的第一台AR眼镜”，让每个人都能随时随地享受AR带来的大屏视觉乐趣。

雷峰网

时隔700天，PICO 带来了两款新产品

Wed, 21 Aug 2024 08:13:00 +0800

时隔700天，PICO 终于带来两款新产品，给中国 XR 行业带来一缕星光。

2024 年 8 月 20 日，PICO 在北京举办新品沟通会，正式推出旗下首款MR混合现实一体机 PICO 4 Ultra 和动作捕捉配件 PICO 体感追踪器。

发布产品后的媒体沟通会上，PICO OS 产品负责人再次强调，公司在 XR 领域的投入是持续且稳定的，同时表示，从长远来看，XR这个领域要到iPhone时刻，需要更多的耐心和长期投入。

PICO 总裁周宏伟

全新的用户体验

PICO 4 Ultra 的推出标志着 PICO 在 MR 技术领域的全新突破，为用户带来了更为丰富和个性化的混合现实体验。

硬件层面，PICO 4 Ultra 搭载了全新高通骁龙®XR2 Gen 2计算平台，配备了双目 3200 万像素彩色透视摄像头和iToF深度感知摄像头，能够提供出色的性能表现和立体高清彩色透视体验。

PICO OS产品负责人马杰思

系统层面，PICO 4 Ultra引入了全景屏工作台，用户可以在现实空间中同时打开和排布多个虚拟大屏，提升多任务处理的效率和舒适度。该设备还支持从拍摄、剪辑到播放的全链路空间视频，为用户提供更加生动和多样化的空间视频体验。

上述功能的实现离不开 PICO 4 Ultra强大的MR混合现实能力，为此，PICO 4 Ultra 配置了多达7枚视觉传感器。机身四周的 4 颗环境追踪摄像头用于 SLAM 空间定位，2 颗彩色摄像头和 1 颗 iToF 深度感知摄像头用于环境感知。

同时，PICO 互联也得到升级，它支持与 PC/Mac 及手机之间无缝跨屏互联，方便用户在不同设备间切换，共享屏幕并远程操作，让 PICO 4 Ultra 成为一个真正的集多功能娱乐与工作平台于一体的强大设备。

此外，值得一提的是，PICO 4 Ultra 带来如此全新的功能体验的同时，还比上一代产品更加轻便。PICO 产品经理告诉雷峰网，与上一代产品相比，PICO 4 Ultra 的重量减少了 6g，从 586 克降至 580 克。

更丰富的生态场景

PICO 4 Ultra也为用户带来了全球领先的 MR/VR 应用生态，全面覆盖影音娱乐、办公、生产力等多种场景。

游戏生态方面，PICO 4 Ultra 涵盖了从休闲益智到硬核战略各类游戏，用户可将 PC 端丰富的 VR 游戏内容迁移到 PICO 4 Ultra上，在 AV1 编解码的加持下，用户能享受 3K 分辨率的超清游戏画面。

视频方面，PICO 致力于为用户带来了不断革新的沉浸式观影体验。通过全新推出的《达芬奇：狂想之翼》MR互动剧中，用户能够亲历历史，与达芬奇并肩探险，体验前所未有的叙事沉浸感。

令“三体迷”们狂喜的是，刘慈欣笔下的科幻迷终极盛宴——《三体》，将通过PICO和三体宇宙合作的《三体：远征》生动地呈现于PICO 4 Ultra之中。用户能够瞬间置身原著描绘的“三体游戏”之中，亲历脱水浸泡的奇观，见证三体远征舰队启航的壮阔旅程。

应用生态方面，PICO 4 Ultra 拥抱安卓与 Web 应用生态，PICO 全景屏工作台支持办公、同时使用抖音、B站、小红书等应用，甚至玩安卓手机游戏。用户能非常方便地将常用的社媒软件、办公产品以及游戏等安装到设备中，这也使得全景屏工作台的可用性大幅提升，满足用户的日常娱乐和办公需求。

PICO 生态和应用商店负责人姚帅

作为“彩蛋”，PICO 在沟通会尾声带来了一款全新产品 PICO 体感追踪器。在会后的媒体采访环节， PICO 生态和应用商店负责人提到：“运动和社交也是非常重要的场景。我们公布了体感追踪器，特意展示了用户在躺着时或锻炼时的动作，许多场景都是用户和开发者根据现实需求提出的。社交方面，VR 社交中大家希望动作更加逼真。我们做了一款价格非常优惠实在，能力非常靠谱的设备，在此方面的努力也是为了增强产品的通用性和用户体验。”

用户关心的价格

在沟通会最后，PICO“如期”公布了价格以及销售情况：PICO 4 Ultra 4299元，PICO 体感追踪器 399元/对，现已全面开启预售，并将于9月2日正式开售。用户可在PICO官方商城以及京东和天猫等电商渠道的PICO官方店铺预定PICO 4 Ultra，预售期间预定并在预售期成功支付尾款的用户还将额外获得PICO体感追踪器一套。

与此同时，PICO 还推出了以旧换新活动，PICO老用户、XR老用户分别可获得300元、200元的优惠补贴，PICO 官方商城、京东天猫等官方店铺均可参与。

雷鸟创新李宏伟：真正的消费级AR 应具备四大特点，全彩光波导眼镜已迈入量产阶段

Sat, 07 Jan 2023 16:00:00 +0800

当地时间 1 月 5 日，2023 国际消费电子产品展览会（CES 2023）在美国拉斯维加斯正式开幕，雷鸟创新在展会上推出的新一代双目全彩 MicroLED 光波导 AR 眼镜雷鸟 X2，采用业界最优的 MicroLED+ 衍射光波导方案，在 MicroLED 全彩显示、光波导亮度、全自研光引擎精密及小型化等关键技术上取得显著突破。

据了解，雷鸟X2 在海外以 RayNeo X2 发布，其所采用的 MicroLED+ 衍射光波导全彩双目异显方案，搭载高通骁龙 XR2 专业算力芯片平台，配备 1600 万像素高清摄像头。在强悍的终端算力基础上，雷鸟X2 感知、交互、虚实融合功能显著提升，可为用户提供沉浸式英语学习、智能翻译、实时导航、信息提醒、快捷拍照等场景服务，打造便捷高效的 AR 体验。

今天的消费级 AR 眼镜市场上，全彩或单色的，带 SLAM 和不带 SLAM 等各种产品多样，雷鸟创新CEO 李宏伟认为，真正的消费级 AR 眼镜应具备轻量体积、自然显示、全天候场景和虚实融合四大特性，但如何实现，仍是诸多 AR 眼镜长期面临的难题。雷鸟X2 作为一款具备突破性意义的消费级 AR 眼镜，实现了对领域内著名厂商和创新品牌的关键技术领先。

首先是轻量体积，体积小、重量轻以便于日常携带，才能够在消费市场普及，雷鸟X2 在外形上采用简约的无线一体式设计，整体造型与普通眼镜类似，可满足日常生活佩戴需要。

第二，眼镜需要自然的显示；自然显示包括两个方面：彩色和双目异显。

在光学显示领域，MicroLED 和光波导技术的结合是目前业界公认消费级 AR 眼镜终极形态的最优解决方案，但由于该方案整体技术难度较高，当前，市面上的多数眼镜产品多为单目单绿或双目单绿方案，无法提供全彩双目异显等 AR 眼镜应当匹配人眼自然视觉的显示效果，难以满足用户在多元场景下对信息获取的不同需求，举个例子，当人们在聊天中想发个红包打招呼时却发现显示的是“绿包”，因此，全彩更适于人们日常生活中的使用。而双目异显其关键在于构建三维的效果，实现眼镜中的世界与现实画面一致，例如在 3D 地图导航场景中，全彩、三维的眼镜显示往往更符合人们的视觉感知习惯。

为了解决在彩色和双目异显上的难题，雷鸟创新研发团队坚持多年持续投入，集中技术攻关，在雷鸟X2 上做出了 0.7cc 超小型全彩 MicroLED 光引擎组件、衍射光波导高光效亮度 3 倍提升、微米级双目融合自然显示效果，可以实现双目全彩高亮显示，并满足多场景下使用。

第三点，是如何让眼镜能够全天候佩戴。以镜片透光率问题为例，室内和户外的光线变化、晴天和阴天的亮度转变等，在显示光学上，雷鸟X2 的 8 比特 MicroLED 全彩光引擎能够呈现出 1677 万色和 100000：1 对比度，由光波导镜片耦出的图像亮度高达 1000 尼特，有效解决了室内和室外等不同场景的需求。

此外，在最重要的虚实融合特性中，具体到应用场景上，雷鸟X2 目前已可满足在日常生活、娱乐、办公等场景中将信息与实景虚实结合，为用户打造全新的视角和生活方式。以翻译功能为例，当进行面对面交谈时，雷鸟X2 的定向收音 MIC 可以精确获取注视目标的话语，并自动检测和翻译对话。先对谈话对象的视觉感知、定位和声音过滤收集，再通过语音识别和计算，将计算结果转化为可见的视觉信息添加到指定位置的三维空间。

从感知、计算、再到虚实融合，完整的 AR 过程通过一副眼镜，把信息在三维空间即时呈现，将人们眼前的世界也变成了可演绎、可计算、可深度改造的。李宏伟在采访中表示，“AR 眼镜最重要的是虚实融合，这正是 AR 眼镜特别的地方，这个场景才是真正的颠覆式创新的产品。”

得益于高通骁龙 XR2 算力平台在设备本地集成，雷鸟X2 的视觉 SLAM（即时定位与地图构建）和手势识别还具备了智能 GPS 导航功能，这也意味着，当我们有移动行为时，雷鸟X2 的屏幕信息可以根据行程进行实时更新，方便快速定位和交互。此外，雷鸟X2 所配备的 1600万像素高清摄像头，也可支持静态照片、视频和延时摄影等功能。

目前，雷鸟创新从技术底层出发，自行设计工艺流程，开发出自有的全自动化设备与系统，已最终实现了全彩光引擎超精密、高良率的量产，将产品落地的关键障碍就此打通。

元宇宙、AIGC 等风口大热，推动了曾经降温的 AR 再次迅速升温。据易观分析数据显示，2022 年 Q3 国内消费级 AR 眼镜销量快速增长达到数万台，其中国产品牌表现亮眼，雷鸟创新以 28.6% 的市场占有率排名国内 AR 眼镜品牌销量第二位。2022 年双十一期间，雷鸟创新更实现天猫+京东双平台 AR 品类销量、销售额双第一。

李宏伟在采访中分享了一个 AR 眼镜产品金字塔模型，其中，最下层是不具备显示等太多智能功能眼镜；往上第二层可分为基于 Birdbath 技术和基于光波导技术的，以显示为主的两大方向产品；第三层是在第二层技术上增加 AR 功能，其中，Birdbath + AR 的特点在于其显示效果好，但受其技术特点决定，BB + AR 在虚拟现实融合上表现不佳；光波导+ AR 则是基于现实世界上叠加，通过光波导的状态实现平衡显示和透视；金字塔的顶端是 AR 眼镜。

李宏伟表示，雷鸟创新做的是光波导+AR 和 BirdBath 的布局，这两个产品相对独立，其中，BirdBath 技术已相对成熟，可面向特定场景提供用户价值，以显示为核心的场景有助于雷鸟创新持续保持现有的市场销量，在稳固领先地位的同时积累供应链、销售和生态；而光波导+AR 可用于支持更偏向在现实基础上叠加虚拟的场景，“是正确的方向”，李宏伟表示，“我们布局一款产品是为了它真的是 AR 眼镜，这是很明确的，不会变化。”

作为消费级 AR 领域成长最快的眼镜品牌之一，雷鸟创新成立于 2021 年 10 月 13 日，短短几天内就发布了业内首款双目全彩 MicroLED 光波导眼镜。在光波导眼镜不断推出新成果的同时，自 2022 年 4 月以来，雷鸟创新还相继发布了雷鸟Air 和雷鸟Air 1S 两款基于 MicroOLED+Birdbath 方案的消费级 XR 眼镜。

此次全新一代雷鸟X2 亮相，更是展示了消费级 AR 眼镜形态、功能、场景的更多可能性，为消费市场 AR 眼镜的进一步拓展迈出了关键一步。据悉，雷鸟X2 将于 2023 年 H1 量产上市。

（雷峰网雷峰网）

XR迈过「奇点」后，元宇宙如何生长？

Tue, 20 Sep 2022 10:40:00 +0800

2016年也被称为XR元年。这一年XR赛道风起云涌，面向个人用户的XR设备如雨后春笋般涌现。元年之后的XR几经浮沉，终于在元宇宙概念的助力下再次爆发。雷峰网

经过数年发展，XR设备已经迈过了元宇宙大爆炸的“奇点”，足够承载元宇宙宏大构想的落地。但元宇宙远不仅仅是XR，“奇点”之后，元宇宙还在继续生长。

2022世界人工智能大会（WAIC 2022）上，高通展示的最新无界XR技术和产品被评为镇馆之宝，三名玩家能够同时在5G连接的无线条件下以1832×1920@90Hz的显示效果实现沉浸式游戏体验。使高通的无界XR技术成为“镇馆之宝”的不仅是XR终端设备的性能，还有人工智能和5G连接的“助攻”。

2022世界人工智能大会（WAIC 2022）上，高通展示的最新无界XR技术和产品被评为镇馆之宝，三名玩家能够同时在5G连接的无线条件下以1832×1920@90Hz的显示效果实现沉浸式游戏体验。

使高通的无界XR技术成为“镇馆之宝”的不仅是XR终端设备的性能，还有人工智能和5G连接的“助攻”。

XR设备跨过元宇宙大门

在诞生元宇宙概念的小说《雪崩》中，人们使用虚拟现实设备连入元宇宙世界，并在其间生活。而在现实中，XR设备也是真实世界通往元宇宙世界的大门。

在元宇宙的概念掀起热潮后，许多厂商纷纷制定了自己的元宇宙战略。许多厂商的路径选择中，极重要的一步就是XR设备。

早在被称作“VR元年”的2016年，虚拟现实设备就曾火热一时。Oculus、HTC、索尼等品牌都在那时发布了消费级VR设备。资本也纷纷入场，2016年招商证券研报预计2020年全球VR/AR市场规模将超过1500亿美元。

但很长一段时间内，XR设备的发展并不顺利。

根据IDC数据，2016年全球XR设备出货量曾一度同比增长383%，达到904万部。但这股XR热潮也迅速消退，2018年全球VR头显出货量由375万台下滑至350万台，AR眼镜的出货量则由45万台暴跌至26万台，几乎腰斩，2020年XR市场规模千亿美元的目标也没有达成。

造成这种现象的一部分原因是这些XR设备昂贵且笨重，续航能力不足，加上显示效果不能令人满意，内容也十分匮乏，最终导致初代XR设备们昙花一现。

在这诸多的挑战之中，芯片是一个核心的问题。当时的XR设备只能“蹭”手机芯片用，但手机与XR设备在使用场景存在着比较大的差别，手机芯片并不能很好的覆盖XR芯片的使用场景。

作为移动领域的芯片龙头，高通2015年便在XR领域布局，2018年推出了首款专用于XR领域的芯片XR1，随后又推出了首款支持5G的XR芯片XR2。

图搭载了骁龙XR2平台的Quest2头显

骁龙XR2方案支持七路并行摄像头并且具备计算机视觉专用处理器的XR平台，显示单元支持3k×3k@90Hz的单眼分辨率，并支持流传输或本地播放8k@60Hz的360度视频或4K@120Hz视频，且支持HDR10/HDR10+。

骁龙XR2平台解决了之前XR设备延迟高、移动性差、分辨率差等问题，使得XR设备性能跨过了元宇宙的准入门槛，并引领了XR设备的普及化。

2020年FaceBook发布基于骁龙XR2平台的Oculus Quest2，成为了XR领域第一款现象级的爆品，该设备在2021年的销量超过了Xbox，XR设备再次迎来快速增长。

目前Pico、Meta等元宇宙头部玩家都已经在XR设备均采用了骁龙XR2芯片。HTC也被爆料即将推出基于骁龙XR2平台的Vive头显。高通基于XR2芯片的参考设计，也让更多厂商能够更轻松地基于XR2芯片打造自己的XR设备。

随着XR设备的进步和普及，我们已经跨过了元宇宙的准入门槛。但这对于元宇宙来说，仅仅是大爆炸的“奇点”，要实现元宇宙最终的宏大愿景，还需要在内容和交互上继续建设。

“奇点”之后，AI播种生机

高通公司总裁兼CEO安蒙曾在WAIC 2022的主题演讲上表示，元宇宙是互联网的未来，即空间互联网。

空间互联网与当前的互联网最大的不同是能够提供更具沉浸感的体验。在当前的2D互联网时代主要的互动方式是2D平面的文字、图片和视频内容，而元宇宙则能让人们亲身参与其中。

元宇宙将视觉体验从第三人称平面升级到第一人称3D视角，让人们获得更丰富的信息，并且扩宽了交互的边界，提供了触觉等新的交互方式。

为了支撑新的交互方式，更高精度的环境模型，更逼真的虚拟形象，更真实的互动反馈都必不可少。

为了让更多的开发者参与进来，利用人工智能构建场景更丰富，让用户体验更好的元宇宙世界，高通已经建立了Snapdragon Spaces XR开发者平台。

Snapdragon Spaces XR开发者平台为开发者提供了一套独立于设备制造商的AR功能规范，并且与2017年制定的Khronos OpenXR标准兼容，让开发者能够轻松完成可移植性应用程序开发。

除此之外，在创造元宇宙内容的过程中，人工智能在多个领域发挥着重要作用：元宇宙需要学习并适应不断变化的环境和用户偏好，以提高用户在元宇宙虚拟环境中的体验感；支持深度感知的计算摄影和计算机视觉技术将完成对手部、眼球和位置的追踪，并拥有理解和感知情境的能力，为虚拟形象与环境的互动提供技术支持。

如今，已经跨过元宇宙XR设备门槛的厂商们也已经将注意力放到了人工智能上。但要想在元宇宙中利用人工智能，开发者们需要投入更多精力。

对AI开发者们来说，元宇宙是一个全新的场景。

不同场景下，人工智能设备的功耗需求、人工智能模型类型、模型部署方式都有所不同。对模型的准确性、功耗和延时的要求也不尽相同，在某个领域中人工智能的部署经验并不能简单复用到另一领域。元宇宙中大量新场景的出现，对开发者来说意味着更加繁杂的工作。

高通在手机芯片领域深耕多年，历经十多年研究并不断开发人工智能相关产品，已经成为了终端智能领域的领军者。

为了将开发者从反复的适配工作中解放出来，高通建立了让人工智能开发工作“书同轨，车同文”的AI软件栈。

基于高通的AI软件栈，开发者们不再需要为不同场景“量体裁衣”，而是只需要一次开发，就可以将成果部署到各个领域，这大大减少了开发者的工作量，加速人工智能在元宇宙新场景中的部署。

为了推进元宇宙的发展，高通还设立了1亿美元骁龙元宇宙基金，用于投资打造与XR体验相关AI核心技术的开发者和企业。人工智能要在元宇宙中落地，还需要一座连接用户、边缘和云端的桥梁。

5G建起“数字高架”，AI从云端走向万物

AI的作用在元宇宙中，不止于“无所不能”，还要“无处不在”。

一方面，元宇宙运行中会产生海量数据，而云端则无法承受如此庞大的数据量。依赖部署在云端的人工智能处理这些数据的方案可行性不高。

另一方面，元宇宙作为交互程度更高的下一代互联网，人们在元宇宙中遨游的同时，个人隐私和信息安全也十分重要。

端、边云协同的分布式结构能够解决元宇宙当前面临的这些痛点。

首先，在元宇宙中，大量情境丰富的数据由边缘产生，扩展至边缘的AI能够在边缘“就近处理”，无需将数据集中至云端，这大大减轻了云端的压力。

图 5G支持下实现的分布式智能

其次，在终端侧部署人工智能可以让用户在终端处理敏感数据，而不必将这些数据发送至云端，从而更好地保护使用者隐私。并且部署在终端的人工智能还能够侦测恶意软件和可疑行为，为用户的信息安全提供保障。

部署在终端的人工智能还能够利用联邦学习等新技术更高效地利用有限的网络资源和带宽，提高数据处理的效果。

分布式AI对元宇宙来说必不可少，而5G则是其不可缺少的助推器。

一份来自Gartner的报告曾指出，5G是推动分布式人工智能发展的重要因素。

5G与分布式部署的人工智能、功能强大的XR设备结合，诞生了目前XR用户体验的无界XR。

无界XR的头显终端执行节能的优化时延算法以及眼球追踪、手势追踪、头部追踪等工作，更复杂的工作通过5G网络传输至边缘处理。

这让XR设备的设计不再受功耗、散热等方面的限制，设计者可以将XR设备设计的更加轻便易用，边缘比终端更强大的算力也能够为更丰富的内容提供算力支持。

实现无界XR运行的难点在于延时和吞吐量这两个关键性能指标。基于目前的VR头显硬件能力，要实现单目2Kx2K@90fps的VR头显实现5G无界XR的规模化部署，“动作-渲染-显示”的延时需要低于70毫秒，其中5G在终端和边缘端的往返时延需低于20毫秒。吞吐量上，则需要网络连接支持70~90Mbs的稳定下行吞吐量。

高通作为5G的领军企业之一，已经成功将自身在5G方案上的经验与XR设备、AI上的优势相结合，实现了无界XR优质的用户体验。

而WAIC 2022期间，高通公司、中国移动和中赫集团合作展示的无界XR技术被评为镇馆之宝。

图 WAIC上高通演示现场，三名玩家体验无界XR

演示现场用当红齐天提供的互动内容展示了在端到端的分离渲染架构下，无界XR利用5G提供的高速率低延时传输协同边缘云侧进行实时渲染，并结合XR终端侧的本地优化渲染来提供低延时的沉浸体验。

该演示采用了基于高通骁龙VR2平台的爱奇艺奇遇 Dream Pro VR一体机，在演示中支持了三名体验者同时以1832×1920@90Hz的显示效果进行体验，细腻流畅的显示效果已经可以达到人们对元宇宙体验的想象。

世炬研发的基于高通FSM100 5G RAN平台的5G家庭小基站则为该VR头显提供了强大的网络保障。在演示中，三名玩家所佩戴设备的5G RTT时延都保持在20毫秒左右，已经能够元宇宙场景下日常使用。

图基于5G切片的端边协同分离渲染技术能够实现下行速率吞吐量均在100Mbps左右

如今，XR设备已经跨过了元宇宙的门槛，而在头部玩家的推动下，人工智能和5G连接进一步的融合发展使元宇宙也不断生长，我们距离元宇宙的未来，已经愈来愈近。

AI团队拆散重组，负责人被迫离职，Meta的动荡还在持续

Sun, 05 Jun 2022 18:37:00 +0800

本周内，Meta已经流失了两位高管。

就在Meta首席运营官Sheryl Sandberg，本周三宣布将于今年离职后，Meta人工智能团队在打散重组中，又失去了一位高管。

6月2日，过去四年半在Meta担任人工智能实验室副总裁的Jerome Pesenti，在推特上官宣，将于今年6月中旬正式离职。

Pesenti在2018年1月加入人工智能实验室FAIR，彼时Meta还叫做Facebook。在此期间，他一直领导AI团队的基础和应用研究，该团队的核心工作就是监督Facebook平台上的有害内容，利用AI来改善产品，为Meta建立了强大的存在感。

伴随Pesenti离职的消息，组织架构层面，也出现一系列变动。

6月2日，Meta发布重大AI战略转型公告，LeCun领导的Meta人工智能实验室FAIR，将整合到Andrew Bosworth领导的开发增强现实和虚拟现实产品的Reality Labs部门。不过，FAIR仍旧由LeCun把握战略方向，与Joelle Pineau和Antoine Bordes共同进行管理。

与此同时，支持旗下各大APP的AI算法团队迁移进产品工程团队，AI4AR团队加入XR硬件团队，"负责任人工智能组织"并入社会影响团队。

也就是说，这次整合后，原人工智能团队被整体打散，不再作为一个具体的组织，而是更紧密的整合到各个产品组中。

AI组织结构去中心化

整个AI部门的重组，是由即将离去的Pesenti亲自操刀的。

在Meta发布的公告中指出，Pesenti感到过去集中的AI组织，不利于新技术在实际应用中的落地，而将AI系统的所有权分配给Meta各产品组，不仅支持了现有产品的落地，还将共同推进AI技术的发展。

过去几个月里，Pesenti对此制定了转型计划，待人工智能团队平稳渡过这段过渡期，他便会离开，目前其下一步去向暂时未定。

Meta首席技术官Andrew Bosworth，在宣布重组的公告中表示，这一变化旨在"大规模利用最新的人工智能技术"。

在这次人工智能团队的重大重组中，最受关注的还是FAIR未来的走向。

Meta首席科学家，FAIR负责人LeCun在一系列回应中表示，作为Reality Labs研究部门的下属组织，未来FAIR的"F"，将不再代表Facebook，而是Fundamental，即Fundamental AI Research（基础AI研究）。

至于其所属得到Reality Labs实验室，目前已经成为肩负扎克伯格元宇宙愿景的核心部门。

从人数上来看，去年Reality Labs新增约13000名员工，员工总数达到17000名，占公司总员工数的20%。再加上如今整合过来的FAIR实验室，Reality Labs已经成长为一个庞然大物。

从业务上看，Reality Labs，早已不仅仅关注VR设备，目前已经涵盖了智能眼镜、混合现实头盔等硬件产品及企业解决方案。

从去年10月Facebook更名Meta后，Meta的所有工作重心，几乎都放在allin元宇宙上。

从推出第一款元宇宙触觉手套，到发布首个虚拟世界平台Horizon Worlds，再到不久前扎克伯格展示Project Cambria高端头显部分细节，都遭受到不少外界质疑。

将FAIR整合进RealityLabs，也是希望借助AI技术，尽快实现元宇宙的愿景。在短期内，与已经普及了人工智能推荐内容新方式的字节跳动，形成较量。

不过，在这次AI组织结构的去中心化下，一向没有产品压力的FAIR转而要对收益负责，其在Reality Labs下的发展如何，还未可知。

如此看来，今年Meta一批AI人才，包括带领过强化学习研究的Edward Grefenstette，AI研究工程经理Heinrich Kuttler等知名AI研究者的离职，或许正是受到这次部门重组的影响。

另一方面，这种分散组织的做法，也引起人们对MetaAI研究未来的担忧，乃至整个AI研究的担忧。

高管持续流失

自从扎克伯格宣布全面进军元宇宙以来，Meta已经流失了20多位核心高管和顶尖AI科学家。

其中职位最高的，包括在Meta担任了9年首席技术官的Mike Schroepfer，以及上述提到，近期刚刚离职的Meta二号人物Sheryl Sandberg，他的离开，也被扎克伯格称为"一个时代的终结。"

雷峰网了解到，除此以外，这些离职的高管，还涉及各部门的业务负责人。

包括前市场竞争部主管DeborahLiu、前首席收入官DavidFischer、前加密货币部门联合创始人Kevin Weil、前广告主管Carolyn Everson、前Meta应用负责人Fidji Simo、前席创意官Mark D\'arcy、前Meta加密货币负责人David Marcus、前职场业务副总裁Julien Codorniou……

据统计，仅在Meta官宣改名的2021年，就有18名核心高管离职。

不少元宇宙相关项目的负责人，也相继离职。

RealityLabs商务合作副总裁Hugo Barra、AR/VR内容副总裁Mike Verdu、FacebookAI产品主管Ragavan Srinivasan等在去年离职。

今年3月，MetaAR眼镜负责人Nikhil Chandhok提出离职，4月，又传出至少4位AI科学家离开的消息。

随着本周内，有"影子CEO"之称的Sheryl Sandberg，以及Meta人工智能团队重组过程中Jerome Pesenti的离去，Meta的离职浪潮，再一次被推向顶峰。

而在这轮高层动荡之后，Meta能否实现元宇宙的愿景，还有待时间的检验。

传 Meta 解散“XROS”团队，近 300 人进行内部转岗

Sat, 26 Feb 2022 16:21:00 +0800

据外媒 The Information 报道，Meta 已经解散近 300 人的“XROS”研发团队，并将其工程师调至增强现实眼镜项目以及 Oculus 虚拟现实设备项目中。

对此，Meta 发言人 Sheeva Slovan 向外媒 The Verge 回应称，所述团队没有解散，只是直接嵌入到 AR 和 VR 团队中，以加快针对每个产品线的解决方案的开发。

事实上，早在今年一月，外媒就曾报道指出 Meta 计划取消 XROS 研发项目。当时，Meta 现实实验室（Reality Labs）工程副总裁 Gabriel Aul 还曾公开回应：

我们在努力构建 @RealityLabs 操作系统的过程中有若干技术方向，我们仍在为我们的设备开发一个高度专业化的操作系统，我们仍然非常重视这项工作，并继续投入必要的资源来构建这项工作。

但仅仅过了两个月，Meta 的“XROS”团队再传变故。

The Information 在报道中指出，Meta 解散其系统研发团队其实是为了减少支出，在 Meta 广告业务收入陷入困境之时，进行系统研发是一条昂贵且具有风险的路线。

据悉，Meta 进行 VR/AR 系统研发已有数年时间。早在 2019 年，The Information 就曾报道指出，Facebook （即 Meta）开发自己的操作系统是为了摆脱谷歌等其它科技巨头的束缚。

一直以来，Meta 旗下的 Oculus Quest 一直是基于安卓系统运行。在移动互联网时代，苹果和谷歌一直是两个主要移动操作系统的掌权者，在科技行业中举足轻重。

当时，Facebook 的硬件负责人 Andrew Bosworth 表示：“我们要确保下一波科技潮流有我们的位置，我们不能依靠市场或者竞争对手来确保这一点，所以我们要亲力亲为。”

此后，扎克伯格也直接公开承认正在打造一个基于微内核的操作系统，他表示：

我们正在构建一个基于微内核的操作系统……归根结底，我们需要能够从基本上设计和定制堆栈的每一层，以提供（AR/VR）这些系统所需的性能和效率。

不过，从目前的动态来看，Meta 短期内应该难以发布自研的 AR/VR 系统。

雷峰网注：以下为 Meta 发言人 Sheeva Slovan 的全部回应内容——

我们一直在改进我们的团队结构，以帮助我们快速将伟大的产品推向市场。通过将更多的操作系统工程师直接嵌入到我们的 AR 和 VR 团队中，我们可以加快针对每个产品线的解决方案的开发。正如我们之前所说的，我们正在追求几个技术方向来构建这些系统，我们仍然致力于构建高度专业化的系统。我们将继续投资和优化以快速行动，这样就可以实现我们设定的目标。

参考资料：

【1】https://www.theinformation.com/articles/meta-platforms-dissolves-team-developing-new-ar-and-vr-operating-system

【2】https://www.theverge.com/2022/2/25/22950710/meta-vr-ar-os-team-xros-breakup-hyper-tuned-focus

传三星微软合作 AR 项目：产品预计 2024 年亮相

Wed, 08 Dec 2021 16:52:00 +0800

韩国媒体 TheElec 近日报道称，三星电子已与微软合作启动一个基于 HoloLens 的 AR 项目。

消息人士向 TheElec 透露三星于今年 3 月成立了负责该项目的工作组，这一项目于今年夏天正式启动，并将持续约两年时间，产品预计于 2024 年亮相。

据悉，三星多个业务部门及子公司都参与了这一 AR 项目，在今年上半年的一次项目会议当中，三星显示、三星电机、三星 SDI 的高级副总裁均有出席。

值得一提的是，三星在 2019 年和今年 11 月接连参与投资了美国一家 AR 技术公司 DigiLens，该公司主要研发用于 VR 和 AR 的衍射光波导技术和纳米材料。这显示三星在 AR 领域已有一定时间的投入和布局。

但相比已经投产 2 代 HoloLens 的微软，三星在 AR 领域的技术积累仍显薄弱，在此次与微软的项目合作中可能将主要承担零部件供应及硬件制造的角色。

目前三星及微软方面暂未回应这一报道传闻。

雷峰网雷峰网雷峰网

把元宇宙“搬”到技术大会现场，RTE2021大会是怎么做到的？

Mon, 01 Nov 2021 15:27:00 +0800

10 月 22 日，由声网Agora 主办的 RTE2021 实时互联网大会在北京举行，今年是实时互联网大会的第七届，也是七年来规模最大、议程最全、体验最好的一届。

大会以“万象频道”为主题，围绕实时互动行业一年来的行业变迁、趋势展望进行深度分享与探讨，从场景、技术、产品、生态等多个维度展现实时互联网万象纷呈。会议除了干货满满的技术议程，首次将教育、泛娱乐、IoT等行业论坛全面开放，为行业参会者提供全方位的分享交流空间。

另外，声网重磅发布RET万象图谱、宣布10月启动全球第一个全自动多场景模拟声学实验室，为未来多场景下的音频和音效研究、测试、评估带来新的高度和便利。

当然，最引人注目的是RTE大会酷炫的 Metaverse展台以及丰富的周边活动，让参会者置身其中，享受实时互动技术带来的全新体验。

声网是如何将元宇宙“搬”到技术大会现场的，让我们一探究竟。

虚拟世界大探险

元宇宙（Metaverse）这个词起源于Neal Stephenson在1992年出版的小说《雪崩》，其字面意思是一个超越宇宙的世界。更具体地说，这个“超越宇宙”的世界是指计算机生成的世界。

本次RTE大会的 Metaverse展台也为参会者带来了两大精彩的体验环节。

第一大环节是虚拟世界大探险。通过丰富的VR、AR设备，让参会者在现场进入由VR、AR打造的虚拟世界，体验虚拟社交、虚拟会议、远程协作，还可与虚拟偶像实时互动，在游戏中打造自己的梦想世界。

在VR体验区域，我们可以通过 HTC Vive Focus 3 设备体验虚拟会议 Vive Sync及热门游戏。

其中虚拟会议VIVE Sync App使用了声网提供的实时音视频技术，低延迟的互动体验将虚拟和现实世界无缝相连，为用户打造完美的远程协同工具。VR射击游戏也备受参会用户喜爱，让人仿佛在真实世界中对战，游戏体验达到新的境界。

在AR体验区，我们可以体检到Rokid最新推出的AR眼镜Rokid Air。戴上Rokid Air眼镜可以看到3D虚拟人出现在空间里，虚拟人的手势、口型、神态由Rokid XR能力的语音识别、手势识别、图像识别、体态识别、情绪识别、眼动追踪等技术支持，让虚拟人可以与人、与环境实时互动。

听觉方面，声网的声场渲染技术给予体验者听声辨位的能力，听出发言者的空间位置。

作为全民“新”偶像，虚拟偶像能做到“颜值不倒”、“人设不塌”，近年来深受00后人群追捧。在此次Metaverse的展台上，我们就可以通过VR设备与远在千里外的虚拟主播实现实时互动。

此前，在创幻举办的虚拟偶像神乐七奈跨国演唱中，神乐七奈是在剧场进行实时渲染，输出画面，全程毫秒级时延。音频从日本传回国内，声网的音频解决方案有力保障了稳定、流畅、低延迟的传输。

在大探险的展台雷锋网还看到了Reworld（重启世界）。在《重启世界》中，玩家可以加入激烈的战斗，体验枪林弹雨，也可以成为富商，包下海岛，打造私人港湾。角色没有任何限制，满足玩家丰富的想象，创造属于自己的梦想世界。

万物皆可互动

其二是IoT设备展区。除了VR、AR ，大会现场还展出包括儿童手表、撸猫机、喂鸟机、老人机、行车记录仪、智能机器人等一些列丰富的IoT设备，全面展现万物互联、互动的画卷。

以儿童手表为例，智能设备最大的痛点就是轻巧、续航和发热，所以低功耗十分必要。

据悉，声网为小天才全系列儿童手表提供了轻量级设备专属的视频通话SDK，包括了低功耗版本安卓SDK和全球首个适配RTOS系统的RTC SDK，可以保障持续通话15分钟不发烫，以极低的功耗确保了超长的续航能力，不用担心电量过快耗尽而失联。

在同期举行的IoT分论坛上，侯云忆也分享了诸多IoT与RTE结合的新颖应用场景，如通过远程控制红外来撸猫、吸宠，展台上展示的撸猫机和喂鸟机正是用了声网的解决方案，通过实时音视频来识别鸟类和松鼠，并捕捉他们喂食的精彩瞬间。

此外，实时互动在智慧交通、智慧工业等领域同样发挥着不可替代的作用。比如，车和路、车和车之间的通信实时数据的融合，可以让交通的调度和智慧决策有据可依。

声网Agora 创始人兼CEO赵斌曾说过：“听见声音，看见画面只是实时互动的一个起点，一个基础。”

在声网Agora 看来，实时互动不只是以语音通话或视频会议为代表的信息交换，它更多的是创造一个共享的情景和时空。

如今，Metaverse“星球”雏形在全球各地被人们打造着，未来当VR、AR、脑机接口或者是其他入口设备发展成熟，通过声网Agora 这样的实时互动云服务商，我们终究会得以进入到《头号玩家》那样的世界中，在另一片有着无限可能的空间里遨游，那时实时互动会像元宇宙的水和空气一样不可或缺。

歌尔股价大涨背后，不仅仅是因为字节

Tue, 31 Aug 2021 11:06:00 +0800

作者 | 吴优

编辑 | 李帅飞

歌尔股份，火了。

先是在 8 月 27 日，歌尔股份的股价在开盘之后上涨 9.99%，实现涨停。接着到了 8 月 30 日，歌尔股份股价再次大涨，盘中再度逼近涨停，高达 51.2 元，创下了历史新高价——虽然在收盘时有所回落，但依旧比前一天涨了 3.93%。

作为全球声光电龙头企业、全球最大的 VR 设备代工厂，歌尔股份最近几天的确是风头无两。

字节收购 Pico，与歌尔关联密切

雷锋网注意到，8 月 26 日晚间，歌尔股份发布了 2021 年上半年财报，披露今年上半年实现营收 302.88 亿元，同比增长 94.49%，净利润达 17.31 亿元，同比增长 121.71%——不仅超出市场预期，而且创下历史同期新高。

根据财报信息披露，业绩增长最主要的原因是 VR 虚拟现实产品出货量增长迅猛，贡献了 113 亿元的营收，同比增长 210.83%。

不过，在财报之外，引发外界对歌尔密切关注的另外一个因素是：字节跳动对 Pico 的收购。

实际上，早在 8 月 26 日歌尔股份发布财报当天，就有消息称字节跳动要收购 Pico；到了 8 月 29 日，Pico 背后的北京小鸟看看科技有限公司（北京小鸟看看）通过内部信确认，公司被字节跳动收购——而根据多方消息，这次收购的价格高达 50 亿元。

这笔让行业震动的收购，与歌尔股份有密切关联。

据了解，Pico 成立于 2015 年，创始人兼 CEO 周宏伟曾在歌尔声学工作近十年，主要负责硬件研发。相关报道称，早在2012年，周宏伟接触到虚拟现实硬件设备时，就意识到这一装置将成为未来信息沉浸式现实设备，于是便在 2015 年初离开了歌尔声学，自行组建一支 VR 技术研发团队，成立 Pico 和小鸟看看。

值得注意的是，在股权关系中，Pico 背后的主体北京小鸟看看，是青岛小鸟看看科技有限公司（青鸟小鸟看看）的全资子公司——而青岛小鸟看看的大股东，正是歌尔集团。

另外，青岛小鸟看看的法人兼董事长姜龙，正是歌尔声学董事长姜滨的弟弟；2005 年，姜滨在运营歌尔声学时，邀请正在美国马里兰大学读书的弟弟姜龙加入公司，并专注海外市场的开发。

正是基于这些背景，有业内人士告诉雷锋网，Pico 某种程度上可以看作是歌尔内部孵化出来的一个 VR 创业项目。

当然，Pico 与歌尔的关系不仅仅是股权层面。

从业务层面来说，Pico 成立迄今发布的多款 VR 设备产品都是由歌尔集团来代工。就此，歌尔股份也在回答投资者提问时也表示：Pico 小鸟看看目前是公司的关联方，双方有在 VR 领域内开展合作。

VR 起势，歌尔借力

对于歌尔来说，Pico VR 被字节拿下，除了在财务上的直接回报之外，还有另外一个层面的意义，那就是被互联网巨头看上的 VR，又要起势了——这无疑是 VR 行业的一个好消息，同时也是歌尔的好机会。

毕竟，除了声学之外，歌尔还有另外一个惹眼的标签：全球最大的 VR 设备代工厂。

事实上，如今依靠 VR 设备拉动公司业务增长的歌尔，最开始并不做 VR/AR。它 2001 年在山东潍坊成立，名为潍坊怡力达电声有限公司，主要生产话筒；之后，歌尔于 2003 年投入使用第一条自动化生产线，并于 2008 年在深交所上市——2010 年，歌尔声学打入苹果供应链，逐渐走向发展的快车道。

2012 年，歌尔入局光学领域，开始布局 VR/AR 产业，率先引进了世界领先的 12 英寸纳米压生产线，打造全球领先的 VR/AR 高端光学零组件产业基地——当然，从另外一条线来看，Pico 的创业，实际上也是歌尔在 VR 领域布下的一枚棋子。

此后多年，歌尔先后拿下了 Facebook Oculus 和索尼 VR 的订单，成为 VR 设备代工巨头。

当然，VR 行业在 2016 年到 2020 年起伏不定，VR 的设备销量一度陷入低谷，歌尔的 VR 代工业务难免也受到影响。不过随着 Facebook 在 2020 年发布 Oculus Quest 2，以较高的性价比引爆 VR 市场，预售量比上一代产品高 5 倍。

相应的，歌尔声学作为 Facebook VR 头盔的代工厂，迎来新的增长点。

尤其是今年上半年，伴随着元宇宙概念的火热，以及 VR 设备销量的爆发（来自 IDC 的数据显示，2021 年 Q1 全球 VR 头显出货量同比增长 52.4%,），让 VR 再次成为热门——歌尔显然也从中看到了机会。

比如说，在 8 月中旬举办的 2021 微型显示光学技术大会上，歌尔股份董事长姜滨表示，虚拟/增强现实（VR/AR）作为新一代计算平台，市场前景十分广阔。而最新的市场消息显示，歌尔股份发行的可转债，拟配套募集资金 10 亿投入年产 350 万套 VR/AR 项目和年产 500 万片精密光学镜片及模组产品。

无疑，对于 VR，歌尔声学的布局正在进一步加大。

雷锋网注意到，受到多重利好消息影响，歌尔集团的上市主体歌尔股份，被不少机构看好；截至 8 月 30 日，公司在一个月内受到 16 家券商研报关注，有不少券商给入买入评级，机构给出的平均目标价为 54.22 元。

截至 8 月 30 日收盘，歌尔股份的股价为 48.63 元。雷锋网

NianticCEO 汉克如何拆解元宇宙这把“双刃剑”

Tue, 17 Aug 2021 17:39:00 +0800

元宇宙是起源于科幻小说中共享数字世界的概念，这个概念在疫情后期的热度越来越高。

许多大型科技和游戏公司包括Facebook、Roblox 和 Epic Games想要实现这一概念。

而Pokémon Go的开发公司Ninantic也加入了这一行列。8月10日，Niantic 表示自己收购了一款名为Scaniverse的 3D 扫描应用程序，它会从游戏玩家的智能手机相机中收集图像。将这些图像转化成一张地图，使 Niantic 将数字对象锚定到现实世界中。

元宇宙被众多小说家描述成了一个反乌托邦的场景。Niantic CEO约翰汉克认为元宇宙会很容易朝着这个方向发展。这种反乌托邦的描述对于用户体验虚拟世界有很大的影响，同时对公司后期的发展与风险规避也有较大影响。

以下是Fast Company记者马克·沙利文和约翰汉克关于“反乌托邦的噩梦”的采访。汉克是如何设想的，让我们一探究竟。

Fast Company：最近虚拟现实这个词变得比较热门，我不确定人们听到这个词时会想到什么，您是怎么看的？

约翰汉克：我认为通过元宇宙，替代现实世界是一个非常重要的节点。我们正处于技术演进的关口。技术可以帮助我们减轻负担，但是无法与我们建立互动。

1980年施乐公司帕克研究中心提出一个概念叫普适计算（译者注：普适计算是一个强调和环境融为一体的计算概念，而计算机本身则从人们的视线里消失），它描述的就是计算将融入我们的生活。

现在我们已经可以买票不用步行到机场获得纸质机票，只需登录账号就会看到以电子的方式获取的登机信息，我认为技术可以通过一百万种方式改善我们的生活。

所以我认为游戏会成为前沿技术之一。游戏可以以被动的方式改变世界，我们能做的是让游戏更有趣，并加入一些冒险和刺激的内容。

我们对未来游戏的期望之一是让游戏像一个永远开启的照片显示器，而你处于游戏之中仿佛在现实中一般。

Fast Company：有一个关于元宇宙的概念是逃避现实，即您可以消失在另一个世界中。这与您描述的 AR 方法非常不同。您怎么看？

约翰汉克：是的，但我认为这是哲学上的分歧。我是赛博朋克迷，所以当这种分歧第一次出现时，我读了斯蒂芬森、吉布森和克莱恩等作家的作品，并且参加过1990年3D MMO 游戏的创作。

而现在我们已经看到了技术的阴暗面，它占据了我们的活动时间，还介入我们的社交关系。

回顾之前的历史，外卖电商平台包括Netflix 和亚马逊已经完成了市场的整合，但有更多人通过最原始的方法与社区建立联系。所以我认为这会是两个极端。

Fast Company：您谈论了很多您游戏中如何鼓励人们四处走动。可以讲讲是为什么吗？

约翰汉克：在过去几年 Niantic 从事的AR 工作里，我已经深入研究了有关步行和大脑的科学。行走与进化过程中的神经通路息息相关。当你在 3D 环境中穿越世界，你的大脑就会活跃起来。然而我们的思想是只存在于大脑中还是存在于整个身体中。有一个论据可以证明，人的神经感知和认知确实发生在整个身体中。

因此，我不认为人可以戴上耳机向眼睛发射一些光子就能取代我们在现实世界的真实感受。

Fast Company：有一个观点是用数字替身代表您在数字空间的身份。这对 Niantic 的元宇宙愿景有何影响？

约翰汉克：它不是那么重要，因为当你在游戏中遇到其他人时，他们仅仅是物理上的一个人。例如在我们的游戏Pokémon Go中有一个头像，只有你自己可以看到，游戏中其他人是看不到的，除非有人接管了Pokémon Go的道馆，然后会有一个他们的头像站在那里，比如 Marcus Aurelius 或道馆的冠军。之后你会通过那个头像去了解一些信息。

聊天也是一样。聊天是大多数虚拟体验的重要组成部分，我所说的聊天是指在线文本聊天。而且它从来都不是我们游戏的重要部分，因为当人们一起玩游戏时，与身旁的人交谈会比较多。

Fast Company：不同的元宇宙如何互相连接？或者我们是否正在走向一个每个人都可以主导两到三个元宇宙的未来？

约翰汉克：我认为如果讨论《雪崩》所描绘的元宇宙版本，这种连接可能无从谈起，因为它取代了现实。这就像不同的平行世界，如果你在一个版本，而其他人在另一个版本，你们可能永远不会见面。

但是如果你谈论 AR。Niantic 会有 100 种不同的版本。在主题上体验世界有点不同，但最终我们都会站在农贸市场的同一个玉米饼摊上。所以，我认为有一个共同的现实锚点，它就可以消除一些距离感。

我们要做的就是在这种独立的空间中促进人与人的交流。所以我们正在构建这个通用的社交网络，它会出现在所有的游戏中，并作为一个独立的应用程序而存在。

这意味着，如果我出去玩哈利波特，而你在玩其他游戏，我们仍然可以互相交谈，交换东西，分享截图。

Fast Company：可以想到，建立在 AR 等新技术之上的下一代社交网络是非常有趣的。你认为一个基于 AR 的社交网络，如果做得好，会纠正我们今天社交网络的一些严重问题吗？

约翰汉克：我认为涉及人与人的联系的事情，大多都是好事。今天所说的社交问题，实际上与社交无关。社交公司为了将广告插入其中，选择了与公司起点相去甚远的内容。这不是 Facebook 最初的目的。这也不是 Twitter 最初的目的。

而这些软件也不再是真正的社交。我不知道 Facebook 的流量有多少是你向你的朋友发送消息获得的。也不知道社交软件抛出的广告对社交有什么帮助。

但我知道真正的社交旨在将家人与朋友联系起来。所以我们在制定面对这一问题的计划。

雷锋网编译自：https://www.fastcompany.com/90665234/niantic-ceo-john-hanke-metaverse-dystopia-pokemon-go

Facebook着手研发同态加密技术，仅仅是精准投放广告吗？

Thu, 12 Aug 2021 09:57:00 +0800

一部分人忙着处理数字遗产，登记中华遗嘱库的时候，Facebook正在预谋下一张互联网。

如今，Facebook正在推出高度拟真化的线上大世界，试图匹配众多“拜网教"用户，并给出一个充满英雄主义的中文名--“元宇宙”。

虚拟游戏正在拉开这场世界迁徙的序幕。Oculus Quest 2虚拟游戏，可视为分流现实世界人类的一种“奶嘴计划”，依靠泛娱乐的内容吸纳大量用户。而这批人，或许成为新世界的第一批原住民。

下一步，平台汇聚到足够用户流量和用户时长后，将把现实世界广泛接入元宇宙。在这个阶段，娱乐、交易、学习......将逐个出现在“平行世界”。人类在元宇宙中的数字分身，将永生不灭。

专家们认为，随着数字技术的发展，人类未来一定会完成从现实世界向虚拟世界的数字化迁徙。整个迁徙过程，分为三个阶段，分别是：数字孪生、数字原生和虚实相生。

数字化迁徙之后，数字空间（元宇宙）里面会形成一整套经济和社会体系。

绕不开的用户数据

基于用户数据的算法，如果面临用户隐私壁垒，新世界的规则如何建立。

近日，Facebook正在尝试不解密就能分析加密数据的方法，也就是同态加密。这种技术严重依赖数学。目前，微软、亚马逊和谷歌等科技巨头也在研发这一技术。

摘掉解密这一步骤，意味着Facebook能够以更小的风险了解用户数据，保障用户隐私安全，建立数据垄断。对于Facebook 这样的公司来说，能攻破这一计算方式，将会使自己更具有竞争力。

目前 Facebook 想要通过这一方法，针对 WhatsApp 聊天的内容进行更加精准的广告营销。据外媒报道，Facebook 正在招募其人工智能研究人员来研究同态加密，并在招聘广告中高调呼吁人们，“在确保隐私的同时，提高 Facebook 广告系统的效率。"

高调宣传同态加密技术，似乎和上月扎克伯格在采访中谈到元宇宙时的兴奋如出一辙。此时的WhatsApp，也更容易被大众定义为优化元宇宙底层技术的试验场。

粗略来说，元宇宙包括了这几个方面的技术--芯片技术、网络通信技术、虚拟现实技术（VR/AR/MR/XR）、游戏技术（游戏引擎、游戏代码、多媒体资源）、AI人工智能技术、区块链技术。

虽然Facebook表示这种新技术将更方便地分析用户数据库，不会在广告之外进行其他操作，但从公司的整个战略布局来看，Facebook 还有足够的想象空间来制定细节。

Facebook在一份声明中表示，"目前考虑为 WhatsApp 使用同态加密对我们来说还为时过早"。尽管如此，如果它能够弄清楚如何使这项技术发挥作用，就可以为 Facebook 提供一个有价值的论据，即保护用户数据，不会切断收入来源。

今年6月份， Facebook正式发布了加密数字货币“天秤币”，新货币能够让Facebook有机会在Instagram和WhatsApp上插入支付服务，清楚地知道用户什么时候会受广告影响而下单，从而向“甲方爸爸”提供他们梦寐以求的确切的"投资回报"指标。如此一来，Facebook不仅知道用户关注点，还知道用户决策点，为公司的数据共享打开通道。

届时，如果同态加密技术成功实现，不仅能安抚好Facebook一部分用户对隐私泄露的不安情绪，也帮助Facebook投入大把精力在“元宇宙”带来的伦理问题上。

编译来源：https://www.slashgear.com/facebook-is-hunting-ways-to-push-targeted-ads-into-encrypted-whatsapp-chats-03685208

雷锋网雷锋网雷锋网

Facebook考虑将Oculus运动数据整合到Apple Health中

Tue, 27 Jul 2021 16:39:00 +0800

据彭博社报道，一段由开发者Steve Moser发现的代码表明，Facebook正在尝试一项功能，将Oculus Move的数据同步到苹果健康app中。报道称，用户还能在连接的Oculus VR头显上查看保存在健康应用中的信息。

Oculus Move是去年Oculus Quest上线的一款健身追踪应用，它可以在任何VR游戏或应用中跟踪运动和消耗的卡路里，而由此产生的数据则被储存在头显系统里。另外，一些Oculus应用程序也可以在叠加中显示实时统计数据，类似Apple Fitness+中的Apple Watch和Apple TV设置。

而苹果健康app自2014年推出以来，已经能够存储来自多个第三方设备的健身和锻炼数据，包括智能秤、血压检测仪、睡眠监视器和温度计，以及第三方锻炼应用程序。它还可以从苹果手表或直接从iPhone上收集运动数据。

目前还不清楚新代码的功能何时可用，但有趣的是，Facebook正在努力将其服务与苹果的应用更好地结合。当然，这可能是一种从iPhone用户那里获取健康数据的策略，因为启用这种与健康应用程序的集成也将允许Facebook读取其中存储的所有数据。

自2014年收购Oculus以来，Oculus就被外界视为Facebook为未来下单的举措。现如今，健身将是VR设备向前发展的关键组成部分。与此同时，苹果公司最早将于明年推出一款混合现实头显（MR），并希望在未来的AirPods耳塞中加入健康传感器。届时，两家公司或为下一个社交时代做好准备。

编译来源：https://www.bloomberg.com/news/articles/2021-07-26/facebook-explores-integrating-oculus-workouts-with-apple-health

雷锋网雷锋网雷锋网

华为比苹果更需要 AR 眼镜

Thu, 24 Jun 2021 23:22:00 +0800

作者 | 肖漫

编辑 | 王金旺

手机业务陷入困局的华为，死死地盯上了 AR。

先是发布了 AR Engine，而后发布 AR 技术 Cyberverse，如今还在逐步构建“5G+AR”生态，华为正一步步布下 AR 这盘大棋。

不过，棋盘之外的对手，也不在少数。

尽管苹果 AR 硬件一年又一年地推延，但这颗“不定时炸弹”一旦出现，或将带来又一次行业地震。对于国内，小米早在去年被曝出申请了 AR 相关专利，OV 也早已推出自家的 AR 终端产品……

不难看出，手机产商们已不约而同地进入 AR 这一“新战场”。

AR 坐上“过山车”

AR 是什么？

2015 年，也就是在 Facebook 收购 Oculus 一年后，苹果收购了一家鲜有人知的公司，这家公司就是 Metaio。

Metaio 虽然成立于 2003 年，在被苹果收购之前也已经有些年头，但一直未能进入大众视野，因为 Metaio主攻的正是当时还没那么疯狂的 AR 技术。

Metaio 在 AR 圈子其实颇有些名气，它曾经打造了一款力作 Junaio（鹰眼），Junaio 是一款可以应用在智能手机上的AR通用浏览器，用户可以通过手机摄像头的视角看到周围街道、建筑物、商圈的数字信息。

将虚拟信息叠加到真实世界中，这就是 AR 的本质。

这件事儿听起来简单，要真正实现它，真正量产出消费级AR眼镜，却难如登天。

早在 1989 年，AR 技术就已出现，不过受技术发展限制，其行业和市场动向迟迟未有开启；一直到 2014 年，在移动互联网和智能手机的浪潮下，AR 这一技术开始重新受到行业和市场关注。

“2014 年到 2016 年是 AR 产业的市场培育期，当时吸引了一些巨头入场，对于整个应用的推广也更加多样化”，深圳市 AR 协会执行会长付杰在 BWS 演讲中说道。

付杰所说的巨头，其实是包括苹果、谷歌、微软、Facebook 在内的国际科技巨擘——而在这一时期，华为还未有所行动。

当时的盛况是：

科技巨头们纷纷进驻 AR 产业，Google Glass、微软 HoloLens 等硬件产品应运而生；
一些 AR 明星初创公司，如 Magic Leap、Niantic（《精灵宝可梦 GO》开发商）等迎来疯狂融资，仅 Magic Leap 一家，其总融资额就达到了 29.5 亿美元。

然而，一时的繁华之后，迎来的却是落寞。到了 2016-2017 年，整个全球 AR 产业的发展很快降至冰点，就像 VR 产业那样。

“整个 AR 产业概念炒作过度，资本陷入盲目状态，当时并不知道 AR 能够给行业带来什么样的效果，能够赋能哪些行业”，在回忆起那段“过山车式”的发展历程时，付杰说道。

当时，无论是 Google Glass，还是 Magic Leap One，它们尽管定位为消费级 AR 产品，但由于定价高昂、功能少、交互差等多方面因素，其并未能够打入 C 端市场，而后纷纷转向 B 端市场，应用于工业、医疗等场景中。

幸运的是，虽然 AR 硬件未能打开 C 端市场的大门，但用户对 AR 的感知却未减反增——在这背后，得益于移动设备对 AR 功能的扩展。

就在 AR 行业陷入低谷的 2017 年，苹果和 Google 分别推出了 ARKit 和 ARCore，为整个 AR 行业注入了兴奋剂。ARKit 与 ARCore 的推出让上亿移动设备瞬间拥有 AR 功能，也使开发者不需要任何别的工具就能够开发 AR 应用。

可以说，ARKit 与 ARCore 的推出直接改变了 AR 技术的格局，以及整个 AR 市场的生态。

也正是在这一年开始，AR 行业逐渐回温。

ARKit 和 ARCore 推出之后，国内 BATJ 在当时也纷纷加入搭建 AR 技术平台和落地应用的行列——京东天工 AR 开放平台、QQ-AR 平台、淘宝 AR Buy+、DuMix AR 等均是这一时期的产物，覆盖了购物、社交、出行、搜索等场景，迅速铺开了 AR 应用生态。

同样也是在这一时期，华为推出了 AR Engine 开发平台，正式迈进了 AR 这一领地。

“华为一定会做 AR 眼镜”

2018 年 6 月，在华为终端·全球合作伙伴及开发者大会上，华为正式发布了“AR Engine”，一个面向移动设备 AR 开发的平台。从功能上看，AR Engine 对标的是苹果家的 ARKit 与 RealityKit。

值得一提的是，在 AR Engine 面世之前，华为手机已事先运行了 Google 的 ARCore，因此初期在 AR 平台建设上，华为采用的是 AR Engine + ARCore 双栈策略。

在 AR Engine 之外，华为还于 2019 年 8 月发布了 AR 技术 Cyberverse（河图），Cyberverse是一款有点类似Junaio的应用，它支持识物百科、识人辨人、识字翻译、识车安保、3D 地图识别等，从功能表现来看，华为对 AR 载体的理解不仅仅是手机，而眼镜、手表、汽车等智能化硬件也极有可能融合其中。

但问题是，虽然华为在 AR 软件和平台构建上举措频频，但在 AR 硬件领域，华为似乎还没有进一步的动向，反而是 VR 硬件先行。

实际上，早在 2016 年 4 月，华为就发布了其首款 VR 硬件“HUAWEI VR”，仅一年的时间，支持手机、电脑和 Cloud VR 三种平台终端的华为 VR2 头显也正式发布。

到了 2019 年 9 月，华为发布新的 HUAWEI VR Glass，由于采用了折叠光路方案，HUAWEI VR Glass 外观更为“轻薄短小”，更接近“眼镜式”设计。

虽然有其独到之处，但市场反应并未激起浪花。曾经有销售数据显示，截至 2020 年 10 月，HUAWEI VR Glass 出货不到 30 万套；截至到 12 月，又有媒体报道称，华为已经停止生产 HUAWEI VR Glass，不过后续已被华为辟谣。

反观华为的 AR 硬件，则多是“雷声大、雨点小”的状态。

早在 2018 年，余承东就曾在采访中公开表示“华为 AR 智能眼镜正处于研发当中”，当时计划在一两年内推出。此后，即便外界盛传会在 IFA 2019 上展出，但它也迟迟未有亮相。

不过，这一“颇具神秘感”的 AR 眼镜，在去年 3 月也被解开了面纱——华为在 2020 年 3 月申请了一项名为“AR 眼镜”的发明专利，其中曝光了 AR 眼镜草图，尽管不确定该专利是否会用在硬件当中，但这可以说是华为 AR 设备的首次曝光。

“华为一定会在合适的时机推出 AR 眼镜，现在 N 代，N+1、N+2 代产品都已经有了”，华为消费者业务 AR/VR 产品线总裁李腾跃在 2020 年 9 月表示。

对于产品迟迟未亮相的原因，李腾跃则解释称：“一定要有应用生态基础，产品才能推出”。而类似的观点，余承东也在采访中曾提及。

“华为首先会将更多的 VR 体验带到智能手机中，因此在华为 AR 眼镜正式上市前，用户就能够适应这项技术。”

不过，直到 2021 年的今天，华为 AR 硬件仍旧未见踪影——而在软件和生态层面，华为的最新数据显示：AR Engine 则在多次升级迭代下被安装超 9 亿次，全球第三方开发人员开发应用数量达 1400+。

事实上，从硬件的推进进度也不难看出，华为此前一直在 VR 上布局，对于 AR 则更多是在搭建平台、更新技术。不过，随着 5G 不断深入用户群体，华为的发展重心其实正从 VR 往 AR 方面倾斜——6 月 17 日的 BWS 峰会上，华为也抛出了在这方面更多的料。

当 AR 还是张“大饼”，5G 能做些什么？

据雷锋网观察，AR 和 VR 的发展虽有侧重，但它们在华为的战略规划中则是平行并进，均是“1+8+N”中 “8 ”的其中一个方面。

华为的 AR/VR 战略以手机为中心，坚持“端+云”协同，E2E （端到端）垂直构建差异化的竞争力。

对于 AR/VR 战略布局，李腾跃在 2018 年 5 月曾对外说道。

一年后，华为将这一战略重新描述为——华为的 XR 战略希望通过“端+管+云”协同打造开放生态，VR、AR 眼镜是“1+8+N”中 “8 ”的产品，是要重点去做的。

不难看出，在华为的战略规划中，AR/VR 仅是生态的其中一个方面，它们必然要与“管”、“云”之间协同推进。而这正是华为推进 AR/VR 发展的差异化之处，也是华为的优势所在。

当然，这种优势是建立在华为 5G 技术优势之上的。

比如，Omdia 发布的 2021 Q1 移动通信基础设施市场报告显示，华为在 5G 设备发货量方面位居第一，同时，在 5G 专利数量方面，华为 5G 标准专利数达 3147 项，同样居于全球榜首。

随着我国 5G 建设不断完善，AR 的市场潜力也随着凸显——根据华为公司和第三方的洞察数据，到 2025 年，AR 的市场空间将达到 3000 亿美金；这一数值，相当于深圳市 2020 年 GDP 的总值。

从 AR 行业的硬件发展情况来看，有预测称苹果将于 2022 年发布首款 AR 眼镜，这将对 AR 硬件市场带来不小的反应。

另外，Strategy Analytics 执行总监 David MacQueen 指出，跟手机相连的低成本 AR 设备将会占领市场，让价格进一步降低到消费者可以接受的水平。

我们认为，到 2026 年，2/3 的 AR 市场将由价格不到 500 美元的设备占据。同时 To B AR 的出货量也会持续增长，从去年的 10 万，增至一年 200 万。

Strategy Analytics 执行总监 David MacQueen 在演讲中说道。

同时，华为在发布的《AR洞察及应用实践白皮书》指出，预计到 2026 年，全球消费级 AR 头显出货量将超过 5300 万台——接近游戏主机的发货量，消费级用户规模也将超过 9000 万。

值得一提的是，不同于 VR 强调的虚拟沉浸，AR 更强调与现实空间的交互，能够基于现实提供更多虚拟信息补充，增强现实空间的理解和认知，而这种与现实环境的强链接让 AR 具备了更多场景应用的可能性，包括教育、游戏、社交、购物、通信、导航、运动健康等。

在华为看来，这些场景可能性的实现，则需要 5G 的加持，在会后采访中，华为运营商营销执行部副部长徐琨从三个方面对“5G+AR”这一组合进行解读：

首先，AR 要求虚实结合，强调互动性，因此需要大带宽、低时延的保障；
其次，AR 具有超高计算需求，云计算成为刚需，需要进一步促进云网融合，而云网融合同样需要大带宽和低时延的保障；
再者，AR 只有具备移动性才能丰富它的场景和内容，而 5G 的技术可以满足 AR 场景的需求。

不难看出，在我国 5G 基础设施构建不断成熟之时，华为已经开始加快在 AR 行业的布局。

华为亟需新终端

从平台、技术，再到 “5G+AR” 的生态构建，华为的 AR 棋盘已越来越大，在这之中，似乎只差尚未面世的 AR 硬件。

5G 的到来固然是催生华为 AR 的一大助力因素，但对此时的华为而言，手机业务发展受阻，华为消费者业务需要寻求另一件趁手的 “武器” 应对市场变化。

如今来看，继智能手表、智慧屏后，AR 将是华为又一次谋划已久的尝试。

前不久，华为举行了 2021 年度 BWS（Better World Summit）共赢未来全球峰会，该峰会首次举办于去年 7 月，讲述的是华为 5G 的故事。

今年，华为直接以 5G+AR 为 BWS 峰会冠名；不仅如此，在本次峰会上，华为大谈自己的 AR 行业认知，还高调地发布了一本《AR 洞察与应用实践白皮书》。

可见，在 5G 相关的行业应用场景中，华为已经把 AR 推向世人面前。

事实上，将未来硬件期望投注 AR 的不止华为，苹果 CEO Tim Cook 也曾将 AR 描述为“是一个如同智能手机一样的梦想”，而近年来关于苹果虚拟设备的研发消息也时有出现。

同时在国内，包括小米 OV 在内的手机厂商也同样在寻求 AR 的突破口——小米在 2020 年申请了关于“小米 AR 智能眼镜”的专利；vivo 在 2019 年也发布了首款 AR 眼镜；OPPO 不仅推出了两款 AR 硬件产品和 AR 开发者平台，还发布了全时空间计算 AR 应用 OPPO CybeReal……

可以说，AR 已成为各大手机厂商逐鹿的潜在 “新战场”。

据 IDC 预计，2021 年全球 AR 眼镜和头戴设备销量不超过 100 万台，这距离 2026 目标的 5300 万台相差百倍。

不难看出，AR 设备在未来的爆发力很大；甚至有观点认为，AR 产品将是短期内科技产业最具有爆炸性影响力的“新设备”和“新应用”。

传统的“万物互联”更多强调物与物之间的信息和数据的联结，而 AR 时代的互联则意味着从现实互联跃升至“现实与虚拟”之间实现互联的新阶段。

从更长远的角度来看，AR 的想象空间远不止于此。

例如，Facebook 创始人扎克伯格就认为，未来的 VR、AR 的输入方式很有可能就是以神经接口设备来实现。他表示：

当设计一个新平台时，最为重要的就是“输入”方式，如何控制该平台是最具决定性的因素。围绕 AR、VR 的交互活动如果不需要任何物理的控制器或者类似的东西，那必然是一个全新的变革。

而 Realmax CEO 卫荣杰则认为，未来的 AR 眼镜将会是超级人机接口，介入大脑中 50% 处于潜意识甚至无意识的大脑体积，从而将能量、信息、AI 为人所用。

站在这个角度看，华为对 AR 的重视，本质上是在寻找并押注智能手机之外的另外一个人机交互载体——如果说智能手机是现在，而 AR 毫无疑问是代表了人机交互的未来。

现在和未来，都是华为必须要抓住的。

尚在“腹中”的华为 AR 眼镜，会是华为继手机后又一消费级新终端吗？

雷锋网雷锋网雷锋网

Facebook开始测试在VR游戏中植入广告

Sat, 19 Jun 2021 08:54:00 +0800

雷锋网消息，近日，Facebook宣布将开始测试在Oculus VR设备软件中展示广告。

早在今年5月，该公司就曾表示将开始在Oculus软件中添加广告，在本周三的公告中，Facebook首次表示将正式在VR设备中展示广告。

据悉，Facebook在Oculus VR设备中加入的广告将首先出现在瑞典知名游戏厂商Resolution Games制作的VR游戏《Blaston》中。

2020年10月，《Blaston》登陆Oculus Quest，这是一款PvP射击类游戏。在游戏设计上，该游戏将慢动作射击、高速设计、近距离格斗相结合，游戏中，设备会将敌对双方玩家传送到格斗台，双方玩家可以通过这一应用中提供的各类游戏武器道具展开格斗，这款游戏在Oculus Quest售价为9.99美元。

在上线Oculus Quest平台后，2020年年底，这款游戏再次登陆Steam平台，兼容Oculus Rift、HTC Vive、Valve Index头显设备。

除《Blaston》，Facebook此次也表示，在未来几周，Facebook的广告还将会出现在另外两款Oculus软件中。

外媒CNBC评论称，Facebook营收超过97%来自广告收入，在Oculus VR设备中加入广告将会是Facebook迈出的重要一步。

在此之前，Facebook的广告主要应用在Facebook、Instagram两款社交软件中。

而就在6月18日于法国举办的欧洲创业科技峰会VivaTech上，扎克伯格与法国广告巨头阳狮集团董事长莫里斯·乐文谈及AR/VR未来发展前景时表示，VR正在超越游戏领域，进入更多应用场景中，这将使得VR成为继个人电脑、智能手机之后的下一代主流计算平台。

扎克伯格指出，虽然游戏是今天VR应用中的主角，但未来VR还有更多新的发展空间，例如社交、健身。

以Peleton为例，用户可以购买一个会员，通过佩戴VR健身设备，用户将置身于一个虚拟环境中，在这个虚拟环境中，用户可以和教练一起上拳击课、参加舞蹈课等；
以线上办公为例，公司员工可以通过VR会议软件进行线上会议，管理人员可以构建虚拟办公室，举办各类内部员工会议。

对于VR游戏开发者而言，Facebook则表示，在VR软件中加入广告同样会为软件开发商提供新的创收方式。

据Facebook此前公布数据显示，目前在Oculus平台上已经聚集了数百款VR内容，其中已有6款VR游戏收入超千万美元，60款VR游戏收入超百万美元。

这些广告内容是否会影响当下VR设备的用户体验尚难有定论，不过，Facebook特别提到，这些广告会严格遵守Facebook此前制定的广告原则，为用户提供隐藏广告功能，且不会调用诸如来自设备传感器的任何图像或来自手部追踪功能产生的任何图像等用户VR设备本地存储数据。

参考来源：

[1]https://www.cnbc.com/2021/06/16/facebook-to-begin-testing-ads-inside-oculus-virtual-reality-headsets.html

[2]https://www.oculus.com/blog/testing-in-headset-vr-ads/

雷锋网雷锋网雷锋网

Facebook“吃鸡”

Sat, 12 Jun 2021 13:36:00 +0800

作者 | 王金旺

雷锋网消息，近日，Facebook再次出手，收购了一家VR游戏开发商BigBox VR。

BigBox VR是VR游戏《Population：One》的游戏开发商，《Population：One》是一款第一人称射击游戏（FPS），这款游戏同时也是在Oculus Quest平台上拿到超过千万美元收入的六款游戏之一，而这，已经是Facebook收购的第五个VR游戏团队。

显然，Facebook对VR的执念，一直都在。

VR版“吃鸡”：低配操作，高配体验

2020年10月，《Population：One》正式对外发布。

《Population：One》是一款支持多人对战的第一人称射击游戏（FPS），该游戏最多支持6个队伍、每队3名队员，共计18名玩家同时在线游戏。玩家在游戏过程中，可以借助各类掩体快速奔跑、甚至可以借助飞行器在城市上空飞行并狙杀对手。

这样的整体设计，堪称VR版《绝地求生》（“吃鸡”游戏）。

据悉，《Population：One》同样是一款由PC VR移植到Oculus Quest平台上的游戏，BigBoX VR CTO Gabe Brown在接受Oculus游戏制作人Omid Yazdanshenas的采访时，曾透露：

在开发Quest版《Population：One》时，我们认为几个关键特征必不可少——18人“大逃杀”、1平方公里地图、写实的美术风格。

为此，BigBoX VR开发团队花了近一年时间针对Oculus Quest进行了游戏内容的优化、重构了游戏内容的核心部分。

优化后的《Population：One》确实在Oculus Quest平台上取得了成功，收入超过千万美元，但如何能够真正将“吃鸡”游戏诸如捡装备、换弹药、救队友等网络游戏经典操作模式和玩法与VR体验结合，是这类游戏尚有欠缺之处，也是BigBoX VR、乃至所有VR内容制作团队需要进行重新思考、不断优化的地方。

今年5月，BigBoX VR官宣，《Population：One》上线「Team Deathmatch」（团队死亡竞赛）模式，在该模式下，所有玩家将被分成两队，最先击败30人的队伍将获得胜利。与此前游戏常规模式设置不同的是，在「Team Deathmatch」模式中，当玩家被击败后将再次回到战场，直至一方队伍率先击败30人或比赛结束为止。

对于这一游戏的用户留存情况，BigBoX VR也曾做过一系列调研，调研结果显示：

开始玩这款游戏的前7天，加好友的数量与9周后的留存率有极大关系。
如果没有加好友，你在九周后玩的频率可能会下降。如果而如果你加了10个好友，那么9周后留存率可能翻5倍以上。

就如同现在的《王者荣耀》、《绝地求生》一样，《Population：One》天然带有社交属性，除了这款游戏的大获成功、社交属性也可能是吸引Facebook再次出手的原因之一。

疯狂收购ing

Facebook对于VR布局可谓不遗余力，自2014年20亿美元收购Oculus后，就开始给Oculus各种资源倾斜。

2020年9月，在Facebook Connect开发者大会上，官方不仅发布了Oculus quest 2，还宣布了另一个颇具决心的消息——PC VR产品Rift S将在2021年停售。

而在此前后，为了构建VR一体机内容生态，Facebook不仅投入数亿美元做开发者激励措施，还花巨资展开了对高质量VR游戏开发团队的疯狂收购，例如：

2019年11月，Facebook收购《Beat Saber》的开发商Beat Games；
2020年2月，Facebook收购《Asgard’s Wrath》的开发商Sanzaru；
2020年6月，Facebook收购《Lone Echo》的开发商Ready At Dawn；
2021年5月，Facebook收购《Onward》的开发商Downpour；
2021年6月，Facebook收购《Population：One》的开发商BigBox VR。

今年2月，据Oculus官方公布数据显示，目前已有6款VR游戏在Oculus平台上的收入超千万美元，这六款游戏分别是：

《Beat Saber》、《Population：One》、《Rec Room》、《VR Chat》、《Echo VR》、《Onward》。

其中，《Beat Saber》、《Population：One》、《Onward》三款游戏的制作团队已然被Facebook收入囊中，接下来，Facebook必然还会收购更多VR游戏制作团队来实现自己的VR帝国梦。

高投入，也为Facebook带来了高回报。

据SuperData在2月1日发布的2020年第四季度XR统计数据显示，在2020年第四季度，Oculus Quest 2销量已达109.8万台。

在Oculus平台上，也聚集了数百款VR内容，据Facebook此前公布数据显示，Oculus平台上除了6款收入超千万美元的VR游戏外，还有60款游戏收入超百万美元。

不少行业人士认为，Oculus Quest出货量在今年有望突破千万。

随着这一千万级用户群体的出现，一个新的类游戏主机生态也将由此建立。

一个全新的休闲娱乐模式，甚至是全新的生活方式，正在徐徐展开。

雷锋网雷锋网

一颗芯片引发的XR革命

Mon, 24 May 2021 15:43:00 +0800

作者 | 王金旺

出品 | 雷锋网产业组

据市场调研机构IDC统计数据显示，2020年全球AR/VR头显出货量达到710万台，预计2024年将达到7670万台。

四年10倍的增长速度，时隔多年，市场对于XR行业再次给出了高预期，而这样的高预期来源于自芯片技术至内容生态的一次全方位的产业升级。

XR专用芯片问世

2018年5月29日，在当年增强现实世界博览会（AWE）前夕，高通推出了全球首款扩展现实（XR）专用平台——骁龙XR1平台。

对于XR（AR、VR、MR的统称）行业来说，这是一个值得被记住的日子，在此之前，XR行业还没有自己的专用芯片，国内外各类VR设备都还是沿用着手机处理器。

骁龙XR1平台的出现，改变了产业格局。据官方资料显示，骁龙XR1采用了异构计算架构、人工智能引擎（AI Engine），支持4K分辨率、6DoF交互体验等XR设备独特需求，而骁龙XR1针对AR体验进行的特殊优化，也使得不少设备厂商尝试借此研发AR设备，包括Snap本月（5月）推出的AR眼镜Spectacles核心平台同样采用的是骁龙XR1。

如果说骁龙XR1作为高通为XR行业带来的首个专用平台，对于这一平台能否为沉寂良久的XR行业打开局面，不少厂商仍保持着观望态度；那么，随着2019年下半年VR产业在设备和内容上袭来的一波巨浪，骁龙XR2平台的问世，恰逢其时地助燃了整个行业。

2019年5月，Oculus Quest对外发布，虽然这款产品采用的仍是高通骁龙835，单眼分辨率仅为1600*1440，但由于Oculus Quest几乎将骁龙835应用到了极致，在硬件设计及搭载内容两方面的加持下，这款产品一经发售，多次售罄，累计出货量已经超过百万台。

相较高通骁龙835，XR2的性能如何？

据官方公布数据显示，相较高通骁龙835，骁龙XR2在CPU和GPU性能上提升了2倍、视频像素吞吐量提升了4倍、单眼分辨率提升了6倍、AI性能提升了11倍。

毫无悬念，当Facebook在2020年9月推出Oculus Quest二代产品时，核心平台选用的正是骁龙XR2，骁龙XR2在芯片架构、AI性能等方面的提升，在一定程度上使得Oculus Quest 2在单眼分辨率、续航能力、重量等方面有了进一步提升。

当然，通过搭载骁龙XR2进行硬件升级的，不仅仅是Oculus Quest 2。

XR终端的二次觉醒

5月10日，国内VR厂商Pico对外发布了Neo旗舰系列的第三代产品，在这次新产品发布中，Pico首次将B、C端产品彻底分为不同版本发布。而在这一代的一款消费级旗舰产品Neo 3、两款企业级产品Neo 3 Pro企业定制版和支持眼球追踪的Neo 3 Pro Eye中，均将核心平台升级到了骁龙XR2。

显然，骁龙XR2带来的一波性能升级，为VR在B端的商业应用带来了新的可能。

值得注意的是，骁龙XR2作为全球首款支持5G的XR平台，不仅支持3K单眼分辨率、8K 360°全景视频，还支持七路并行摄像头，除了支持用户追踪定位、生成景深图的四个朝外的摄像头（其中两个RGB摄像头用于支持MR体验，两个摄像头用于头部追踪）外，还支持两个用于支持眼球追踪的朝内的摄像头，额外的一个摄像头则可以用来进行面部、唇部追踪，或者通过进行手柄追踪。

5月12日，在2021 HTC VIVE虚拟生态大会上，HTC VIVE FOCOUS 3面世，作为企业级VR一体机典型代表产品，HTC VIVE FOCOUS 3的2.5K单眼分辨率、90Hz刷新率、120°视场角，进一步挖掘了骁龙XR2性能潜力，也将VR一体机的可能性推到了一个新高度。

在HTC VIVE虚拟生态大会上，高通技术公司副总裁兼XR业务总经理司宏国也表示，“高通认为XR是下一代移动计算平台。”

为此，高通早在2009年开始针对XR领域展开布局，在过往数年里，高通不仅将骁龙8系列旗舰芯片应用到XR领域并推出XR参考方案，还先后投入了「HMD加速器计划」、「XR眼镜适配计划」、「XR企业计划」，与XR生态厂商持续展开深度合作。

据司宏国透露，此次在与HTC合作过程中，双方针对基于骁龙XR平台的设备进行了Vive Wave平台的预集成和优化，帮助XR开发者梳理和拓展其对于不同类型设备的触达，让设备制造商和开发者都能从中获益——制造商能够在全球范围内快速推出VR头显新品，开发者则能在VIVEPORT应用商店触达更多用户。

作为空间计算的推动者，高通公司总裁安蒙在2020世界VR产业大会上曾一再强调空间计算的重要性。

对此，司宏国也提出了高通的预期：

虽然从目前的2D显示屏完全过渡到空间计算仍需要数年，但与前几代技术相比，空间计算将对人们的生活产生更加深刻的影响，可以说，人们的世界将变成一台拥有巨型屏幕的电脑。

消费下沉与内容拓荒

对于消费类VR而言，2020年是突飞猛进的一年。

这一年，在硬件方面，以Oculus Quest为代表的VR一体机、以《Half-Life：Alyx》为代表的经典VR 3A大作的爆火，让不少用户重新认识了虚拟世界。

然而，对于XR行业发展来说，还需要再被追问一句：然后呢？

尽管XR行业已经再次走到了聚光灯下，但要想要如IDC预测那样四年十倍、甚至得到更快速的发展，需要在硬件设备、内容生态上有持续、长足的发展，这一方面需要XR设备在消费市场得到进一步下沉，另一方面也需要XR行业各方在内容生态构建上聚力。

就在一众XR设备厂商从技术支持、融资节奏、消费者体验上感受到这波热潮后，今年上半年，众多XR设备厂商面向消费领域的VR设备也再次进化：

5月10日，Pico发布Pico Neo 3 VR一体机，这次，Pico不仅将起售价下沉到2499元，在发布会之前，Pico还上线了“180天打卡返半价”活动；
5月24日，NOLO发布NOLO Sonic VR一体机，这已经是NOLO发布的第二代6DoF VR一体机；
与此同时，爱奇艺新一代奇遇系列VR一体机也已经在路上。

纵观今年发布及提上发布日程的C端VR新品，毫无例外，都标配了6DoF、4K并将价格下沉到3000元以下，也几乎都搭载了最新的骁龙XR2平台，这既是高通在XR领域布局多年后的又一次横跨产业式的破冰式发力，也预示着骁龙XR2将是行业中影响深远的一代产品。

其实，作为一家跨国芯片巨头，高通在XR行业带来的影响不仅如此。

近日，高通与中国电信联合包括Unity、虚幻引擎（Unreal Engine）、HTC Vive、爱奇艺智能、趣立科技、Nreal、OPPO、Pico、影创科技、XRSPACE在内的XR产业链企业「2021 Qualcomm XR创新应用挑战赛」已经正式启动。作为XR内容生态大赛，这一赛事已经连续举办两届，2020 Qualcomm XR创新应用挑战赛吸引了200多个参赛作品，最终有60个优秀参赛作品入围决赛环节。

而在大赛激励机制下涌现出来的众多内容，也将继续丰富XR应用生态。

5G带来的想象空间

作为今年主流XR设备的标配，骁龙XR2一个关键性能力是支持5G技术。

5G能为XR行业带来什么？

一个深得行业认可的说法是：5G、AI、XR三者的结合，将为消费者以及各行业提供更加智能、更加互联、更加沉浸式的XR体验。

一个真实的应用案例是影创科技在教育领域开发的5G＋MR全息教室。

2019年9月26日，影创科技联合成都数字学校、成都教科院附中、北京市第十八中学、上海格致中学、青岛萃英中学四地名校名师，基于5G+MR全息课堂，共同上了一堂物理课。

在5G+MR全息课堂中，通过将混合现实（MR）技术与5G技术融入课堂和其他培训环境，极大地提高了知识保留度。5G+MR全息课堂的出现打破了教育教学的空间限制，课堂教学由原本的“一人一课”转变为多人在线的共同讲课新模式，为区域、城乡、校际教育资源配置不均，以及当下面临的远程教育提供了一个新思路。

随着5G与XR的进一步普及，也将会出现越来越多此类探索和应用。

在这之中，高通作为技术和芯片供应商，自2018年将骁龙XR专用平台带入行业后，带动了整个硬件终端及产业的跨越式发展，包括XR B端诸如教育、医疗、工业等场景逐渐成熟，标杆案例不断落地、小有规模；XR C端市场也再次爆发，从性能及产品体验提升、价位持续下沉到集聚产业之力拓荒内容生态。而芯片之外的高通，也在通过诸如「HMD加速器计划」、「XR企业计划」、「Qualcomm XR创新应用挑战赛」等与生态厂商展开深度合作，推动整个XR生态跨越鸿沟。

雷锋网雷锋网

谁来为HTC的万元VR一体机买单？

Wed, 12 May 2021 15:42:00 +0800

作者 | 王金旺

出品 | 雷锋网产业组

雷锋网消息，5月12日，HTC在HTC VIVE虚拟生态大会（V²EC 2021）上官宣发布了VR一体机新品VIVE FOCUS 3和PC VR新品VIVE PRO 2。

值得注意的是，HTC此次发布的新品进一步升级了硬件配置，新品拥有5K分辨率（单眼2.5K）、120°视场角，这样的配置也再次提升了VR显示方案的行业标准。

PC VR新品HTC VIVE Pro 2是2018年发布的VIVE Pro的升级版本，单眼分辨率为2448×2448，支持120Hz刷新率、120°视角。同样支持VIVE无线升级套件、VIVE追踪器和VIVE面部追踪器。

其中，VIVE面部追踪器是HTC在今年3月发布的一款VR配件，该追踪器通过两个摄像头和一个红外传感器以60Hz的频率对嘴唇、下巴、牙齿、舌头在内的面部动作进行追踪。通过加入这一面部追踪器配件，可以捕捉到面部38种不同面部动作形态，最终映射到VR世界构建的虚拟形象中，从而构建出更精细化的虚拟形象模型。

据HTC中国区总裁汪丛青介绍，“面部追踪可以更容易表达人类非语言意识，由此也形成了一个新的行业——虚拟偶像行业。”

在本次发布会上，HTC也正式对外发布了虚拟人物形象VEE。

针对VR设备的配件，汪丛青还透露，国内眼球追踪技术厂商七鑫易维也将在今年第三季度推出可以用于VIVE FOCOUS 3和VIVE Pro 2的眼球追踪器。

无线化、轻量化作为VR行业这两年发展的一个主流趋势，相较PC VR新品，HTC此次发布的VR一体机更受行业关注。

此次HTC发布的VR一体机新品VIVE FOCUS 3是2019年发布的VIVE FOCUS Plus升级版本，与今年市面上发布的多数VR一体机新品相似的是，这款产品同样采用了高通最新的XR专用芯片——XR2，并支持有线串流，HTC官方也表示，稍后也将会加入无线串流模式。

在具体硬件参数方面，VIVE FOCUS 3支持120°视场角，90Hz刷新率，57mm-72mm瞳距调节，单眼分辨率同样达到了2448×2448（2.5K），不仅相较于上一代产品Vive Focus Plus的 1440 x 1600 提升了260%，仅从硬件参数来看，甚至超越了Oculus Quest 2的 1832 x 1920。

分辨率的提升对于VR设备来说至关重要，行业中的一个普遍认知是单眼2K已经成为保证VR应用体验的及格线。然而，要想有更好的画质体验，其实需要更高的分辨率。假设你在VR世界里做视力检测，从某种意义上而言，分辨率越高，也意味着你的相对视力会越好、同样距离看东西会越清晰。

不过，相较于Oculus Quest 2 2000元（299美元）起跳的售价，售价近万元的Vive FOCUS 3如果投放到消费市场，明显不具备什么竞争力。

其实，HTC也并没有将这款产品定位为消费级产品，而是定位为面向B端应用的“专业级VR一体机设备”，诸如航空航天、公共安全、医疗健康、教育、工业。

面向B端应用领域，HTC还推出过诸多应用。例如，HTC此前就曾发布过一款VR线上会议软件VIVE Sync，据HTC董事长兼CEO王雪红介绍称，“去年3月以来，HTC董事会议都是在VR中举行的。”

在大会上谈到VR如何重塑现实场景时，汪丛青也以会议场景为例特别指出，“戴上头盔后，意味着不会再被被外界干扰，会提升诸如开会效率，诸如走到说话人身边交谈、甚至拥抱，是Zoom这类软件平台所无法实现的体验。”

VIVE Sync仅是VIVE XR Suite旗下的应用平台之一，据雷锋网了解，除去VIVE Sync外，目前VIVE XR Suite旗下还拥有VIVE Sessions、VIVE Campus、VIVE Social、VIVE Museum四款应用。此次HTC VIVE虚拟生态大会正是在虚拟会议平台VIVE Sessions中举办，这也是HTC第二年将这一大会放到VR世界来举办。

不过，要在VR世界里举办这样一场大型发布会，仍难免会出现一些意外。例如，在此次生态大会中，仍会出现PPT闪烁、虚拟人物模型加载出错、卡顿甚至掉线等问题，不过对于一个三个多小时的发布会而言，这次生态大会整体体验已经做得不错，尤其HTC CEO王雪红女士的虚拟人物模型构建，与真人几乎无异。

在此次发布会上，HTC也一同发布了VIVE BUSINESS STREAMING商用平台，以此提供向B端用户提供XR商用解决方案。

大会上，汪丛青也就XR在2021年及未来几年的发展趋势进行了总结：会议虚拟化、办公室虚拟化、学校（教育）虚拟化、活动虚拟化、运动虚拟化、旅行虚拟化、虚拟偶像，以及人物形象和运动模式将变得更加逼真、接近现实。

从发布会上公布的新产品的配置信息来看，HTC VIVE此次发布的新品将VR设备的视场角、分辨率等规格进一步进行了拔高，不过此次发布的两款产品的主要受众仍是B端用户，而面向C端的VIVE Cosmos系列产品并未做更新发布。

正如昨日在VIVECON 2021上，HTC VIVE北美区总经理Daniel O’Brien所言，“HTC仍需继续讲好消费VR的故事，但这仍是一件未来要做的事情。”

对此，外媒The Verge评论道：VIVE FOCUS 3显然不是这个故事的一部分，至少目前还不是。

雷锋网雷锋网

VR之变：Pico修正航向，互联网巨头候场

Tue, 11 May 2021 09:59:00 +0800

作者 | 肖漫

编辑 | 王金旺

出品 | 雷锋网产业组

2019 年有一段时间其实是我们最迷茫的时候，当时的 Pico 有点迷失了方向。

谈及创办 Pico 五年来最艰难的时候，Pico 创始人兼 CEO 周宏伟向雷锋网坦言。

作为 VR 行业老兵，周宏伟自 2015 年创立 Pico 以来，见证过国内 VR 行业初期的百家争鸣、繁华盛景，也经历了 2017 年前后 VR 行业的大浪淘沙、空前泡沫。

在此之前，周宏伟一直是 VR 行业笃定的信徒。

Pico 看到光

对 VR 行业来讲，2019 年是特殊的一年。

这一年，经历了上一轮淘汰赛后的天选者一边陪伴着这个行业一同成长，一边期待着行业的下一道曙光，然而，相对于 VR 在 B 端场景竹节攀升，C 端市场的难起波澜的反应几乎让每一个参与其中的玩家陷入迷茫。

不少厂商有着同样的质疑：VR 作为消费产品，以现在的路真的走得通吗？要走通这条路还要多久？……

没有人有预知未来的能力，即使作为行业老兵的周宏伟也没有想到，大洋彼岸蓄力多年的 Facebook 在这一年会打破 VR 在消费产品中的困顿局面。

2019 年 5 月，Oculus Quest 一经发布，多次售罄，累计出货量超过百万台，这一产品的实际体验也为包括周宏伟在内的众多行业人士留下了深刻印象。

Quest 的成功，让 Pico 看到了光、也让周宏伟坚定了自己的方向。

不久后，Pico 推出 6DoF 新品 Pico Neo 2，这款产品在上市之后，被不少人拿来对标 Quest，甚至不少内容开发团队在向客户或向投资人讲解产品时，会带两台产品：一台 Oculus Quest、一台 Pico Neo 2。

不过，现在再回头看这款被不少人拿来对标 Quest 的产品，更像是 Pico 在 C 端市场进行的又一次摸索和尝试，对于 Pico 而言，真正影响到整个公司战略方向的改变是随后酝酿的 Pico Neo 3。

修正航向

Oculus Quest 发售、《Half-Life：Alyx》上线，这对 Pico 来说，是一个机会。

“在国内，我们需要一款能够快速搭载国外这些优质内容的 6DoF VR 一体机，给国内用户带来像 Oculus Quest 这样体验，因此，也可以看到我们 Pico Neo 2 推出得比较急”，周宏伟向雷锋网表示。

事实上，这其实也是 Pico 现阶段进行内容生态扩展的思路和逻辑——通过高效引入国外高品质内容构建内容生态。

为了让更多优质内容汇聚到自家产品上，Pico 在硬件开发时也做了不少战略倾斜，这就包括核心处理器的选用。

2018 年 5 月，高通首次对外推出 XR 专用平台——高通骁龙 XR1 平台，与此同时，Pico 也成为这一平台首批合作伙伴。不过，正如众人所见，Pico 并未在 2020 年发布的 Neo 2 上应用这一平台，而是选用了骁龙 845 芯片及高通提供的 VR 参考方案。

周宏伟向雷锋网透露，当时与高通合作 XR1 其实是有意做一款 AR 产品，而之所以没有用到 Neo 2 上，主要考虑了两方面因素：

第一，骁龙 845 在性能表现上实际上要优于 XR1 平台；
第二，也正是为了能够实现国外已经发布的优质内容能够平滑、高效地迁移到 Neo 2 上。

从后续的表现来看， Neo 2 的确承担起了 Pico 内容拓荒的这一重任，不过这个过程并非一帆风顺。

在与国外内容团队合作过程中，Pico 发现，由于没有形成完全自研的解决方案，包括硬件、底层软件、SDK 以及虚拟引擎适配等各方面的问题也随之而来，最终导致基于 Neo 2 内容构建十分缓慢，像《Superhot》这样的游戏迁移到 Pico Neo 2 用时甚至超过了三个月。

交谈间，周宏伟甚至用“吃力”来形容当时 Neo 2 的内容增长速度，这也让他下定决心做完全自研的解决方案。

2021 年 5 月 10 日，Pico Neo 3 正式对外发布，就在一些人质疑这款产品与 Quest 2 长得有多相似，甚至同样用了高通最新推出的 XR2 平台时，Pico 的自研技术也随之公布，而这也要从 XR2 这一平台说起。

为 Neo 3 画一个“圈”

毫无悬念，Pico Neo 3 选用了高通最新 XR 专用平台——XR2，不过，这次 Pico 没有采用高通 XR2 给出的 VR 参考方案。

作为移动芯片领域的集大成者，高通推出可应用于 VR 领域的芯片时，均会推出相应的参考方案。以头部追踪解决方案为例，周宏伟向雷锋网透露，Pico 此前推出的 VR 产品也有应用高通提供的头部追踪参考方案，而此次 Neo 3 头部追踪方案完全由 Pico 团队自研，这也是 Pico 首次进行这样的尝试。

追踪定位技术是 VR 设备中一项核心技术，也是与用户体验相关度最高的一项技术，就头部追踪而言，其追踪精度和稳定性直接影响用户使用时是否有明显眩晕感。

周宏伟告诉雷锋网，Pico 内部一直在对头、手 6DoF 光学方案进行自主研发。

同样是在此次新品 Neo 3 上，Pico 一改前代产品中在手柄上应用的电磁解决方案，换上了采用自研 6DoF 光学解决方案的环形手柄。官方数据显示，Neo 3 的 6DoF 手柄采用了 32 个光学追踪传感器，能够达到达到 238° * 195° 的光学追踪范围。

不难发现，光学解决方案如今已经成为 VR 设备 6DoF 手柄的主流方案，究其原因在于，当下 VR 应用中不少体感类游戏对追踪定位精度要求较高，而这正是光学解决方案的明显优势所在。

以 Pico 历代产品来看，Neo 2 采用的电磁解决方案的角度和任意性虽然有优势，但是在追踪定位精度上与 Neo 3 采用的光学解决方案仍有一定差距。周宏伟告诉雷锋网，“这样的产品设计也是因为 Neo 2 还是以 B 端应用为主，对于 C 端内容、用户体验的思考还不够充分。”

值得一提的是，Neo 3 也首次针对 B、C 端对产品进行了明确的区分；其中，针对 B 端，Pico 首次推出了 Neo 3 Pro 企业定制版和支持眼球追踪的 Neo 3 Pro Eye。

相较而言，Pico 此次在用户体验上下了不少功夫，周宏伟也向雷锋网透露了一个细节：

在光学追踪定位解决方案研发过程中，我们遇到了一个视场角的问题，虽然我们采用四颗广角摄像头，已经将视场角做得尽可能大了，但用户在使用过程中遇到从背后箭袋里拔箭、挥舞球拍等场景时还是会出现手柄超出追踪范围的情况，这时就需要我们通过算法进行预测、滤波使得手柄在极短的时间内再次出现在追踪范围内时，可以快速、自然地重新捕获。

事实上，手柄设计的变化其实也是 Pico 产品设计思维转变的一个映射——“以前是技术和硬件驱动，现在是体验和内容驱动。”

当硬件和内容渐入佳境时，售价就成为决定用户是否愿意尝试的一个关键因素。

据发布会上公布信息显示，此次Pico Neo 3 128G 基础版售价 2499 元；128G 先锋版（包含Pico 先锋通行证）售价 2699 元；256G 先锋版售价 2999 元。

候场的互联网巨头

时隔多年，再遇上 VR 市场骤变，中国 VR 消费市场当下潜在用户究竟有多少？

这是现有行业调研数据难以预测的一个数据，却又是国内 VR 行业从业者亟需掌握的一个谜。

为了得到这个答案，Pico 在新品预售环节也同步推出了一个活动——180 天【打卡返半价】。

对于这一活动，虽然 Pico 内部已经做过模型、进行过多次推算，周宏伟也不无担心，“对于我们来说，我们很担心所有人能坚持下来，因为这意味着一笔巨大的亏损；同时，我们又希望所有人都能坚持下来，因为这意味着我们的产品是真的有吸引力。”

而本质上，这其实也是一场面向全民的 VR 教育，周宏伟表示：

我们希望尝试着去引导更多用户体验 VR，只要一个用户一直在用 VR，就会影响周边的人，这样就会形成一个辐射效应，吸引越来越多的用户进入 VR 世界。

此外，周宏伟也表示，这次活动形成的用户数据，也将对我们后面做产品、内容时提供很大的帮助。

就在 VR 行业玩家有条不紊地展开新的征程时，国内互联网巨头也开始按耐不住。

2014 年 Facebook 豪掷 20 亿美元天价收购了 Oculus，而后一直以“不差钱”的姿态在 VR 领地上拓土深耕。相较之下，在过去几年里，包括 BAT 在内的互联网科技巨头一直未在这一领域有什么大手笔，国内互联网巨头初期的“缺席”实际上是规避风险的传统思维。

然而，据雷锋网了解，国内互联网巨头开始在 VR 领域进行深入布局，或与 VR 厂商频频接触、寻求注资，或结合自身资源在硬件、内容上展开重度布局。

周宏伟向雷锋网透露，其实我们近期也有收到包括互联网巨头递来的橄榄枝，不过在新品发布会之前我们都推掉了。此次发布会后，我们会考虑 C 轮融资，C 轮融资我们将不再考虑财务融资、而是战略融资，也可能会考虑引进这类投资。

周宏伟进一步解释称：

我们也在非常认真地考虑一个问题，Pico 要想成为国内的 Oculus，逃不开与国内视频、游戏等内容生态互联网厂商的深度合作，甚至投资性合作，因此，我们接下来也会与国内内容生态领域的互联网厂商开展合作。

2019 年，Oculus Quest 的发布就像是一只小小的翅膀，却扇起了一阵滔天巨浪，国内 VR 行业也再次热情高涨，2020 年前后，国内主流 VR 厂商先后拿到了新一轮融资，爱奇艺智能今年 1 月官宣了 B 轮亿级融资、Pico 也在今年 3 月官宣了 2.42 亿元的 B+ 轮融资。

这是又一次的资本狂欢，还是行业憋足了劲的集中发力？

至少，周宏伟笃定，消费类 VR 还会迎来进一步爆发性成长。

消费类 VR 产品至少在游戏场景已经被 Quest 证明成立，设备+内容+体验已经相对成熟，历史的车轮也将不会倒退。与此同时，VR 又绝不仅仅是一个游戏主机，还是一个泛娱乐终端，视频、社交将会继续带来下一波爆发式成长。

VR 的终极方向

Facebook 掌舵人扎克伯格曾指出：

VR（虚拟现实）将是继手机之后最主要的计算和通信平台。

显然，Facebook 当年豪掷千金买下 Oculus 并不是为了一款硬件设备，而是为了他的社交大业。

在交流的过程中，周宏伟也向雷锋网描绘了他理解中未来 VR 产品的形态和趋势。

从产品形态来看，VR 小型化将是演变趋势的一大方向。虽然之前有厂商推出过小型化 VR 产品，但由于屏幕、光学设计方案的局限性，导致小型化的 VR 产品体验不佳。不过，在周宏伟看来，这些局限性未来将伴随技术提升得到解决。

虽然周宏伟对 VR 硬件发展作出了趋势判断和预测，但在他看来，未来 VR 产品在硬件层面的差异性将越来越小，真正形成差异化竞争的，在于软件生态，而软件生态的构建方向不仅仅只是游戏，还有社交。

未来，VR 社交一定会有很大的想象空间。当 VR 增长到大几千万、甚至是上亿级的量级时，其明确的方向一定是社交，这不仅包括虚拟社交和真实社交，也包含相互打通的下一代社交平台。

周宏伟向雷锋网表示。

那么，从技术层面来看，人们将如何实现真实生活空间和虚拟现实世界的无缝打通？

在周宏伟看来，可以通过诸如虚拟形象等技术加速实现。

未来在虚拟世界内，包括物与物之间，人与人之间，人与物之间的交互关系都会在虚拟世界里呈现出 1：1 的映射，而虚拟形象正是现实世界与虚拟世界的一个映射。

雷锋网了解到，目前已有公司在这一领域进行布局。2020 年 11 月，Epic Games 宣布收购实时面部动捕公司 Hyprsense，其将利用后者的实时面部识别动画技术助力虚拟角色技术创新，提升 3D 虚拟角色微表情的细节渲染。

尽管虚拟社交和真实社交相互打通的全新社交形态尚未出现，更多是在视频网站或手机 APP 中以诸如洛天依、小冰等虚拟形象出现，但由于其本身就是 3D 形象，在 VR 设备中的体验天然优于现在视频网站中的形态。

周宏伟认为，“VR 的演进会更接近真人游戏机，通过技术将现实中的真人渲染出一个三维虚拟形象，进入到 VR 之中，而看上去更像你的真人形象也将很快会出现。”

目前，Pico 也在朝着轻社交方向进行布局，甚至由于 Pico 在国内没有找到做 VR 社交很好的团队，单独搭建了 VR 社交内容研发团队。

我们认为这是一个很好的方向，我们也等不及了，就自己先搭团队做起来，并开始考虑与第三方 IP 联合开发产品。

不难看出，未来的 VR 设备将朝着小型化、无感化方向发展，并且随着内容生态的不断完善，新技术的更新迭代，VR 也不仅仅只是一个游戏设备，而可能朝着一个具备社交、视频等多个场景的泛娱乐个人终端产品方向演进。

上一个五年，VR 自证了存在的可能性，而在往后更多的 5 年时间里，VR 或将定义未来的可能性。

雷锋网雷锋网雷锋网

Facebook收购VR游戏开发团队Downpour，《Onward》四天营收百万美元

Wed, 05 May 2021 11:26:00 +0800

雷锋网消息，Facebook于近日正式官宣收购VR游戏《Onward》开发商Downpour Interactive，Downpour Interactive被收购后将在Oculus Studios下继续保持独立运营。

Facebook AR/VR副总裁Mike Verdu在博客中表示：“《Onward》在Oculus平台上取得了巨大的成功……成为Oculus Studios家族的一员后，将使Downpour Interactive有机会在Oculus Studios资源的全力支持下发展《Onward》社区，并在将来继续推进其他开发项目。”

《Onward》是一款经典的军事模拟FPS VR游戏，早在2016年8月率先在Steam平台上发布，上线第一年便在Steam平台上赚到了94.5万美元，收获5万用户。正是这样一款在VR行业发展初期颇受关注的VR经典游戏，初代版本其实是由一位名为Dante Buckley的个人开发者开发完成。

据此前外媒报道，在研发《Onward》过程中，Buckley自己主要承担游戏编程及相关设计工作，同时也会雇佣一些个人开发者和承包商来完成其他方面的工作，也是在这款游戏随后的研发与迭代过程中，Buckley创建了自己的工作室，Downpour Interactive。

Downpour Interactive与Facebook（或者说是与Oculus）的缘分始于2017年，在此之前，Downpour Interactive已经于同年年初受Valve邀请搬入华盛顿Bellevue办公室继续进行游戏开发工作。

2017年11月，《Onward》正式登陆Oculus Rift。在《Onward》上线Oculus Rift平台后，也实现了Oculus Rift平台玩家可与Steam平台的玩家进行跨平台联机游戏。

2020年7月，Downpour Interactive官宣称，《Onward》已经进一步登录VR一体机Oculus Quest。在Quest上，《Onward》拥有与PC VR版本相同的游戏模式，包括单人玩法和联机组队玩法，最多支持10人跨平台联机游戏。

此前，在今年1月28日Facebook第四季度财报电话会议中，Facebook对外公布的一组营收数据显示：Quest平台已经有超过60款游戏营收超百万美元，“其中，军事模拟FPS VR游戏《Onward》上线Quest平台，仅用4天就实现了100万美元营收。”

正因为《Onward》在用户反馈及营收上的出色表现，使得其成为继Beat Games、Sanzaru Games、Ready at Dawn之后又一被Facebook纳入Oculus Studios麾下的VR游戏开发团队。

参考链接：https://www.theverge.com/2021/4/30/22412882/facebook-oculus-studios-onward-developer-downpour-interactive-acqusition

雷锋网雷锋网

Pico完成2.42亿元B+轮融资，VR再迎融资热潮

Tue, 02 Mar 2021 10:35:00 +0800

雷锋网消息，近日，国内VR厂商Pico宣布完成2.42亿元B+轮融资，本轮融资投资方包括基石资本、深圳市伊敦传媒投资基金、建银国际、建银苏州科创基金等。

据悉，B+轮融资完成后，Pico B&B+轮整体融资额达4.35亿元。

Pico成立与2015年，是国内一家明星VR一体机企业，主要有Neo系列和G系列两大产品线，主要产品同时在面向B端和C端销售，目前在B端业务占比高达2/3。

近两年来，随着Facebook VR产品持续更新，Oculus quest、Oculus quest 2相继发布，以及VR专用芯片的出现、VR内容的不断丰富，VR在消费领域得到了进一步发展，也由此再次受到资本的看好。

据IDC《2020全球AR/VR市场季度跟踪报告》调研数据显示，2024年全球AR/VR头显出货量将达到7670万台，年复合增长率达81.5%。

从国内市场来看，1月4日，爱奇艺智能宣布完成由屹唐长厚基金、清新资本共同投资的B轮数亿元融资，创下2020年至今国内VR领域单笔融资最高纪录；2月25日，NOLO VR完成由蔚来资本领投，蓝驰创投、愉悦资本跟投的2000万美元B轮融资。

不过，国内VR行业目前在内容生态、尤其在游戏内容生态构建上仍难以满足消费者需求，这也成为制约VR设备在消费领域快速普及的一个主要原因。

今年年初，爱奇艺智能发布了名为「哥伦布计划」的VR游戏开发者招募计划，爱奇艺智能COO孙峰当时表示，“过去五年，做好了视频生态；未来两年，我们要像做好视频生态一样做好VR游戏生态。”

Pico副总裁祖昆仑此前曾向雷锋网表示，Pico上线的游戏来源主要来自三个方面：

第一，主要游戏来源于和在其他移动端VR平台已发布游戏作品的开发者合作，针对Pico设备开发的VR游戏；
第二，与其他PC平台上的开发者合作，他们开发的游戏有些可能还没有移动端VR平台上线，但是更愿意与我们合作，在我们设备上上线游戏；
第三，与我们已有合作的开发者，针对此前3DoF相关游戏，重新针对6DoF设备开发为交互性更强的VR游戏。

据Pico CEO周宏伟透露，Pico已经对B端和C端的业务做了剥离，未来将进一步拓展C端市场。

针对此轮融资，周宏伟也表示，除了帮助Pico进一步加强关键技术储备外，也将被重点用于Pico的内容生态构建和C端市场的投入及推广。

目前在Pico自有内容平台Pico Store上已经拥有70余款6DoF游戏，预计2021年将扩充至170余款；同时Pico也将重点探索VR在运动健身、观影、社交等多场景下的应用。

雷锋网雷锋网雷锋网

苹果AR新专利：可通过AR眼镜识别食物新鲜度、热量

Sat, 13 Feb 2021 11:47:00 +0800

一直以来，有关于苹果VR/AR设备的消息就不绝于耳，虽然目前苹果已经推出了AR软件开发平台——AR Kit，但仍然还不确定苹果是否会推出VR/AR相关的终端产品，不过基本可以确定的是，苹果正在对VR/AR相关硬件进行相当大的投入。

雷锋网消息，美国专利商标局周四公布了苹果公司的三份专利申请，详情显示苹果正在对其AR头戴设备进行技术改进，几项技术都可应用于苹果的VR/AR产品中，包括传闻中的面罩式MR（mixed-reality混和现实）耳机产品。

三项新专利

据美国专利局的详细信息显示，苹果的三项新专利技术分别为：用于食品检测的红外传感技术、用于头戴式设备的自适应面部接口和眼球追踪技术。

第一项专利是一种红外传感电子系统（Electronic devices with beam-steered infrared light sensing），该系统可以使用红外传感器来收集目标物体的光谱，通过单独或者组合使用红外光谱、可见光相机图像、或来自其他传感器的数据来分析物体信息。

该技术专利的潜在用途就是在AR设备中，例如，用户可以使用具有该系统的AR设备进行食品的图像识别，通过AR识别，可分析食物的信息，包括某些食物的新鲜度、脂肪含量、食物类型、甜度等，从而可以评估食品的成熟度和卡路里含量等等。

当然，该技术的应用范围也不会仅限于食物，一般来说，任何类型的物体，包括植物、动物、食物、油漆、房屋建筑、汽车、电子设备、家具等，都可以使用光学传感器进行分析。此外，该系统还可用来监测用户的某些身体指标，比如呼吸状况等。第二项专利描述了一个可用于头戴式显示设备的自适应面部接口系统（Head-Mounted Display Unit With Adaptable Facial Interface）。

根据该专利显示，苹果的头戴式设备可能会分为两部分，一部分是显示设备、另一部分是类似面罩的头戴式配件。

该头戴式配件可以很好地阻止外部光源进入，给用户的眼睛提供一个很好的保护以避免环境光的干扰，和显示设备连接后，可形成一整套的VR/AR设备。通过该接口系统，用户的虚拟现实或混合现实体验将进一步增强。第三项专利涉及到眼球追踪技术，同样可应用于增强现实和虚拟现实设备中。

此前苹果曾经提出过眼球追踪的相关专利，但此次公布的这项专利，跟此前的专利还是有一些差异，此次的专利对之前的研究追踪技术进行了一些改进。本次眼球追踪技术专利，在以往的「热镜」技术基础上，使用了衍射光栅接受光线。

衍射光栅会重定向或反射一部分从用户眼睛反射的红外光，同时允许可见光通过。摄像机会从由衍射光栅重定向或反射的红外光中捕获用户眼睛的图像。

使用了衍射光栅的设备将比使用热镜的设备更为小巧，并可改善红外摄像头的视角。苹果VR/AR设备未来可期近几年，苹果在VR/AR方面的研发动作频频，过去几年中，苹果申请了大量关于VR/AR眼镜的相关专利，其中不少的技术已经应用于iPad等现有的设备中。

此外，苹果还对VR/AR项目投入了大量的人员资源，包括一些重要的高管。前几天，各大媒体报道，苹果公司宣布其硬件工程主管Dan Riccio转任一个保密的新项目中，据多方消息证实，这个新项目跟VR/AR设备相关，负责该项目的最终监督权，而此前就负责苹果VR/AR项目的苹果公司副总裁Mike Rockwell仍负责VR/AR设备的日常研发，据悉该项目中有1000多名工程师为之奋斗，足见苹果对该项目的重视。

根据The Information上周爆料，苹果可能正在研发一个MR头戴式设备，该设备将拥有8K超高分辨率和现金的眼动跟踪技术，在硬件上，这款设备拥有十几个摄像头，能够采集人手的动作，从而完成人与虚拟世界的交互。

The Information表示，这款设备售价将高达3000美金，并于2022年推出。

综合目前所有的信息，几乎可以确定，苹果推出AR/VR/MR头戴设备可以说是箭在弦上，只待一发了。

十几年前，苹果的iPhone颠覆了新一代计算机设备的形态，这次在虚拟现实领域，苹果是否还能再次成为破局者，值得期待。

雷锋网本文参考资料：

https://appleinsider.com/articles/21/02/11/apple-refining-ar-and-vr-tech-including-sensors-to-detect-food-freshness

https://www.theverge.com/2021/2/8/22272555/apple-dan-riccio-ar-vr-development

https://www.theinformation.com/articles/new-apple-mixed-reality-headset-details-swappable-headbands-eye-tracking

雷锋网注：【封面图片来源：网站名appleinsider.，所有者：appleinsider.】

全球开发者大会上，苹果未来的AR产品显得“静悄悄”

Wed, 01 Jul 2020 08:37:00 +0800

苹果正在制造一款AR耳机、一款AR眼镜，大概在2021年、2022年或2023年正式公布......这样的计划或者报告铺天盖地，似乎一切都在向好的方向发展。

然而，在今年的全球开发者大会（WWDC）上，这些计划苹果并没有公布，也没有任何暗示。相反，很多无法回答的问题有待解决。

过去四年里，苹果公司首席执行官蒂姆·库克（Tim Cook）曾多次表示，增强现实（AR）将成为公司未来发展的重要组成部分。面对谷歌、Facebook、微软、高通等公司的竞争，苹果仍有能力制造可能引起巨大轰动的硬件，比如数百万部iphone、ipad、产品生态系统，以及AR图形工具包。

然而，由于每个人都被困在家里过虚拟生活，增强现实体验在今年的活动中被淡化了。

去年，苹果发布了集成的AR工具，允许多人体验和构建虚拟世界。今年，苹果在iOS 14和iPadOS 14中更新的ARKit 4工具虽然发挥了关键作用，但似乎少了一些动态的新元素。

随着更多细节的透露，你会发现：有深度感应的iPad、有空间感知能力的AirPods、苹果地图的定位标记等，将成为通往虚拟世界的入口。

iPad Pro的深度感应是关键

2020年春季发布的iPad Pro有一个独特的激光雷达传感器，可以扫描真实空间并创建3D地图。

这一扫描功能，未来很有可能搭载在iphone上，并最终出现在苹果的AR耳机中。

苹果新推出的面向开发者的ARKit 4工具包有一个Depth API，该API将更好地利用传感器，并承诺提供更精确的测量。开发人员已经开始使用激光雷达来扫描房屋和空间，并对扫描进行筛选，这种扫描不仅可以用于增强现实，还可以用于以CAD等格式保存地点模型。

苹果地图上标记的点，未来可以显示现实世界的景象

地图位置和增强现实，进一步融合

就像微软、Snapchat和谷歌一样，苹果也在其iOS 14 AR工具中添加了定位锚，但使用了一些精确工具来排列GPS和苹果地图数据。

这些特定的地理位置标记将使虚拟事物更容易固定在特定的地方。

微软去年发布的《我的世界》（Minecraft Earth）已经有了特定位置的锚。苹果似乎准备进一步推进这一想法，试图把人类体验与城市地图联系起来。

结合AR已经实现的多用户可能性，这将导致现实中更多的共享和压缩，比如特定位置的艺术体验。不过有一件事很有趣：苹果公司表示，由于它依赖更先进的苹果地图数据来协调和微调定位，新的地理定位锚目前只能在美国某些主要城市使用。

新程序，将快速扫描启动AR

iOS 14的一项新功能名为App Clips，它承诺在NFC扫描或使用QR码时，会快速地显示App片段。

这可能意味着一个NFC水龙头或二维码扫描就可以启动一个基于“增大化现实”技术应用，而不需要下载一个完整的应用程序。

AirPods Pro可以做空间音频，这可能导致环境音频增强现实。

AirPods Pro上的空间音频看起来像苹果的AR音频

去年，我开始考虑把音频作为增强现实的关键：不用拿起电话甚至眼镜去体验虚拟世界，音频这种体验方式有一个好处——受到的干扰会更少。

毕竟，我们一直都戴着耳机，生活在音频泡泡里。苹果的AirPods经常被视为沉浸式未来的“先驱”。

iOS 14允许在苹果的step up AirPods Pro模型中使用空间音频，通过移动跟踪来定位音频位置，而这取决于你的头部如何移动。

目前，它的功能是在iPhone或iPad上听环绕立体声，苹果还没有将AirPods Pro的空间音频集成到ARKIt中，但这也可以应用到音频AR体验中。再加上眼镜，就完美了。

苹果AR，可以播放虚拟视频屏幕了

ARKit 4中有一个很常见的功能叫做“视频纹理”，它可以将视频投影到AR中，比如Magic Leap，它可以用于浮动电视屏幕，或者将移动的视频角色映射到3D模型上。

现在，当iPhone或iPad只是一个迷你电视屏幕时，用你的iPhone或iPad在你的客厅里创建一个浮动的虚拟电视屏幕似乎有些愚蠢。但是，戴上眼镜，这个想法看起来一点也不傻。

全息投影的想法也很吸引人。目前，AR和VR并不能很好地在虚拟世界中显示人们的真实面孔；通常感觉更像是生活在一个卡通或木偶世界里。

即使在像Spatial这样的虚拟缩放会议应用程序中，头像看起来也像是真实熟人的粗略拉伸。在未来的AR FaceTime通话中，视频映射化身将可能实现你与朋友以全息影像的方式见面。

结语

如果你曾期待苹果在AR（或VR）领域有什么大的突破，那么现在已经不可能了。

没有苹果耳机、也没有苹果眼镜，苹果也没有将AR耳机插入苹果设备的能力。让人稍稍欣慰的是，苹果的AR工具正在变得非常先进。

参考链接：https://www.cnet.com/news/apples-future-ar-pieces-hid-in-the-corners-during-a-virtual-wwdc/（雷锋网）雷锋网雷锋网

苹果公司申请AR触摸检测专利：使用深度映射相机和ML

Sat, 29 Feb 2020 16:05:00 +0800

近期，美国专利及商标局公布了一批全新的AR/VR专利，其中包括Magic Leap专利，是一种基于眼动追踪的动态显示器校准；Facebook专利，用于深度感测的非机械波束控制方案；高通专利，是鱼眼虚拟现实视频的增强型高级信令；索尼专利，通过生物识别传感器和语言处理减轻头显的影响；其中，还有苹果公司的AR专利：基于深度的触控检测。

“未来苹果发展的核心将是AR”，在2019年苹果投资者大会上，CEO库克曾明确提出。而今，这一新的AR专利的爆出，更加印证了苹果在AR道路上的坚定决心。

目前来看，正如iPhone和iPad，苹果的硬件很大程度上依赖于手指靠在屏幕上这种对直接触摸输入的准确检测。

雷锋网了解到，近日苹果获得的这项关键技术的专利，是使用深度映射摄像头和机器学习去检测用户的触摸。

按照该专利的描述信息，苹果这个检测系统相当简单。当外部摄像头在实时环境中协同工作的时候，会生成三维深度图，通过测量物体（比如手指）与可触摸表面的距离，然后确定物体何时接触该表面。最重要的一点是，这种距离测量设计即便是在摄像头改变位置时也能使用，一部分是依赖对机器学习的模型进行训练以此识别触摸的输入。

这项技术的插图显示，三个外部摄像头协同工作，以确定手指的相对位置，这一概念对于了解苹果三摄像头iPhone 11 Pro这种机型的用户来说可能有些熟悉。类似的多摄像头阵列预计将出现在未来的苹果设备中，包括新的iPad Pro和AR眼镜，使每个摄像头都能通过深度映射场景和应用ML知识判断手指位置变化的意图来确定手指输入。

有了这项技术，未来的AR眼镜可以消除对物理键盘和触控板的需求，取而代之的是，只有用户才能看到和正确互动的数字版本。另外，它们还可以使用户界面锚定到其他表面，比如墙壁，可以想象地创建一个安全电梯，并且只能通过AR按钮的操作或带到特定楼层。

苹果公司获得的US10572072专利，这项专利是基于Sunnyvale公司的Lejing Wang和Daniel Kurz发明的技术。这项专利于2017年9月底首次提出申请，其中包括对这项技术进行实际测试的照片，这在苹果公司中并不常见。雷锋网雷锋网

三星空中投影，下一个智慧屏？

Sun, 06 Oct 2019 13:00:00 +0800

雷锋网按：全息投影是一个很炫酷的概念，也是一个与当下智能设备更“搭”的内容呈现方式。

2018年5月，美国相机巨头公司RED曾推出世界上第一款商用全息投影智能手机Hydrogen One。当时行业给予了很大的关注，但是当产品推出时，无论是媒体实测，还是行业风评，这款手机在全息投影上都没能给出一个令人满意的用户体验。

不过，全息投影并非只有RED一家关注，各大智能手机、智能硬件厂商都极为关注，这其中自然也包括三星。

据外媒Letsgodigital报道称，三星近日再次公布了一项新（全息投影）专利，包括智能手机、智能音箱在内的智能设备通过这项新专利可以将天气、时间、消息等信息通过全息投影在空中显示。

Letsgodigital强调了三星的两项专利，包括分别于今年9月19日通过USPTO（美国专利商标局）和WIPO（世界知识产权局）审核获得的三维成像电子设备专利，9月20日获得的手机外观设计专利。

三星的“空中投影”

三星的三维成像电子设备专利中指出，这一方案主要应用了三个组件：全屏显示器、半反射镜、回射元件。

具体这一方案的工作原理为：将智能手机放到专用的扩展坞中，通过回射元件将显示在半反射镜上的全屏显示器（例如智能手机）屏幕上的图像反射，并最终将图像投射到空中，实现空中投影。

根据专利介绍称，影响空中投影图像质量的因素主要有两个：空气质量、半反射镜二次成像质量。

针对后者，专利中解释称，由于半反射镜仅将部分入射光投射到空中来产生图像（空中投影），入射光的损失导致了图像质量的损失。由此，方案中提到，通过加入第二个回射元件，以提升成像质量。

据目前公开信息显示，这项专利可以显示诸如时间、天气、手机电量、消息、通知、定位信息等“空中投影”。

Letsgodigital报道中指出，通过加入检测悬停动作的模块，这项专利还有可能实现通过手势控制音乐播放、消息回复等功能。

三星针对这项专利的研发已经有三年之久，原始专利于2016年11月在韩国提交，2017年1月再次在美国提交。

三星为空中投影设计了一块“全面屏”

三星对于全息投影的研究可以追溯到其全面屏智能手机的问世。

2015年3月，三星S6 Edge问世，这款智能手机采用的正是双侧弧面屏。

与此同时，据雷锋网了解，随之而来的还有三星在全息投影的相关研发进度。

据外媒Android Authority报道，根据美国专利商标局信息显示，三星在2014年第三季度申请了一项可以在智能手机上显示全息图标的专利。

据当时专利描述，这一方案通过在普通智能手机屏幕下方装配一个导光模组，在手机显示面板中提前预置全息图标，通过对导光模组的控制，有针对性地将其照亮，从而在手机屏幕上显示全息投影图像。

当然，这一全息投影专利看上去并没有那么炫酷，这一专利也并没有在三星之后智能手机中应用。

相较而言，此次三星曝光的“空中投影”专利的同时，还曝光了专门为其设计的一块“全面屏”。

从图中可以看到，新手机屏幕采用四全面，外加扩展坞，以实现全息投影功能。

当然，应用这样设计的手机会是未来的三星Galaxy S11，还是Galaxy S12，目前并没有官方消息。

三星的空中投影，下一个智慧屏？

随着不做电视的华为的“智慧屏”的推出，国内迎来了一波智慧屏。尤其TCL、创维等一众家电厂商纷纷推出自家的智慧屏。

智慧屏作为一个新概念，该如何解读？

据雷锋网此前报道，华为IoT产品线总裁支浩近日解释称：

作为家庭中心产品，传统电视已经远远不够，所以我们在进入这个领域后，在四个方向会去强化，也希望大家去探索：
一是智慧的交互中心；二是跨屏的体验中心；三是IoT控制中心；四是影音娱乐中心。
我们认为以后智慧屏放在家里面就是一个数据中心，会让你享受到不同的大屏。在HiLink生态中，我们会去构建整体的家庭智慧生活。

纵观当下电视这一古老的家庭中心，从传统电视，已经衍生出智能电视、智能投影，甚至智慧屏。其中，包括极米、坚果等一系列互联网公司的智能投影系列产品的出现，将这一产品形态进一步下沉到消费端；智慧屏的出现，重新定义了家庭中心。

全息投影的未来商用能否成为下一个智慧屏，给智能手机以新的生机，甚至以“空中投影”代替当下的“无屏”技术，成为与当下AI更搭的内容呈现方式？

三星没有给出预测，倒是Letsgodigital对于此次专利的商用可能给出了这样一段解释：

三星已获得的专利技术可以将2D图像转换为“空中图像”，该专利技术比当前可用的解决方案便宜很多。而且，此解决方案在内容上不依赖于开发人员。

这意味着，无论商用，还是内容适配，这一技术将快于我们此前对全息投影应用进度的想象。

美国运营商Verizon收购了Jaunt，加码增强现实

Wed, 02 Oct 2019 18:55:00 +0800

成立于2013年的Jaunt，主要是开发360度全景视频和VR摄影技术，曾开发了一款名为Jaunt One（前NEO）的专业级360度相机产品。此前，他曾获迪士尼投资，不过从去年下半年开始从VR转型AR和XR。

据外媒报道，近日美国运营商Verizon宣布收购Jaunt。其中，将涉及到该公司的软件、技术和其他资产的转让，但具体条款尚未对外披露。

Jaunt在一份声明中表示，将在短时间内协助Verizon顺利接掌Jaunt部分软件和技术，帮助收购方尽快完成过渡。

发力AR和XR

回想一年前，大约2018年10月的时候，Jaunt出人意料地宣布，它将逐步关闭其虚拟现实产品和服务，并并进行了部分裁员，把精力集中在AR和XR技术上。此外，展示了人体扫描技术，能够通过六个深度感测相机记录一个人的实时AR视频，传送有效的全息图风格的内容。

除了工业和企业级市场，增强和混合现实硬件尚未有大范围的应用，在更广泛的消费市场，情况甚至更加令人难以想象。随着公司致力于将现场3D资产集成到现场去帮助用户，以及在个性化在线教程应用中，全息和其他超高分辨率3D内容的串流有望在重要性和流行度上强化；再者，与之前的蜂窝和Wi-Fi网络不同的是，5G网络的高带宽和低延迟将进一步对这些服务进行支持。

Jaunt创始人加入苹果

今年4月，Jaunt创始人阿瑟·范霍夫（arthur van hoff）加入了苹果担任高级架构师，并且他还是Jaunt One相机系统的发明人，其在双摄和多摄产品领域拥有数十年的经验。

前面我们提到，Jaunt转向开发AR和XR产品，通过分析，我们可以发现Jaunt新的业务重心与苹果一贯重视AR的传统比较契合，与创始人范霍夫相关方面的诉求比较一致。

外界分析，苹果正在加快下一代增强现实软件和硬件的开发，还将为iPhone设计更复杂的深度感应3D摄像头，并在汽车项目内外开展计算机视觉和人工智能项目，范霍夫的加盟可能都是为了这些项目在做准备。

Verizon的接盘

创始人范霍夫的离开，给了Jaunt重重一击，但这并不以为着Jaunt就此消沉，或许他正寻求着以另一种方式在AR/XR道路上继续前行。

Jaunt对自身业务曾经这样描述，“可规模化的创作和分发人像容积视频”，Verizon是否对Jaunt的3D人像视频技术感兴趣，这里不得而知。但Verizon在2018年11月时，曾展示过一款名为AR Cast的3D人像直播系统，并用它在5G网络中直播橄榄球粉丝的3D人像。

除了Cast AR，Verizon近年来也一直在AR/VR内容领域探索，包括收购VR视频公司RYOT，并在其帮助下开发了AR广告系统。并且在去年，Verizon还推出RYOT创新工作室，旨在利用沉浸式娱乐来展示Verizon 5G网络速度。

Jaunt未来的命运走向是很多人所关心的，对于本次收购，虽然Jaunt的官方声明中，对具体条款尚未说明，比如被收购的软件和技术中是否包括专利，但是雷锋网了解到，Jaunt XR首席执行官Mitzi Reaugh表示，“Jaunt团队已经开发出了领先的软件，我们对它与Verizon未来的合作感到非常兴奋。”两家公司希望在软件和技术的“部分选择”方面进行短暂的合作。雷锋网雷锋网

如何在虚拟世界里灵活运用你的双手？手势交互方案、算法和场景全解析

Thu, 19 Sep 2019 12:50:00 +0800

早在语言出现之前，人类就习惯使用肢体和手势，这种近乎本能的沟通方式，来互相交流。

在机器被发明之后，手势因具备键盘、鼠标、触屏等交互方式所无法替代的天然优势，仍然有诸多应用场景。

在电影《钢铁侠》里面，主角一挥手，凭空推拉拖拽操控虚拟物体，简直不要太炫酷了。

做到像电影中那样高精度、稳定性好的手势识别，需要硬件和算法的加持，两者缺一不可。

手势识别都有哪些常见的硬件方案？工程师是如何用 AI 算法来优化识别效果的？常见的手势识别应用场景都有哪些？接下来，就让 Rokid R-Lab 算法工程师张兆辉为我们娓娓道来。

手势识别的三大硬件方案

手势识别的原理并不复杂，它通过硬件捕获自然信号，就像相机捕获图片信息那样，然后通过软件算法计算得到手的位置、姿态、手势等，处理成计算机可以理解的信息。

目前手势识别主要有以下 3 种硬件方案：

1、摄像头方案

常见的又分彩色摄像头方案和深度摄像头方案。

1.1 彩色摄像头方案

彩色摄像头方案只需要一个普通摄像头，捕捉拍摄一张彩色图片，通过 AI 算法得到图片中手的位置、姿态、手势等信息。优势是设备成本低、数据容易获取。

目前这种基于单目 RGB 的手势识别在学术界和工业界研究的比较多，商用的方案商有英梅吉、ManoMotion、虹软等。

还有一些人工智能开放平台同样提供这种方案。比如腾讯 AI 开放平台提供静态手势识别和手部关键点，百度 AI 开放平台和 Face++ 提供静态手势检测。以及一些开源项目比如 openpose 和 Google Mediapipe 等。

openpose的手势关键点检测

相比深度摄像头方案，彩色摄像头方案缺乏深度信息，受光照影响非常大，夜间无法使用，稳定性和精度都没有深度相机方案好。

1.2 深度摄像头方案

这个方案是通过深度摄像头来获取带有深度信息的图片。优势是更容易获取手部的 3D 信息，相对应的通过 AI 算法得到的手部 3D 关键点也更加准确和稳定。但缺点是需要额外的设备、硬件成本比较高。

深度相机又分三大类：ToF、结构光和双目成像。

其中，ToF 和结构光得到的深度图比较准，但成本比较高，多用于手势的科研领域，商用的比较少，比如微软 HoloLens、极鱼科技 ThisVR。

双目成像因为视场角大，帧率高，很适合用来做手势识别，唯一缺点就是因为成像原理的限制，使得整个双目相机模组的体积对比 ToF 和结构光来说大很多。

采用双目成像的公司以目前最大的手势识别公司 Leap Motion 为代表，该公司使用的是主动双目成像方案，除了双目摄像头外还有三个补光单元，可捕获双手 26DoF、静态手势、动态手势等。此外，Leap Motion 还提供了非常完整的 SDK，对各个平台支持都不错（除手机平台）。

Leap Motion的演示

国内也有在做双目手势的公司，比如 uSens Fingo 是基于主动双目的视觉方案，提供双手 26DoF、静态手势、动态手势识别等功能。相比于 Leap Motion，uSens 更专注于对手机以及其他低功耗嵌入式设备的支持。此外还有微动 Vidoo Primary 也有基于双目的手势解决方案。

2、毫米波雷达

毫米波雷达方案的代表有谷歌推出的一款特殊设计的雷达传感器—— Project Soli ，它可以追踪亚毫米精准度的高速运动，但目前尚处在实验室阶段。

从其公布的演示来看，目前可以识别个别指定的手势，并在小范围内识别微小精确的手势操作，很适合发挥人类精准的小肌肉运动技能（fine motor skills）。但缺点是有效范围太小，无法得到手的所有自由度。

Project Soli的演示

3、数据手套

数据手套是指在手上带一个内置传感器的特制手套，通过传感器检测手指的屈伸角度或位置，再根据 Inverse kinematics（逆运动学）来计算出手的位置。

一般用到的传感器有弯曲传感器、角度传感器、磁力传感器等。

弯曲传感器和角度传感器类似都是可检测手指的弯曲程度，我们以 DEXMO 力反馈手套为例，该手套使用旋转传感器捕捉 11 个自由度的手部运动，包括每根手指的伸展和弯曲，以及大拇指一个额外的旋转自由度。

此方案对手的局部动作检测很准，而且不受视觉方案中视野范围的限制。但缺点是手上必须戴手套不方便，且只能检测局部的手指动作，不能定位手部整体的位置角度。若想要检测手的位置角度， DEXMO 需配合其他 6 自由度追踪器使用。

当然 DEXMO 的最大卖点其实不是手势识别，而是逼真的触觉反馈（haptics）+手势识别。手势识别+触觉反馈的方案肯定会是以后人机交互的重要一环。最近收购 Leap Motion 的 UltraHaptics 就是一家做触觉反馈的公司。

还有一种用磁力传感器的——trakSTAR 电磁式空间位置追踪系统。通过在手上贴的磁力传感器的磁场变化，来确定传感器的位置角度，再根据反运动学确定手的具体位置。

trakSTAR使用示意图

此方案需在手部贴 6 个磁力传感器（5个指尖+1个手背），并在面前放一个磁力发射器。磁力发射器会在一定范围内形成一个特殊的电磁场，然后根据传感器在电磁场中不同位置角度检测到的电磁场强度的不同，来推断出指尖及手掌的位置角度。再通过反运动学，确定所有手部关节点的位置。

此方案的缺点是有效使用范围太小，价格太贵，适用场景太少。优点是精度很高，稳定性很好，并且可获得手部所有自由度。

目前此方案还只有纯科研在用，最近几个学术界公开的手势数据集 FHAB、 BigHand 都是用此设备采集的。

FHAB 数据集中的示意图

手势识别的两类算法模型

通过以上科普，相信大家对手势识别的硬件方案有了初步的了解。但要想做好手势交互，仅硬件方案是不够的，还需要专业算法的支持。

当我们通过摄像头得到深度图后，下一步就是把深度图输入给算法，算法可以输出我们手部所有关键点的 3D 位置。

手部关键点也可以理解为手部骨架的关节点，通常用 21 个 3D 关键点来描述。每个 3D 关键点有 3 个自由度，那么输出维度就是 21*3。所以我们常常用一个 21*3 维的矢量来描述，如下图：

可视化后的21个手部3D关键点

目前学术界已经提出各种算法用于解决“基于深度的手势姿态估计问题“，这些算法大体可以分成模型驱动（model-driven）和数据驱动（data-driven）两种方式。

1、模型驱动类算法

此类算法通常是预先用手部 pose（pose 指位姿参数或节点位置，后文将统称为 pose）生成一系列手的几何模型，并建立一个搜索空间（所有可能的手势几何模型的集合），然后在搜索空间内找到与输入深度图最匹配的模型。

此时，模型对应的参数就是所求的 pose。此类算法属于生成式方法（Generative Approaches），我们以下图中的论文为例：

模型驱动类算法通常需要设计一种方式把 pose 转换成对应的几何模型。

此论文用了 linear blend skinning（一种骨骼蒙皮动画算法）：意思就是给骨架蒙上一层皮肤，并让皮肤跟随骨骼运动一起变化，多用于动画领域。

先把 pose 转换成对应的 mesh（下图左侧），在进一步转换成光滑曲面模型（下图右侧）。我们可以理解为 pose 是自变量，几何模型可由 pose 算出，且几何模型与 pose 一一对应。

手部几何模型

输入的手部深度图可转化为点云，此点云就相当于在真实的手表面上采集到的一些 3D 点，如下图中的红点和蓝点:

这样就可以定义损失函数为点云中的点到模型表面的距离（上图中的红线），以此描述深度图和pose的相似度。损失函数的输入是深度图和 pose，输出是差异度。损失函数的输出值越小，说明输入的深度图和pose越相似。

因此，只要在搜索空间中找到令损失函数最小的 pose 即为所求的pose。但因搜索空间不能写成解析形式，没法一次性求出损失函数的最小值，通常只能用数值计算方法，如PSO，ICP等，不断迭代计算得到最优解。

上图从左到右展示了迭代初期到迭代结束时的 pose，这种迭代的数值解法通常对初始化要求较高，若初始化的不好，则需要很长时间才能迭代收敛，还有可能无法收敛到全局最小值（因为损失函数是非凸函数），所以算法实现时，通常利用上一帧的pose来初始化当前帧的计算。

这种模型驱动类方法需要手工设计几何模型和损失函数。简单的几何模型计算量小，复杂的几何模型准确度高。通常设计模型时需要在准确度和性能之间做权衡。

不同的手部几何模型

模型驱动类的算法优势是不需要任何训练数据，只要设计的好，写完就可以直接用。缺点是需要手工设计模型，计算量较大，容易误差累计导致漂移，对初始化要求高，通常只能用在手势追踪领域。

2、数据驱动类算法

此类算法是指利用收集数据中训练样本与其对应的标签关系，让机器学习一个从样本到标签的映射。此类算法属于判别式方法（Discriminative Approaches）。

这样的机器学习算法有很多，可以是早期使用的随机森林，SVM 或是最近研究的火热的神经网络等。此类方法的优点是不需要设计复杂的模型，缺点是需要大数据。但现在大数据时代数据量已经不是问题，这种数据驱动的方式已经成为目前的主流研究方向。

早期学术界研究手势关键点回归的经典方法有 Cascade regression， Latent Regression Forest 等。近些年研究主要集中在各类神经网络如：DeepPrior 系列、REN、pose guided、3D-CNN、Multi-View CNNs、HandPointNet、Feedback Loop 等。

由于此处讨论的用于手势的神经网络与普通的图的神经网络并无本质差异，而神经网络的科普文章已经很多，这里就不做科普了，我们仅挑几个有代表性的网络结构介绍一下:

DeepPrior：网络结构大体如下图，通过初始网络得到粗略的 pose，再用 refine 网络不断优化，并且在最后的全连接层前加了一个低维嵌入，迫使网络学习把特征空间压缩到更低维度。此网络后续有更优化的版本 DeepPrior++。

Feedback Loop：网络结构如下图，此网络在预测 pose 之后，反过来用 pose 生成深度图，并与输入的深度图一起预测更优的 pose，此 pose 又可用来生成更优的深度图，以此迭代循环优化pose。

3D CNN：网络结构如下图，此网络把2D深度图上用像素的描述的深度信息，以TSDF的方式转化为体素（3D的像素），并用3D 卷积代替了普通的2D卷积。

此处最大的贡献就是在网络结构上从2D走到了3D，因为传统2D卷积网络是为2D图像设计的，并不一定适合3D信息的提取，而用3D卷积网络则更容易获取3D特征，也就更适用于3D手部关键点回归的问题。

HandPointNet：网络结构如下图，此网络输入时把深度图转成点云，然后用 PointNet 做手部 3D 关键点回归。

HandPointNet的主要贡献是首次把PointNet用在了手势关键点回归上，其中的PointNet是很有代表性的网络。PointNet 首次用 3D 点云来作为网络输入而不是 2D 图片。

PointNet 比上一个介绍的 3DCNN 更进一步探索了在 3D 空间中的神经网络架构，以及如何更有效的提取 3D 特征，PointNet后续有更优化的版本PointNet++。

手势识别的四大应用场景

上述我们介绍了常见的手势识别硬件方案与算法模型，那么手势识别真正落地的应用场景都有哪些呢？

很多人或许认为手势交互还只是停留在科幻电影的概念而已，接下来，我们以产品应用为例，来介绍一些已经商业落地或潜在的落地场景。

1、VR手势

以 Leap Motion 为代表的很多公司都在做 VR+ 手势。 VR 强调沉浸感，而手势交互可以极大的提升 VR 使用中的沉浸感。所以 VR+ 手势这个落地方向很靠谱，等 VR 得到普及后，定会改变人类的娱乐方式。

此类代表产品：LeapMotion、uSens、极鱼科技等。

2、AR手势

以 HoloLens 为代表的很多公司都在做 AR 眼镜。AR 眼镜可能会脱离实体的触屏和鼠标键盘这些输入工具，取而代之的输入是图像和语音等。此时手势交互便必不可少，不过 AR 还处在比 VR 市场更早期的阶段，需继续积累技术，等待市场成熟。

此类代表产品有：HoloLens、Magic Leap、Rokid Glass、Nreal、Project North Star、亮风台等。

Leap Motion Project North Star 的演示片段

3、桌面手势

以 Sony Xperia Touch 为代表的投影仪+手势识别，将屏幕投影到任何平面上，再通过手势识别模拟触屏操作。

这里用到的手势识别比较简单，基本只要识别单点多点。但使用中手很容易挡住投影仪显示的屏幕，而且还有显示清晰度的问题。此场景可能更多的是一种探索，落地的可能性较小。

不过可以开个脑洞：如果把这里的平面手势识别改成空中手势识别，平面投影改成全息 3D 投影，那就可以实现文章开头提到《钢铁侠》里的全息控制台了。

空中手势识别已经能做到了，但目前还没有真正的全息投影的技术，只有一些伪全息投影。如反射式和风扇式的伪全息投影。

反射式伪全息投影只是把物体的影像反射到反射面板（塑料板）后成一个虚像。因板子透明，所以看起来似乎是在空中直接成像。风扇式伪全息投影是利用人眼的视觉暂留现象，让画面看起来像是直接在空中成像。

反射式伪全息投影

风扇式伪全息投影

这些伪全息投影的最大问题就是没法用手和虚拟影像交互。想要实现《钢铁侠》里面的全息工作台，最有可能的方式是在 AR 眼镜里面实现，只要把计算得到的手势位姿和显示设备联合标定对齐，就可以实现手和虚拟影像的交互了。

此类代表产品有：Xperia Touch、光影魔屏等。

4、车载手势

车载手势指的是在开车时用手势交互控制中控台的一些选项按键等。相比于传统方式，手势的优势是不用每次都去按按钮或戳屏幕，更智能方便。

在使用触屏时，司机需要看着屏幕才知道按钮在哪，看屏幕这一动作，有极大的安全隐患。而手势可以配合语音反馈直接操作，不需要盯着屏幕。

车载手势可以一定程度提高驾驶安全性，但它也有一些缺点，在空中做手势容易手累，再加上手势识别的准确性和延迟问题，远不如直接用手过去转转按钮、点点屏幕来的方便。所以目前业内基本都采用的都是传统方式+手势操作辅助的方式。

此类代表产品有：宝马7系、拜腾汽车、君马SEEK 5等。

结语

AI 时代，语音识别和手势识别等交互方式的加入，让我们与机器有了更多互动的可能。语音交互在人工智能时代已经有了先发优势，正在被逐渐落地并且有望大规模应用。而从手势识别的落地场景来看，这种交互方式还处在行业早期阶段。

但可以预见的是，手势交互是未来人机交互必不可少的一部分，Rokid 一直致力于 AI 人机交互的研究与探索，代表产品有智能音箱以及 AR 眼镜，期望能在 AI 时代为用户带来自然友好的交互体验。

在你的想象中，还有哪些场景能用到手势交互呢？欢迎大家留言讨论。雷锋网

作者介绍：张兆辉，浙江大学竺可桢学院求是科学（物理）本科毕业，主要研究方向包括手势识别，姿态估计，立体视觉，深度学习等，现就职于 Rokid R-Lab 图像算法工程师，负责手势算法研发等相关工作。

2019，VR内容迎来关键发展节点

Fri, 09 Aug 2019 09:00:00 +0800

2014年3月26日，Facebook官方对外宣布，已经就收购沉浸式虚拟现实技术厂商Oculus VR达成了最终协议，收购交易总额约为20亿美元。这一消息将当时爆火的VR产业再次推向一个高潮。

时隔五年，再看当下VR产业，三星的Gear VR、索尼的PS VR、HTC的Vive、Facebook的Oculus、微软的HoloLens在内的几家巨头玩家在耗费巨资支撑高端产品及市场；与此同时，国内又有诸如小米、大朋、暴风魔盒、3Glasses等下沉到千元的VR头显，使得VR硬件虽然未能打开主流的C端市场，但是VR产品已经开始不断下沉。

就整体市场关注度而言，整个VR市场在2017、2018年似乎没有了最初的热度，然而，据IDC发布的《中国VR/AR市场季度跟踪报告》统计数据来看，整个VR市场仍处在持续高速增长中，其中2018年中国市场的VR头显出货量是116.8万台，增幅达到123.6%。据IDC预测，到2023年中国VR头显设备出货量将突破1050.1万台。

相对硬件领域发展的备受关注，VR内容一直是行业的一块短板，尤其对于经历了移动互联网时代庞大影音文娱内容资源用户而言，VR内容在总量和种类上更难以满足用户需求。目前，包括平台厂商、游戏厂商、视频厂商都在进行VR内容的制作，加速补齐这块短板。

“过去两年，很多人认为VR行业处于一个低谷，对于VR行业而言，无论是在销售情况上，还是在用户体验上，2019年将会是一个很好的时间节点。”爱奇艺高级总监张航告诉雷锋网。

当然，对于爱奇艺来说，这也是其重点布局的VR内容的一个“很好的时间节点”。

爱奇艺VR内容的“线上”、“线下”布局

2016年被称为VR元年，也是在这一年，爱奇艺将VR制作纳入到其基础影视生产流程中，发布了“10+100+1000计划”（10+IP视频自制计划、100+IP游戏合作计划、1000万+中文VR用户计划），-爱奇艺VR制作团队制作了《寻人大师VR版之注意危险》、《鬼吹灯之牧野诡事VR》、《灵魂摆渡VR特别篇》等影片。

爱奇艺线上VR已经成为中国最大的线上内容分发平台之一，在线下我们战略中心是做内容的自制和发行。

张航在8月2日的「VR线下内容品鉴会」上这样总结爱奇艺在VR内容上这两年的线上线下部署。此外，据雷锋网了解，爱奇艺目前在VR内容上的部署涵盖动画动漫、综艺、影视、多人自由行走大空间游戏等多个领域。

针对线下布局，不同线下场景对VR内容有不同需求，以电影院和主题乐园两个极端场景为例：

电影院每天都会有新电影上线，因而对内容更新频次要求很高，需要内容更新频次足够快，以此实现更多的复购。
主题乐园的内容更新周期大多是以年为更新周期单位的。主题乐园的目标用户群不会每个月都去，一般会是一年去一到两次，主题乐园的覆盖范围也更大，是以国家为单位的，因而对内容更新频次要求并不高，而是对接待量会要求更高。

爱奇艺VR在线下场景定位VR内容的制作和发行，瞄准主题乐园、商业综合体、影院、游艺游乐四大场景。

爱奇艺2019的三部VR游戏内容

截止目前，爱奇艺在今年上线了《仙剑奇侠传四VR》《神探蒲松龄VR》《神探蒲松龄之鬼魅聊斋VR》（大空间版）《嘟当曼VR奇遇记》等多部内容。其中，《嘟当曼VR奇遇记》为8月正式上线的国内首部加入手部识别及语音交互的VR卡通动画影片。

据悉，这部内容专为4-12岁儿童群体制作。体验中，用户可以乘坐双人动感座椅，化身虚拟角色进入影片，呼叫““嘟当曼，帮帮忙”即可召唤“嘟当曼”虚拟形象，同时加入手势识别，体验者张开双手即可以收集心愿水晶积累积分，在线下兑换精美的嘟当曼周边产品。

3月上线的《仙剑奇侠传四VR》则是一款角色扮演VR游戏，复用仙剑这一经典IP，玩家在游戏中可以获得6自由度自由行走的VR体验。对于核心角色动作演出采用了特效大片中才会用到的真人动作捕捉，以呈现出人物更加真实自然的表演。游戏中运用了全景声技术，使游戏在整个声音效果上呈现出更加逼真的空间感。

6月上线的《神探蒲松龄之鬼魅聊斋VR》（大空间版）取材中国传统神鬼狐怪题材，在游戏中有诸如鼓励精准射击、除妖 Time、宝具掉落等功能设计增加可玩性，画面采用次世代游戏引擎Unreal 4制作，通过动态阴影、基于物理的渲染、自定义后处理等功能实现VR场景中的画面特效。

此外，据官方资料显示，该款VR游戏还采用了先进的「前向渲染」解决方案，支持更高质量的光照功能，多采样抗锯齿（MSAA）以及实例化双目绘制（Instanced Stereo Rendering），在保证画面清晰细腻的同时，使画面帧率不低于 90 FPS；采用实时全物理运算的受力反馈系统，敌人每次受到玩家攻击时都会实时物理运算，模拟最真实的反馈动作。游戏中玩家可以看到敌人断肢爬行、击飞反弹、阻挡变向等一系列真实而自然的AI行为。

除去结合大型IP连续发布多部VR内容，张航在会上还表示，“凭借爱奇艺强大的IP资源和一鱼多吃的内容开发策略，深挖IP价值，进行IP衍生内容、定制周边产品等全产业链开发。”

透析VR内容制作思路

「VR线下内容品鉴会」现场，张航也讲解了爱奇艺在VR内容上的制作思路。

针对整个线下VR内容的创作流程，张航将爱奇艺的制作思路分为以下两步：

第一步，构建场景在VR中的体验。以座椅为例，我们首先会去看，在VR环境下，座椅可以做出怎样的体验。诸如高空坠落坠的失重感是座椅赋予的体验，所以我们在相关内容创作时，就会设计好在某个时间里有一个强烈的失重感，以及失重方向。
第二步，加入IP内容的世界观。将IP故事的合理性附加到VR创作的内容中。

在这样的VR内容制作逻辑下，如果你是某一IP的粉丝，你会感受到VR内容中的情怀；如果你不是某一IP的粉丝，在VR环境中也可以感觉到其中的刺激。

看似简单的逻辑，其实真正的VR内容制作与传统的2D内容制作是完全不同的。VR内容制作的场景，既需要考虑诸如空间感、规避眩晕等问题，又需要考虑用户观看角度、虚拟世界（模型）的完整性。

例如，如果同时在VR场景中的多个人，如何让每个人站的位置不一样，却能能保证看到的表演是各自最佳位置，这是传统的导演、传统的镜头所无法实现；此外，在制作上，我们整个世界的模型构建必须是完整的，因为用户其中要可以自由行走，要保证整个世界的完整性才能有更真实的用户体验。

张航特别提到，从内容制作角度来看，除了创造力以外，两点很重要：

第一，创造的体验是否是一个独特的体验。这个独特体验是其他创造所无法替代的，例如VR内容和体验场景要是诸如密室逃亡、游戏厅场景中所没有的体验，这对于用户才有足够的吸引力。

第二，创造的内容需要适应实际运营场景。例如前文提到的线下的两类极端场景。

爱奇艺VR内容端线下聚焦于制作与发行。爱奇艺会把优质的VR内容制作出适合于线下体验的版本，与店里的硬件设备去做适配，发行在全国众多VR体验店。

2019年，是VR行业的一个很好的时间节点

过去两年，很多人认为VR行业处于一个低谷，对于VR行业而言，无论是在销售情况上，还是在用户体验上，2019年将会是一个很好的时间节点。

2019年，VR行业再次迎来一波迭代潮流。据雷锋网了解，2月，时隔四年的HoloLens 2面世；3月，Oculus再发新品OculusRift S；5月，爱奇艺正式发售奇遇2S VR一体机。

与此同时，在内容领域，爱奇艺也在不断深入布局。据官方透露，爱奇艺将剧、综、影等IP内容与VR深度结合，正在热播的自制剧《无主之城》，已联合推出了VR影片《无主之城VR》、知识付费课程《无主之城直面生存危机》，另外还有，综艺衍生内容《偶像练习生之VR恋之物语》及VR影片《神探蒲松龄VR》和大空间游戏《神探蒲松龄之鬼魅聊斋VR》，预计今年还将推出马伯庸动漫《四海鲸骑》的VR海战类型游戏等。

2019年，爱奇艺预计将上线运营10+部内容，覆盖1000+线下VR体验场馆。

揭秘光波导核心原理，了解AR眼镜背后的挑战（下）

Tue, 16 Jul 2019 17:00:00 +0800

在上一篇文章中我们介绍了光波导的概念及与其他AR眼镜光学方案的比较，然后重点分析了几何光波导 (Geometric Waveguide) 的工作原理。

这篇文章，我们重点分析下光波导的另一个类群 – 衍射光波导 (Diffractive Waveguide)， AR眼镜想要具备普通眼镜的外观，真正走向消费市场，衍射光波导，具体说表面浮雕光栅方案是目前的不二之选。

目前诸如微软Hololens一代和二代、Magic Leap One等多家明星产品，使用并用消费级产品证明了衍射光波导的可量产性，Rokid最新发布的Rokid Vision AR眼镜也是采用双目衍射光波导的方案。制造衍射光波导所需要精度和速度都可靠的电子束曝光和纳米压印的仪器都价格不菲，并且需要放置在专业的超净间里，有条件建立该产线的厂商屈指可数。

下面，就让我们通过这篇文章，了解下对于AR眼镜而言，神秘又重要的衍射光波导技术。

图 1. 光波导的种类: (a) 几何式光波导和“半透半反”镜面阵列的原理示意图, (b) 衍射式光波导和表面浮雕光栅的原理示意图， (c) 衍射式光波导和全息体光栅的原理示意图。本图改编自https://hackernoon.com/fundamentals-of-display-technologies-for-augmented-and-virtual-reality-c88e4b9b0895

本文中我们将着重讲解衍射光波导的工作原理，与几何光波导相比的优缺点，以及衍射光波导使用的两种主流光栅 – “表面浮雕光栅(SRG)”和”全息体光栅(VHG)”。

一、衍射光波导的核心 – 衍射光栅

要想光机产生的虚像被光波导传递到人眼，需要有一个光耦合入(couple-in)和耦合出(couple-out)波导的过程，在几何光波导里这两个过程都是由传统光学元器件比如棱镜、“半透半反”镜面阵列完成的，过程简单易懂，但是具有体积和量产工艺上的挑战。在衍射光波导里，传统的光学结构被平面的衍射光栅(Diffractive Grating)取代，它的产生和流行得益于光学元件从毫米级别到微纳米级别，从“立体”转向“平面”的技术进步趋势。

那么衍射光栅是什么呢？简单来说，它是一个具有周期结构的光学元件，这个周期可以是材料表面浮雕出来的高峰和低谷 (图1b)，也可以是全息技术在材料内部曝光形成的“明暗干涉条纹”(图1c)，但归根结底都是在材料中引起了一个折射率n (refractive index)的周期性变化。

这个周期一般是微纳米级别的，与可见光波长(~450-700nm)一个量级，才能对光线产生有效的操控。

衍射光栅的“分光”体现在两个维度，如图2中所示，假设入射光是单一波长的绿光，它会被衍射光栅分成若干个衍射级(diffraction order)，每一个衍射级沿着不同的方向继续传播下去，包括反射式衍射(R0, R±1, R±2,…)和透射式衍射(T0, T±1, T±2,…)的光线，每一个衍射级对应的衍射角度(θm， m=±1, ±2, …)由光线的入射角(θ)和光栅的周期(Λ)决定，通过设计光栅的其他参数(材料折射率n、光栅形状、厚度、占空比等)可以将某一衍射级(即某一方向)的衍射效率优化到最高，从而使大部分光在衍射后主要沿这一方向传播。

这就起到了与传统光学器件类似的改变光线传播方向的作用，但是它所有的操作又都是在平面上通过微纳米结构实现的，所以非常节省空间，自由度也比传统光学器件大很多。

对于光波导而言，这一衍射角度还需要满足玻璃基底里的全反射条件才能在波导中传播，这在上一篇中有分析过。

在将入射光分成不同衍射级的基础上，衍射光栅的另一“分光”维度体现在色散，即对同一光栅周期来说，不同波长的衍射角度(θm)也不同。如图2所示，假设入射光是白光，那么波长越长的光线衍射角度越大，即图示的衍射角红光(R)>绿光(G)>蓝光(B)，这一色散作用在反射衍射和透射衍射中都会体现出来。

这个现象是不是看上去有点熟悉？我想大家小时候都玩过棱镜，太阳光(白光)通过它之后也会被分光成“彩虹”，只不过它的分光原理是光的折射作用而非衍射作用。图2(c)将衍射光栅的分光现象(包括多衍射级和色散作用)与棱镜的分光色散做了直观的对比，可以看到衍射光栅将光分成不同衍射级别的同时，每一个级别又都有色散现象，比分光棱镜要复杂很多。

图 2. (a) 表面浮雕光栅的部分衍射级和色散示意图, (b) 全息体光栅的部分衍射级和色散示意图， (c) 衍射光栅与分光棱镜的对比示意图。

二、衍射光波导的工作原理

了解了衍射光栅的工作原理之后，我们来看一下它如何在光波导中工作的。

如果我们回忆上一篇文章中提到的，在几何光波导中利用“半透半反”镜面阵列可以实现一维扩瞳，如果我们将这个概念转移到衍射光波导里，如图3(a)所示，可以简单地用入射光栅来将光耦合入波导，然后用出射光栅代替镜面阵列。即像蛇一样在波导里面“游走”的全反射光线在每次遇到玻璃基底表面的光栅的时候就有一部分光通过衍射释放出来进入眼睛，剩下的一部分光继续在波导中传播直到下一次打到波导表面的光栅上，不难理解一维扩瞳即可以实现了。

但是人们并不满足于在一个方向上(即沿双眼瞳距的X方向)增大动眼框，既然光栅结构比传统光学器件能够在更大的自由度上操控光的特性，那么我们何不在另一个方向上(即沿鼻梁的Y方向)也实现扩瞳呢，这样不只可以使得AR眼镜能够接受更大范围的瞳距，也可以对不同脸型、鼻梁高度的人群更有兼容性。

用衍射光栅实现二维扩瞳的概念十几年前由位于芬兰的Nokia研究中心的科学家Dr. Tapani Levola提出，并且给业内贡献了许多有价值的论文，主要使用的是表面浮雕光栅(SRG)。

后来这部分IP分别被Microsoft和Vuzix购买或者获得使用执照(license)，所以现在的Hololens I和Vuzix Blade用的都是类似的光栅结构和排布。如图3(b)所示，另一个全息体光栅(VHG)的代表光学公司Digilens也是用类似的三区域光栅排布来实现二维扩瞳。可以看到当入射光栅(input grating)将光耦合入波导后，会进入一个转折光栅(fold/turn grating)的区域，这个区域内的光栅沟壑方向与入射光栅呈一定角度，为了方便理解我们假定它是45度角，那么它就像一个45度的镜子一样将X方向打来的光反射一下变成沿Y方向传播。

并且在这个转向的过程中，由于全反射行进的光线会与转折光栅相遇好几次，每一次都将一部分光转90度，另一部分光继续横向前进，这就实现了类似图3(a)的在X方向的一维扩瞳，只不过扩瞳后的光并没有耦合出波导，而是继续沿Y方向前进进入第三个光栅区域 – 出射光栅 (output grating)。

出射光栅的结构与入射光栅类似，只不过面积要大很多而且光栅沟壑的方向与入射光栅垂直，因为它承担着在Y方向扩瞳的重任，过程与图3(a)类似，只不过它接受的是多个光束而非一个。我们假设单瞳(pupil)的入射光在经过转折光栅后扩展成M x 1个瞳(即一个X方向的一维阵列)，那么在经过出射光栅后就被扩展成了一个M x N的二维矩阵，其中N是光线在出射光栅区域全反射的次数即扩瞳的个数。

用转折光栅实现二维扩瞳是一个比较直观也是目前市面上主流产品如Hololens I, Vuzix Blade, Magic Leap One, Digilens等采取的方式，其中三个光栅区域的面积、形态、排布方式可以根据眼镜的光学参数要求和外形设计来灵活调节。

另外一种实现二维扩瞳的方式是直接使用二维光栅，即光栅在至少两个方向上都有周期，比较直观来讲就是单向“沟壑”变为柱状阵列。来自英国的衍射光波导公司WaveOptics就是采用的这种结构，如图3(c)所示，从入射光栅(区域1)耦合进波导的光直接进入区域3，这个区域的二维柱状阵列可以同时将光线在X和Y两个方向实现扩束，并且一边传播一边将一部分光耦合出来进入人眼。

可想而知这个二维光栅的设计是非常复杂的，因为在兼顾多个传播方向的耦合效率同时还要平衡每个出瞳的出光均匀性。

它的好处是只有两个光栅区域，减少了光在传播中的损耗，并且由于没有了转折光栅，出射光栅就可以在有限的玻璃镜片上占据更大的面积，从而增大有效动眼框的范围。

WaveOptics 40度FOV的模组动眼框可以达到19 x 15 mm，是目前市面上的同类产品中最大的。

图 3. 衍射光波导中的扩瞳技术: (a) 一维扩瞳, (b) 利用转折光栅实现的二维扩瞳， (c) 利用二维光栅实现的二维扩瞳。

三、衍射光波导的优缺点分析

衍射光波导技术与几何光波导相比主要优势在于光栅在设计和生产上的灵活性，不论是利用传统半导体微纳米制造生产工艺的表面浮雕光栅，还是利用全息干涉技术制成的体光栅，都是在玻璃基底平面上加镀一层薄膜然后加工，不需要像几何光波导中的玻璃切片和粘合工艺，可量产性和良率要高很多。

另外，利用转折光栅或者二维光栅可以实现二维扩瞳，使得动眼框在鼻梁方向也能覆盖更多不同脸型的人群，给人体工程学设计和优化用户体验留了更大的容差空间。由于衍射波导在Y方向上也实现了扩瞳，使得光机在Y方向的尺寸也比几何光波导的光机减小了。

在几何光波导中，需要在镜面阵列中的每个镜面上镀不同R/T比的多层膜，来实现每个出瞳的出光均匀，需要非常繁冗的多步工艺。而对于衍射光栅来说，只需要改变光栅的设计参数例如占空比、光栅形状等，将最终结构编辑到光刻机、电子束曝光机、或者全息干涉的掩膜(mask)里，便可一步“写”到光栅薄膜上，来实现多个出瞳的出光均匀。

然而，衍射光波导技术也有它的不足，主要来源于衍射元件本身对于角度和颜色的高度选择性，这在图2中有所解释。

首先需要在多个衍射级别的情况下优化某一个方向上的衍射效率从而降低光在其他衍射方向上的损耗。

拿表面浮雕光栅的入射光栅来说，图3(a)中对称的矩形光栅结构衍射到左边的光并不会被收集传播到眼睛里，相当于浪费了一半的光。因此一般需要采用如图1(b)中的倾斜光栅(slanted grating)或者三角形的闪耀光栅(blazed grating)，使得往眼睛方向衍射的光耦合效率达到最高。这种倾斜的表面浮雕光栅在生产工艺上比传统矩形光栅要求更高。

然后就是如何对付色散问题，如图2中提到的，同一个衍射光栅对于不同的波长会对应不同的衍射角度。

由于来自光机的是红绿蓝(RGB)三色，每个颜色包含不同的波长波段。当它们通过入射光栅发生衍射后，如图4(a)所示，假设我们优化的是+1级的衍射光即T+1, 对于不同的波长衍射角θ+1T就会不同，即R>G>B。

由于这个角度的不同，光每完成一次全反射所经历的路程长度也会不同，红色全反射的次数少于绿色，而蓝色全反射次数最多。由于这个差异，图4(a)中的光在最终遇到出射光栅时(请看指向眼镜的箭头)，蓝色会被耦合出3次(即出瞳扩成3个)，绿色2次，红色1次，这会导致眼睛移动到动眼框的不同位置看到的RGB色彩比例是不均匀的。

另外，即使同一颜色的衍射效率也会随着入射角度的不同而浮动，这就导致在整个视场角(FOV)范围内红绿蓝三色光的分布比例也会不同，即出现所谓的“彩虹效应”。

为了改善色散问题，可以如图4(b)所示将红绿蓝三色分别耦合到三层波导里面，每一层的衍射光栅都只针对某一个颜色而优化，从而可以改善最终在出瞳位置的颜色均匀性，减小彩虹效应。

但是由于RGB LED每个颜色内部也不是单一的波长，而是覆盖了一小段波长段，仍然会有轻微的彩虹效应存在，这是衍射光栅的物理特性导致的，色彩均匀性问题只能通过设计不断优化但不能完全消除。

最近问世的Hololens II 则将LED光源换成了光谱很窄的激光光源，会极大地减小彩虹效应。为了使得眼镜片更轻薄，市面上大部分产品将红绿色(RG)并入一层波导传播。也有勇于探索的厂商使用一些新型光栅设计将RGB三色都并入一层波导，例如波导公司Dispelex，但目前全彩的demo只有30度左右FOV。

总结一下，衍射这个物理过程本身对于角度和波长的选择性导致了色散问题的存在，主要表现为FOV和动眼框内的颜色不均匀即“彩虹效应”。光栅设计优化过程中，对于所覆盖颜色波段和入射角(即FOV)范围很难兼顾，如何用一层光栅作用于RGB三色并且能实现最大的FOV是业内面临的挑战。

图 4. 衍射光波导中的色散问题: (a) 单层光波导和光栅会引起出射光的“彩虹效应”, (b) 多层光波导和光栅提高了出射光的颜色均匀性。

四、衍射光波导的分类

目前表面浮雕光栅(SRG)占市场上衍射光波导AR眼镜产品的大多数，得益于传统光通信行业中设计和制造的技术积累。

它的设计门槛比传统光学要高一些，主要在于衍射光栅由于结构进入微纳米量级，需要用到物理光学的仿真工具，然后光进入波导后的光线追踪(ray tracing)部分又需要和传统的几何光学仿真工具结合起来。

它的制造过程先是通过传统半导体的微纳米加工工艺(Micro/Nano-fabrication)，在硅基底上通过电子束曝光(Electron Beam Lithography)和离子刻蚀(Ion Beam Etching)制成光栅的压印模具(Master Stamp)，这个模具可以通过纳米压印技术(Nanoimprint Lithography)压印出成千上万个光栅。

纳米压印需要先在玻璃基底(即波导片)上均匀涂上一层有机树脂(resin)，然后拿压印模具盖下来，过程很像“权力游戏”里古时候寄信时用的封蜡戳，只不过这里我们需要用紫外线照射使resin固化，固化后再把“戳”提起来，波导上的衍射光栅就形成啦。

这种resin一般是在可见光波段透明度很高的材料，而且也需要与波导玻璃类似的高折射率指数(index)。表面浮雕光栅已经被Microsoft, Vuzix, Magic Leap等产品的问世证明了加工技术的高量产性，只不过精度和速度都可靠的电子束曝光和纳米压印的仪器都价格不菲，并且需要放置在专业的超净间里，导致国内有条件建立该产线的厂商屈指可数。

在做全息体光栅(VHG)波导方案的厂家比较少，包括十年前就为美国军工做AR头盔的Digilens，曾经出过单色AR眼镜的Sony，还有由于被苹果收购而变得很神秘的Akonia，还有一些专攻体光栅设计和制造的厂家。

他们所用的材料一般都是自家的配方，基本是感光树脂(Photopolymer)和液晶(Liquid Crystal)或者两者混合。制作过程也是先将一层有机薄膜涂在玻璃基底上，然后通过两个激光光束产生干涉条纹对薄膜进行曝光，明暗干涉条纹会引起材料不同的曝光特性，导致薄膜内出现了折射率差(Δn, index contrast)，即生成了衍射光栅必备的周期性。

由于体光栅由于受到可利用材料的限制，能够实现的Δn有限，导致它目前在FOV、光效率、清晰度等方面都还未达到与表面浮雕光栅同等的水平。但是由于它在设计壁垒、工艺难度和制造成本上都有一定优势，业内对这个方向的探索从未停歇。

五、总结

好了，说了这么多，让我们比较下光波导的各个技术方案来看看究竟花落谁家，为了方便大家横向比较我们总结了一个比较详细的表格。

其中几何光波导基于传统光学的设计理念和制造工艺，并且实现了一维扩瞳。它的龙头老大是以色列公司Lumus，目前demo了55度FOV，成像亮度和质量都非常好。但遗憾的是几何光波导的制造工艺非常繁冗，导致最终的良率堪忧，由于市面上还没有出现达到消费级别的AR眼镜产品，它的可量产性还是一个未知数。

衍射光波导得益于微纳米结构和“平面光学”的技术发展，能够实现二维扩瞳。其中主流的表面浮雕光栅被多家明星公司使用并用消费级产品证明了它的可量产性，其中Hololens II达到了52度FOV。

另外一种全息体光栅也在平行发展中，如果能够在材料上突破瓶颈以提升光学参数，未来量产也很有希望。我们认为，衍射光波导具体说表面浮雕光栅方案是目前AR眼镜走向消费市场的不二之选。

但是由于衍射光栅设计门槛高和“彩虹效应”的存在，做出理想的AR眼镜仍然任重道远，需要业内各个产业链的共同努力。

雷锋网

作者介绍：李琨，浙江大学光电系本科毕业，美国加州伯克利大学电子工程系博士毕业，主要研究方向包括光学成像系统、光电子器件、半导体激光器和纳米技术等。现就职位于美国旧金山湾区的Rokid R-lab，担任光学研究科学家和多个项目负责人。

5G与VR/AR到底有没有一毛钱关系？我们认真的做了这些研究

Tue, 16 Jul 2019 14:28:00 +0800

雷锋网按：本文作者马杰思（微信：jiesima），小米VR/AR高级总监

5G来了，VR/AR概念似乎回暖了。投资、咨询、市场分析等领域里关注5G+VR/AR的人又多了起来。然而也有不少从业者认为5G+VR/AR纯属概念炒作，认为两者之间并没有一毛线关系，甚至大有谈5G就踢群的架势。

所以5G+VR/AR到底有没有真实的价值？在做了相关的研究后，我们认为：

1、5G的大带宽特性对于VR的价值是在线观看5K以上分辨率的全景视频，对于AR在现阶段价值不大。

2、5G低时延特性的价值是通过云游戏技术提升画质，同时帮助云游戏技术降低其“网络时延”，使得采用云游戏技术方案的VR/AR产品的“运动到成像时延”能够达到20毫秒的及格线以内（“网络时延”是“运动到成像时延”的组成部分）。

3、5G的低时延特性并无法直接帮助现在的VR/AR产品降低“运动到成像时延”。

下文我们将详细拆解5G与VR/AR的关系。

一、VR/AR如何接入5G网络？

要让5G发挥作用，先得让VR/AR连上5G网络。

我们先说VR。VR领域中最为主流的品类是VR一体机，即无需连接手机或PC，内置处理器，可以独立使用的VR产品。VR一体机使用的芯片组往往是手机3年前的配置，目前主流产品依然在使用高通骁龙821和835。这些芯片组不具备直接接入5G网络的能力。

其实不仅仅是VR，现存的各类其他硬件产品也都不支持5G，仅支持Wi-Fi或4G。

为了应对这一问题，出现了5G CPE这样的设备。它可以将5G信号转化为Wi-Fi信号，现存产品就可以通过Wi-Fi连到5G CPE，再连上5G网络了。

听起来这和千兆家庭宽带也没有什么区别嘛？从家庭的使用场景来看，确实如此，无论使用5G CPE还是千兆家庭宽带，VR一体机均为通过Wi-Fi进行连接，两者达到的下载速率也是相似的（千兆bps）。

同时，由于VR是全沉浸式的体验，绝大部分用户是在家里使用，对于移动性的需求较小，因此千兆家庭宽带能很好发挥作用，对于5G网络的需求则相对较小。

数据来源：小米VR用户调研

千兆家庭宽带和5G，在面对复杂的城乡基础设施环境时，都存在铺设网络的可行性、效率、成本等问题。所以，对于VR来说，关键是看5G CPE和千兆家庭宽带谁能更快更广的普及了。

对于AR来说，故事则有所不同。

目前国内做AR眼镜的整体思路是，让AR眼镜通过有线方式连接到手机上（Displayport over Type-C），AR眼镜仅仅作为显示单元，运算和电池都是用的手机，以此来降低眼镜的重量，提升佩戴舒适性（虽然现在的技术距离全天舒适佩戴还有很远的距离）。

因此AR眼镜是否能连上5G网络，主要得看它连接的手机是否支持5G。目前已经能看到，多家手机厂商放出了5G实测视频，相信5G手机的面世也将很快发生。相比VR，AR眼镜能够相对轻松的搭上5G手机这趟顺风车。

好，现在连上5G了，Now what?

5G有三大特性：大带宽、超低时延与高可靠性、大规模连接。其中前两者是与VR/AR息息相关的，我们接下来分别进行讨论。

来源：OFweek物联网

二、5G大带宽对于VR/AR的作用

5G大带宽对于VR的作用在于提升全景视频的分辨率和码率，从而达到更好的观看体验。

虽然目前的VR设备都可以观看全景视频，但是分辨率和码率往往达不到及格线，看起来感觉糊成一锅粥，这是一个普遍的问题。

我们来看看及格线的要求是什么。

在看视频的时候，我们希望视频的分辨率与屏幕的分辨率保持一致，以达到最好的效果。比如用1080p的电脑屏幕看1080p的视频，是最佳体验。

VR头显的视场角一般是110°左右，全景视频是一个360°的球体，相当于VR头显视场角的3倍多。VR头显屏幕分辨率一般为2K或4K，因此全景视频的最佳分辨率也是其3倍多，即8K或12K。

只有达到这样的分辨率才能有优秀的观影体验，然而这样的分辨率对于宽带速率要求是极高的。

现在主流视频平台的1080p视频，码率大约在1~2Mbps。比如爱奇艺的《海王》全长2.17小时，1080p视频文件大小为1.58GB，码率约为1.6Mbps。我国平均的网速速率远高于这一码率，所以一般情况下，你看1080p视频没有任何问题。

而VR全景视频的码率则要高了一个数量级。以行业标杆的Oculus Studios出品的《Henry》为例，其片长为8分42秒，分辨率为5K，文件大小为1.3GB，码率约为20.8Mbps。这已经接近我国平均网速速率，大量用户会无法流畅地在线观看，必须要下载下来看才行。

来源：中国宽带发展联盟公布的2018年第四季度《中国宽带速率状况报告》

这就有点像15年前，大家看视频都得先通过BT或电驴下载下来一样。现在你要看一个超高清的、高码率的优质VR全景视频，也需要先下载下来，才能保证最好的观影体验。

5G和千兆家庭宽带，使得网络速率提升到1000Mbps左右，让在线观看20Mbps的全景视频成为可能，大家观看VR全景视频就和现在爱奇艺1080p视频的体验一样了。

除了视频之外，VR云游戏同样需要大带宽。VR云游戏其实也是一个全景视频流，也是360°的，因此也需要上述相同的分辨率和码率，才能达到最佳的体验效果。

对于AR来说，5G的大带宽有什么作用？

当前行业所畅想的AR眼镜应用场景主要分为两类：

第一类是手机的大屏化：将手机操作系统变成一个大屏的、多窗口的体验。

来源：Rokid Vision AR眼镜概念视频

手机的大屏化场景所需的网络带宽与现有手机和PC无差异，5G无法提供额外的附加价值。

第二类是原生AR体验：即利用计算机视觉识别现实中的场景，将虚拟信息有机的叠加到现实的场景中。

原生AR体验往往是基于3D图形的，5G大带宽的作用主要是提升3D模型的实时加载速度，让3D模型无需提前下载到本地，只有需要用到的时候再从云端进行加载，减少包体大小（注意，这并不是云游戏的技术方案）。

然而3D图形加载速度这个改善的价值十分微小。受限于移动设备的算力，3D模型文件体积并不大，而且大部分应用场景对于实时加载的需求也并不强烈。

只有等到对3D模型的精度需求极高、对3D模型实时加载的需求很强的情况下，5G才有其发挥的价值。目前能看到这样的场景就是VR/AR Telepresence（又称VR/AR Holoportation），即将人体进行3D重建或体量捕捉（Volumetric Capture）后，远程进行近似于面对面一般的VR/AR通信。不过这样的技术还处于实验室阶段，距离消费市场还很遥远。

另外，由于AR眼镜并不适合观看全景视频，因此5G的大带宽也无用武之地。

三、5G低时延对于VR/AR的作用

一提到5G低时延对于VR/AR的作用，你能在各种媒体上看到类似“5G降低VR/AR时延，解决VR/AR眩晕感”这样的说法。

这是一个巨大的误区。

5G对于降低VR/AR时延没有任何的作用。

要讲清楚这个问题，我们先来看什么是VR/AR时延。VR/AR时延又称为运动到成像时延（Motion-to-Photon Latency），是指从IMU或视觉传感器检测头部/手部的运动，到图像引擎渲染出对应的新画面并显示到屏幕上，这样一个链路的时延。

主流的VR头显均已在本地做到了20毫秒以内的运动到成像时延，整个链路都是在本地设备上完成的，并不需要连网。20毫秒是一个人类感知的黄金分割线，时延低于20毫秒，我们就感觉不到了。我们测试过一些2018年的产品，时延已经达到了10毫秒左右。

有人可能要说了，那既然已经做到20毫秒以内了，为什么我玩VR还会眩晕？

那是因为导致VR眩晕的因素不止是时延，而是共有三个：时延、光学参数、内容舒适度。目前的技术已经解决了时延和光学参数的问题，但是在内容设计上带来的眩晕感是无解的，VR游戏和体验中的剧烈运动和快速移动依然可能会让你眩晕。这完全取决于你对晕动症的耐受程度，每个人都有所不同。

这也是为什么全球最好的VR品牌Oculus在2014年解决了时延和光学参数的问题之后，还对其内容进行了舒适度评级，让用户根据自己的耐受度选择适合自己的VR体验。

我们说回5G。再重复一遍，5G对于降低现有VR/AR产品的运动到成像时延没有任何作用。

假设非要在这个链路上加入5G，反而只会增加整个链路的时延。比如，如果将图像引擎渲染这一步放在云端来做，也就是云游戏的做法，那么就会引入5G上下行带来额外的时延。5G的理论时延是1毫秒，那么整体链路时延就会变成20毫秒 + 1毫秒 = 21毫秒。如果5G实际时延相比理论的1毫秒高出许多，比如10毫秒，那么整个链路的时延就是20毫秒 + 10毫秒 = 30毫秒。这就会超出了20毫秒的基准线，反而会给用户带来眩晕感。（注：本文中网络时延是指端到端的上行加下行时延。）

5G低时延的特征对于VR/AR的作用并不是降低时延，而是通过云游戏的技术方案提高画质，并降低云游戏技术中的网络时延。

无论是VR一体机，还是连接手机的AR眼镜，都是运行在移动端上，主要是高通骁龙系列。相比PC的CPU和GPU而言，移动端的3D图形性能还是有数量级上的差异。VR/AR强调的是沉浸感，对于画质的要求很高，最极致的VR体验需要强劲的高端PC来承载。

下面是VR游戏《Robo Recall》在Oculus Quest（移动芯片）和Oculus Rift（PC端）上运行的画面对比。我个人做了对比测试，感官上的差异会比大家看图片来得还要显著。

5G可以将3D图形运算放到云端，也就是云游戏的技术路线。这样就可以利用云端强劲的PC级CPU和GPU来进行3D图形运算，再以视频流的形式传回本地的VR/AR设备上，让移动芯片的VR/AR设备也能显示出最顶级的画质。

然而，云游戏的技术方案对于VR/AR来说，最大的挑战在于网络时延。如果采用了云游戏的技术方案，那么网络时延就变成了运动到成像时延的一部分，网络时延会增加整体的运动到成像时延。从目前的数据来看，网络时延是整个链路中最长的部分，也是尚未解决的部分。

目前基于家庭宽带的情况，云游戏的时延约在150毫秒左右。比如，Google的云游戏服务Stadia，经Digital Foundry初步测试，时延在166毫秒。

如果把这样的技术方案搬到VR/AR上来，那一定会让用户晕到天昏地暗。

这个时候5G低时延的价值就来了，如果5G真的能够达到标准中的1毫秒时延，那么基于5G的VR/AR云游戏方案就能够达到合格的用户体验。如果真能做到，这会是VR/AR成为消费市场主流产品的重要基础设施。

那么问题来了，5G实际上到底能做到多低的时延，什么时候能做到这样低的时延。这才是关键。

再次来总结一下。我们认为：

连接5G网络的方式，VR主要将会通过5G CPE，AR主要将会通过5G手机。

5G的大带宽特性对于VR的价值是在线观看5K以上分辨率的大码率全景视频，对于AR在现阶段价值不大。

5G的低时延特性并无法帮助现在的VR/AR产品降低“运动到成像时延”，它的价值是通过云游戏技术提升画质，同时帮助云游戏技术降低其“网络时延”（“网络时延”是“运动到成像时延”的组成部分），使得采用云游戏技术方案的VR/AR产品的“运动到成像时延”能够达到20毫秒的及格线以内。

临阵换枪！HTC Vive的VR逻辑是什么？

Sun, 23 Jun 2019 14:24:00 +0800

今年1月份的CES 2019展会期间，HTC公布了最新款VR头显Vive Cosmos的开发版，并且有传闻称这款头显确认将于今年第三季度面世，并已开始向开发人员发送开发工具包。然而此后，关于Vive Cosmos的动态却寥寥无几。

近日，据外媒报道，HTC Vive Cosmos头显设备的设计方案又有了最新的调整，其看起来与此前公布的版本大不相同，不仅是在摄像头部分，其面板也是焕然一新。

HTC头显设计方案的新变化

据CES 2019上HTC官方公布的信息，Vive Cosmos将采用inside-out 追踪技术，直接与 PC、手机配合使用，而不需要额外的外置定位器；并且将配备4枚摄像头，其中面板前面2枚，左右两侧各1枚，还将搭载 HTC Vive 的沉浸式系统Vive Reality System。

谈到Vive Reality System，可能很多人不太了解，它是和Vive Cosmos开发版以及Vive Pro Eye一起在CES 2019上发布的。雷锋网了解到，该系统采用了全新的用户界面，支持新的3D Avatar、ORIGIN、Discovery、Watch、Share等新功能，帮助开发者使用简单的小工具进行开发，并且能够让用户更方便地在现实世界和虚拟世界之间进行穿梭。

在Vive Cosmos开发版出来以后，HTC就着手于向开发人员提供Vive Cosmos捆绑PC设备的信息，但开发者们却没有意识到之前展示的Vive Cosmos并不是最终的版本。

直到近日，HTC的Facebook页面新鲜出炉了Vive Cosmos的新版本，才最终解开了人们的疑惑。最新版Vive Cosmos，其设计方案作了比较大的调整，不但有六个跟踪摄像头，还有一个可拆卸的面板。

Vive Cosmos摄像头的部分，在保持了原有设计的基础上，在面板顶部和底部新增加了2个摄像头，据分析它的作用可能是为FOV、光学追踪等提供性能的优化。

其次是面板部分，最新的面板设计与护目镜本身光滑的金属蓝色外观相匹配，但将先前的纯色纹理替换为更复杂的三角形网格的样式，并且面板上的孔很多是空的，其作用很可能是为头显设备前端的部件提供通风和散热。

还有一处比较大的变化是，新增的顶部和底部摄像头，可以连同镜头随着面板一起被取下，而并不在头显的本体上。目前，还不清楚新款面板是否为最初四个摄像头设计的可选附件，还是系统的固有性设计方案。

据HTC官方信息，Vive Cosmos引入了全新的高精准追踪系统，支持六自由度（6DoF）和手势控制；此外，将计划以其它方式连接到传统PC以外的设备。

和主流头显的对比

Vive Pro Eye，作为和Vive Cosmos开发版一起发布的高端产品，其通过在头显左右眼屏幕的周围增设眼球追踪传感器，使得用户仅依靠视线就能在VR环境中进行部分交互。

由于眼球追踪技术可以获知人眼的真实注视点，从而得到虚拟物体上视点位置的景深。所以，眼球追踪技术被大部分VR从业者认为将成为解决虚拟现实头盔眩晕病问题的一个重要技术突破。

这一点，在Vive Cosmos最新公布出来的产品信息中，目前还尚未发现诸如眼球追踪等这种高端的功能。

此外，Vive Pro Eye在用户界面加入了焦点指向菜单导航功能（gaze-oriented menu navigation），能降低对操控手柄的依赖性。

不管是Vive Pro Eye，还是Vive Cosmos，我们可以得知，HTC一直对VR市场都很重视，从它不断细分的产品定位正可以说明这一点。然而，VR领域另一个重量级玩家，Facebook旗下Oculus的最新产品又如何呢？

Oculus的旗舰产品Rift，它是由游戏PC进行供电的，配备了Touch控制器，在VR使用过程中代表用户的双手。

其最新升级版的Oculus Rift S与上个版本Rift的区别在于：分辨率从1080 X 1200提高到1280 X 1440；并有5个内置摄像头；配备升级后的Oculus Touch控制器。同时，这 5 颗摄像头有助于使用 Passthrough+ 的功能，可以使你无需摘下头显，就能观察现实世界周围的环境，以避免用户沉浸在虚拟世界中时，不小心撞在墙壁上或绊倒在椅子上。

Oculus Rift，它是由游戏PC进行供电的，而Oculus的另外两款产品Oculus Go和Oculus Quest，它们是独立的，不用连接到PC，更能提供无线VR体验。这与一向主张将VR头显与计算机进行连接的HTC Vive是不同的。

而就摄像头数目来讲，Vive Cosmos似乎在重点关注头显FOV、光学追踪等性能方面的优化，确保用户在使用VR设备过程中的人身安全。

雷锋网总结

理想的VR应该提供一切人所具备的感知信息，然而仅依靠现阶段的科技还很难达到这个水准。

目前为止，VR技术的落地还存在诸多障碍，比如没有真正进入虚拟世界的办法，缺乏统一的标准以及容易让人感到疲劳等。例如，如何确保在人们的感官和外界的联接在切断的情况下，完全接收来自VR设备反馈的视觉、听觉、嗅觉、触觉等就已经是个难题了。

而目前VR设备中搭载的技术，也远远不能达到要求。比如眼球追踪技术，也仅仅是在高端产品中有应用，其是否能接近人眼对于景深的控制，具体效果还不好评判。针对Vive Cosmos中新增加的2个摄像头，这或许为解决人们使用VR设备过程中的安全性问题提供了新的思路。

任何设备，如果在使用过程中总是有很多线缆，其使用体验总是会大打折扣的，因此无线化或许是未来的VR设备厂商的共同目标。此外，行业分析和研究机构NPD Group分析师Ben Arnold表示，“谁能成功，很大一部分取决于内容的质量，我认为硬件也会有影响，但随着这些平台逐渐成熟，平台会变成牵制因素。”雷锋网雷锋网

本文参考自：HTC redesigns Vive Cosmos with 6 inside-out tracking cameras

WWDC 2019上未出现的苹果AR眼镜

Sun, 09 Jun 2019 18:04:00 +0800

美国太平洋时间6月3日，苹果WWDC 2019开发者大会在圣何塞的麦克内里会议中心举行。

除了tvOS、watchOS 6、iOS13以及iPadOS的最新版本，苹果公司还发布了ARKit 3、Reality Kit等开发工具。尽管本届WWDC大会的干货颇多，但仍然让人感到失落：传闻中的苹果AR眼镜，迟迟未能面世。

一直以来，苹果都以严格的保密机制闻名业界。在此，先不论苹果AR眼镜这个项目具体进展如何，雷锋网了解到，近日苹果公司一项利用AR技术防止偷窥的专利遭到曝光，该专利可以用于商务场合中隐藏秘密文件而防止信息外泄。

最新专利曝光：防止偷窥

来源于：JEREMY HORWITZ

据公开场合披露的信息来看，目前苹果公司新的增强现实计划主要集中在ARKit软件上，但随着专利和可靠报告的证实，苹果公司也一直在研究混合现实硬件。虽然曝光的专利文件只是一些细节，但其他信息却引人注目且不寻常，包括针对商务场合通过Patently Apple新提交的一个应用程序：让眼镜佩戴者按照计划看到秘密文件和输入设备的真实版本，而外部观察者则只能看到虚假信息。

这项专利描述的是，当人们看着屏幕，坐着用键盘打字和触摸屏进行操作时，对于外部观察者来说，屏幕可能显示“虚拟文档”或屏幕保护程序的图像，而戴眼镜的人将在同一位置看到实际文档的增强图像。类似地，键盘表面可以覆盖虚拟按键标签，以防止人们知道物理按键或触摸屏按键上实际键入的内容；触摸屏的按键可能会对该眼镜佩戴者之外的人不可见。

总的来说，办公场合中，尽管同事之间紧挨着坐，屏幕和键盘模糊的概念将使得在同一个办公环境中工作的人能够查看私人文件，但这类保密可能对苹果这样一家隐私至上的公司有用。虽然申请中未提及保密文件，但保密文件可以放在仅可用于AR/VR查看的数字锁箱中，而不是以纸张或更广泛可见的数字形式分发。

即使如此，人们可以想象，这样的系统对于关注员工间谍活动的公司是有用的。今年早些时候，美国联邦调查局指控苹果员工陈纪忠（Jizhong Chen）从笔记本电脑屏幕上截取机密文件的图像，损害了苹果长期以来处于开发状态中的自动驾驶汽车其保密性。

截至2019年3月，苹果公司成功申请了头戴式显示器的专利，其实质为增强物理键盘或触摸键盘，机密文件部分是对该专利的扩展。虽然这项技术最清晰的应用将是在工作场所，但它也可以用于家里查看私人文档。

ARKit已更新到第三代，AR硬件仍然迟到

近些年来，苹果公司陆陆续续在围绕着AR产品线进行相关的布局，除了不时有AR专利信息流出，也有产品的相关传闻时不时吸引着行业人士的注意力。

2016年11月份，据美国专利商标局发布的苹果AR 头盔专利消息，其描述了保留移动电子设备屏幕的头盔式显示屏仪器，头盔式屏幕系统以及操作方案可以让用户“配对”或“解除”便携式电子设备。

2017年11月，据Patently Apple曝光，美国专利及商标局官方公布了44种新颁发给苹果公司的专利，其中有一项专利描绘的是AR三维内容构建和呈现的技术。

2018年4月外媒报道，据知情人士透露，苹果正在研发集AR/VR体验一体的头戴设备，将通过短距离无线技术连接到专用盒子，单眼显示达到8K，该设备代号为“T288”，设备将在2020年发货。

2018年8月，苹果公司确认收购了AR镜片初创公司Akonia Holographics，该企业专注于制造AR眼镜镜片，有200多个有关全息系统和材料的专利。Akonia称其显示技术可使“薄而透明的智能眼镜镜片显示生动、全彩、视野开阔的图像”。

2018年9月，Patently Apple 在欧洲又发现了苹果的新专利，该专利与传说中的苹果眼镜密切相关，专利中的头戴设备不但支持苹果主推的 AR，还一并支持 VR 和全息内容的显示。专利详细描述了苹果的光波导方案，与Magic Leap的两层光波导方案相比，苹果可以显示远中近三层图像平面。

据雷锋网了解，这套显示系统可能拥有一个或多个像素阵列，例如硅上液晶（LCOS）像素阵列。来自显示系统的图像可能会通过耦合器系统耦合到一个或更多光波导管，当然也有可能用输出耦合器系统耦合进多个图像平面中的光波导管。

输入和输出耦合器系统可能会搭载单耦合器、耦合器堆栈和铺瓦式阵列耦合器。这些耦合器可能是薄平面体积全息图，也可能是其他光学耦合器，它们可以将光耦合进去或耦合到延长的带状光波导管上下表面。

类似波长、偏振、时间分割和角多路复用技术的图像信号都有不同的角定向范围，透镜可调技术也可用于向用户展示多个图像平面上图像。

· · · · · ·

近几年来，苹果对 AR 的重视只增不减，除了围绕AR技术的研发实力进行相关布局，其AR开发平台ARKit自2017年推出后，已于前不久的WWDC 2019大会上，升级到ARKit 3。

2017 年，苹果公司推出ARKit，正式进军 AR行业；2018 年，苹果将ARKit升级为 ARKit 2，进行了两项更新：与 Pixar 合作的新的文件格式 USDZ 和多人共享 AR；2019年，ARKit 3正式发布，与此同时，苹果公司还公布了新的高级 AR 框架 RealityKit 以及能够轻松创建 AR 体验的新应用程序 Reality Composer。

ARKit 3 引入了实时人体遮挡，它能够知道人和 AR 对象的位置，对场景进行适当地遮挡。不仅如此，它还能够通过动作捕捉，跟踪人类的动作，作为 AR 场景的输入。同时，通过 ARKit 3，设备的前后两个摄像头现在可以同时使用，因此，用户的面部表情也可以成为 AR 体验的一部分。

除了能够同时使用两个摄像头，多面部跟踪和多人之间的实时协作会话也是 ARKit 3 的亮点所在，这能够让用户拥有更多样化的 AR 体验。

ARKit 3 是在原有的 ARKit 基础上进行的升级；不同于 ARKit 3，今年首次公布的 RealityKit 和 Reality Composer 显得更为新颖。

RealityKit 是一个全新的高级框架，具有真实感渲染、相机效果、动画、物理等功能，是专门为增强现实而构建的。它能够为多人 AR 应用程序处理网络，这意味着开发人员不需要是网络工程师就能够开发共享 AR 体验。

Reality Composer 是一个新的开发程序，它不仅面向 iOS，还能够在 macOS 中使用。这个工具让开发人员能够可视化地创建 AR 场景，并且能够在场景中添加移动、缩放和旋转等动画。不仅如此，开发人员还能够对动画进行设置：当用户轻击对象、用户接近对象、或是激活其他触发器时执行操作。

尽管以上种种，如今，ARKit已更新到第三代，但AR硬件却仍然迟到，传闻了许久的苹果AR眼镜还是未能面世。

但就苹果公司申请大量AR专利、收购AR初创企业以及测试ARKit软件功能方面，其AR眼镜的研发或许早已是“公开的秘密”，只等着苹果披露细节而已。

苹果AR眼镜或为iPhone配件

关于苹果何时发布AR硬件，这里可能有一个关键的考虑因素：它是一个全新的、独立的计算平台，还是仅仅作为iPhone的配件？

来源于：JEREMY HORWITZ

如果苹果AR眼镜是个独立的计算平台，类似于微软的HoloLens或Magic Leap One，那么苹果方面将需要与开发者分享大量新的信息。那么理论上，在WWDC大会上分享该产品的信息将是一个比较好的时机；如果它只是个iPhone配件，根据该硬件完成的进度，那么WWDC、9月份iPhone发布会，或者晚些时候，都可能成为该硬件发布的具体时间点。

随着tvOS、watchOS 6、iOS13以及iPadOS操作系统的升级，以及ARKit 3、Reality Kit等开发工具的发布，如今WWDC 2019已落下帷幕，大会本身的内容也已足够丰富。雷锋网了解到，此次苹果AR眼镜未能亮相，一方面可能由于苹果公司不愿意分散开发者对系统升级以及新的开发工具的注意力，另一方面，在 WWDC 2019 上，苹果除了升级了 ARKit，还公布了一个新的高级 AR 框架 RealityKit 以及一个能够轻松创建 AR 体验的新应用程序 Reality Composer。

对于期待iPhone发布会以及苹果AR眼镜的人士来说，此次WWDC将是个自然而激动人心的过渡。

此外，据外媒报道，最可能的情况是苹果AR眼镜将作为iPhone配件，类似于发布之初的Apple Watch那样，这意味着开发者将不必在全新的AR专用平台上进行深入开发。关于苹果AR硬件的工作原理以及开发者如何在现有iPhone应用程序中添加对其支持，还需要等待苹果披露细节，但是最初第三方的支持可能不太重要。

Apple手机分析师郭明錤也曾表明，苹果公司的AR眼镜将主要扮演显示器的角色，同时通过无线方式将计算、网络和定位功能转移到iPhone上。将AR眼镜设计为iPhone配件也有望使它保持纤薄轻巧，而不是试图将所有的处理硬件整合到一个设备中。

“苹果AR眼镜将于今年Q4 量产，如果是类似iPhone的发布策略，至少要先积累两个月的产能才开发布会。如果不是，这款产品最终也有可能像第一代Apple Watch、AirPods一样提前发布，再通过消费者预定来决定大规模量产时间。”

本文参考自：

Apple seeks AR glasses patent for hiding secret documents at work

Here’s how Apple’s AR headset will likely be introduced — and when

封面图片：来源于JEREMY HORWITZ

亮风台CEO廖春元：云管端同时发力，开启AR规模化复制阶段

Wed, 15 May 2019 09:50:00 +0800

雷锋网消息，2019年初，美国AR头显厂商 Meta 确认破产关门。作为业界曾经最炙手可热的AR创业项目，Meta 以此结局惨淡收场，不免令人嗟叹，背后的原因是多方面的，在此不过多讨论。而发生在近期的一件事，似乎给AR从业者带来信心。

近日，AR产品与服务提供商亮风台新完成了1.2亿 B+轮融资，据称，此次融资将用于技术研发、产品生产、渠道以及团队建设等方面。

公开资料显示，亮风台是一家专注于计算机视觉和人机交互的AR产品与服务提供商。公司成立于2012年，总部在上海，并在北京、广州、昆明已设立分部，目前团队成员大约150人左右。

今明两年是一个非常重要的时间窗口

5G技术的慢慢成熟、人工智能等产业政策的相继出台，为AR行业应用的大范围普及增加了可能性。此外，互联网科创板对技术驱动型企业上市等政策方面的利好以及资本机遇，一定程度上对行业的发展也起到了促进的作用。

近日，雷锋网采访了亮风台创始人兼CEO廖春元，廖春元表示，“今明两年是一个非常重要的时间窗口，之所以这样讲是因为，AR技术通过多年的发展，在行业人士的努力下其市场的培育已经到了一定程度。在一些垂直行业技术边界之内，已经有比较好且具有个性需求的应用场景显现出来，一些B端用户会主动考虑能否与AR技术进行结合。例如前不久工业领域一个设备巡检解决方案的竞标，要求一周之内做出约十个不同巡检场景的解决方案。”

如今AR行业已过了娱乐/新奇的阶段，通过在现实场景中落地有价值的行业应用得到了用户的认可，市场在一步步变得成熟。廖春元认为，“这个阶段企业只要集中弹药把之前打包的产品进行规模化复制，快速抢占市场，就有可能成为细分行业的龙头。”

云管端同时发力，打造“1+N”产品生态

AR行业应用越来越多样化，其对技术的要求也越来越高。不管是工业场景中的远程协作与维护，还是安防场景中的调度指挥，都会涉及到人和人的通讯。2018年，亮风台将原有的AR平台从“云+端”双引擎升级为“云管端”三驾马车的闭环阵型，将专业壁垒进一步提高。

关于亮风台“1+N”的产品生态，“1”是指一个核心平台，即：云管端结合在一起构成的基础性平台——亮风台AR平台；“N”则是指基于该平台之上的N个应用场景。

就细分应用领域的布局情况，廖春元认为，“企业的精力有限，亮风台目前选择将工业和公共安全行业作为布局的重点。此外，诸如智慧旅游、智慧教育、智慧游戏等更多应用领域则是通过合作伙伴生产内容或专业的执行公司进行布局。合作伙伴只需在AR平台的云管端核心平台上加入定制化的内容，就能参与到这种垂直领域的应用开发。”

飞轮效应显现，规模化复制阶段来临

从概念的诞生到各种相关应用的落地，AR行业尽管经历了多年的发展和积淀，但是其市场潜力还未真正得到释放。据 Digi-Capital 预测，到2023年AR安装基数将达到25亿，收入将达到700亿至750亿美元之间。

随着技术边界持续扩大，企业做的事情和取得的成就累积的越来越多，AR技术如今已被应用到工业、家居、汽车、教育等领域。在不断试水新的应用中，AR行业已遍地开花，如今已发展得比较成熟并显现出飞轮效应。

廖春元对雷锋网表示，“亮风台通过精准把握客户需求以及对产品的细细打磨，从落地有行业代表性的应用，例如在汽车、家电以及电力行业的项目等，目前已进入通过标杆合作伙伴以及相关渠道进行规模化复制的阶段。近一两年，公司其实就是力求把飞轮做完整，然后通过合理的循环把它推动起来。”

看不懂6DoF，还想谈AR？深入浅出讲解6DoF四种流行方案

Wed, 24 Apr 2019 18:19:00 +0800

雷锋网按：6DoF追踪带给AR眼镜怎样的体验飞跃？如何在设计一款AR眼镜时，实现六自由度追踪？Rokid R-Lab研究科学家霍志宇从成本和性能角度出发，对目前流行的四种6DoF追踪解决方案进行了比较。

6DOF追踪的进化：从标识追踪到SLAM定位，带给AR体验质的飞越

好的增强现实体验首先要是一种互动体验，实现现实环境和虚拟世界的结合，而这种体验离不开6 DOF追踪（Six degrees of freedom tracking）的加入。

6DoF追踪为用户提供了前所未有的互动体验和对虚拟世界的控制，可以说，6DoF追踪是虚拟世界与现实世界建立联系的基础，是AR实现颠覆式体验的前提。近年来，随着技术的指数级的增长，这种新型的AR互动体验正在以超出我们想象的态势发展。

AR领域六自由度（6DoF）追踪的应用，最早可以追溯到2003年, 由ARToolKit所支持的首个移动端AR应用就出现在了WinCE平台上，但早期运体验并没有那么优秀。

早期的AR利用标识图来跟踪摄像机的位置和姿态，实现6DoF追踪。使用者必须将标识图保留在视野范围内，虚拟内容也只能覆盖在标识图上，使用者稍微移动便会失去对标识物的追踪，虚拟内容便无法对现实进行覆盖，虚拟与现实的融合停留在比较浅层的阶段，无法给予使用者沉浸式的体验。

3DoF与6DoF技术对比图

随着SLAM (simultaneous localization and mapping)技术的普遍应用，6DoF追踪与SLAM相结合，沉浸式的AR体验时代终于来临了。使用者可以摆脱标识图的束缚，进行实时定位与地图构建，从而在虚拟内容上产生更加沉浸和逼真的体验。

微软Holoens设备的SLAM功能演示

早期的AR眼镜，为了在任意场景下都能提供最为精确和可靠的追踪体验，需要装备由多个鱼眼摄像头、深度摄像头和其他传感器驱动的高性能追踪系统。不过这会让设备变得沉重且昂贵。即便是功能最为丰富且拥用商用前景的AR眼镜,也会因为其高昂的成本和糟糕的佩戴体验而遭到市场拒绝。

2016年面世的Meta 2 AR眼镜

因此，想在轻量级AR设备领域取得成功，产品需要结合舒适性、经济性和技术可行性来进行研发。很多AR眼镜研发公司，正在尝试通过有限的视觉设备和更少的算力来实现6DoF追踪。

在AR眼镜上实现6DoF追踪，这4种流行方案到底谁更好？

让我们从成本和性能出发，比较以下四种流行的6DoF追踪解决方案：

1、单摄像头

● 硬件成本低

● 易于集成到多种眼镜设计中

● 需要更专业的优化和定制

● 适用于偏静态场景

单摄像头

视频摄像头是AR眼镜的常用组件，主要用于拍摄高分辨率的照片和视频。在外观和可用性方面，将单个相机安装在眼镜上相对简单。

但是，视频摄像机通常以低频率（<60fps，大多数<30fps）运行，无法在运动中捕捉的高质量图像。 “果冻效应”和其他扭曲使得位置追踪失败。

2、单眼鱼眼摄像头

● 为6DoF追踪所预留的传感器

● 持续高频刷新6DoF追踪结果

● 会出现尺度漂移，使得虚拟物体会在场景中意外移动

单鱼眼摄像头

一些AR眼镜会配备用于6DOF追踪的单个鱼眼镜头。此解决方案会产生一些额外的功耗，但通常会为设备提供更好的6DOF追踪效果。鱼眼摄像头的高相机帧更新率（> 90fps）和全局快门功能，可以使得SLAM系统在运动场景中保持可靠的追踪位置。但单个鱼眼摄像机应放置在眼镜前面，这会产生一些设计限制。

单鱼眼摄像头比较不足的的地方在于它所支持的场景规模有限。一旦移动范围过大，SLAM系统就容易产生尺度漂移，导致虚拟对象在场景中意外移动。

3、双目鱼眼摄像头　

● 高功耗

● 追踪、尺度估算准确

● 眼镜的工业设计会面临挑战

基于双目鱼眼的6DoF追踪系统已被不同的AR / VR头戴式设备制造商证明是一种可以量产的解决方案，高通已经使用双目鱼眼视觉在其VR头盔上展示了高质量的6DoF位置追踪功能。

双目鱼眼摄像头模组

由于它提供实时的地图初始化、强大的追踪和对环境尺度的准确测量，因此额外增加摄像机所产生的功耗和成本是值得的。与单眼解决方案相比，双目鱼眼摄像头可以更快地扩展场景，并能更准确的测量环境尺度从而防止漂移。即使传感器数量加倍，计算复杂度也不比单眼视觉系统高很多。但该方案的实现需要高质量优化和定制工作，并且功耗高、发热大，需要更强的系统和硬件支持。

4、运用边缘计算

● 成本高昂

● 能实现高质量的6DoF追踪

● 稳定性高，可兼容不同平台

英特尔推的定位追踪实感摄像头T265 可在边缘执行计算任务

边缘计算在AR设备中变得越来越流行，例如，Hololens已经通过边缘计算来运行其SLAM功能，使CPU和OS在用户应用程序上更高效地工作。对于轻量级AR眼镜，通过边缘计算来运行SLAM不仅可以减少计算负荷，还可以使AR眼镜兼容不同类型的主机平台。

这个解决方案的最优之处就在于，它可以在任何主机平台上均衡性能，无需定制优化算法。然而，轻量级AR眼镜通过边缘计算运行6DoF并不容易。这些类型的AR眼镜上的芯片通常仅设计用于驱动显示器并传输传感器数据而无剩余资源用于其他计算工作。因此可行的解决方案是将成熟的6DoF追踪模块集成到AR眼镜板上。

目前还没有关于哪种解决方案对于轻型眼镜“完美”的结论。设计人员需要根据AR眼镜的应用场景，来定义其产品的功能和预期用途，以便做出最佳的软硬件选择。

随着轻量级AR眼镜的逐渐普及，具有6DoF追踪功能的产品是能够给消费者带去优质体验的基础，也是AR产品走向千家万户的关键技术之一。

作者：霍志宇，美国密苏里大学计算机和电子工程系博士毕业，研究机器人及人机交互方向。现就职于位于美国旧金山的Rokid R-Lab，担任研究科学家。

微软的军用版HoloLens 2

Sun, 07 Apr 2019 13:03:00 +0800

2019年2月，时隔四年后，微软在MWC 2019上更新了其HoloLens 2，与此同时，微软在发布会上宣布推出Microsoft HoloLens 定制项目，帮助客户定制HoloLens 2，以适应相关环境需求。

据路透社消息称，在去年11月，微软拿下了美国陆军4.8亿美元的合同，合同中包括为美国陆军提供2500个可以“在用户眼前以数字方式显示各类信息”的AR设备。

这一设备，正是微软为美军定制的HoloLens 2——IVAS（integrated visual augmentation system，综合增强现实系统）。

近日，CNBC受邀就当下IVAS及其在美军中具体应用情况进行了现场体验及报道。据此，雷锋网特别就这款军用版HoloLens 2的重点功能及应用情况进行介绍。

军用版HoloLens 2，加了夜视仪功能

特种部队由于经常需要在夜间作战，因而在特种部队的装备中，红外夜视仪是最常用的设备之一。军用版HoloLens 2，即IVAS，加入了夜视仪功能。

与普通NVD夜视仪会发出微弱绿光有所不同，IVAS带有的夜视仪功能类似红外数码夜视仪，并不会发光。在夜晚的成像画面中可以看到发白光的人。这是通过在IVAS的正面装配一个银色半球状热传感器实现的，而这一传感器是与微软的美国合作厂商Flir（菲利尔）供应的。

美国陆军副部长Ryan McCarthy表示，“凭借目前该设备的夜视功能，烟雾仍会对其成像造成影响，不过通过散热，可以透过烟雾看到目标。”

IVAS也有AR设备关键的数字信息显示功能，包括地图、位置、相关视频等信息。CNBC记者在体验后给出如下描述：

当我第一次穿上它的时候，我看到前方的地图显示了我的确切位置，它让我能够实时看到自己所置身其中的建筑物的俯视图，并展示了附近的建筑物。类似你在网上找到的任何卫星图像。与此同时，我还可以看到其他几个代表我的其他队友和已知敌人的位置显示。

这样的功能其实在消费版本的HoloLens 2或其他AR设备中已经很常见，包括在进行大型游戏中，都会显示玩家位置、地图信息、环境信息、小队成员，甚至其他更完备的辅助资料，这也正是美军会尝试为军队配备AR设备的原因或目的。

尽管目前的AR设备已经能够初步实现这些功能，但是（美）军方表示，从早期测试中的表现来看，由于这张数字化地图并不是透视的，因而会分散使用者对周围现实环境的注意力，为此，微软也在IVAS配备了一个可供调用的数字指南针。

在进攻目标时，IVAS眼镜上也会显示十字样式的瞄准线及目标敌人。通过将武器和目标敌人数字化，在一定程度上实现精准打击。

除去在战场上应用，这款设备也被美军用于军队日常训练中。

应用于训练中，加入人体特征检测

McCarthy称，“我们可以收集一名士兵的训练数据并提高他们的射击技巧。”例如，在士兵穿过房间并清除训练中的虚拟敌人时，IVAS可以准确地看到他们在进入房间时正在看什么。演习结束后，士兵也可以再次观看在IVAS上的表现。

这一功能其实此前已经通过诸如执法记录仪这样的设备实现，IVAS的这一功能关键之处是可以将记录数据进行分析，并在训练或实战中提供参考数据。

此外，通过IVAS，还可以实时监测到士兵的心率等人体特征。

而这些功能也只是军用版HoloLens 2的一部分。在此前招标中，美陆军表示，希望这一AR设备可以结合夜视和热感应，测量呼吸、心率等生命体征，监测脑震荡并提供听力保护。

为何AR公司要抢颇受争议的军方订单？

据IVAS运营总监Mark Stephens透露，就IVAS系统，微软有与13家公司进行合作。包括前文提到的为微软提供热传感器的菲利尔，以及提供2D图像转3D图像能力的相关公司。

众所周知，此前拿下美国军方订单的谷歌，最终因员工抗议而放弃了与军方合作的Maven项目，这一项目主要是通过人工智能技术来分析军方的无人机图像。随后，在微软拿下军方订单后，同样遭到员工抗议，目前来看，微软选择了坚持自己的选择。

据雷锋网了解，在去年8月初美国陆军举行的相关会议中，有25家公司参与，其中也包括Magic Leap。为何AR公司要抢颇受争议的军方订单呢？为何四年未曾更新的HoloLens也在这个关键时间节点更新，并推出军用版本？

雷锋网认为，一个比较重要的原因在于AR设备这一市场目前还不够大，尤其消费市场还未能完全觉醒，像Magic Leap、HoloLens这样的名声在外的设备，也难有可观的订单。

微软此次拿下军方订单，除去可以拿到4.8亿美元资金外，还将会在项目中拿到首批2500个AR设备的稳定订单，以及随之而来的大量应用数据，这是在消费领域难以达到的。

据雷锋网了解，微软在2018年年初曾透露，其HoloLens在过去三年中一共售出5万个，而美国军方的这张订单，除了首批的2500个外，最终军方所需的订单总数预计会达到10万个，这将是HoloLens过去三年总销量的2倍。

同时，由于是合作研发，也将为微软在提供数据，介入用户使用场景的深度上带来了很好的帮助，为其技术研发及产品迭代效率提供了一定的帮助。

据悉，当下的IVAS体积仍然太大，美军希望“在未来六个月内，将IVAS的尺寸缩小到一副太阳镜的大小。”这一要求，微软能做到吗？

吊打Magic Leap，微软HoloLens 2不只为炫技

Fri, 01 Mar 2019 19:24:00 +0800

2015年1月，微软HoloLens横空出世。

四年后，在2月25日的MWC 2019上，“HoloLens之父”Kipman登台宣布HoloLens 2 问世。受邀出席的雷锋网现场第一时间发回报道《时隔四年，HoloLens 2终于来了》。

近几日网上关于HoloLens 2的话题颇多。Infinite Retina联合创始人，拥有40多万关注者的Robert Scoble发推写道，HoloLens 2一出，Magic Leap就没那么“Magical”了。这番言论似乎让Magic Leap CEO Rony Abovitz感到嫉妒，他回复说，等Magic Leap二代出来，你们就知道厉害了，游戏才刚刚开始。

Magic Leap CEO Rony Abovitz在推特上的回复

雷锋网也整理了HoloLens 2相关资料，并第一时间采访到业界多位AR行业资深人士针对HoloLens 2的解读，并从产品、技术及产业等层面剖析HoloLens 2的影响及特别之处。

HoloLens 2：功能更强大，体验更好，价格更贵

“视场角太小、穿戴不舒服、上手有难度”不少体验过HoloLens 1代的朋友都曾向雷锋网表达过类似感受。

随着微软大幅升级的HoloLens 2出来，上述问题似乎都有所改善，当然除了高昂的价格。

那么相比1代，HoloLens 2在参数上有哪些变化和升级？下面我们通过一张表格简单对比一下。

HoloLens 1、2代主要参数对比（雷锋网整理）

雷锋网整理发现，首先，HoloLens 2由此前英特尔处理器更换成了ARM架构的高通骁龙850，与此同时，微软专为HoloLens开发的HPU全息处理器也升级到2.0。

HoloLens的处理器：为何从英特尔变成了高通？

原因有几点，首先，英特尔早在2017年8月就发布公告宣布将在10月停产Atom X5-Z8100P芯片，公告表示在截止日期交付完订单产品后，这款产品永久停产。

不知是因为HoloLens价格高昂等原因导致出货量太少致使英特尔该款芯片订单太少，所以英特尔选择停产Atom X5。还是像外界猜测的那样，微软在寻求功耗更优的方案因而放弃了英特尔的方案。

雷锋网曾多次体验HoloLens 1代产品，由于眼镜前端高度集成了处理器、多摄像头和光学元件等，在使用时需处理大量3D图像数据，导致发热较严重，加之并不友好的穿戴设计，造成其佩戴的体验一直都很差。

毫无疑问，微软HoloLens 1 是一款划时代的计算设备，但在体验这一点上，HoloLens所遭受的指责足以与赞美持平。所以，微软不会不明白体验的重要性。

HoloLens 1代

视+AR联合创始人兼COO涂意接受雷锋网采访时认为，微软HoloLens 此次从英特尔切换到ARM应该是为了降低功耗，让设备待机时间更长和性能更优。他接着表示，苹果也在计划放弃英特尔，转而在其Mac系列电脑上使用ARM架构的自研芯片，由此看来在移动平台，英特尔可能将逐渐被边缘化。

AR光学模组研发商珑璟光电联合创始人王鹏告诉雷锋网，高通本来就在移动端SoC相对较强，AR眼镜是与智能手机类似的终端，微软选择高通可能单纯是因为高通的芯片性能更强也更适合移动端。

Kipman在回应HoloLens 2为何选择ARM芯片时表示，很简单，我们还没有看到哪款使用电池的移动设备不采用ARM芯片的。

高通也是有备而来。随着智能手机市场趋于饱和，VR/AR浪潮兴起，高通很早就瞄准了这块颇具潜力的市场。不管是国内还是国外，许多移动端高端VR头显纷纷选择高通平台，去年5月高通针对VR/AR市场还推出专用芯片—骁龙XR1平台，还提供专门的VR SDK供开发者使用。小米VR、HTC Vive、爱奇艺VR、Meta均在其移动头显中使用高通处理器。

显示：2倍视场角是误会？

其次，外界关注颇多的是视场角问题。关于吐槽HoloLens 1视场角太小的问题，加之其采用16：9的显示比例，曾有媒体形容使用HoloLens 1就像是“通过一道细缝来看全息画面”。

果不其然，微软此次将视场角从34°提升至52°，同时采用了3：2的显示比例，效果就是增加了纵向显示区域，人眼不用像此前要上下移动来查看未被显示出来的虚拟画面。

红色为1代可视区域，黄色才是 2代的可视区域（图片来自Roadto VR）

据外媒RoadtoVR报道，由于翻译或理解的不同，此前有部分人士将HoloLens 2发布会中的“Field of view increased more than 2X”理解成了视场角增加了2倍多，但微软在这里想表达的意思是“可视区域增加2倍多”。不过微软并没有在演示中特意解释，似乎有意模糊了视场角与显示区域这两者间的区别，从而导致外界出现一些关于视场角问题的误会。

显然微软官方有意宣传显示区域增加2倍多，但RoadtoVR却质疑其中的真实性。微软在回复RoadtoVR的询问时，声称当时显示的只是一张图片，而且只是演示中的一小部分内容。RoadtoVR认为微软在对待这件事上有些不够谨慎。

关于HoloLens 2视场角的提升，视+AR联合创始人涂意认为这与微软在2017年4月申请了一份显示方案的专利有很大关系。

珑璟光电联合创始人王鹏告诉雷锋网，由于暂时没有看到HoloLens 2的实物，还不能确定具体原因。但从光学模组层面来看，他猜测应该是设计和生产工艺的进步，用了一些特殊的方法实现了扩瞳，因为HoloLens 2用的还是第一代的浮雕光栅技术。

他介绍说，HoloLens使用的光学是全息光波导（又叫全息光栅，全息光栅光波导，衍射光波导），而这种全息光波导的实现方式包括布拉格光栅、浮雕光栅。

至于如何判断HoloLens 2用的还是第一代的浮雕光栅技术，王鹏解释称，根据网上流传的HoloLens 2产品照片来看，其中有很明显的彩虹反射，而采用浮雕光栅技术就会很明显能看到彩虹一样的反光。

图中能从HoloLens 2的镜片中看到类似彩虹反射

此外，HoloLens 2还新增加了眼球追踪功能，这是1代所没有的技术。但是眼球追踪和注视点渲染技术早已在其他VR/AR产品中应用，注视点渲染技术在VR设备中多用于游戏和视频渲染。

炫酷的眼球追踪和手势识别

经常被拿来与HoloLens 1做对比的 Magic Leap One也内置了眼球追踪功能。据青亭网报道，Magic Leap One除了通过多焦点自动测量瞳距外，还具有重新聚焦窗口的功能。这点类似游戏笔记本中配备的Tobii设备，当眼镜聚焦在哪个区域时，鼠标会自动移动到此位置，或者重新进行聚焦等操作。

HoloLens 2中的眼球追踪与上述提到的类似，除了测瞳距自动微调图像显示位置外，还可以描虹膜解锁设备登录Windows Hello 、帮助用户与全息内容直接交互。Kipman还表示，HoloLens 2的眼球追踪能够观察人眼微弱的变化，从而感知和预测人的情绪。

涂意告诉雷锋网，从发布会现场看，眼球追踪的演示效果很精准，这改善了上一代必须在视野正中央选中目标的尴尬交互，更加符合人的本能习惯也更像鼠标的体验，极大的提升用户交互体验和使用效率。

当你看着画面中的一只全息的小鸟，鸟儿便会飞向你

可圈可点的升级还有手部全节点追踪，据青亭网报道，微软将手势追踪模块升级为Azure Kinect，实现双手全关节模型追踪，覆盖到每根手指，单手追踪最多25个关节点，密度更高。举个例子，你可以用双手在“空气”中弹奏钢琴，或者触摸操控全息图像，做放大缩小拖拽等动作。

佩戴设计更人性

HoloLens 2 使用了碳纤维材料，别看2代的重量没有下降多少，但是HoloLens 2头戴的整体设计更加人性科学，佩戴体验有了不小提升。

其一是，微软将HoloLens 2的电池模块移至眼镜后端，从而减轻眼镜前后两端重量失衡的问题，并增加了支撑受力面积，这样就不会出现1代那样因为重量失衡对人脑的异常压迫感，前端还增加额头面罩，舒适性有所提升。据雷锋网了解，爱奇艺VR曾在去年发布的VR一体机上采用了电池模块后置的设计。

其二是，HoloLens 2借鉴了在MR头显上的翻转设计，意义在于用户能随时能把眼镜翻开直接回到现实世界。这个贴心设计在许多场景下提升了用户体验例如减轻长时间佩戴产生的压迫感、通风排汗、缓解眼疲劳等等。

“翻盖结构挺好的，很实用，感觉微软是实际对工业场景做过功课的。而且又提出了很多高度定制化的方案。看得出微软对B端市场的决心，因为B端市场的特点就是高度定制化，很多特殊的需求是很细微的。因为一款产品打不了所有B端市场。”珑璟光电联合创始人王鹏如此评价。

翻盖设计

最后，除了价格令某些业内人士感到过高外，还有就是微软并没有过多提及在本届MWC上大热的5G技术，国内外不少智能手机品牌均将支持5G作为产品的重要卖点之一。

“3500美元这个价格大家可能依旧很难接受，与1代一样，最后还是被少数公司、开发者和高校，包括我们这种光学公司买单。但是相比较实际销量，HoloLens这款产品对于微软的战略意义大于实际营收意义”王鹏告诉雷锋网，最后他又强调“即使是B端我也觉得很难接受这个价格”。

“很大的遗憾就是HoloLens 2没有支持5G，如果直接支持5G加上云渲染，我相信它在很多非企业应用会有特别好的效果，比如旅游”视+AR联合创始人兼COO涂意认为，因为微软缺位智能手机时代，所以并没有推出连接智能手机的外设式AR眼镜，而这一块的市场还很大，这也让我觉得挺遗憾的，不过这可能是苹果、Google、华为或者创业公司的一些机会。

雷锋网也注意到HoloLens 2在系统、摄像头、分辨率等方面做了许多提升，这些配合前面提到的重要功能和体验的升级，就将HoloLens 2打造成了一款强大的“生产力工具”。

显然微软并不满足于将其定义为一款硬件设备，所以在发布会上，主角还有微软Azure云。

硬件只是载体，微软真正的目标是云服务

在HoloLens 2的发布会上，微软 CEO萨提亚·纳德拉在演讲开始就强调了智能云（Intelligent Cloud）和智能端（Intelligent Edge）的重要性。毫无疑问，智能云微软有Azure ，智能端则有HoloLens。

因为Azure，连早已被放弃的体感外设Kinect都被复活了。随后，微软公司全球副总裁Julia White 登台发布一款开发者工具包—Azure Kinect DK，售价 399 美元。据雷锋网了解，Azure Kinect DK与HoloLens 2一样，拥有 TOF 深度传感器、高清 RGB 摄像头，以及一个七麦克风圆形阵列，重点是它能通过Azure云端获取视觉和语音计算能力。

Azure Kinect

官方表示，Azure Kinect是一款智能边缘设备，能够感知周围的人、环境、物体和动作。这样看来，Azure Kinect更像是一个简化版HoloLens ，价格更便宜，这点对于某些开发者来说，还是挺有吸引力的，如果他们恰好并不需要HoloLens 2某些功能，Azure Kinect是很好的第二选择。

与此前仅被当作Xbox的一款消费级体感外设不同，此次升级后的Azure Kinect定位与HoloLens 2一样，也是聚焦于B端应用场景。

微软现场展示了几个应用案例，例如利用Azure Kinect开发的病房监控系统，当Azure Kinect感知到病人存在摔倒的可能性时，会及时通知护士赶到病人身边。

Azure 能让 Kinect“起死回生”，同样也能让HoloLens 走的更远。

基于Azure ，微软也推出了两项 Azure 云服务——Azure Spatial Anchors 和 Azure Remote Rendering。同时结合Azure，微软还推出Dynamics 365 订阅服务，每个用户每月125美元，为期3年，其能提供完整的云AR和多人协作服务，例如可提供远程指导及辅助，这点在工业维修和手术医疗场景需求较多。

Azure Spatial Anchors（可以理解为一个AR Cloud）能够帮助企业和开发者在混合现实程序中，精准映射、指定和调用可在HoloLens、iOS和安卓平台上访问的点。言外之意，就是它能支持其他两个重要的AR平台—谷歌ARCore和苹果ARKit。从中能够看出微软采取了更加开放的策略，这点对在不同的AR平台创造内容和协作的开发者来说，还是颇为受用。

Azure Spatial Anchors可以与ARKit和ARCore结合使用，这点出乎了涂意的意料。他认为这验证了未来会有一个跨平台的AR Cloud服务存在。而云服务是微软的战略，微软会重点去卖他们的Azure云服务。

他进一步解释，随着5G技术的发展，未来的趋势是向云端发展，以后的硬件会越来越“瘦”，很多计算会放到云端。而HoloLens 2也注意到这个趋势，在发布会上明确发布了两个版本，其中一个就是包含云端渲染服务的版本，未来一定是云的销售大于硬件的销售，这是很重要的。微软Azure云也希望硬件终端能构建AR Cloud，也就是Spatial Anchors，地图数据将会成为云服务的重要一环，还有云渲染服务也会降低硬件的运算负荷。

苹果iPad与HoloLens 2协作演示

微软在现场演示了如何跨平台跨设备与HoloLens 2进行协作和交互，此前微软展示更多的是HoloLens设备之间以及与微软其他终端之间的互相协作。现场，一个工作人员演示了怎么通过苹果iPad，利用ARkit与头戴HoloLens 2的Kipman协作研究一台虚拟工业设备。

Azure Remote Rendering可以帮助人们在不降低图像质量的情况下体验3D内容，这点适合在智能手机与MR设备交互时的场景使用。而该服务将在云端渲染高质量的 3D 内容，并将在每个细节都完好无损的情况下实时传输到边缘设备。

HoloLens软硬件技术再强大，可能也就是一款高科技“玩具”，但微软给它插上了Azure 云的翅膀。通过终端+云的战略，聚焦B端应用场景，再整合各种技术服务，一个围绕HoloLens的商业生态的雏形初现。

微软对于B端商业场景的重视，早在去年5月HoloLens入华商用一周年活动上展露无遗。微软在其北京总部向媒体展示 HoloLens及混合现实技术入华一年来取得的发展情况。官方重点介绍了来自建筑设计、医疗健康、汽车制造、教育行业的商业用户及合作伙伴，并展示众多面向不同行业用户量身定制的解决方案和实践案例。

外界越发感到微软的开放节奏在加快，尤其是在HoloLens的生态上。

发布会接近尾声时，Kipman身后的大屏幕打出了一个大大的“Open”。他介绍了微软混合现实生态的开放原则共包含三个部分：开放应用商店、开放浏览器平台和开放API和底层平台。这是否让你联想到Windows PC或IOS、 Android生态？

Mozilla基金会将会把火狐浏览器的原型引入 HoloLens 2，而 Epic Games 创始人兼 CEO Tim Sweeney 来到现场并宣布，Unreal Engine 4 即将支持 HoloLens。

务实路线：把HoloLens打造成一款合格的生产力工具

在开放的PC时代和封闭的智能手机时代之后，Kipman认为世界将进入“计算的第三个时代”，所以微软这些年来一直在变化，也更加开放，目的就是要构建一个围绕混合现实的统一架构平台。

同样这么想的可能还有谷歌与苹果，只不过微软稍微走得远了一点。

“目前来看，微软HoloLens 2是唯一一个可以形成开放平台的AR硬件，其他AR硬件创业公司基本都是自己做硬件、做应用，没有办法形成生态，现在只有微软做到了，这对HoloLens 2的意义是非凡的。”涂意告诉雷锋网。

另一位业内资深人士向雷锋网谈了谈自己的感受，从硬件层面看，他觉得HoloLens 2的形态更成熟，虽然这次没有超乎想象的黑科技，但是更合理。微软走了务实路线，一切设计都向实际应用场景服务。

“从行业生产力工具的角度看，某种意义上看是推动了MR生态的起步，这点很重要。HoloLens 2开始正儿八经地提供价值。”他总结道，HoloLens 2已经是一款合格的生产力工具。

但他认为，最核心与值得关注的是云端的体现，头显硬件只是个交互接口，我们更应该关注驱动MR全场景的本质要素。“这点凯文凯利讲的很清楚，我们所在这颗行星，正在浸入克隆数据、克隆星球中”。

个人消费者往往喜欢追逐黑科技，与1代对比，官方并没有强调太多黑科技的点。因为微软对于HoloLens 2的定位更加清晰，就是专为B端打造的，B端要的就是体验稳定、功能好用的服务。

所以，黑科技的预期就留给其他的吧，最后这位业内人士调侃道。

再见Building 8，Facebook重组其最神秘硬件研发部门

Sun, 16 Dec 2018 21:26:00 +0800

雷锋网消息，据外媒Business Insider报道，Facebook正重组其实验性硬件研发部门Building 8。

重组后Building 8将更名为Portal，原Building 8旗下部分项目将转移至Facebook Reality Lab（原Oculus Research group）。

据悉，本次重组并未导致任何裁员。原Building 8负责人Rafa Camargo移任Portal团队副总裁。Facebook Reality Lab仍由Michael Abrash领导，Michael长期以来担任Facebook VR/AR业务的掌舵人。

更清晰的架构

Facebook发言人对外证实了这一架构调整，但其同时表示，调整并不意味着Building 8的失败，而是更清晰的架构。

【图片来源：Twitter 所有者：@boztank 】

外媒TechCrunch认为，Facebook此举意在将部分在研技术拉离原有的研发轨道，部分则离产品落地更近。

随着原属于Building 8的脑机接口、软体机器人、可穿戴助听设备等项目移至Facebook Reality Lab，这一原本专注于VR/AR领域技术研发的部门正向更大的业务范围扩张。然而Facebook Reality Lab的在研项目在近几年内商业化落地的可能性较低。

与此同时，新品牌Portal将更加务实，保留在Portal旗下的项目距离C端产品落地更近。毕竟，这一全新品牌的基础产品——一款同名视频聊天设备已于今年10月发布。

Moonshot登月计划

产业内人士为在Building 8内部发生的一切拟定了一个专有名词——登月计划（Moonshots），意为具有无限潜能的突破性项目。这一代号也从一定程度上代表了Building 8对于Facebook和整个产业的重要性。

2016年4月，随着DARPA前研究主管Regina Dugan的走马上任，Facebook Building 8浮出水面。

【图片来源：flickr 所有者：Asa Mathat 】

彼时，Facebook CEO马克 · 扎克伯格表示，Building 8团队将遵循当年F8大会上发布的10年路线图，致力于VR/AR、人工智能、脑机接口等前沿领域的研究工作，团队成员来自苹果、摩托罗拉、谷歌等重量级企业。

加入Facebook之前，Dugan曾任谷歌ATAP（Advanced Technology and Projects）部门负责人。也正因如此，Building 8的成立被认为是Facebook与谷歌在先进技术领域纠缠的开始。

ATAP成立于2012年，曾是摩托罗拉的一部分，在谷歌将摩托罗拉卖给联想后得以保留。

任职ATAP期间，Dugan曾提出很多大胆假设，例如可吞咽至体内的身份认证系统、Tango 3D空间地图（已被纳入谷歌AR平台ARCore）、模块化手机Project Ara（未面世便夭折）等。ATAP甚至与服装品牌Levi’s合作研发了一款智能夹克（该项目至今仍存在）。

加入Building 8后，Dugan一如既往地主打未来主义概念，提出例如「通过皮肤听到声音」、「脑控假肢」、「意念打字」等技术设想。此外，Dugan也曾是视频聊天设备Portal的主导人。

遗憾的是，Dugan没能亲历Portal的发布，也没有经历Facebook的上市，她于2017年10月离开了Facebook，其职位由Rafa Camargo（前文所述的原Building 8负责人、现Portal团队副总裁）接任。

迟来一年的Portal

Camargo上任后的最大动作当属推动Portal于今年10月的面世。

Portal是一款专注于视频聊天的设备，支持语音激活。其最大卖点在于，用户在视频过程中可随意在房间内走动，Portal会自动根据人物方位调整屏幕及摄像头的朝向，并在远讲环境下充分降噪、提高通话清晰度。

然而Portal的推出并未引起消费者的广泛认同。雷锋网了解到，其一定程度由于早在其推出一年前，智能音箱大战便已展开。与Amazon Echo Show等带屏智能音箱相比，可实时跟踪目标调整屏幕朝向这一卖点显然不能弥补迟交答卷一年的缺憾。

另一方面， Building 8高喊尖端技术概念，却鲜有实际落地成果产生，业内并不买账其雷声大雨点小的做法。

雷锋网小结：如今，Building 8在研的各个项目按落地阶段有了更为精确的归属，整装待发的新架构能否突破曾经的桎梏，还需拭目以待。

【封面图片来源：网站名Official White House，所有者：Lawrence Jackson】

Mars说光场（5）— 光场在三维人脸建模中的应用

Wed, 24 Oct 2018 16:39:00 +0800

雷锋网按：光场技术是目前最受追捧的下一代显示技术，谷歌、Facebook、Magic Leap等国内外大公司都在大力布局。然而目前国内对光场（Light Field）技术的中文介绍十分匮乏，曹煊博士《Mars说光场》系列文章旨在对光场技术及其应用的科普介绍。

曹煊博士系腾讯优图实验室高级研究员。优图— 腾讯旗下顶级的机器学习研发团队，专注于图像处理、模式识别、深度学习。在人脸识别、图像识别、医疗AI、OCR、哼唱识别、语音合成等领域都积累了领先的技术水平和完整解决方案。

《Mars说光场》系列文章目前已有5篇，包括：《Mars说光场（1）— 为何巨头纷纷布局光场技术》、《Mars说光场（2）— 光场与人眼立体成像机理》、《Mars说光场（3）— 光场采集》、《Mars说光场（4）— 光场显示》、《Mars说光场（5）— 光场在三维人脸建模中的应用》 ,雷锋网经授权发布。

【摘要】 — 三维建模是计算机视觉中的一个经典问题，其主要目标是得到物体/场景的三维信息（e.g. 点云或深度图）。然而只有三维信息还不足以逼真的渲染重现真实世界，还需要表面反射场信息才能在视觉上以假乱真。本文主要介绍美国南加州大学ICT Graphic Lab的Paul Debevec所引领开发的Light Stage技术，该技术已经成功应用在好莱坞电影特效和2014年美国总统奥巴马的数字人脸建模等诸多应用中。

1、反射场在三维成/呈像中的重要性

三维建模可以得到物体的几何信息，例如点云、深度图等。但为了在视觉上逼真的重现三维物体，只有几何信息是不够的。不同物体表面在不同光照环境下会呈现出不同的反射效果，例如玉石会呈现出高光和半透明的反射效果、棉麻织物会呈现出漫反射的效果。即使是相同表面，在不同光照下也会呈现出不同的反射效果，例如图1中的精灵在魔法灯的照射下，脸上呈现出相应的颜色和阴影；阿凡达在发光水母的照射下脸上和身上也会呈现对应的反射效果，这就是Relighting所产生的效果。在现实生活中Relighting是一种再正常不过的现象了。然而当电影中Relighting的效果与实际不符时，人眼会感受到莫名的异常。

模拟出与真实物体表面一致的反射特性，对提高计算机渲染成/呈像的逼真度至关重要。在实际的拍摄中并不存在精灵和阿凡达，也不存在魔法灯和发光的水母，如何生成Photorealistic的图像呢？通过计算机模拟反射场（Reflectance Field）是目前好莱坞大片中惯用的方法。反射场是对所有反射特性的一个普适数学模型，物体表面不同位置(x, y, z)在时刻(t)向半球范围内不同角度(θ, Φ)发出波长为(λ)的光线，由R(x, y, z, θ, Φ, λ, t)七个维度构成的光线的集合就是反射场。关于光场和反射场的异同点参见《Mars说光场（1）— 综述》。

图 1. 反射场Relighting示意图

2、USC Light Stage介绍

Light Stage是由美国南加州大学ICT Graphic Lab的保罗•德贝维奇（Paul Debevec）所领导开发的一个高保真的三维采集重建平台系统。该系统以高逼真度的3D人脸重建为主，并已经应用于好莱坞电影渲染中。从第一代系统Light Stage 1于2000年诞生，至今已经升级到Light Stage 6，最新的一代系统命名为Light Stage X。

2.1 Light Stage 1

如图2所示，Light Stage 1 包括1个光源（strobe light）、2个相机（分辨率480x720）、1个投影仪，整个设备直径约3米[1]。光源可沿机械臂垂直移动，同时机械臂可带动光源水平旋转。整个采集过程包括两个阶段：第一阶段是以人脸为中心旋转光源，从而构成64x32个不同方向的等效光源入射到人脸上。与此同时，两个相机同步拍摄不同光照下的左侧脸和右侧脸，每个相机共拍摄2048张图片，如图3所示。需要说明的是光源和相机前分别覆盖了互相垂直的偏振片，用于分离散射和高光（separate diffuse and specular）。第二阶段是投影仪与2个相机配合完成基于结构光的三维重建，如图4所示。整个采集过程耗时约1分钟，采集过程中人脸需要持续保持静止，这对演员保持静止的能力提出了极高的要求。

图 2. Light Stage 1系统样机

Light Stage 1采集的图片样例如图3所示，第二行图片中亮点表示光源的位置，第一行图片表示对应光源照射下采集到的人脸图片，实际采集的反射场图片包括64x32光源位置下的2048张图片。采集三维几何模型通过结构光三维重建实现，如图4所示。

图 3. Light Stage 1 采集图片样例

图 4. Light Stage 1 基于结构光的三维重建

在进行Relighting渲染之前还需要通过Specular Ball / Mirror Ball采集环境光照，如图5所示。通过Mirror Ball采集的图片需要经过重采样得到离散的环境光照矩阵[2]，然后将环境光照应用在反射场图中，得到如图6中Relighting的渲染效果。图6中第二行图片为Specular Ball在不同环境下采集的环境光照展开图，第一行图片为对应光照下人脸渲染结果。需要说明的是，图6中人脸Relighting的渲染图片只限于固定视点，如果需要改变视点需要结合结构光采集的三维几何模型。

图 5. Specular Ball 采集环境光

图 6. Light Stage 1 人脸Relighting效果

2.2 USC Light Stage 2

Light Stage 2 在Light Stage 1 的基础上增加了更多的光源，将23个白色光源分布于弧形机械臂上[3-5]。机械臂旋转到不同的经线位置，并依次点亮光源，最终形成42x23个不同方向的入射光源。采集时间从1分钟缩短到4秒，降低了演员维持静态表情的难度。如图7所示，右侧为Light Stage 2真机系统，左侧为采集过程中4秒长曝光拍摄图片。

图 7. Light Stage 2 采集示意图

2.3 USC Light Stage 3

在不同的光照环境下，人脸会反射出不同的“脸色”，例如人脸在火炬前会被映红。通过改变环境光照而使物体表面呈现与之对应的反射状态称为“Relighting”。然而在电影拍摄中并不能把演员置身于任意真实的环境中，例如《指环王》中男主角佛罗多·巴金斯置身于火山岩中，又例如阿凡达置身于梦幻蓝色树丛中。Light Stage 3并不用于人脸建模，而是构建一个可控的彩色光照平台，从而可以实现人脸实时的Relighting[6-8]。

Light Stage 3的支撑结构为二十面体，包括42个顶点、120条边、80个面，如图8所示。在每个顶点和每条边的中心放置一个彩色光源，一共可放置162个彩色光源。由于球体底部5个顶点及其相应的边被移除用于演员站立，因此实际光源数量减少到156个。光源型号为Philips Color Kinetics，iColor MR gen3 LED Lamp http://www.lighting.philips.com/main/prof/indoor-luminaires/projectors/icolor-mr-gen3。光源的亮度和颜色通过USB控制PWM占空比来实现。用于人脸图像采集的相机为Sony DXC-9000，帧率60fps，分辨率640x480，FOV 40度。Light Stage 3还包括6个红外光源和1个灰度相机。红外光源的峰值波长为850nm。灰度相机为Uniq Vision UP-610，帧率110 fps，分辨率640x480，FOV 42度，红外滤光片为Hoya R72。彩色相机和红外相机之间采用分光片确保彩色图像和红外图像对齐，30%反射进入红外相机，70%透射进入彩色相机，如图9所示。

图 8. Light Stage 3 采集系统样机

图 9. Light Stage 3 分光采集系统

如图10所示，Light Stage 3的工作流程如下：首先用Specular Ball采集目标环境光照，或者计算机生成虚拟环境的光照。然后控制156个彩色光源模拟出与目标环境光照相似的光线，演员在Light Stage 3产生的光照下进行表演。最后通过红外成像把Relighting的人像扣出并融合到电影中。由于Light Stage 3不能重建三维人脸模型，因此不能随意切换视点，需要演员精湛的演技将肢体形态与目标环境融合。最终Relighting合成视频如下所示。

图 10. Light Stage 3 采集图片样例及融合真实环境效果效果

2.4 USC Light Stage 5

Light Stage 5采用与Light Stage 3同样的支撑结构，但把156个彩色光源换成156个白色光源，如图11所示[9-12]。每个白色光源包括12个Lumileds LED灯珠，平均分成2组，分别覆盖水平和垂直的偏振片。理想情况下，需要按照Light Stage 2的光照模式依次点亮每个光源并拍照，那么一共需要拍摄156张图片。Light Stage 5创新性地采用了球谐调和光照（Spherical Harmonic Lighting），如图12所示，将光照模式（Lighting Pattern）从156个减少到4个，分别是沿X/Y/Z方向递减的3个梯度光照和1个均匀全亮光照。由于需要拍摄水平和垂直两种偏振状态下的图片，因此每个相机一共需要拍摄8种光照模式下的8张图片。相比之前的Light Stage，整个采集的时间大大缩短。如果采用高速相机可以达到实时采集，如果采用单反相机需要2秒。

图 11. Light Stage 5 采集系统样机

图 12. Light Stage 5 偏振光布局

人脸包括低频和高频两种几何信息，低频几何信息主要是指鼻梁高低、脸型胖瘦等；高频几何信息主要是指毛孔、胡须、唇纹等。对于低频几何信息，Light Stage 5采用两种三维建模方法：一种是用DLP高速投影仪和Phantom高速摄像机构成基于结构光的实时三维重建。另一种是采用5个单反相机（Canon 1D Mark III）构成多视几何（Multi-view Geometry）重建三维人脸模型。在上述两种三维建模方法的基础上，进一步采用Photometric Stereo来生成高频几何模型。图13为Light Stage 5所完成的“Digital Emily”项目中重建的数字演员艾米丽[13,14]，左侧为重建的高精度Normal Map，中间为只用Diffuse Component重建的人脸模型，右侧为同时加上Diffuse Component和Specular Component以后重建的高精细人脸。

图 13. Light Stage 5 Digital Emily人脸重建效果

2.5 USC Light Stage 6

如图14和15所示，Light Stage 6是为采集演员全身反射场而设计[15]。支撑结构直径8米，为了使演员处于球体中心，去掉了球体底部1/3。Light Stage 6共包括1111个光源，每个光源由6颗LumiLEDs Luxeon V LED灯珠构成。采集系统包括3台垂直分布的高速摄像机以30fps同步采集图像，每一帧图像包括33种不同光照。所以高速相机实际的工作频率为990Hz。在支撑结构的中心有一个旋转平台，该旋转平台为演员有效的表演区域，直径2米。在采集过程中旋转平台会持续旋转，高速相机从而拍摄到不同视点的演员图像，演员需要不断的重复周期性动作，整个采集过程约几分钟。

图 14. Light Stage 6 采集系统样机

图 15. Light Stage 6 采集系统示意图

Light Stage 6并不对人体进行几何建模，而是采用与Light Stage 3类似的原理来实现Relighting。Light Stage 6相比Light Stage 3的改进之处在于视点可切换。Light Stage 6为了实现视点切换，需要演员周期性的重复动作，例如跑步，然后采集到所有不同光照下不同视点的图像。图16上侧图片为1/30秒内某一个相机采集的所有图片，包括26张不同光照下的图片(Lighting Frames)，3张红外图片（Matting Frames）用于抠图，3张跟踪图片（Tracking Frames）用于光流对齐图片，1张预留图片（Strip Frame）目前无用，将用于后续其他潜在功能应用。图16下侧图片为相机阵列中上中下三个相机分别采集到的图片。如图17所示，所采集的图片分布于一个圆柱形上，当渲染不同视点下的Relighting图片时，从圆柱形上选择合适的视点进行融合。

图 16. Light Stage 6 采集图片样例

图 17. Light Stage 6 多视点渲染

2.6 Light Stage对比总结

Light Stage 1 和Light Stage 2都是基于稠密采样的反射场采集，因此采集时间较长。Light Stage 3采集彩色光源照射实时生成Relighting图片，但没有进行三维建模，所以应用场景有限。Light Stage 4的研发被搁置了，所以取消了Light Stage 4的命名，转而直接研发Light Stage 5。Light Stage 5基于球谐调和进行反射场的低阶采样，是相对比较成熟的一代系统，已经在《本杰明•巴顿》、《蜘蛛侠》等电影特效中得到应用。最新研发的系统为Light Stage X，小型可移动，专门针对高精度人脸反射场采集建模；其光照亮度、光谱、偏振状态都可以基于USB接口通过电脑编程控制，自动化程度更高，采集时间更短。2014年采集美国时任总统奥巴马头像时，就是基于Light Stage X系统，如图18为采集现场，图19为重建结果。Paul Debevec及其团队核心成员于2016年加入谷歌DayDream部门，主要是将光场技术应用于泛VR领域，其团队于2018年8月在steam平台上上线了《Welcome to light field》体验应用。

表 1. USC Light Stage汇总对比

	Light Stage 1	Light Stage 2	Light Stage 3	Light Stage 5	Light Stage 6
尺寸（直径）	3米	2米	2米	2米	8米
支撑结构	1个光源可沿机械臂上下移动	30个光源均匀分布于弧形机械臂	二十面体，42个顶点，120条边，80个面。	二十面体，42个顶点，120条边，80个面。	二十面体的均匀细分，只保留整圆的2/3。圆球结构中心为旋转舞台。
实际光源数量	1个白色	30个白色	156个彩色LED光源，6个红外光源(850nm峰值波长)	156个白色LED光源	1111个白色LED光源(LumiLEDs Luxeon V)
等效光源数量	64x32个白色	42x30个白色	156个彩色	156个白色	1111个白色
相机数量	2@480x720	2@480x720	(a)1个RGB相机(Sony DXC-9000@60fps @640x480 @FOV40)。 (b)1个红外相机。 (Uniq Vision UP-610@110 fps@640x480 @FOV42 Hoya R72滤波片)。	(a)双目高速相机(Phantom V7.1 @ 800 × 600)+结构光(DLP projector @1024x768)。 (b)5个相机构成多视几何(Canon 1D Mark III EF 50mm f/1.8 II lenses)。	3个高速相机垂直分布。
采集时间	60秒	4秒	实时	实时/2秒	几分钟
三维重建方法	结构光	结构光	无三维建模	机构光/多视几何	无三维建模，光流配准图像
优点	互相垂直偏振片分离散射和高光。	互相垂直偏振片分离散射和高光。只需要水平旋转，减少采集时间。	红外成像用于人像抠图。彩色光源模拟环境光，实现人像实时Relighting。	互相垂直偏振片分离散射和高光。实时建模/静态建模。	互相垂直偏振片分离散射和高光。可以采集全身运动。
缺点	采集时间过长，人脸难以保持静止。需要机械旋转。	需要机械旋转。	无三维建模，不能自由切换视点，需要演员精湛演技。	只能建模人脸，不能建模全身。	只能建模周期重复性运动。

（图片来源于 http://vgl.ict.usc.edu/Research/PresidentialPortrait/）

图 18. Light Stage X为美国时任总统奥巴马采集人脸头像现场

（图片来源于 http://vgl.ict.usc.edu/Research/PresidentialPortrait/）

图 19. 美国时任总统奥巴马重建头像

[1] Debevec P, Hawkins T, Tchou C, et al. Acquiring the reflectance field of a human face[C]// SIGGRAPH '00 : Proc. Conference on Computer Graphics and Interactive Techniques. 2000:145-156.

[2] Debevec P. A median cut algorithm for light probe sampling[C]// ACM SIGGRAPH. ACM, 2008:1-3.

[3] Tim Hawkins, Jonathan Cohen, Chris Tchou, Paul Debevec, Light Stage 2.0, In SIGGRAPH Technical Sketches, 2001.

[4] Hawkins T, Cohen J, Debevec P. A photometric approach to digitizing cultural artifacts[C]// Conference on Virtual Reality, Archeology, and Cultural Heritage. ACM, 2001:333-342.

[5] Hawkins T, Wenger A, Tchou C, et al. Animatable facial reflectance fields[C]// Fifteenth Eurographics Conference on Rendering Techniques. Eurographics Association, 2004:309-319.

[6] Jones A, Gardner A, Bolas M, et al. Simulating Spatially Varying Lighting on a Live Performance[C]// European Conference on Visual Media Production. IET, 2006:127-133.

[7] Wenger A, Hawkins T, Debevec P. Optimizing Color Matching in a Lighting Reproduction System for Complex Subject and Illuminant Spectra.[C]// Eurographics Workshop on Rendering Techniques, Leuven, Belgium, June. DBLP, 2003:249-259.

[8] Debevec P, Wenger A, Tchou C, et al. A lighting reproduction approach to live-action compositing[C]// Conference on Computer Graphics & Interactive Techniques. ACM, 2002:547-556.

[9] Wenger A, Gardner A, Tchou C, et al. Performance relighting and reflectance transformation with time-multiplexed illumination[C]// ACM, 2005:756-764.

[10] Ghosh A, Hawkins T, Peers P, et al. Practical modeling and acquisition of layered facial reflectance[J]. Acm Transactions on Graphics, 2008, 27(5):1-10.

[11] Ma W C, Hawkins T, Peers P, et al. Rapid acquisition of specular and diffuse normal maps from polarized spherical gradient illumination[C]// Eurographics Conference on Rendering Techniques. Eurographics Association, 2007:183-194.

[12] Ghosh A, Fyffe G, Tunwattanapong B, et al. Multiview Face Capture using Polarized Spherical Gradient Illumination[J]. Acm Transactions on Graphics, 2011, 30(6):1-10.

[13] Alexander O, Rogers M, Lambeth W, et al. Creating a Photoreal Digital Actor: The Digital Emily Project[C]// Visual Media Production, 2009. CVMP '09. Conference for. IEEE, 2010:176-187.

[14] Alexander O, Rogers M, Lambeth W, et al. The digital Emily project: achieving a photorealistic digital actor[J]. IEEE Computer Graphics & Applications, 2010, 30(4):20.

[15] Einarsson P, Jones A, Lamond B, et al. Relighting human locomotion with flowed reflectance fields[C]// ACM SIGGRAPH 2006 Sketches. ACM, 2006:76.

Mars说光场（4）— 光场显示

Wed, 24 Oct 2018 16:39:00 +0800

【摘要】 — 重现一个真实的三维世界，实现类似于《阿凡达》电影所展示的全息显示，是人类长久以来的梦想。如果能采集并投射出全光函数中7个维度的光线，将能使环境中所有人同时获得身临其境的全息视觉体验。光场作为理想的3D显示技术与传统2D显示有着明显的区别：传统的2D显示器只能提供仿射、遮挡、光照阴影、纹理、先验知识五方面心理视觉信息。光场显示除了能产生传统2D显示器的所有信息外，还能提供双目视差、移动视差、聚焦模糊三方面的生理视觉信息。在光场显示技术发展过程中，出现了多种光场显示技术方案，引起广泛关注和研究的主要有五种技术：（1）体三维显示（Volumetric 3D Display）；（2）多视投影阵列（Multi-view Projector Array）；（3）集成成像（Integral Imaging）；（4）数字全息；（5）多层液晶张量显示。关于三维显示的详细发展历史及其应用可以参见[1-11]。

图 1. 电影《阿凡达》中描绘的光场全息三维军事沙盘

1、体三维显示

体三维显示技术[12,13]主要通过在空间中不同深度平面显示不同图像来实现。如图2所示，屏幕沿着Z轴方向快速往返运动，屏幕移动到不同位置时投影仪投射出不同的图像[14]；当屏幕的移动足够快时，由于人眼的视觉暂留特性从而在眼前显示出三维立体图像。然而高速且匀速的往返直线运动难以实现，因此在体三维显示系统中将平移运动转化为旋转运动。

图 2. 平移式/旋转式体三维显示原理示意图

Langhans 从90年代开始研发体三维显示，并陆续推出了名为“Felix”的体三维显示样机。Langhans 在1996年发表了基于激光扫描的体三维显示技术[15]，在1998年将体积进一步缩小形成便携式的体三维显示[16]，后于2002年实现了可交互的体三维显示[17]。

图 3. 德国Felix体三维显示系统

美国南加州大学Andrew Jones于2007年研制了360°体显示系统[18]，如图4所示。该系统通过高速投影仪将图像投到一个高速旋转的反射镜上。当镜子旋转到不同的位置，投影仪投出对应视点的图像，从而实现360°环视光场显示。Jones在2009年进一步将人脸实时重建技术加入到光场显示系统，实现了远程裸眼3D视频会议[19]。

图 4. 美国南加州大学实现的360度光场显示

体三维显示技术在我国起步较晚，中科院自动化研究所于2007研制出基于DMD高速投影仪的体三维显示系统Helix[20]，如图5所示，其视点分辨率为1024*768*170，每个体素的大小为0.23*0.23*1mm3，对比度为800:1，3D图像的亮度为100Lux，3D图像刷新率为15fps。实现体三维显示的核心思路是分时复用地在空间中投射不同的图像，牺牲反射场函数中时间t维度换取深度z维度，这就要求投影仪具有非常高的显示帧率。该系统投影170层图像并保持15fps的刷新率，则要求投影仪每秒投影2550幅图像。为了达到如此高的帧率，投影仪只能工作在单色模式下。

图 5. 中科院自动化所研制的体三维显示系统Helix

体三维显示技术原理简单，实现了有限的空间内反射场函数中的5个维度(x, y, z, λ, t)，但体三维显示技术存在多方面缺陷：1）体三维显示技术的显示器件不是一个平面，而是一个立体空间，因此占地面积大。2）螺旋面的成型精度要求高，因此加工成本高，不利于量产化。3）单位时间内形成的体素数量有限，视点分辨率有限。4）体三维显示系统需要加入旋转机械运动，投影与运动同步控制困难。

2、多视投影阵列光场显示

多视投影阵列三维显示技术通过多个投影仪组成的阵列向空间中一定角度范围内不同方向投射不同图像。相比于体三维显示技术, 多视投影三维显示技术保留了裸眼、多视等优点，并且显示屏幕更接近传统的平面显示器，符合人眼观看显示器的习惯。同时，多视投影三维显示技术去掉了系统中机械运动部件和螺旋显示屏幕，还可以显示复杂纹理和彩色三维内容。但其明显缺点是成本高昂、占地空间大。

浙江大学于2012年构建了全视向的三维显示[21]，随后又展示了360°三维显示系统[22,23]，如图6所示。北京理工大学在2015年实现了可触摸的360度光场显示[24]，如图7所示。北京邮电大学将多投影3D显示应用与地理信息系统[25]，并比较了3D投影与柱面光场在垂直视差上的区别[26]。

图 6. 浙江大学360度多视三维显示系统

图 7. 北京理工大学360度悬浮光场显示

南加州大学Graphic Lab在2014年提出了一种具有垂直视差的投影仪阵列光场显示方案[27]，如图8所示。所提出的方案通过人眼跟踪来判断人眼相对于屏幕的高低位置，并根据人眼位置实时渲染对应视点图像。该技术沿用水平排列的投影仪阵列同时获得了水平视差和垂直视差，但是当同一水平位置上出现高度不同的两个（及以上）观众时，只有其中一个观众能观看到正确视点图像。

图 8. 南加州大学实现的水平投影仪阵列

南加州大学Graphic Lab于2016年提出了与真人1:1的多视投影光场显示系统，并实现了实时对话，如图9所示，该系统包括216个投影仪、6台PC主机。

图 9. 南加州大学实现的真人1:1的多视投影光场显示系统

之前外界猜测Magic Leap可能使用的光纤扫描投影技术，其实就是基于投影阵列的光场显示。如果投影仪真的能做到1毫米直径，那么Magic Leap的光场显示方案是可行的。但最新上市的Magic Leap One并没有采用这种方案，显然是投影仪的微型化还不能在工程上大规模实现。

3、集成成像光场显示

集成成像[19]最早是将微透镜阵列放于成像传感器之前实现光场采集。光场采集和光场显示的光路是可逆的，因此集成成像技术既可应用于光场采集[28]，又可应用于光场显示[29,30]。目前已经商业化的裸眼3D电视正是基于集成成像原理。

韩国国立首尔大学Byoungho Lee于2001年将柱面透镜光栅覆盖在LCD表面实现了动态的集成成像3D显示[31]。日本NHK的在1997年采用梯度下标克服了深度有限的问题[32]并在HDTV上实现了实时的三维显示[33]。东京大学Naemura在2001年实现了集成成像的任意视点合成[34]。国内四川大学于2009年利用2层光栅实现了3D显示[35]，在2010年通过叠加两块具有不同LPI（Line Per Inch）参数的柱面光栅所实现的3D显示具有更小的图像串扰，更大的可视角[36]，如图10所示。北京邮电大学也尝试了两个光栅组合的3D显示[37]。

图 10. 四川大学采用两层柱面光栅叠加实现的集成成像3D显示

柱面透镜光栅的主要作用是将不同像素的光线投射到不同的方向。如图11所示，柱面透镜下所覆盖的8个像素分别产生不同的颜色，从而向不同方向投射出不同颜色的光线。然而单个柱面透镜的宽度一般并不等于整数个像素的宽度，因此会存在某个像素横跨两个柱面透镜的情况，此时会产生光线串扰。在商业化的产品中普遍采用的技术方案为：将柱面透镜光栅相对屏幕倾斜，然后通过软件算法来减轻光线的串扰。

图 11. 柱面透镜光栅光学特性示意图

基于柱面透镜光栅的光场显示存在一个明显的缺陷：视点图像分辨率损失严重。柱面透镜光栅的尺寸由LPI（Lens Per Inch）决定。当LPI较大时，每个柱面透镜覆盖的像素就越少，从而产生的视点数量较少，在观看时会产生视点不连续的情况。当LPI较小时，每个柱面透镜覆盖的像素就越多，产生的视点数量也较多，但每个视点的图像分辨率损失严重。由于整体可控的像素数量是一定的，当柱面透镜覆盖更多的像素时，单个视点的图像分辨率损失严重。例如采用4K显示屏（4096x2160），一般商业化的裸眼3D显示器在水平方向产生16（或32）个视点，则每个视点的分辨率降低到256x2160。虽然存在分辨率损失的问题，但基于柱面透镜光栅的光场显示方案成本低廉，成为了目前唯一大面积商业化应用的裸眼3D显示方案。而且显示器面板的分辨率正在逐步提高，视点图像分辨率损失的问题将会逐步得到解决。

4、全息显示

光场可以看做是“离散的”、“数字化的”全息，当光场的角分辨率和视点分辨率不断提高，光场的显示效果也将不断逼近全息显示。全息显示技术在近几年不断发展，Tay Savas于2008年在《Nature》上展示可更新内容的全息显示[38]。 P.A.Blanche于2010年在《Nature》上展示过彩色的全息显示[39]。总体而言，全息的显示是终极的光场显示效果，但动态彩色大尺度的全息显示技术尚不成熟，仍有待于材料学、微机电、光学等多学科的共同进步。

国内北京理工大学和上海大学在全息成像方面积累了大量工作。北理工在2013年通过调制复振幅实现了动态3D全息显示[40]。在2014年采用编码复用实现了动态彩色3D全息显示[41]，如图12所示。随后在2015年采用压缩查询表的方法在3D全息显示中实现了CGH（Computer Generated Hologram）[42]。

图12. 北京理工大学2014年实现的彩色3D全息显示

5、多层液晶张量光场显示

光场比传统2D图像具有更高的维度，不论是光场的采集还是显示都会面临牺牲图像分辨率来换取角度分辨率的两难境地。国际上最新的研究思路是将高维的光场进行压缩分解。张量光场显示技术最初由美国MIT Media Lab的Gordon Wetzstein提出[43]，如图13所示。Gordon Wetzstein将光场表示为一个张量（Tensor），对张量进行分解即可将高维度的光场压缩为多个向量的张量积，从而利用有限层数的液晶就可以显示出完整的光场。基于多层液晶的张量光场显示原理比较复杂，目前公开的资料比较少，因此本文将用较大篇幅来剖析其工作原理。

图 13. Gordon Wetzstein 于2013年在MIT实现的张量光场显示

5.1 液晶工作原理

液晶的工作原理直接关系到多层液晶光场显示样机的搭建，在搭建多层液晶样机之前有必要详细了解液晶的工作原理及特性。如图14所示[44]，背光板发出的光线是均匀自然光，经过下偏光片（起偏膜）过滤变了偏振光。对液晶层施加电压后，液晶会扭转偏振光的偏振方向，扭转角度的大小与施加电压成正比，也即与像素值的大小成正比。经液晶扭转后的偏振光被上偏光片（阻偏膜）过滤，偏振光与上偏光片的夹角越小则透过的光线亮度越高。下偏光片与上偏光片的偏振极性始终垂直。当液晶像素值为0时，液晶对偏振光的扭转角度也为0，偏振光的偏振极性与上偏光片的偏振极性垂直，所以该像素点发出的光线衰减到0，如图14中蓝色偏振光。当液晶像素值为1时，液晶对偏振光扭转90度，偏振光的偏振极性与上偏光片的偏振极性平行，所以该像素点发出的光线不衰减，如图14中红色和绿色偏振光。

（图片来源于https://www.xianjichina.com/news/details_34485.html）

图 14. 液晶面板工作原理示意图

5.2 多层液晶偏振特性

从上述液晶的成像原理可知每层液晶显示面板都具有起偏膜和阻偏膜，如果直接将多层液晶显示面板平行堆叠起来，那么无论将液晶像素设为多少值，背光发出的光线都无法穿透多层液晶，从而无法显示任何图像。如图15所示，由于第一层液晶LCD#1阻偏膜的存在，背光发出的光线经过第一层液晶后必定为偏振光且偏振极性与第二层液晶LCD#2起偏膜的偏振极性垂直，理论上不会有任何光线经过第二层液晶，也就不会有光线进入第三层液晶。所以，多层液晶前的观看者不会接收到任何光线，呈现一片漆黑。

图 15. 直接堆叠多层液晶的偏振特性示意图

由上述分析可知，直接将多层液晶显示面板平行堆叠起来无法实现光场显示。为了使得多层液晶能够按照光场4D模型来工作，需要重新排列偏振膜。有两种偏振片排列方式，分别称之为乘法模型和加法模型。乘法模型的偏振片排列方式如图16所示，如果有N层液晶则需要（N+1）块偏振片，在任意两块偏振片之间放入一块液晶，且任意两块相邻的偏振片的偏振极性互相垂直。图16中P1偏振片为正45度偏振极性，对背光进行起偏，所以进入LCD#1的为正45度偏振光。P2偏振片为负45度偏振极性，对LCD#1的偏振光进行阻偏，从而调节从LCD#1出来的光线的亮度，同时保证进入LCD#2的光线都为负45度偏振极性。同理，P3偏振片为正45度偏振极性，对LCD#2的偏振光进行阻偏，从而调节从LCD#2出来的光线的亮度，同时保证进入LCD#3的光线都为正45度偏振极。以此类推，每一层液晶都对进入的光线起到了亮度调制的功能，从而实现了多层液晶联合调制光线。光线从背光板发出穿过多层液晶，每穿过一层液晶，液晶就会对上一层液晶的偏振光进行偏转，且上一层液晶的偏振角度不会累加到当前层液晶的偏转，所以调制关系为乘法运算，可表示为式(1)。当然，我们也可以将乘法运算通过对数转换为加法运算，如式(2)。

l = [a, b, c] = a×b×c (1)

log(l ) =log(a×b×c) = log(a) + log(b) + log(c) (2)

其中，a, b, c分别为目标光线与LCD#1，LCD#2和LCD#3交点上的像素值；为多层液晶联合调制后光线的亮度。

图 16. 多层液晶的乘法模型偏振片排列示意图

加法模型的偏振片排列方式如图17所示，如果有N层液晶，不论N为多少，则都只需要两块偏振片，分别位于第一层液晶的起偏位置和第N层液晶的阻偏位置，且两块偏振片的偏振极性互相垂直。图17中P1偏振片为正45度偏振极性，对背光进行起偏，所以进入LCD#1的为正45度偏振光。LCD#1对进入的光线进行偏转，然后进入LCD#2。LCD#2在LCD#1偏转角度的基础上进一步对光线进行偏转，偏转后的光线进入LCD#3。同理，LCD#3在LCD#1和LCD#2偏转角度的基础上进一步对光线进行偏转。P2 偏振片为负45度偏振极性，对经过LCD#3偏转后的光线进行阻偏，从而调制光线亮度。光线从背光板发出穿过多层液晶，每穿过一层液晶，液晶就会对上一层液晶的偏振光进行偏转，且上一层液晶的偏振角度会累加到当前层液晶的偏转，最后进入人眼的光线亮度由多层液晶偏振角度之和来决定，所以多层液晶的调制关系为加法运算，可表示为式(3)。

图 17. 多层液晶的加法模型偏振片排列示意图

l = [a, b, c] = a+b+c (3)

其中，a, b, c分别为目标光线与LCD#1，LCD#2和LCD#3交点上的像素值；为多层液晶联合调制后光线的亮度。

5.3 多层液晶的各向异性

如图18所示，传统2D显示器每个像素点都会在一定角度范围内发出光线，但每个像素点发出的光线都是各向同性的。换句话说，每个像素点向各个方向发出的光线都具有一样的亮度和颜色。左右眼接收到同样的图像，不同位置的观看者也接收到同样的图像。2D显示器既不能提供双目视差，也不能提供移动视差，因此人眼始终只能看见一幅2D 图像。

图 18. 传统2D显示器各向同性光学特性

产生各向异性的光线是光场显示的关键。将传统的液晶显示器多层堆叠起来可以构造如图19中光场4D模型，待显示的物体向各个方向发出的光线都可以被多层液晶重现，从而确保多层液晶前不同位置的观众可以接收到不同的光线，不同位置的观众可以看见三维物体的不同侧面。

图 19. 多层液晶光场显示原理示意图

如图20所示，假设背光是均匀的，所有从背光发出并达到第一层液晶的光线的亮度一致，多层液晶上不同像素的连线就形成了一条不同亮度和颜色的光线。通过不同像素的组合，多层液晶可以在一定空间范围内的任意位置重建出发光点，例如多层液晶之间的点F、多层液晶之后的点G、多层液晶之前的点H，且重建的发光点可以发出各向异性的光线。

图 20. 多层液晶光场显示光线的各向异性

图20中F点的光线、G点的光线和分别由三层液晶上的不同像素组合产生，表示为式(4)。类似的，其他光线也可以由多层液晶上像素的联合调制产生。为了实现光线的快速调制，曹煊于2015年开发了基于GPU的并行光场分解算法[45,46]]。

l ₁ = [a₁, b₁, c₁]

l _i = [a_i, b_i, c_i] (4)

l ₃ = [a₃, b₃, c₃]

其中，l i 表示第条光线；a_i, b_i, c_i分别为光线与LCD#1、LCD#2和LCD#3相交的像素；[a_i, b_i, c_i] 可表示两种不同的运算法则，这主要取决于多层液晶的偏振膜的工作方式。

通过上述的分析可知，多层液晶进行光线调制时具有高度的灵活性，可以重现发光点处于多层液晶不同位置时的各向异性光线。当足够多的发光点同时被调制产生时，就能投射出整个三维物体。如图21所示，待显示的三维物体可以设置在多层液晶之前、之后或者中间，从而使观看者感觉物体突出于显示器之外或者凹陷于显示器之内，并且三维显示的“突出感”可以在一定范围内调节。

图 21. 多层液晶张量光场显示的深度范围示意图

张量光场显示本质上是利用多层液晶进行空间复用，形成空间光调制器。该方案不会损失视点图像分辨率，但存在一个明显的缺点：液晶和偏振膜的透光率较低，当背光穿过多层液晶后光强损失严重；因此基于多层液晶的光场显示往往亮度比较低。液晶层数越多，光场显示亮度损失越严重。

需要说明的是，OLED（Organic Light-Emitting Diode）是自发光显示屏，无需背光。多层OLED叠加在一起，进入人眼的光线并不是由多层OLED屏联合调制后的结果，不满足光场4D模型。因此，多层OLED显示屏的堆叠并不能实现张量光场显示。

表 1. 传统平面显示与光场显示技术方案对比

	可显示的维度	显著优点	显著缺点
平面显示 2D Display	R(x, y, λ, t)	技术成熟价格低廉	缺乏立体三维信息
体三维显示 Volumetric 3D Display	单色：R(x, y, z, t) 彩色：R(x, y, z, λ, t)	360度可视范围	存在机械运动占地面积大
多视投影阵列 Multi-view Projector Array	水平阵列：R(x, y, θ, λ, t) 全阵列：R(x, y, θ, Φ, λ, t)	分辨率高可视角度大	成本高昂占地面积大
集成成像 Integral Imaging	柱面光栅：R(x, y, θ, λ, t) 透镜阵列：R(x, y, θ, Φ, λ, t)	成本低廉	视点图像分辨率损失严重
全息显示 Holographic Display	R(x, y, z, θ, Φ, λ, t)	三维显示效果极佳	技术尚不成熟
多层张量显示 Multi-layer Tensor DIsplay	R(x, y, z, θ, Φ, λ, t)	成本低分辨率不损失	算法复杂运算量大亮度有损失

[1] S. Pastoor and M. Wöpking, “3-D displays: a review of current technologies,” Displays 17, 100–110 (1997).

[2] J. Hong, Y. Kim, H.-J. Choi, J. Hahn, J.-H. Park, H. Kim, S.-W. Min, N. Chen, and B. Lee, “Three-dimensional display technologies of recent interest: principles, status, and issues [Invited],” Appl. Opt. 50, H87–H115 (2011).

[3] N. S. Holliman, N. A. Dodgson, G. E. Favalora, and L. Pockett, “Threedimensional displays: a review and applications analysis,” IEEE Trans Broadcast. 57, 362–371 (2011).

[4] J. Geng, “Volumetric 3D display for radiation therapy planning,” J. Disp. Technol. 4, 437–450 (2008)

[5] B. Javidi and F. Okano, Three Dimensional Television, Video, and Display Technologies (Springer, 2011).

[6] N. Dodgson, “Autostereoscopic 3D displays,” Computer 38(8), 31–36 (2005).

[7] R. Hainich and O. Bimber, Displays: Fundamentals & Applications (Peters/CRC Press, 2011).

[8] B. Lee, “Three-dimensional displays, past and present,” Phys. Today 66(4), 36–41 (2013).

[9] H. Urey, K. V. Chellappan, E. Erden, and P. Surman, “State of the art in stereoscopic and autostereoscopic displays,” Proc. IEEE 99, 540–555 (2011).

[10] J.-Y. Son, B. Javidi, S. Yano, and K.-H. Choi, “Recent developments in 3-D imaging technologies,” J. Disp. Technol. 6, 394–403 (2010). Advances in Optics and Photonics 5, 456–535 (2013)

[11] J.-Y. Son, B. Javidi, and K.-D. Kwack, “Methods for displaying threedimensional images,” Proc. IEEE 94, 502–523 (2006).

[12] B. Blundell and A. Schwarz, Volumetric Three Dimensional Display System (Wiley, 2000).

[13] D. MacFarlane, “Volumetric three dimensional display,” Appl. Opt. 33, 7453–7457 (1994).

[14] 耿征. 真三维高清晰度显示技术—信息显示领域的重要发展方向[J]. 科技导报, 2007, 25(20):21-26.

[15] Langhans K, Gerken M. FELIX: a volumetric 3D laser display[J]. Proc Spie, 1996, 2650:265--273.

[16] Langhans K, Bezecny D, Homann D, et al. New portable FELIX 3D display[J]. Proceedings of SPIE - The International Society for Optical Engineering, 1998, 3296:204-216.

[17] Langhans K, Bahr D, Bezecny D, et al. FELIX 3D display: an interactive tool for volumetric imaging[C]// Electronic Imaging. International Society for Optics and Photonics, Proceedings of SPIE 2002, 4660:176-190.

[18] Jones A, Mcdowall I, Yamada H, et al. Rendering for an interactive 360° light field display[J]. ACM Transactions on Graphics (TOG), 2007, 26(3):40.

[19] Jones A, Lang M, Fyffe G, et al. Achieving eye contact in a one-to-many 3D video teleconferencing system[J]. Acm Transactions on Graphics, 2009, 28(3):1-8.

[20] Geng J. A volumetric 3D display based on a DLP projection engine[J]. Displays, 2013, 34(1):39-48.

[21] Xia X, Zheng Z, Liu X, et al. Omnidirectional-view three-dimensional display system based on cylindrical selective-diffusing screen[J]. Applied Optics, 2010, 49(26):4915-20.

[22] Xia X, Wu J, Van C, et al. P-5: A New 360-degree Holo-views Display System with Multi-vertical Views[J]. Sid Symposium Digest of Technical Papers, 2012, 41(1):1241-1244.

[23] Xia X, Liu X, Li H, et al. A 360-degree floating 3D display based on light field regeneration.[J]. Optics Express, 2013, 21(9):11237-47.

[[24]] Song W, Zhu Q, Liu Y, et al. Omnidirectional-view three-dimensional display based on rotating selective-diffusing screen and multiple mini-projectors[J]. Applied Optics, 2015, 54(13):4154-4160.

[25] Xing S, Liu S, Sang X. Multi-projector three-dimensional display for 3D Geographic Information System[J]. Optik - International Journal for Light and Electron Optics, 2017.

[26] Di Z, Sang X, Peng W, et al. Comparative Visual Tolerance to Vertical Disparity on 3D Projector Versus Lenticular Autostereoscopic TV[J]. Journal of Display Technology, 2016, 12(2):178-184.

[27] Jones A V, Bolas M T. Interpolating vertical parallax for an autostereoscopic three-dimensional projector array[J]. Journal of Electronic Imaging, 2014, 23(1):011005.

[28] Javidi B, Jang J S, Stern A, et al. Three dimensional image sensing, visualization and processing using integral imaging[J]. Proceedings of the IEEE, 2006, 94(3):591-607.

[29] Okano F, Hoshino H, Arai J, et al. Real-time pickup method for a three-dimensional image based on integral photography[J]. Applied Optics, 1997, 36(7):1598-603.

[30] Javidi B, Jang J S, Stern A, et al. Three dimensional image sensing, visualization and processing using integral imaging[J]. Proceedings of the IEEE, 2006, 94(3):591-607.

[31] Lee B, Jung S, Min S W, et al. Three-dimensional display by use of integral photography with dynamically variable image planes[J]. Optics Letters, 2001, 26(19):1481-2.

[32] Arai J, Okano F, Hoshino H, et al. Gradient-index lens-array method based on real-time integral photography for three-dimensional images[J]. Applied Optics, 1998, 37(11):2034-2045.

[33] Okano F, Hoshino H, Arai J, et al. Real-time pickup method for a three-dimensional image based on integral photography[J]. Applied Optics, 1997, 36(7):1598-1603.

[34] Naemura T, Yoshida T, Harashima H. 3-D computer graphics based on integral photography.[J]. Optics Express, 2001, 8(4):255-62.

[35] Tao Y H, Wang Q H, Gu J, et al. Autostereoscopic three-dimensional projector based on two parallax barriers.[J]. Optics Letters, 2009, 34(20):3220.

[36] Zhao W X, Wang Q H, Wang A H, et al. Autostereoscopic display based on two-layer lenticular lenses.[J]. Optics letters, 2010, 35(24):4127-4129.

[37] 于迅博, 桑新柱, 陈铎, et al. 3D display with uniform resolution and low crosstalk based on two parallax interleaved barriers[J]. Chinese Optics Letters, 2014, 12(12):34-37.

[38] Tay S, Blanche P A, Voorakaranam R, et al. An updatable holographic three-dimensional display[J]. Nature, 2008, 451(7179):694.

[39] Blanche P A, Bablumian A, Voorakaranam R, et al. Holographic three-dimensional telepresence using large-area photorefractive polymer[J]. Nature, 2010, 468(7320):80.

[40] Li X, Liu J, Jia J, et al. 3D dynamic holographic display by modulating complex amplitude experimentally[J]. Optics Express, 2013, 21(18):20577.

[41] Xue G, Liu J, Li X, et al. Multiplexing encoding method for full-color dynamic 3D holographic display[J]. Optics Express, 2014, 22(15):18473.

[42] Gao C, Liu J, Li X, et al. Accurate compressed look up table method for CGH in 3D holographic display[J]. Optics Express, 2015, 23(26):33194.

[43] Wetzstein G, Lanman D, Hirsch M, et al. Tensor displays:compressive light field synthesis using multilayer displays with directional backlighting[J]. ACM Transactions on Graphics, 2012, 31(4):1-11.

[44] http://lcd.zol.com.cn/575/5755898.html?keyfrom=front

[45] Cao X, Geng Z, Zhang M, et al. Load-balancing multi-LCD light field display[C]. Proceedings of SPIE, The International Society for Optical Engineering, March 17,2015.

[46] Cao X, Geng Z, Li T, et al. Accelerating decomposition of light field video for compressive multi-layer display[J]. Optics Express, 2015, 23(26):34007-34022.

Mars说光场（3）— 光场采集

Wed, 24 Oct 2018 15:35:00 +0800

【摘要】 — 光场显示能在视觉上完全重现真实世界，但在显示光场以前首先要采集光场，否则将会是“巧妇难为无米之炊”。传统相机拍摄的2D图片不能用于光场显示[1]，因此需要专业的光场采集设备。相关研究者已经建立了一系列光场采集的理论[2]，并在光场采集技术的发展过程中出现了多种设计方案，受到广泛关注和研究的主要有三种设计思路：（1）基于微透镜阵列（Microlens Array）的光场采集；（2）基于相机阵列（Camera Array）的光场采集[3]；（3）基于编码掩膜（Coded Mask）[4]的光场采集。

1、基于微透镜阵列的光场采集

基于微透镜阵列的光场采集最早可以追溯到1908年Lippmann提出的集成成像（Integral photography）[5]，集成成像为基于微透镜阵列的光场采集奠定了重要的理论基础。关于集成成像的发展历史，可以参考Roberts在2003年的详细梳理[6]。基于集成成像理论，MIT的Adelson在1992年尝试采用微透镜阵列来制造光场相机[7]，斯坦福Levoy将集成成像应用于显微镜，实现了光场显微镜[8]。

基于透镜阵列的光场采集主要依靠在成像传感器与主镜头之间加入一片微透镜阵列，物体表面光线首先经过主镜头，然后经过微透镜，最后到达成像传感器（e.g. CCD/CMOS）。如图1所示，物体表面A点在FOP角度范围内发出的光线进入相机主镜头并聚焦于微透镜，微透镜将光线分成4x4束，并被成像传感器上对应的16个像素记录。类似的，空间中其它发光点，例如B点和C点，在其FOP角度范围内的光线都被分成4x4束并被分别记录。

微透镜阵列的主要作用是将物体表面同一点在一定角度范围内的各个方向发出光线进行离散化解耦，图1中的微透镜将光线离散化为4x4束，离散化程度由微透镜光学参数、主透镜光学参数及微透镜与成像传感器之间的距离等多方面因素决定。

参照光场4D模型，微透镜阵列好比(s, t)平面，成像传感器好比(u, v)平面。在基于微透镜阵列的光场采集模型中，(s, t)平面微透镜的数量决定了光场的图像分辨率。(u, v)平面像素数量决定了能采集光线的总数量，(u, v)平面像素总量与(s, t)平面微透镜数量的比值即为光场角度分辨率，也即采集视点个数。

图 1. 基于微透镜阵列的光场采集原理示意图

基于微透镜阵列的光场采集具有体积小，单次拍摄成像等优点。但也存在两个明显的缺陷，一方面是单视点的图像分辨率损失严重[9]，例如使用4K（4096*2160）的图像传感器采集4x4视点的光场，则图像分辨率在水平方向和垂直方向都降低到原分辨率的四分之一，既单个视点图像分辨率只有1024*540。另一方面是采集光场的FOP角度较小，也即视差较小，只能在较小的角度范围内变换视点。

尽管存在上述的缺点，但由于总体成本在可控范围内，基于微透镜的光场采集方案是商业化光场相机主要采用的方案。目前已经商业化的光场相机主要包括美国的Lytro和德国的Raytrix。Lytro是一款基于微透镜阵列的手持光场相机，由斯坦福大学Ren Ng（Marc Levoy的博士生）在2005年提出 [10,11]，并分别于2011年和2014年正式向市场推出第一代和第二代手持式光场相机Lytro[12]。相比传统相机，Lytro的关键设计是在传统相机中嵌入一块微透镜阵列，如图2所示。物体发出的光线被主透镜聚焦在微透镜阵列平面，微透镜阵列将光线分开并被图像传感器分别记录下来，从而同时记录了不同方向上光线的强度。

图 2. 美国Lytro基于微透镜阵列的光场相机

Raytrix [13]是德国一家创业公司，同样是基于微透镜阵列的便携式光场相机[14]。Lytro主要面向大众普通用户，而Raytrix不仅面向普通用户还面向工业和科研应用领域，如图3所示。Raytrix扩大了采集光场的深度范围[15]并开发了一套自动标定算法用于标定光场相机[16]。

图 3. 德国Raytrix基于微透镜阵列的光场相机

Adobe Systems Inc. 的Todor Georgeiv在2006年研究了视点分辨率与角度分辨率之间的互相平衡关系[17]，在2008年提出了一种统一的光场相机仿射光路理论[18]并提高光场分辨率[19]，基于该理论框架构造的光场相机如图4所示。严格来说，Todor Georgeiv提出的光场相机与上述Lytro和Raytrix的基于微透镜阵列的光场相机并不完全相同。图4中透镜阵列更靠近相机主透镜位置，解耦合后的光线在成像传感器上形成的图像与Lytro或Raytrix并不相同，因此从成像传感器原始数据提取光场的算法也与Lytro和Raytrix不同。

图 4. 美国Adobe Systems Inc.光场相机

2、基于相机阵列的光场采集

基于相机阵列的光场采集不需要对相机进行改造，但需要增加相机的数量。光线从物体表面发出，分别进入多个相机镜头，并分别被对应的成像传感器记录。如图5所示为4x4相机阵列，A点在半球范围内发出各向异性的光线，其中FOP角度范围内的光线进入了相机阵列，并被分成4x4束光线，每束光线被对应的镜头聚焦在成像传感器上，由此A点各向异性的光线被离散化为4x4束并被分别记录。

对比图1中基于微透镜的光场采集方案，相机阵列通过多个镜头将物体表面同一点在一定角度内各向异性的光线解耦和，并离散为多束光线分别记录。解耦和后的离散化程度由相机阵列的规模决定。相机数量越多，离散化程度越高。

参照光场4D模型，图5中镜头阵列好比(s, t)平面，成像传感器阵列好比(u, v)平面。(s, t)平面镜头的数量，也即相机的数量，决定了光场视点个数。(u, v)平面所有像素数量决定了能采集光线的总数量。(u, v)平面像素总量与(s, t)平面镜头数量的比值即为单个视点分辨率。一般而言，相机阵列中各个相机成像传感器的分辨率一致，所以单个相机成像传感器的分辨率即为光场视点分辨率。

图 5. 基于相机阵列的光场采集示意图

相比基于微透镜阵列的光场相机，基于相机阵列的光场采集方案具有两个明显的优势：（1）采集光场的FOP角度较大，也即视差较大，可以在较大的角度范围内变换视点。（2）图像分辨率不损失，因此单个视点的图像分辨率一般都高于基于微透镜阵列的光场相机。但基于相机阵列的光场采集方案也存在成本高昂，体积较大的明显缺陷，例如图6中Jason Yang于2002年在MIT搭建出全世界第一套近实时相机阵列[20]，由8x8共64个相机组成，单个视点分辨率为320x240，光场采集速率为18FPS，延迟为80毫秒。

图 6. Jason Yang于2002年在MIT实现的实时相机阵列

斯坦福大学Bennett Wilburn在2000年实现了数据编码压缩的光场视频相机[21]，之后进一步改进光场相机系统，在2004年展示了稠密光场相机阵列[22]。Bennett Wilburn设计的稠密光场相机阵列包含52个30fps的COMS成像单元，单个视点分辨率为640x480，如图7所示。

图 7. Bennett Wilburn于2004年在斯坦福大学设计的稠密光场相机阵列

Bennett Wilburn在2005年进一步增加相机数量到约100个，构建了大规模光场相机阵列[23]，并搭建了三种不同类型的大规模光场相机，如图8所示，分别是（a）紧密排列的长焦镜头大规模相机阵列，主要用于实现高分辨率成像。（b）紧密排列的广角镜头大规模相机阵列，主要用于实现高速视频捕获和混合合成孔径成像。（c）分散排布的大规模相机阵列。

图 8. Bennett Wilburn于2005年在斯坦福大学设计的大规模光场相机阵列

由于硬件成本高昂，体积较大等缺点，目前To C端的应用中还没有采用基于相机阵列的光场采集方案。曹煊在2015年提出稀疏相机阵列光场采集方案[24]，利用压缩感知和稀疏编码大大减少了相机数量，降低了硬件成本，但仍然存在体积大的问题。Pelican是美国硅谷的一家创业公司，正在尝试将相机阵列小型化。该公司在2013年实现了超薄高性能的相机阵列[25]，如图9所示。通过光学设计的优化[26]和光场超分辨算法的应用[27,28]，Pelican制造了小巧的相机阵列，并形成一个独立的光场相机模块。Pelican综合了多种方法在保持相机阵列轻薄的前提下提升了所采集光场分辨率[29,30]。

图 9. 美国初创公司Pelican设计的超小体积高性能相机阵列

3、基于编码掩膜的光场采集

基于微透镜阵列和基于相机阵列的光场采集都有一个共同点——“阵列”。前者通过多个微透镜构成阵列，牺牲图像分辨率换取角度分辨率。后者通过多个相机构成阵列，在不牺牲图像分辨率的情况下增加了角度分辨率，但是需要增加大量的图像传感器。总体而言，视点分辨率与角度分辨率是一对矛盾因素，总是此消彼长。通过增加成像传感器数量来抵消这一矛盾会造成硬件成本的急剧增加。

上述两种光场采集方案必须在图像分辨率和角度分辨率之间进行折中。学术界最新出现的基于编码掩膜的光场采集打破了这一局限。该方案通过对光场的学习去掉光场的冗余性，从而实现了采集更少的数据量而重建出完整的光场。

如图10所示，在传统相机的成像光路中加入一片半透明的编码掩膜，掩膜上每个像素点的光线透过率都不一样（也称为编码模式），进入光圈的光线在到达成像传感器之前会被掩膜调制，经过掩膜调制后的光线到达成像传感器。利用提前学习好的光场字典，从单幅采集的调制图像就可以重建出完整的光场。掩膜的编码模式理论上可以采用随机值，Kshitij Marwah证明了通过约束变换矩阵的转置与变换矩阵的乘积为单位矩阵可以得到优化的编码掩膜，采用优化后的编码掩膜可以重建出更高质量的光场。

图 10. Kshitij Marwah于2013年在MIT设计的掩膜光场相机

很多学者已经尝试利用编码掩膜来实现计算成像，例如国立台湾大学的Chia-Kai Liang 在2008年采用可编程的光圈结合多次曝光成像实现了光场采集[31]。美国MIT大学在掩膜相机方面的研究非常深入，MIT大学CSAIL的Anat Levin 于2007年采用编码光圈实现了深度图像的采集[32]，MIT Media Lab的Veeraraghavan Ashok 在2007年采用掩膜实现了可以重聚焦的相机[33]，后于2011年结合闪光灯和相机掩膜实现了对高频周期变化的图像进行高速摄像[34]。MIT Media Lab的Kshitij Marwah于2013年提出了基于掩膜的压缩光场采集[35]。

基于编码掩膜的光场采集方案最大的优势在于不需要牺牲图像分辨率就能提高角度分辨率。但该方案存在光场图像信噪比低的缺点，这主要是由于两方面的原因造成：（1）掩膜的透光率不能达到100%，因此会损失光线信号强度，导致成像信噪比低；（2）所重建的最终光场图像并不是成像传感器直接采集得到，而是通过从被调制的图像中进行解调制得到；本质上是基于已经学习的光场字典去“猜”出待重建的光场。

4、光场采集方案对比

上述三种主流的光场采集方案与传统相机总结对比如下表。

表1. 传统2D采集设备与光场采集设备的对比

	采集数据维度	优点	缺点
传统相机	R(x, y, λ, t)	技术成熟, 价格低廉	只能采集平面图片，等同于角度分辨率为1X1的低阶光场
微透镜阵列	R(x, y, θ, Φ, λ, t)	体积小, 成本较低	图像分辨率损失严重
相机阵列	R(x, y, θ, Φ, λ, t)	基线大，视差大图像分辨率较高	成本高，体积大硬件同步困难
编码掩膜	R(x, y, θ, Φ, λ, t)	体积小分辨率不损失	信噪比低光场质量下降

基于微透镜阵列的光场采集具有体积小巧，硬件成本低等优点。但其缺点也很明显：1）光场视点图像分辨率损失严重，随着视点数量的增加，单个视点分辨率急剧降低。2）受到相机光圈的限制，光场中可观察的视差范围较小。

基于相机阵列的光场采集相比基于微透镜阵列的光场采集具有更多优点：1）视点分辨率不损失，由单个相机成像传感器决定。2）光场的视差范围更大。但基于相机阵列的光场采集仍然面临两个问题：1）需要的相机数量较多，硬件成本高昂，例如采集7x7视点的光场需要49个相机。2）相机同步控制复杂，数据量大，存储和传输成本高。

基于编码掩膜的光场采集打破了角度分辨率与视点图像分辨率之间的互相制约关系，利用“学习”的方法去掉光场冗余性，从少量信息中恢复光场。虽然存在信噪比降低的问题，但在2K时代，分辨率不损失这一优点使得该方案受到广泛关注。

[1] Van Berkel C. Image Preparation for 3D-LCD[C]//Stereoscopic Displays and Virtual Reality Systems VI,1999.

[2] Chai J X, Tong X, Chan S C, et al. Plenoptic sampling[C]// Conference on Computer Graphics and Interactive Techniques. ACM Press/Addison-Wesley Publishing Co. 2000:307-318.

[3] Levoy M. Light Fields and Computational Imaging[J]. Computer, 2006, 39(8):46-55.

[4] Lanman D. Mask-based light field capture and display[C]// Ph.D. Dissertation, Brown University, 2011.

[5] Lippmann G. Epreuves reversibles. Photographies integrals[J]. Comptes-Rendus Academie des Sciences, 1908, 146(3):446-451.

[6] Roberts D E. History of Lenticular and Related Autostereoscopic Methods[J]. Leap Technologies Hillsboro, 2003.

[7] Adelson E H, Wang J Y A. Single Lens Stereo with a Plenoptic Camera[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1992, 14(2):99-106.

[8] Levoy M, Ren N, Adams A, et al. Light field microscopy[J]. Acm Transactions on Graphics, 2006, 25(3):924-934.

[9] Hoshino H, Okano F, Isono H, et al. Analysis of resolution limitation of integral photography[J]. Journal of the Optical Society of America A, 1998, 15(8):2059-2065.

[10] Ren N, Levoy M, Bredif M, et al. Light Field Photography with a Hand-Held Plenopic Camera[J]. Tech. Rep. CSTR Stanford Computer Science. 2005.

[11] R. Ng, “Digital light field photography”, PhD. Thesis, Stanford University, 2006.

[12] https://illum.lytro.com/

[13] www.raytrix.de

[14] Raytrix, “Digital imaging system for synthesizing an image using data recorded with a plenoptic camera,” European Patent EP09005628.4 (April 2009).

[15] Perwass C, Wietzke L. Single lens 3D-camera with extended depth-of-field[C]// IS&T/SPIE Electronic Imaging. International Society for Optics and Photonics, 2012.

[16] Heinze C, Spyropoulos S, Hussmann S, et al. Automated Robust Metric Calibration Algorithm for Multifocus Plenoptic Cameras[J]. IEEE Transactions on Instrumentation & Measurement, 2016, 65(5):1197-1205.

[17] Georgeiv T, Zheng K C, Curless B, et al. Spatio-angular resolution tradeoffs in integral photography[C]// Eurographics Symposium on Rendering Techniques, Nicosia, Cyprus. DBLP, 2006:263-272.

[18] Georgeiv T, Intwala C. Light Field Camera Design for Integral View Photography[J]. Adobe Technical Report, 2008.

[19] Lumsdaine A, Georgiev, T, Full resolution lightfield rendering, Adobe Technical Report, 2008.

[20] Yang J C, Everett M, Buehler C, et al. A real-time distributed light field camera[C]// Eurographics Workshop on Rendering. Eurographics Association, 2002:77-86.

[21] Wilburn B S, Smulski M, Lee K, et al. The Light field video camera[J]. Proceedings of SPIE - The International Society for Optical Engineering, 2001, 2002:29--36.

[22] Wilburn B, Joshi N, Vaish V, et al. High-Speed Videography Using a Dense Camera Array[C]// Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on. IEEE, 2004:II-294-II-301 Vol.2.

[23] Wilburn B, Joshi N, Vaish V, et al. High performance imaging using large camera arrays[J]. Acm Transactions on Graphics, 2005, 24(3):765-776.

[24] Cao X, Geng Z, Li T. Dictionary-based light field acquisition using sparse camera array[J]. Optics Express, 2014, 22(20):24081-24095.

[25] Venkataraman K, Lelescu D, Duparr, et al. PiCam : an ultra-thin high performance monolithic camera array[J]. Acm Transactions on Graphics, 2013, 32(6):166.

[26] Tanida J, Kumagai T, Yamada K, et al. Thin Observation Module by Bound Optics (TOMBO): Concept and Experimental Verification[J]. Applied Optics, 2001, 40(11):1806.

[27] Baker S, Kanade T. Limits on Super-Resolution and How to Break Them[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2000, 24(9):1167-1183.

[28] Bishop T E, Zanetti S, Favaro P. Light field superresolution[C]// IEEE International Conference on Computational Photography. IEEE, 2009:1-9.

[29] Georgiev T, Chunev G, Lumsdaine A. Superresolution with the focused plenoptic camera[C]// IS&T/SPIE Electronic Imaging. International Society for Optics and Photonics, 2011:78730X-78730X-13.

[30] Wanner S, Goldluecke B. Spatial and Angular Variational Super-Resolution of 4D Light Fields[M]// Computer Vision – ECCV 2012. Springer Berlin Heidelberg, 608-621.

[31] Liang C K, Lin T H, Wong B Y, et al. Programmable aperture photography: Multiplexed light field acquisition[J]. Acm Transactions on Graphics, 2008, 27(3):55.

[32] Levin A, Fergus R, Durand F, et al. Image and depth from a conventional camera with a coded aperture[C]// ACM SIGGRAPH. ACM, 2007:70.

[33] Veeraraghavan A, Raskar R, Agrawal A, et al. Dappled photography: mask enhanced cameras for heterodyned light fields and coded aperture refocusing[C]// SIGGRAPH. 2007:69.

[34] Veeraraghavan A, Reddy D, Raskar R. Coded Strobing Photography: Compressive Sensing of High Speed Periodic Videos[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2011, 33(4):671-686.

[35] Marwah K, Wetzstein G, Bando Y, et al. Compressive light field photography using overcomplete dictionaries and optimized projections[J]. Acm Transactions on Graphics, 2013, 32(4):1-12.

Mars说光场（2）— 光场与人眼立体成像机理

Wed, 24 Oct 2018 11:44:00 +0800

《Mars说光场》系列文章目前已有5篇，包括：

《Mars说光场（1）— 为何巨头纷纷布局光场技术》；

《Mars说光场（2）— 光场与人眼立体成像机理》；

《Mars说光场（3）— 光场采集》；

《Mars说光场（4）— 光场显示》；

《Mars说光场（5）— 光场在三维人脸建模中的应用》；

雷锋网经授权发布。

【摘要】 — 人眼产生三维立体视觉来源于心理感知和生理感知。根据能够产生多少3D视觉信息，可以把现有显示设备分为4个层级。第1等级是传统的2D显示屏：只能产生仿射、遮挡、光照阴影、纹理、先验知识五方面的心理视觉暗示，从而“欺骗”大脑产生伪3D视觉。第2等级是眼镜式3D电影：能提供部分生理视觉信息（双目视差），但缺少移动视差和聚焦模糊。第3等级是VR头盔：具有更多的生理视觉信息，能同时提供双目视差和移动视差，但仍然缺乏聚焦模糊。第4等级是光场显示：能提供所有的心理和生理视觉信息，可以在视觉上逼真重现真实世界。

1、人眼的立体成像机理

1.1 心理感知

众所周知，人眼能感知到远近深度信息的一个重要方面是因为我们拥有两只眼睛，从而可以从双目视差中判断物体深度。然而双目视差并不是我们感知三维世界的唯一途径。人眼对三维环境的感知主要可以分为心理感知和生理感知。其中心理感知主要是通过仿射、遮挡、光照阴影、纹理、先验知识五方面的视觉暗示[1,2]，从而“欺骗”大脑感知到三维信息，如图1所示，尽管是在平面上绘图却能产生一定的三维视觉。

图 1. 人眼感知深度的心理暗示信息

（1）仿射：其直观的感受是“近大远小”，随着物体与人眼的距离减小，物体在人眼的成像越大。

（2）遮挡：更近的物体会遮挡更远的物体，通过相互遮挡关系可以判断物体间的相对远近关系。

（3）光照阴影：不同方向的光照会在物体表面产生不同的阴影，通过对阴影模式的判断可以推断物体的三维形状。

（4）纹理：通过有规律重复的动/静态特征分布产生立体视觉。

（5）先验知识：人类在观看大量物体以后会总结一些基本的经验，例如天空中的飞机和风筝都非常小，但飞机比风筝距离人眼更远。

1.2 生理感知

上述五种心理感知上的立体视觉通过平面介质即可呈现，例如手机屏幕、电视屏幕、画布等。然而立体视觉的生理感知需要对人眼产生特殊的视觉刺激，无法通过2D平面介质呈现。立体视觉的生理感知主要包括双目视差、移动视差、聚焦模糊[3]，分述如下。

（1）双目视差（binocular parallax）：如图2所示，视差即同一个物体在左右眼中所成的像之间的轻微偏差。所观察的物体越近，则视差越大。所观察的物体越远，则视差越小。为了避免左右眼视差所产生的重影，人眼会动态的调节视线的汇聚方向。当我们观看漫天繁星时，双眼的视线方向几乎平行，当我们观察自己的鼻尖时，双眼的视线方向会相交于鼻尖，通过双眼汇聚的角度可以判断物体的远近。双目视差的感知必须依靠双目协同工作才能完成。

图 2. 生理视觉信息（双目视差与双目汇聚）

（2）移动视差（motion parallax）：如图3所示，当远近不同的物体在空间中移动时，在人眼中产生的位移会不同。当发生同样的空间移动时，远处的物体在人眼中产生的位移更小，近处的物体在人眼中产生的位移更大。例如当我们在移动的汽车上观看窗外的风景时，近处的树木总是飞快的向后移动，而远处的高山却移动缓慢。与双目视差不同，单眼就可以感知到移动视差。例如鸽子虽然有双眼，但是两只眼睛位于头部的两侧，双眼的视野范围并不重合，因此鸽子无法依靠双目视差来感知深度。鸽子主要依靠移动视差来判断物体远近，从而完成着陆和啄食等动作。

图 3. 生理视觉信息（移动视差）

（3）聚焦模糊（Accommodation）：如图4所示，人眼的睫状肌扮演着相机镜头的调焦功能，从而使聚焦平面上的物体清晰成像，非聚焦平面的物体成像模糊。如图4所示，当睫状肌紧绷时，人眼聚焦在近处平面。当睫状肌舒张时，人眼聚焦在远处平面。单眼即可感知到聚焦模糊。当我们举起大拇指，用单眼去观察大拇指上的指甲盖纹理时，门口的盆栽以及墙上的油画变得模糊了。当我们用单眼试图看清盆栽或者油画时，大拇指却模糊了。根据睫状肌的屈张程度和对应的聚焦模糊反馈，视觉系统可以判断出物体的相对远近。

图 4. 生理视觉信息（聚焦模糊）

2、如何满足人眼的视觉要求？

2.1 传统显示屏

从黑白到彩色，从CRT到LCD/OLED，从720p到4K，显示设备的色彩还原度和分辨率在不断的提高，然而却始终没有显示维度的突破。根据7D全光函数的描述，目前的2D显示屏可以在（x, y）位置显示不同的像素。但每个像素在可视角度（一般为120度）范围内不同的方向发出的光线却是近似相同（或同向衰减）。因此2D显示屏只能提供各向同性的光线，不能呈现光线的方向信息（θ, Φ），如图5所示。换句话说，传统显示屏只能呈现（x, y, λ, t）四个维度的信息，只能提供上述仿射、遮挡、光照阴影、纹理、先验知识这五种心理感知信息。然而对于双目视差、移动视差、聚焦模糊三方面的生理感知却无能为力。首先、左右眼从显示屏接收到的图像完全一样，因此不能产生双目视差。其次、当人眼在屏幕前左右移动时，显示屏所呈现的内容会产生相同的位移，因此无法提供移动视差。最后，显示屏上所有像素的实际发光位置到人眼的距离都是一致的，并不会引起人眼睫状肌的屈张，所以显示屏无法提供动态聚焦。

图 5. 传统2D显示器各向同性光学特性

2.2 3D电影

3D电影除了提供传统显示屏的心理视觉感知信息，还能提供双目视差这一生理视觉感知信息。如图6所示，3D电影通过一副立体眼镜将两幅具有细微偏差的图像分别呈现给左右眼（当取下立体眼镜，直视大屏时会看到两幅重叠的图像），让人眼感知到双目视差，进而让大脑融合左右眼图像产生三维信息。立体眼镜的工作原理又包括分光式、偏振式、快门式三种，这里不再展开讨论。然而，3D电影只提供了双目视差这一种生理视觉信息，并不能提供移动视差和聚焦模糊。举个例子，如果是一场真人话剧，左侧的观众应该看到演员的右侧脸；而右侧的观众应该看到演员的左侧脸。然而在3D电影院中，左侧和右侧的观众看到的都是演员的同一个侧脸。即使观众戴着立体眼镜跑动到电影院的任一位置，所看到的仍然是同一个视点。换句话说，3D电影院呈现的图像并不会因为观看位置的移动而更新视点图像。由于缺乏移动视差和聚焦模糊，观看3D电影时双目视差告诉大脑看到了3D场景，而移动视差和聚焦模糊又告诉大脑看到了2D场景，大脑会在3D和2D这两种状态之间不停的切换。由于双目视差与移动视差和聚焦模糊之间的冲突，从而导致“烧脑”。这也是大部分人群第一次体验3D电影时会产生不适感的主要原因。当大脑适应这种相互冲突的3D视觉后，不适感会明显减轻，但是所体验的视觉效果还是无法与真实三维世界相媲美。

图 6. 3D电影产生立体视觉原理

2.3 虚拟现实（VR/AR）

虚拟现实（Virtual Reality，VR/AR/MR都在本文讨论范围内）头盔属于头戴显示设备（HMD，Head Mounted Display）的一种[4,5]。相比3D电影，虚拟现实头盔不仅能提供双目视差，还能提供移动视差，从而带来更丰富逼真的立体视觉体验。虚拟现实头盔主要利用准直放大透镜（Collimating Lens）将眼前的显示屏图像放大并拉远。如图7所示，虚拟现实头盔的显示屏与透镜光心的距离略小于透镜焦距，屏幕上某一真实像素发出的光线经透镜折射进入人眼，沿着折射后光线的反向延长方向，人眼将感知到较远处的虚拟像素。同样的两套准直放大光学显示系统分别为左右眼提供不同的图像。

图 7. 虚拟现实头盔准直放大光路示意图

相比于3D电影院，VR头盔最大的改进之处在于它能提供移动视差。当人眼移动到不同的位置或旋转到不同的方向时，VR头盔会提供不同视点的图像。仍然以观看演员为例，在3D电影院中无论观众移动到任何位置或旋转到任意方向，所看到的都是演员的同一个侧脸。而在VR中，随着观众的移动，可以看到演员的左侧脸、右侧脸、下巴等不同的视点。正是由于VR所提供的移动视差，使得观众从导演预先设定的观看视角中脱离出来，可以从自己喜欢的角度去观察。这是VR能够提供强烈沉浸感的主要原因之一。

那么VR头盔是不是就能在视觉上完美地重现真实三维世界呢？答案是：还差一个关键要素，那就是聚焦模糊。VR头盔能同时提供双目视差和移动视差，但目前在售的VR头盔中都不能提供聚焦模糊（Accommodation）。VR头盔中使用的显示屏与主流手机使用的显示屏都属于LCD/OLED范畴。举个例子，真实环境中人眼看到远处的高山和近处的人物是分别接收了从远近不同地方发出的光线。然而VR屏幕中出现的高山和人物都是从距离人眼相同距离的显示屏上发出的光线。无论人眼聚焦在“远处”的高山还是“近处”的人物，睫状肌都是处于相同的屈张程度，这与人眼观看实际风景时的聚焦模糊状态是不相符的[6,7]。

引起VR眩晕主要有两方面的原因：（1）运动感知与视觉感知之间的冲突；（2）视觉感知中双目视差与聚焦模糊之间的冲突；详述如下。

人体主要依靠前庭、本体感觉、视觉三方面的感知途径综合推断出人体的位置、运动状态、姿态等信息。一方面，人耳的前庭内有3个半规管，每个半规管就像半瓶水一样；当人体运动时，前庭内的“半瓶水”就会晃动，再加上本体感觉的信息，大脑从而推断出目前的运动加速度和姿态。另一方面，人眼视觉能感知周边三维环境，从而反向推断出目前自身的位置等信息，类似与SLAM的工作原理[8]。在早期的VR设备中，由于定位精度、渲染速度，显示屏刷新频率等技术的限制，当身体移动时，VR头盔呈现画面并不准确和及时。例如在VR中“走独木桥”，身体已经移动而双目图像并未及时更新，此时前庭和本体感觉告诉大脑身体已经移动，而VR视觉告诉大脑身体没有移动，从而导致大脑产生困惑，这可以总结为“身已动，而画面未动”。再例如在VR中“坐过山车”，双目图像快速的切换让大脑以为身体在快速的上下移动，而实际上身体却是静止的坐在椅子上，会导致大脑产生困惑，这可以总结为“画面已动，而身未动”。随着VR设备在屏幕刷新率的提高、移动端图像渲染帧率的提升、交互定位精度的提高，以及万向跑步机和体感椅的出现，引起VR眩晕的第（1）方面原因已经得到大幅缓解。

第（2）方面原因引起的VR眩晕才是当前亟待解决的主要问题。VR头盔佩戴者始终聚焦在一个固定距离的虚拟屏幕上，而不能随着虚拟显示物体的远近重聚焦（refocus）。例如通过VR头盔观看远处的高山时，人眼通过双目视差感知到高山很远，但人眼并没有实际聚焦到那么远。类似的，当通过VR头盔观看近处的人物时，人眼仍然聚焦在虚拟屏幕上，与双目视差所呈现的人物距离不符。由于双目视差和聚焦模糊所呈现的远近距离不同，从而导致大脑产生深度感知冲突，进而引起视觉疲劳[9]。这种现象在学术上称为ACC或者AVC（Accommodation-Convergence Conflics, Accommodation-Vergence Conflics）[10,11,12]。与此同时，目前VR头盔的呈像平面为固定焦距，长期佩戴存在引起近视的潜在风险。如果希望VR取代手机成为下一代移动计算平台，首先就需要解决VR设备长时间安全使用的问题。目前来看，光场显示是解决这一问题的最佳方案之一。

2.4 光场显示

光场显示包含全光函数中所有维度的光线信息，可以提供上述所有的心理视觉感知信息和生理视觉感知信息。目前光场显示主要有：体三维显示（Volumetric 3D Display）、多视投影阵列（Multi-view Projector Array）、集成成像（Integral Imaging）、数字全息、多层液晶张量显示等多种技术方案。《Mars说光场（4）— 光场显示》会进一步分析光场显示技术的实现原理。

随着显示技术的演进，显示设备能提供越来越丰富的视觉感知信息。根据所能呈现的视觉信息，可以将显示设备分为4个等级，如图8所示。2D平面显示只能提供心理视觉信息来“欺骗”大脑产生三维立体视觉，属于第1等级。眼镜式3D电影不仅能提供心理视觉信息，还能提供部分生理视觉信息（双目视差），属于第2等级。现阶段的VR/AR/MR头盔在眼镜式3D电影的基础上进一步增加了移动视差，属于第3等级。光场是终极显示方式，能提供所有的心理和生理视觉信息，属于第4等级。

图 8. 不同等级显示技术所能提供的视觉信息范畴

[1] Geng J.Three-dimensional display technologies[J]. Advances in Optics and Photonics,2013, 5(4): 456-535.

[2] B. Blundell and A. Schwarz, Volumetric Three Dimensional Display System
(Wiley, 2000).

[3] T. Okoshi, Three-Dimensional Imaging Techniques (Academic, 1976).

[4] O. Cakmakci and J. Rolland, “Head-worn displays: a review,” J. Disp. Technol. 2, 199–216 (2006).

[5] D. Cheng, Y. Wang, H. Hua, and M. M. Talha, “Design of an optical see-through headmounted display with a low f-number and large field of view using a free-form prism,” Appl. Opt. 48, 2655–2668 (2009).

[6] T. Inoue and H. Ohzu, ―Accommodation responses to stereoscopic three-dimensional display,‖ Appl. Opt., vol. 36, 4509-4515 (1997)

[7] Vienne C, Sorin L, Blondé L, et al. Effect of the accommodation-vergence conflict on vergence eye movements[J]. Vision Research, 2014, 100:124-133.

[8] Davison A J, Reid I D, Molton N D, et al. MonoSLAM: Real-Time Single Camera SLAM[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2007, 29(6):1052-1067.

[9] D. M. Hoffman, A. R. Girshick, K. Akeley, and M. S. Banks, “Vergence–accommodation conflicts hinder visual performance and cause visual fatigue,” J. Vis. 8(3):33, 1–30 (2008).

[10] Mackenzie K J, Watt S J. Eliminating accommodation-convergence conflicts in stereoscopic displays: Can multiple-focal-plane displays elicit continuous and consistent vergence and accommodation responses?[J]. Proceedings of SPIE, The International Society for Optical Engineering, 2010, 7524:752417-752417-10.

[11] Hoffman D M, Banks M S. Disparity scaling in the presence of accommodation-vergence conflict[J]. Journal of Vision, 2010, 7(9):824.

[12] Takaki Y. Generation of natural three-dimensional image by directional display: Solving accommodation-vergence conflict[J]. Ieice Technical Report Electronic Information Displays, 2006, 106:21-26.

Mars说光场（1）— 为何巨头纷纷布局光场技术

Wed, 24 Oct 2018 11:44:00 +0800

《Mars说光场》系列文章目前已有5篇，包括：

《Mars说光场（1）— 为何巨头纷纷布局光场技术》；

《Mars说光场（2）— 光场与人眼立体成像机理》；

《Mars说光场（3）— 光场采集》；

《Mars说光场（4）— 光场显示》；

《Mars说光场（5）— 光场在三维人脸建模中的应用》；

雷锋网经授权发布。

【摘要】 — 光场（Light Field）是空间中光线集合的完备表示，采集并显示光场就能在视觉上重现真实世界。全光函数（Plenoptic Function）包含7个维度，是表示光场的数学模型。光场是以人眼为中心对光线集合进行描述。由于光路是可逆的，以发光表面为中心来描述光线集合衍生出与光场类似的概念——反射场（Reflectance Field）。反射场也具有7个维度的信息，但每个维度的定义与光场不尽相同。不论光场还是反射场，由于7个维度的信息会急剧增加采集、处理、传输的负担，因此实际应用中更多的是采用4D光场模型。随着Magic Leap One的上市，以及Google《Welcome to light field》在Steam上发布，光场作为下一代成像/呈像技术，受到越来越多的关注。本文将详细介绍光场的基本概念，尤其是4D光场成像相比传统成像的优势。

1、什么是光场？

在人类的五大感知途径中，视觉占据了70%~80%的信息来源；而大脑有大约50%的能力都用于处理视觉信息[1]。借助视觉，我们能准确抓取杯子，能在行走中快速躲避障碍物，能自如地驾驶汽车，能完成复杂的装配工作。从日常行为到复杂操作都高度依赖于我们的视觉感知。然而，现有的图像采集和显示丢失了多个维度的视觉信息。这迫使我们只能通过二维“窗口”去观察三维世界。例如医生借助单摄像头内窥镜进行腹腔手术时，因无法判断肿瘤的深度位置，从而需要从多个角度多次观察才能缓慢地下刀切割。从光场成像的角度可以解释为：因为缺乏双目视差，只能依靠移动视差来产生立体视觉。再例如远程机械操作人员通过观看监视器平面图像进行机械遥控操作时，操作的准确性和效率都远远低于现场操作。

人眼能看见世界中的物体是因为人眼接收了物体发出的光线（主动或被动发光），而光场就是三维世界中光线集合的完备表示。“Light Field”这一术语最早出现在Alexander Gershun于1936年在莫斯科发表的一篇经典文章中，后来由美国MIT的Parry Moon和Gregory Timoshenko在1939年翻译为英文[2]。但Gershun提出的“光场”概念主要是指空间中光的辐射可以表示为关于空间位置的三维向量，这与当前“计算成像”、“裸眼3D”等技术中提及的光场不是同一个概念。学术界普遍认为Parry Moon在1981年提出的“Photic Field”[3]才是当前学术界所研究的“光场”。随后，光场技术受到MIT、Stanford等一些顶级研究机构的关注，其理论逐步得到完善，多位相关领域学者著书立作逐步将光场技术形成统一的理论体系，尤其是在光场的采集[4]和3D显示[5,6]两个方面。欧美等部分高校还开设了专门的课程——计算摄像学（Computational Photography）。

如图1所示，人眼位于三维世界中不同的位置进行观察所看到的图像不同，用（x, y, z）表示人眼在三维空间中的位置坐标。光线可以从不同的角度进入人眼，用（θ, Φ）表示进入人眼光线的水平夹角和垂直夹角。每条光线具有不同的颜色和亮度，可以用光线的波长（λ）来统一表示。进入人眼的光线随着时间（t）的推移会发生变化。因此三维世界中的光线可以表示为7个维度的全光函数（Plenoptic Function, Plen-前缀具有“全能的、万金油”的意思）[7]。

P(x, y, z, θ, Φ, λ, t)

图 1. 7D全光函数示意图

上述光场的描述是以人眼为中心。光路是可逆的，因此光场也可以以物体为中心等效的描述。与“光场”相类似的另一个概念是“反射场（Reflectance Field）”。如图2所示，物体表面发光点的位置可以用（x, y, z）三个维度来表示；对于物体表面的一个发光点，总是向180度半球范围内发光，其发光方向可以用水平角度和垂直角度（θ, Φ）来表示；发出光线的波长表示为（λ）；物体表面的光线随着时间（t）的推移会发生变化。同理，反射场可以等效表示为7维函数，但其中的维度却表示不同的意义。

图 2. 7D反射场示意图

对比光场与反射场可以发现：光场与反射场都可以用7个维度来表征，光场是以人眼为中心描述空间中所有的光线，反射场是以物体表面发光点为中心描述空间中所有的光线。光场所描述的光线集合与反射场所描述的光线集合是完全一致的。换句话说，光场中的任一条光线都可以在反射场中找到。

2、为什么要研究光场？

【从光场采集的角度来看】以自动驾驶为例，首先需要通过多种传感器去“感知”外界信息，然后通过类脑运算进行“决策”，最后将决策以机械结构为载体进行“执行”。现阶段人工智能的发展更倾向于“类脑”的研究，即如何使计算机具有人脑类似的决策能力。然而却忽略了“眼睛”作为一种信息感知入口的重要性。设想一个人非常“聪明”但是视力有障碍，那么他将无法自如的驾驶汽车。而自动驾驶正面临着类似的问题。如果摄像机能采集到7个维度所有的信息，那么就能保证视觉输入信息的完备性，而“聪明”的大脑才有可能发挥到极致水平。研究光场采集将有助于机器看到更多维度的视觉信息。

【从光场的显示角度来看】以LCD/OLED显示屏为例，显示媒介只能呈现光场中（x, y, λ, t）四个维度的信息，而丢失了其他三个维度的信息。在海陆空军事沙盘、远程手术等高度依赖3D视觉的场景中，传统的2D显示媒介完全不能达到期望的效果。实现类似《阿凡达》中的全息3D显示，是人类长久以来的一个梦想。当光场显示的角度分辨率和视点图像分辨率足够高时可以等效为动态数字彩色全息。研究光场显示将有助于人类看到更多维度的视觉信息。

从1826全世界第一台相机诞生[8]至今已经有近两百年历史，但其成像原理仍然没有摆脱小孔成像模型。在介绍小孔成像模型之前，先看看如果直接用成像传感器（e.g. CCD）采集图像会发生什么事呢？如图3所示，物体表面A、B、C三点都在向半球180度范围内发出光线，对于CCD上的感光像素A'会同时接收到来自A、B、C三点的光线，因此A'点的像素值近似为物体表面上A、B、C三点的平均值。类似的情况也会发生在CCD上的B'和C'点的像素。因此，如果把相机上的镜头去掉，那么拍摄的图片将是噪声图像。

图 3. 无小孔的噪声成像

如果在CCD之前加一个小孔，那么就能正常成像了，如图4所示。CCD上A'点只接收到来自物体表面A点的光线。类似的，CCD上B'和C'点也相应只接收到物体表面B点和C的点光线。因此，在CCD上可以成倒立的像。

图 4. 小孔成像

实际的相机并没有采用如图4中的理想小孔成像模型，因为小孔直径较小会导致通光亮非常小，信噪比非常低，成像传感器无法采集到有效的信号；如果小孔直径足够小，当与光波长相当时还会产生衍射现象。而小孔直径过大会导致成像模糊。现代的成像设备用透镜来替代小孔，从而既能保证足够的通光量，又避免了成像模糊。如图5所示，物体表面A点在一定角度范围内发出的光线经过透镜聚焦在成像传感器A’点，并对该角度范围内所有光线进行积分，积分结果作为A点像素值。这大大增加了成像的信噪比，但同时也将A点在该角度范围内各方向的光线耦合在一起。

图 5. 透镜小孔成像

小孔成像模型是光场成像的一种降维形式，只采集了（x, y, λ, t）四个维度的信息。RGB-D相机多了一个维度信息（x, y, z, λ, t）。相比全光函数，其主要丢失的维度信息是光线的方向信息（θ, Φ）。缺失的维度信息造成了现有成像/呈像设备普遍存在的一系列问题。在图像采集方面，可以通过调节焦距来选择聚焦平面，然而无论如何调节都只能确保一个平面清晰成像，而太近或太远的物体都会成像模糊，这给大场景下的AI识别任务造成了极度的挑战。在渲染显示方面，由于（θ, Φ）维度信息的缺失会引起渲染物体缺乏各向异性的光线，从而显得不够逼真。好莱坞电影大片中渲染的逼真人物大多采用了光场/反射场这一技术才得以使得各种科幻的飞禽走兽能栩栩如生。

3、光场4D参数化

根据7D全光函数的描述，如果有一个体积可以忽略不计的小球能够记录从不同角度穿过该小球的所有光线的波长，把该小球放置在某个有限空间中所有可以达到的位置并记录光线波长，那么就可以得到这个有限空间中某一时刻所有光线的集合。在不同时刻重复上述过程，就可以实现7D全函数的完备采集。Google Daydream平台Paul Debevec团队在Steam平台上推出的《Welcome To Light Field》就是采用了类似的思想实现的。然而，采集的数据量巨大。按照当前的计算机技术水平，难以对7D光场这么庞大的数据进行实时处理和传输。因此有必要对7D光场进行简化降维。

如图6所示，美国斯坦福大学的Marc Levoy将全光函数简化降维，提出（u,v,s,t）4D光场模型[9]。Levoy假设了两个不共面的平面（u,v）和（s,t），如果一条光线与这两个平面各有一个交点，则该光线可以用这两个交点唯一表示。Levoy提出的光场4D模型有一个重要的前提假设：在沿光线传播方向上的任意位置采集到的光线是一样的。换句话说，假设任意一条光线在传播的过程中光强不发生衰减且波长不变。考虑到日常生活中光线从场景表面到人眼的传播距离非常有限，光线在空气中的衰减微乎其微，上述Levoy提出的假设完全合理。

Levoy提出的光场4D模型并不能完备地描述三维空间中所有的光线，与（u,v）或（s,t）平面所平行的光线就不能被该4D模型所表示，例如图6中红色标示的光线。尽管Levoy提出的4D模型不能完备描述三维空间中所有的光线，但可以完备描述人眼接收到的光线。因为当光线与人眼前视方向垂直时，该光线不会进入人眼。因此，这部分光线并不影响人眼视觉成像。Levoy提出的4D模型既降低了表示光场所需的维度，同时又能完备表示人眼成像所需要的全部光线。光场4D模型得到了学术界的广泛认可，关于光场的大量研究都是在此基础上展开。

图 6. 4D光场模型

4D光场模型具有可逆性，既能表示光场采集，又能表示光场显示。如图7所示，对于光场采集模型，右侧物体发出的光线经过（s,t）和（u,v）平面的4D参数化表示，被记录成4D光场。对于光场显示模型，经过（u,v）和（s,t）平面的调制可以模拟出左侧物体表面的光线，从而使人眼“看见”并不存在的物体。

图 7. 4D光场模型的可逆性

如图8所示，物体表面A、B、C三点发出的光线首先到达（u,v）平面，假设（u,v）平面上有三个小孔h1、h2、h3，则A、B、C三点发出的光线经三个小孔分别到达（s,t）平面。A、B、C三点在半球范围内三个不同方向的光线被同时记录下来，例如A点三个方向的光线分别被（s,t）平面上A3’、B3’、C3’记录。如果（u,v）平面上小孔数量更多，且（s,t）平面上的像素足够密集，则可以采集到空间中更多方向的光线。需要说明的是，图8中展示的是（u,v）（s,t）光场采集模型在垂直方向上的切面图，实际上可以采集到A、B、C三点9个不同方向（3x3）的光线。

图 8. 4D光场采集空间光线示意图

图像分辨率和FOV（Field Of View）是传统相机成像性能的主要指标。衡量4D光场的指标不仅有图像分辨率和FOV，还有角度分辨率和FOP（Field Of Parallax）。图9展示了基于微透镜阵列的光场相机的光路示意图，物体表面发出的光线进入相机光圈，然后被解耦和并分别被记录下来。以B点为例，发光点B在半球范围内发出各向异性的光线，但并不是所有的光线都进入相机光圈，只有一定角度内的光线被成功采集，被光场相机采集到的光线的角度范围决定了能够观察的最大视差范围，我们记这个角度为FOP。换句话说，图9中光场相机只能采集到B点FOP角度范围内的光线。但FOP的大小随着发光点与光场相机的距离远近而不同，因此通常采用基线的长度来衡量FOP的大小，图9中主镜头的光圈直径等效为基线长度。

图9中B点在FOP角度范围内的光线被微透镜分成4x4束光线，光场相机的角度分辨率即为4x4，光场相机的角度分辨率表征了一个发光点在FOP角度范围内的光线被离散化的程度。而基于小孔成像模型相机的角度分辨率始终为1x1。光场的视点图像分辨率同样表征了被采集场景表面离散化程度，成像传感器分辨率除以角度分辨率即为视点图像分辨率。

图 9. 透镜阵列4D光场的图像分辨率和角度分辨率

基于相机阵列的光场相机同样可以用视点图像分辨率、角度分辨率、FOV、FOP四个参数来衡量光场相机的各方面性能。如图10所示为4x4相机阵列，B点半球范围内发出的光线中FOP角度范围内的光线被相机阵列分成4x4束并分别被采集。相机的个数4x4即为角度分辨率，单个相机成像传感器的分辨率即为视点图像分辨率。所有相机FOV的交集可以等效为光场相机的FOV。基于相机阵列的光场相机的基线长度为两端相机光心之间的距离。一般而言，基于相机阵列的光场相机比基于微透镜阵列的光场相机具有更长的基线，也就具有更大的FOP角度。

图 10. 相机阵列4D光场的图像分辨率和角度分辨率

4、光场4D可视化

4D光场数据可以表示为（Vx, Vy, Rx, Ry），其中（Vx, Vy）表征了角度分辨率，表示有Vx*Vy个视点（View）图像；（Rx, Ry）表征视点图像分辨率，表示单个视点图像的分辨率为Rx*Ry。如图11中上侧图展示了7x7光场的可视化，表示共有49个视点图像，每个视点的图像分辨率为384x512。视点图像分辨率越高，包含的细节越多。角度分辨率越高，单位角度内视点数量越多，视差过度就越平滑。角度分辨率越低，视点就越稀疏，观看光场时视点跳跃感越明显。假设在10度的可视角度内水平方向上包含了7个视点，相邻视点间的角度为1.67度，在2米的观看距离，相邻两个视点的水平距离为29毫米。当视点个数减少，相邻视点的空间距离变大，观看者移动观看位置时就会感到明显的视点跳跃。

光场中任意两个视点间都存在视差，将光场（Vx, Vy, Rx, Ry）中的部分视点图像放大，如图11中下侧所示；同一行所有视点图像之间只有水平视差，没有垂直视差；同一列所有视点图像之间只有垂直视差，没有水平视差。

图 11. 光场角度分辨率和视点分辨率可视化分析

光场作为高维数据，不便于可视化分析。为了更好的分析光场中的视差，往往将光场中某一个水平/垂直视点上所有图像的同一行/列像素堆成一幅2D图像，称之为光场切片数据（Light Field Slice）。光场切片图像可以将光场中的水平视差和垂直视差可视化，便于直观分析。如图12中蓝色线条所在的行像素堆叠后就形成了图12中下侧的光场切片图像。类似的，如图11中将光场中同一垂直视点上所有绿色线条所在的列像素堆叠后就形成了图11中右侧的光场切片图像。

图 12. 光场切片图例

5、光场技术展望

从全世界光场技术的发展趋势来看，美国硅谷的科技巨头争相布局和储备光场技术，有些甚至已经出现了Demo应用。在光场的采集方面，例如Google在Steam平台上发布的《Welcome to Light Field》、Lytro光场相机。在光场显示方面，例如Magic Leap采用的两层离散光场显示技术、NVIDIA发布的近眼光场显示眼镜、Facebook旗下Oculus的道格拉斯•兰曼团队正在研发的光场VR头盔。

光场技术的研究主要分为两大方面，包括光场采集和光场显示。光场采集技术相对更成熟，在某些To B领域已经基本达到可以落地使用的程度。光场采集主要是提供3D数字内容，一次采集可以推广使用，这并不要求由个体消费者来完成，一般都是由一个团队来完成。因此对于光场采集系统的硬件成本、体积、功耗有更大的可接受度。相比之下，光场显示是偏向To C的产品，个体用户在成本、体积、功耗、舒适度等多方面都极度挑剔。光场显示在多个高校和科研机构已经完成了原形样机的开发，在通往商业化实用的道路上，目前最大的挑战就在于光场显示设备的小型化和低功耗。

Magic Leap One的推出似乎并没有达到消费者原本对它的期待，这其中的差距是可以解释的。是否具备光场显示对于VR/AR头盔来说最大的区别是能否解决VAC (Vergence–Accommodation Conflicts) 问题，关于VAC的解释具体可参见《Mars说光场（2）— 光场与人眼立体成像机理》。当前的VR/AR头盔只有一层呈像平面，会引起头晕、近视等VAC问题。当光场VR/AR头盔中呈现无穷多层不同距离上的呈像平面时，VAC的问题就会得到完美解决。然而在可预见的未来，实现无穷多层呈像平面的光场显示技术是不现实的。换句话说，在可预见的未来，让个体消费者能使用上100%完美理想的光场显示设备，这本来就是一个不切实际的目标。因此只能尽量增加光场中呈像平面的层数，VAC的问题随着呈像层数的增加就会得到越发明显的改善。当呈像层数达到一定数量以后，人眼已经无法明显感受到VAC。就像手机屏幕的分辨率达到一定密度以后，虽然仍是由离散的像素点构成，但人眼已经无法分辨。因此，并不需要刻意追求无穷多层可连续聚焦的光场显示。

在Magic Leap One上市之前，所有商业化的显示设备都是在追求分辨率、色彩还原度等指标的提升，而从来没有显示维度的突破。Magic Leap One是目前全世界范围内第一款具有大于1层呈像平面的商业化头戴显示设备。Magic Leap One的2层呈像平面相比HoloLens的1层呈像平面在视觉体验上并不会带来明显的改善，但是在对长期佩戴所引起的疲劳、不适、近视等问题是会有所改善的。然而用户对此并不买账，可以解释为三方面的原因：（1）目前VR/AR设备的用户使用时间本来就很短，用户对于缓解疲劳等隐性的改善没有立即直观的体验，这些隐性的改善往往会被忽略。（2）现代消费人群没有体验过黑白电视和CRT显示器，在新兴消费人群中1080P、全彩色、无色差等是他们对显示设备的底线要求，而且这种底线还在逐年提高。当Magic Leap One上市时，一旦分辨率或色彩还原度低于消费者能接受的底线，纵然光场显示带来了其他的隐性改善，但消费者会在第一印象中产生抗拒情绪。相比手机的高质量显示，Magic Leap One和HoloLens在显示的质量上都有所退化，对于已经习惯2K的用户而言，很难接受这样的显示质量退化。（3）Magic Leap One的呈像平面从1层增加到2层，这并代表其视觉体验就能改善2倍。只有当呈像平面达到一定数量以后，人眼才能感觉到视觉呈像质量的明显改善。

尽管Magic Leap的2层光场显示并没有得到用户的高度认可，但它在显示的维度上实现了0到1的突破。光场显示层数能够从单层增加到2层，这是光场显示技术商业化的良好开端，后续从2层增加到10层甚至20层只是时间的问题了。回顾手机发展历史，手机显示经历了从大哥大时代的单行黑白屏到现在iPhone X约2K全彩显示屏。我相信目前光场显示设备就像30年前的大哥大一样，正处于黎明前的黑暗，必然还需要经历多次的进化。一旦成功，其最终光场显示的效果相对目前的智能手机来说将会是革命性的进步。

[1] E. N. Marieb and K. N. Hoehn, Human Anatomy & Physiology (Pearson, 2012).

[2] A. Gershun, “The light field,” Moscow, 1936, P. Moon and G. Timoshenko, translators, J. Math. Phys. XVIII, 51–151 (1939).

[3] Moon P, Spencer D E. The photic field[J]. Cambridge Ma Mit Press P, 1981, 1.

[4] Zhang C, Chen T. Light Field Sampling[J]. Synthesis Lectures on Image Video & Multimedia Processing, 2006(1):102.

[5] Javidi B, Okano F. Three-Dimensional Television, Video, and Display Technology[J]. Materials Today, 2003, 6(2):50.

[6] Ozaktas H M, Onural L. Three-Dimensional Television: Capture, Transmission, Display[J]. Thomas Telford, 2008, 2(1):487 - 488.

[7] E. Adelson and J. Bergen, “The plenoptic function and the elements of early vision,” in Computational Models of Visual Processing (MIT, 1991), pp. 3–20.

[8] Todd Gustavson, George Eastman House. Camera: A history of photography from daguerreotype to digital[M]. Sterling Innovation, 2012.

[9] M. Levoy and P. Hanrahan, Light field rendering[C]. Proceedings of ACM SIGGRAPH, 1996.

亮风台2D AR算法新突破，夺冠世界权威评测 | ICRA 2018

Tue, 09 Oct 2018 17:54:00 +0800

在目前的AR应用中，2D AR跟踪，如海报、卡牌等平面物体的跟踪已经成为核心技术之一，在营销、教育、游戏、展示展览等方面都很常见。然而，尽管近年来2D AR跟踪算法已经取得了很大的进步，但在一些外部条件、环境因素影响下的效果仍然有很大提升空间，如何处理光照变化、运动模糊等因素带来的挑战，也是目前进行底层算法研发的AR公司以及学者的研发热点。

雷锋网近日消息，AR公司亮风台在2D AR跟踪方面取得了新突破，其研发人员提出的基于约束置信度的鲁棒跟踪算法（CCM），提高了在局部遮挡、光照变化和运动模糊等各种因素干扰情况下的鲁棒性，并在UCSB和TMT两个国际评测集中刷新了最好成绩。目前，这一成果已经在机器人领域顶级会议ICRA 2018上发表。ICRA 是机器人领域三大顶级会议之一（其它两个为IROS和RSS），AR跟踪的很多经典工作（例如ESM跟踪算法）都曾在ICRA和IROS上发表。

在局部遮挡、运动模糊和照明改变条件下的CCM算法效果示例（只显示在目标周围放大的区域以便展示）

据了解，这两年亮风台依然有不少工作在针对2D AR的算法优化，在2017年的ICRA上发表了针对光照变化的基于梯度方向的AR跟踪算法；同年提出的基于图匹配的跟踪算法利用图结构来处理目标物体内部的空间关联，从而实现在强干扰的准确平面物体跟踪，该工作已被人工智能领域国际顶级期刊《PAMI》（IEEE模式分析和机器智能汇刊）录用。其它在CVPR、ICCV、ECCV、ICRA、ISMAR、PAMI 等AI、CV、AR相关领域顶级期刊会议上公开发表的研究成果涉及图像语义识别、人脸图像分析、手势识别、AR场景建模定位、超图匹配，视觉显著性等方面。

基于约束置信度的鲁棒跟踪算法（CCM）

跟踪平面物体，例如2D标记，通常是相机定位和场景配准的重要步骤。在过去的几十年中，大量的研究致力于视觉跟踪问题，平面目标跟踪的流行方法可以大致分为基于关键点的方法和基于模板的方法。基于模板的方法直接利用像素的外观而不提取特征，并基于牛顿法或其变体优化模板与捕获图像之间的相似性度量，以确定平面的姿态。

不同与传统的基于模板的跟踪方法，CCM（ Constrained Confidence Matching）根据测量噪声对每个像素分配不同的匹配系数，而不是在计算运动参数时对模板中的每个像素进行相同的处理。在此基础上，为了进一步提高对光照变化和重运动模糊的鲁棒性，亮风台研发人员还提出了一种鲁棒卡尔曼滤波器，它采用新的控制输入模型来处理物体的外观变化。

给定目标的初始图像或位置，新方法（即CCM）自动从视频中跟踪定位目标所在位置。

第一步：从视频第一帧中提取目标区域作为模板T；

第二步：从视频读取下一帧图像It；

第三步：在图像It中跟踪匹配目标；

第四步：根据第三步的跟踪结果更新模板T。

第五步：跳转到步骤二处理下一帧图像。

测试结果

为了彻底评估，CCM算法在两个公共数据集上进行了测试：加利福尼亚大学提出的UCSB基准和加拿大阿尔伯塔大学提出的操作任务跟踪（TMT）基准。UCSB数据集包括96个视频流，显示6个不同纹理的平面目标，总共6889帧，具有几何失真（摇摄、缩放、倾斜、旋转）、九个运动模糊等级以及不同的照明条件，所有帧都受到不同程度的噪音影响。TMT数据集由人为和机器记录的操作任务的图像序列组成，它包含109个图像序列，共70592帧。

对应于每个视频类别的平均跟踪精度汇总在表I（UCSB）和II（TMT）中，如下：

从实验结果可以看出，所提出的CCM算法在两个数据集上显著地优于所有基线。事实上，CCM在几乎所有视频类别中都获得了最佳或几乎最佳的跟踪性能，明显优于现有的主流跟踪算法，如基于关键点的跟踪（keypoint-based tracker）,基于模板的跟踪（ template-based tracker）以及概率跟踪（probabilistic tracker），并且它对于极端姿态变化以及严重的环境扰动都表现出很高的鲁棒性。

CCM算法与其他算法相比，在各类内在和外在变化的几个典型示例如下，包括具有重复图案的图像倾斜；剧烈而动态的日落画面引起照明变化，纹理非常弱；存在部分遮挡；运动模糊，在这种情况下检测不到可靠的关键点。

AR的研究仍需持续努力

尽管计算机对于“常规”平面物体的认识已经能达到很高的速度、精度，以及稳定性，但这明显还不够，研究人员希望计算机能够尽可能“模拟”人的视觉效果，甚至在一定条件下超过人眼，这样，在算法工程化之后面向普通用户时，才能保障优质的用户体验，如在传统的平面物体跟踪中，容易出现快速运动丢失或漂移等现象，反映到用户体验上，车窗外的广告牌就容易识别不到，在走动过程中玩AR游戏发现地面上的家具会“飘”起来等。

这就需要相关的学术人员以及企业研发人员不断的优化算法、提出新方法，如此才能结合不断升级的硬件环境实现高度的市场化。对于目前的2D AR甚至整个AR行业来说，需要从业人员把现有技术应用化市场化，但同样需要大量真正的创新人员向前推进底层技术边界，让AR走向成熟。

扎克伯格的10亿VR用户目标：目前进度条走了1%

Thu, 27 Sep 2018 13:11:00 +0800

，

这两年，VR的发展已经趋于平静，让人惊讶到直呼“Wow”的新进展并不多见。然而在今天的Oculus Connect5大会上，这种呼声超出雷锋网编辑预期。

在OC5大会上，我们终于等来了头手6Dof的VR一体机Santa Quest（原代号Santa Cruz）,其拥有超过数千平方的大范围追踪能力令人惊讶；此外，Santa Quest目前已经具备三维空间建模能力，能实现现实世界与虚拟世界融合，将现实世界的环境和物体呈现在虚拟世界中，解决了VR与现实世界隔离的问题，向混合现实迈出了一大步。这两个大消息令雷锋网编辑感到久违的激动。

实现十亿VR用户的三个关键

去年，在Oculus Connect4大会上，扎克伯格出场就信心满满地宣布：“Facebook要让十亿人进入VR的世界。”一年过去了，这个计划完成得怎么样了?

答案是：1%。

Facebook目前已经有接近20亿的用户，扎克伯格用了不到十年达到这个数字。VR的开端似乎要慢一些，但是扎克伯格对于1%这个数字并没有沮丧。

在他看来，实现这一VR宏图需要为开发者建立一个良好的生态，让他们能够轻易地为全部人群打造内容，同时要有吸引人的产品。他认为目前要打造受欢迎的VR设备，需要具备三个基本条件：一体机、VR中的手部呈现、头部六个自由度追踪。简单来说就是一款具备头部和手部6Dof追踪的VR一体机——Santa Quest。

Oculus Insight大空间定位追踪

Santa Quest正是2016年初就以原型发布的“Project Santa Cruz”,去年11月就已经开始向开发人员发货，这款产品让人等待的时间有些漫长，不过所幸没有让人失望。Santa Quest的定位追踪系统被称为“Oculus Insight”，头显使用4个超广角传感器实现inside-out tracking，不需要借助外部定位器就能实现大范围定位和6Dof运动追踪。

Oculus Rift能够创造房间级别的定位追踪，而Santa Quest的可用面积达到4000平方英尺（约合4000平方米）。在现场，Oculus展示了占地数千平方英尺的大空间多人射击游戏。他们不仅能够在大空间中移动，还能够在战斗中利用真实物体进行遮挡。

空间三维重建

VR一体机实现头手6Dof不是新鲜事，但是能进行空间三维重建却是一项很有意义的创新。

Oculus Insight能够识别现实环境的地板、天花板、墙面、窗帘、家具以及这些物体的材质，然后建立起分散点云式的3D地图，能够感知毫秒级的头部位置变化。

大空间的移动最担心的是安全。借助Oculus Insight ，Oculus Quest配备了Guardian系统，它可以存储多个房间数据可以提醒用户房间里的物体位置，防止碰撞。在此前，一些具备头手6Dof的VR一体机需要设置一个1-3米的安全区域来防止用户碰撞到现实空间的物体，而Guardian系统显然更为自由方便。

有了空间三维重建，显然可以做更多事情，比如将现实世界的图像与虚拟世界相融合，实现部分MR功能。

Andrew介绍了一种全新的VR图景。当你带着Santa Quest时，你看到的景象是虚拟的内容叠加在真实的物理空间之上，不过这并不是混合现实，因为真实的空间只是以一种轮廓线条的方式出现，能让你区分出你熟悉的场景中的物体摆放。

例如，你戴着头显时如果收到一条工作信息，你可以直接使用你的电脑键盘进行回复，你在VR里开虚拟会议时，还可以看到真实的办公环境一位同事向你走来。不过因为这项技术还在早期阶段，春季推出的设备还不能使用。

Oculus Quest的产品定位

硬件方面，Oculus Quest搭载高通骁龙835处理器、显示屏拥有1600✖1400分辨率、支持瞳距调节、头戴可调节也很方便佩戴眼镜的用户。

Santa Quest最感动人的应该就是价格了，64GB价格为399美元。春季发售时，将有50款内容支持Santa Quest，包括Oculus Rift上的《Robo Recall》、《Moss》、《The Climb》、《Deadand Buried》等多款作品。

扎克伯格介绍到， Oculus一代产品线三款产品已经齐备，有主打观影的低价的VR一体机Oculus Go，有中高端的VR一体机Santa Quest，还有高端PC VR头显Oculus Rift。

去年的OC4最大的消息就是Oculus Go面市，这款低价的VR一体机带给消费者很大的期待。据介绍，80%的Oculus Go用户都是新增长的VR用户，这说明低廉的价格和还不错的VR体验对用户来说具备吸引力。

但是我们发现，很多人在使用过Oculus Go之后，仍然向往Oculus Rift能带来的高端体验。Oculus Go只是一个3D屏幕，没有任何身体的交互，而Oculus Rift能把人的身体运动带进虚拟现实，这是目前为止VR最致命的吸引力所在。

HTC Vive和一些VR创业公司也推出了具备头手6Dof运动追踪的VR一体机，但是价格高达3999元。这些高端VR一体机6Dof追踪的范围不如PC VR，唯一的优势在于不用连接电脑，但是不连接电脑就没法提供高性能的游戏体验，显得有些鸡肋。

这样看来，Santa Quest是三款产品中定位中高端的产品，全方位碾压Oculus Go，且在一些方面优于Oculus Rift。价格方面，Oculus Rift目前在美国地区售价399美元，与Santa Quest齐平，但是你还需要一台能支持Oculus Rift的高性能电脑，适合已有高性能电脑的用户购入，Santa Quest则更吸引不想花钱再买一台高性能电脑的人群。定位追踪当面，Santa Quest的大空间定位追踪已经直接超越Oculus Rift，此外，没有线缆的束缚，也将进一步提升VR体验。不过，VR一体机的性能还是无法与PC比肩，Santa Quest更吸引不追求高性能游戏体验，喜欢社交、轻量游戏的用户。

不过，VR一体机与PC VR界限已经越来越模糊。PC VR加上无线套件就可以摆脱线缆，VR一体机加上无线套件就能拥有与PC VR一样的性能。

小结

整体来看，2016年HTC、Oculus、Sony推出各自的PC VR头显之后，已经定义了目前高端VR体验标准，这两年PC VR没有巨大的变革，更多的是方方面面的升级和优化。例如：更大面积的定位追踪、更高清的屏幕显示、更大的视场角、无线传输。

另一方面，VR一体机强势崛起，是各大公司都在发力的方向，低价的VR一体机用来吸引用户，越来越接近PC VR的高端VR一体机越来越多。在移动互联网时代，PC颓势已经难以挽回。在雷锋网看来，高端VR一体机可以帮助VR公司获得对VR体验有着高要求，却不愿意购买高性能电脑的用户，开拓没有被PC VR吸引的用户群，进一步扩大VR用户数量，以此吸引更多开发者加入进来开发VR内容，促进软件和硬件生态的良性发展。

Magic Leap One在AR交互上的三点创新

Mon, 24 Sep 2018 19:33:00 +0800

在围观了不少外媒记者上手体验Magic Leap One（一下简称ML One）后，雷锋网记者也亲身体验了ML One。

9月15日，灵犀微光举办了一场ML One现场体验活动，雷锋网受邀进行了体验。

在Magic Leap最先开始公布Magic Leap One的渲染图时，其蒸汽朋克式的外形就被严重吐槽，最糟糕的评价曾说其看起来像苍蝇眼睛。不知道是不是因为已经看了很多次了，在看到真机时，雷锋网编辑并没有觉得眼镜外形难看，眼镜整体设计看起来很流畅，有种高级感。不过，本人戴起来并不好看，有些心塞。

首先说一下佩戴，ML One比HoloLens轻不少，佩戴起来也更舒服。不过ML One眼镜电池部分发热明显，佩戴十分钟左右鼻翼处就会有一些汗水出现，倒没怎么影响体验。

雷锋网编辑体验了Magic Leap中的《Helio》、《Create》、《Tonandi》，Magic Leap宣传最多的射击游戏Invader还没有上线。为了进行直接对比，还体验了HoloLens的《Fregment》。

进入Magic Leap后，眼前会看到一个圆环形的操作界面，滑动控制器的圆形触摸按键可以进行选择。Magic Leap的控制器比Google Daydream的控制器要厚重一些，控制器上主要有圆形触摸按键、Home健，下方有一个扳机键，这三个键操作简单，很容易上手。与HoloLens一直需要用两个手指轻碰来进行操作的体验相比，Magic Leap的控制器使得操作轻松了很多。

进入任何一款游戏/内容之前，ML One需要进行的第一个步骤是感知周围环境，构建数字地图。ML One的环境感知功能的界面设计明显要比HoloLens更好。ML One在开始环境扫描时，眼前立即能看到一大片密密麻麻的数字网格，覆盖在真实的空间和物体之上，然后ML One会用一个小的箭头方向提醒你向该方向转动头部，随着你转动头部，更多的网格会出现在你视线经过的地方，当你头部转动到合适的位置时，会有一个双重圆形提醒你注视一段时间，以完成这个区域的环境扫描。以上动作会持续进行，直到ML One已经识别出地面、天花板、墙面、已经环境中的所有物体。

对比来看，《Fregment》也是一款需要感知大面积环境后才能玩的游戏，在扫描环境的过程中，HoloLens会ml发出语音指令，让你把目光看向地面、天花板、墙面等地方，然后会有大片大片的蓝色图形出现，看起来识别的精度不如ML One，交互也稍微没那么流畅。

完成环境扫描后，就可以开心地玩起来啦。

Create是一款类似于《我的世界》（Minecraft）的创造类游戏，其会显示出一个数字橱窗，上面有各种各样的物体，你可以用圆形触摸键选择，选中后按住扳机键，将其拖到你想要放置的地方。Create这款游戏展示了ML One诸多强交互内容。

第一，虚拟物体与环境的交互。当你在桌面上放置了一个小机器人时，机器人走着走着会掉在桌子下面去。

第二，虚拟物体与虚拟物体的交互。当你把红色机器人和蓝色机器人放置在同一个位置时，他们会直接打起来，直到其中一个机器人被杀死。如果你放置了蛋糕和恐龙，恐龙会吃掉蛋糕。

第三，人与虚拟物体的交互。这一点在其实是《Create》中不明显，但是《Tonandi》却有很明显的展示。《Tonandi》是一个很炫酷的数字图形展示内容，有漂浮的大片海草、音符等数字内容，当这些内容出现在环境中时，你可以用手去触碰它们。比如，随着你手的触碰，海草的漂浮方向会随着你手移动而改变。

灵犀微光创始人郑昱认为，从以上三点来看，ML One可以说做出了很大的创新，并不如很多人评论所说ML One毫无新意，令人失望。雷锋网编辑也感觉到，ML One的内容设计和交互确实都在HoloLens之上。

ML One的视场角是水平40度，垂直30度，只比HoloLens的水平35度视场角大一些，但是从体验来看，却大了不少。首先HoloLens的内容暴露了其视场角小的缺陷，在体验《Fregment》时，由于是一款场景和内容都较为复杂的解密游戏，其内容总是超出其视场角的显示，你不得不退后很远才能看到完整的画面，不断调整距离让人感到有些累人。而ML One目前体验的内容都在其视场角内。其次，ML One的显示边框比较暗，HoloLens的边框更为明显，所以感觉ML One视场角大很多。

不过，雷锋网编辑也注意到，HoloLens的显示比ML One更亮。HoloLens的体验台在亮光下，内容显示依然亮度足够，而ML One即使在昏暗的区域体验，仍然感到没有HoloLens的亮度高。

当然，Magic Leap最让雷锋网编辑好奇的是其通过六层光波导实现的近处和远处两个距离的动态焦距调节，因此体验时特别注意了一下。不过，确实如很多外媒记者所言，动态调焦效果并不明显，无法感受到有两个不同距离的图像。雷锋网编辑多次尝试把视线在近处和远处两个点转换，但是也没看到变化。在不经意间，似乎有感受到数字内容跳动了一下。当天，现场体验的人似乎也并没有感受到这个效果。不过ML One的动态调焦功能的好处在于，不戴眼镜也可以看得清楚。

总体来看，ML One的体验是让人感到舒服的，只是，确实已经没有惊艳的感觉。

专利曝光苹果AR眼镜光波导，有远中近三个图像平面

Mon, 17 Sep 2018 19:19:00 +0800

雷锋网按：不少人对Magic Leap的期待落空后，只能将期望寄托于2021年会发布的苹果AR眼镜。近日 Patently Apple 在欧洲又发现了苹果的新专利，该专利与传说中的苹果眼镜密切相关，专利中的头戴设备不但支持苹果主推的 AR，还一并支持 VR 和全息内容的显示。专利详细描述了苹果的光波导方案，与Magic Leap的两层光波导方案相比，苹果可以显示远中近三层图像平面。

产品展望：苹果的头戴显示设备专利未来可能还会进化成多种产品，比如便携消费电子（手机、平版电脑、眼镜和其它穿戴设备）、抬头显示器（飞机和汽车座舱等）和基于显示器的设备（投影仪、电视等）。上述设备可能会包含屏幕和其它光学组件，系统则会支持混合（MR/VR/AR）现实等内容。

专利背景：头戴显示器可以用来显示 VR 和 AR 内容。显示 AR 内容时，它会将计算机生成的图像覆盖在现实世界的物体上，而屏幕和光学系统则用于生成图像并将图像展示给用户。

如果技术达不到要求，那么头戴设备上展示内容的零部件可能就会异常庞大且丑陋，而且这样凑合的设计可能也无法实现相应的光学性能。

类似头戴显示器这样的光学设备大都需要搭载能生成图像的显示系统。一套搭载了一个或更多光波导管的光学系统和输入/输出耦合器系统也能用于为用户分发图像。

输入和输出耦合器系统可能会搭载单耦合器、耦合器堆栈和铺瓦式阵列耦合器。这些耦合器可能是薄平面体积全息图，也可能是其他光学耦合器，它们可以将光耦合进或耦合到延长的带状光波导管上下表面。

类似波长、偏振、时间分割和角多路复用技术的图像信号都有不同的角定向范围，透镜可调技术也可用于向用户展示多个图像平面上图像。

下图就是苹果专利中的头戴显示器示意图。

图1

这款头戴显示器 #10 可能搭载有输入-输出电路 #52，它让头戴显示器能从外部设备接收数据，同时让用户能完成输入。输入-输出电路 #52 中的零部件还能让头戴显示器为用户提供输出功能，甚至帮他们与外部电子设备进行交流。

输入-输出电路 #52 中的摄像头或其它设备可能会朝向用户眼睛并追踪他们的眼部活动。传感器 #70 则可能整合了位置和动作传感器（如罗盘、陀螺仪、GPS 和加速度计等），以监控头戴显示器 #10 的位置、朝向和动作。

举例来说，利用传感器 #70 和控制电路 #50 就能监控用户头部相对于周围环境的朝向。利用传感器，用户头部的动作也能进行实时追踪。

FIG.2 中的支撑结构 #16 稍加配置就能改造出一副眼镜，当然也能做成头盔、护目镜或其它形式的头戴设备。

光学系统稍加设定就能显示不同图像平面 #94 上的不同图片。这就意味着较远的物体（如风景图中的山巅）会出现在较远的图像平面上（如远场图像平面 #94D），较近的物体会出现在较近的图像平面上（如近场图像平面 #94N），而其他物体可能就会出现在中距离的图像平面上（#94-I）。通过这样的解决方案，就能为用户带来逼真的 3D 图像内容，同时减少用户眼部疲劳和不适。

图2

苹果专利中的 FIG.2（上图）是头戴设备的俯视图。

全息系统：下图 FIG.6 是光学系统（带有光波导管和邻近的像素阵列）的截面侧视图，这套系统搭载了光波导管、像素阵列和辅助全息输入耦合器和全息输出耦合器堆栈，它们会各自对光线做出反应，这些光线有不同的朝向、范围和图像平面。

图3

可调透镜：下图 FIG.13 是光学系统图解，其中涉及到了呈现图像的可调透镜、光波导管和输入-输出耦合器。

图4

传感器：苹果在专利中指出，它们的头戴设备将配备温度、触摸、电容、光感、气体、压力湿度、磁性、形变和力传感器等。

音频部件：音频部件肯定少不了采集语音命令和其它音频输入的麦克风，当然提供音频输出的扬声器也不会落下（如入耳式耳机、骨传导扬声器等）。

触觉反馈：输入-输出设备可能会配备触觉输出设备（如振动机构），发光二级光或其它光源和输出部件。

无线通讯：设备电路可能会支持有线和无线连接，以方便头戴显示器与外部设备“沟通”（如遥控、操纵杆、便携电子设备、计算机、屏幕和其它输入手柄等）。这样一来，信号就能在头戴显示器不同部位上的零部件间自由传输了。

苹果这份专利申请今年第一季度才提交，9 月 13 日正式在欧洲通过。

雷锋网注意到，题图来自苹果 2013 年申请的一份头盔显示器（HMD）专利，而今天这份专利则是实用专利，它聚焦于设备的机械结构而非外观。也就是说，这并不是一份设计专利，因此其中的任何头戴显示器图片都是用来解释产品原理的。当然，粉丝们也不用担心，有 Jony Ive 和他的设计团队坐镇，无论是头戴设备还是眼镜，苹果在设计上都不会让人失望。

Via. Patently Apple

二十二步，拆Magic Leap One

Mon, 27 Aug 2018 11:17:00 +0800

雷锋网按：Magic Leap One 的混合现实技术过去几年一直吊着大家的胃口，当它出现在工作室的拆解台上时，我们大家都有种穿越的感觉。鉴于这家神乎其神的公司已经融资 23 亿美元，我们真心希望它们在产品里加了魔法粉，因此 iFixit “狠心”对其进行了拆解。雷锋网编译了全文，让我们一起来看看 Magic Leap One 到底有什么黑科技吧。

第一步

在拆解这款万众期待的产品之前，我们还是不得不罗嗦下参数：

Magic Leap One 用上了英伟达 Tegra X2 (Parker) SoC，辅佐它的是 2 个 Denver 2.0 64 位核心和 4 个 ARM Cortex A57 64 位核心。GPU 方面则采用了基于 Pascal 的集成 GPU，它配备了 256 个 CUDA 核心。

在存储上，Magic Leap One 则采用了 8 GB+128 GB 的组合。接口除了 USB-C，还支持正在被逐步遗忘的 3.5 毫米耳机接口。网络方面不但支持 Wi-Fi 802.11ac/b/g/n，还配备了蓝牙 4.2。

其实这款英伟达 SoC 原本是为车载应用设计的，它已经在特斯拉等厂商的自动驾驶和 ADAS 系统中占据了重要地位。看起来，Magic Leap 好像错选了产品，不过拆开了才发现，这种为了绘图和理解环境采用的多层外部传感器设计与自动驾驶汽车是异曲同工。

第二步

不看广告看疗效，在将 Magic 拆成“碎片”之前，我们先体验了一下，看看这款声名在外的产品能否提供宣传中所谓超凡脱俗的体验。

可靠的红外摄像头这次可立了大功，鼻梁上方频闪的红外投影仪能提供深度感应，其原理与 iPhone X 的 Face ID 和 Kinect 类似。

如果你凑近看，还能在每个镜片上额外发现 4 个红外 LED，它会“秘密”点亮你的眼球，方便进行追踪（随后我们会详细分析追踪器）。

第三步

在正式开始前，我们得再罗嗦点专业内容：

内容创作得从 Lightpack 说起，它能提供电力并控制数据处理，除此之外还能发送图像和声音数据给头戴设备（Lightwear）。

与此同时，Lightwear 能追踪手柄的位置和朝向，并对你的周边环境进行绘图以插入虚拟元素。

至于这些虚拟元素如何生成，这属于另一个讨论范畴了。

第四步

玩转“混合现实”可不容易，毕竟想在屏幕上搞增强现实是一回事（比如智能手机和带外置摄像头的 VR 屏幕），但想在实际的，未经过滤的现实“画布”上可要难得多。为了要展现自己的魔术，Magic Leap One 用到了两个巧妙的技术：

波导显示器——其实它本质上是个透明屏幕，波导（Magic Leap 称其为“光子光场芯片”）会引导光（这里可理解为图像）通过一层薄薄的玻璃，随后放大并映入用户的眼睛中。

焦平面——在 VR 显示器上，所有事物都是对上焦的。不过在现实中眼睛看到的世界可不是这样，“背景虚化”我们的眼睛也能玩出来。为了模拟这种效果，Magic Leap 叠加了多个波导来创造焦平面，将图像切割成清晰和模糊的区域。

第五步

这一部分，我们还是一同挖挖隐藏在里面的光学宝藏吧。快速测试里我们取下了偏光镜片，为的是深入挖掘，看能不能有什么新发现。

说实话，这副眼镜里面的设计毫无美感，除了突出的红外线 LED，还有布满条纹的波导“显示”区域，以及一些奇怪的胶水。

波导区域由 6 个不那么漂亮的薄膜层压成，每层之间都有小的气隙。

其边缘区域看起来像是手喷的黑色，这样处理应该是为了最大限度地减少内部反射和干扰。

第六步

在固定用的头带内，我们则发现了一级激光标签。在眼睛上玩激光？是不是觉得有些吓人？别担心，正常使用中它非常安全，甚至比你的 CD 机都安全。

拧松标准 Torx 螺丝并取下面板，这时你能看到第一个扬声器（一共两个）。它通过弹簧进行连接，还有彩色垫圈保护。这可能是这款设备最好维修的地方了。

这些面板下，还隐藏了单个内置电缆的两个上端，同时还有调整佩戴角度的磁力点。

不过，头带右侧凸出的那个黑色小盒子又是什么？

第七步

注：调查显示，这是一个拥有六自由度的磁力传感器线圈，它的存在是为了追踪手柄的位置。

同时，它还能测量三个垂直磁场的强度以确定控制器相对于头戴设备的位置和朝向。

打开手柄后，我们发现了更大的追踪器和一块 8.4 Wh 的电池。

在线圈外壳中喷涂铜屏蔽可能是为了防无线电干扰，同时还不会干扰磁场。

干扰问题可能就是跟踪器设计在如此奇怪位置的原因，而且这可能只是个暂时的解决方案。说实话，这样的技术有点老，而且对左撇子相当不友好。

注：我们还找到了看起来是定制的触控板（配了 LED），难道这是未来的光线跟踪硬件？

第八步

拆下头带和内面板后，我们终于能清晰了解眼部追踪红外发射器到底长什么样了。令人惊讶的是，它居然是串联在一起的，无法单独控制。

最后，我们“抠”出了 Magic Leap 的“心脏”：光学和显示组件。

最激动人心的时刻要来了，大家最好准备。

第九步

掀起一个内部传感器阵列后，我们在下面找到了将图片注入波导的光学系统。

注：这些明亮的颜色来自从衍射光栅反射的环境光，并不代表特定的色彩通道。

每个光斑都有不同的深度，并与波导的每一层一一对应。

在后面我们还找到了真正的显示设备：OmniVision OP02222 场顺序彩色 LCOS 设备。不过，这可能是 Magic Leap 专门定制的版本。

第十步

这一步，让我们更深入地了解投影和波导光学系统。

那么这六层都有什么？在两个不同的焦平面上，每个色彩通道（红、绿、蓝）都有单独的波导。

如果没有特定颜色的波导，每种颜色都会聚焦在略有偏差的点上，图像自然会变形。

上面的“FIG.6”是 Magic Leap 的专利，它可透露了不少光学器件内部工作的诀窍。（雷锋网此前曾发文详解Magic Leap光波导专利文件，“深度 | 宣传光纤扫描成像多年，Magic Leap最终投入光波导怀抱（最新专利文件详解）”）

第十一步

铸造的镁块能容纳下所有光学和传感器逐渐，不过对头戴显示器来说还是太沉了。我们拆过的 VR 头戴设备一半都用轻质的塑料。

当然，金属也有金属的好处，至少它散热要好不少，而电子器件和红外照明器（看着像 VCSEL设备）可都是发热大户。

图中粉红色的东西是导热膏，它也帮红外测距仪散热的。

除此之外，金属还提供更坚固的安装位置，以便在严格校准后保持光学器件稳定和对焦精准。

不过，一路“硬”到底也不现实，头戴设备里的一些零部件还是得用到泡沫粘合剂，加热后弯曲戴上会更加宽松舒适。

第十二步

这一块的组装就没那么精细了，我们可能要打开传感器的盖子才能一探究竟。

这些双传感器阵列戴上设备后大致在你的太阳穴部位，频闪红外深度传感器则位于正中间。

仔细观察鼻托那的深度传感器，又能发现不少硬件，比如红外感应摄像头和红外点阵投影器。

注：Magic Leap 处理的很好，在这款设备上你无需设定接收器位置，因为它可以自行完成投影和读取。

第十三步

将所有传感设备与头带连接，这里用到了昂贵的分层柔性电缆：

Movidius MA2450 Myriad 2 视觉处理单元

SlimPort ANX7530 4K 显示接口接收器

0V00680-B64G-1C（可能是相机组合器芯片，亚马逊 Fire Phone 也用过）

阿尔卡特/英特尔 10M08V81G - 8000 逻辑单元 FPGA，可能用于胶合逻辑，或管理 MV 部件或相机桥梁数据

Parade Technologies 8713A 双向 USB 3.0 转接驱动器

恩智浦 TFA9891 音频放大器

德仪 TI 78CS9SI

第十四步

弹出红外发射器环，我们发现眼部追踪红外相机隐藏在黑暗滤镜后面。

显然，这都是 OmniVision 的 CameraCubeChip 相机，不过外部又安装了二向色滤光片。

眼部追踪在 VR 和 AR 中的应用让一些非常酷的交互能呈现在我们眼前。同时，真实性和渲染效率也有所提高。

当然，眼部下只放一颗摄像头可能会限制眼部追踪的精准度和范围。在测试中我们也找到了问题，用户向下看比向上看时眼部追踪效果更好。

第十五步

下面的拆解就有点破坏性了，不过看看 Magic Leap 都用了什么光学组件还是很有趣的。

一个由六个 LED 组成的小环负责处理——红色、绿色和蓝色，两个焦平面各两次。

这些 LED 随后会照耀 LCOS 微显示器来生成图像，它安装在隔壁的黑色塑料外壳上。

从该外壳内部，准直透镜会与来自 LED 的原始光输出对其，并安装在偏振分束器上。

随后，偏振光束会通过一系列透镜，将图像聚焦到波导上的入射光栅上。

入射光栅本身看起来像嵌入六个（现在略微破碎的）波导中的小点。

我们专门拿了“注射”单元进行仔细观察，并找到了与每个入口光栅相关的颜色：两个红色，两个绿色和两个蓝色。

第十六步

把光学部分的问题讲透后，我们得把精力转到这套设备的大脑——Lightpack 上了。

机身上的通风口一眼就能看到，因此我们开始怀疑这款口袋 PC 是否用上了主动散热系统。别着急，拆开后就能见分晓。

FCC 的标识上我们看不到什么新鲜的点，它只是告诉用户 Lightpack 由 Magic Leap 设计，还在墨西哥组装。据说，Magic Leap 硬件的实际制造商现在依然是不可告人的秘密。

第十七步

想把 Lightwork 一分两半花了不少力气，不过用吹风机和撬杠我们最终还是将它开膛破肚了。

大多数要拖着 PC 的 VR 设备都少不了各种线材，不过 Lightpack 却只有一条固定绳，“保护”它的有 LED 光带、一些螺丝和不少铜带。

注：虽然一跟线缆让这款头戴设备的人机工程学上了个台阶，但家里有宠物的还是得防着。

弄掉一些铸造的镁之后，我们终于看到主板了。

第十八步

拆解时为了那块硅填充的屏蔽场，我们忽略了模块化耳机接口和按键板。

PC 上流行的 Cooler Master 风扇为这块 PCB 的降温立下了汗马功劳，这也为之前的通风口做了解释。

在拆解这一块时，光拆掉螺丝拿不下散热器，这家伙粘的可真紧。吹了 10 分钟热风后，导电手柄终于松了。

对于这样一个小型可穿戴设备来说，它的冷却系统考虑非常周到，不过这也是他们应该做的，毕竟谁也不想在口袋里放个暖手宝。

第十九步

说了这么多，是时候看看 Magic Leap 用了什么芯片啦，这台设备里可真不少，它们包括：

英伟达 Tegra X2 "Parker" SoC，搭配 NVIDIA Pascal GPU

两块三星 K3RG5G50MM-FGCJ 32 Gb LPDDR4 DRAM

Parade Technologies 8713A 双向 USB 3.0 转接驱动器

北欧半导体 N52832 无线电 SoC

瑞萨 9237HRZ 充电器

Altera（英特尔旗下公司）10M08 MAX 10 field 可编程门阵列

Maxim Semiconductor MAX77620M 电源管理 IC

第二十步

当然，这还不是全部，Lightpack 里还有：

东芝 THGAF4T0N8LBAIR 128 GB NAND 通用闪存

Spansion FS128S 128 Mb 四路SPI NOR闪存

德仪 TPS65982 USB Type-C 和 USB 供电控制器

uPI 半导体 uP1666Q 2 相位降压控制器

德仪 INA3221 双向电压监控器

第二十一步

接下来掀起蝶形外壳，让电池外壳更容易撬开。

想把电池拆下来可不容易，因为这里只给了个拉动去除标签，不过有总比没有好。

这些层次和粘合剂可能是为了防止产品摔坏并保证其耐用性。不过，拆起来这么复杂也意味着，一旦电池坏掉，你就只能换新设备了，当然修机器大神除外。

Magic Leap 在 Lightpack 里塞了个双芯电池三明治，容量为 36.77 Wh，工作电压 3.83V，与一些流行的平板类似。

第二十二步

显然，Magic Leap One 是一款昂贵且硬件有短板的产品。每一点结构都旨在保持设备寿命内的精确校准。在我们看来，无论价格如何，它都是全速推出的市场试验品。

希望最终的消费者版本能保持这种对设计和耐用性的坚持，同时再对一些软肋进行改进。

最终，iFixit 给出的可修复性评分为 3 分（满分十分，分数越高越好修）。

Via. iFixit

雷峰网

野心藏不住，雷鸟创新发布V3 AI拍摄眼镜对标Meta

媲美Meta，雷鸟V3 AI拍摄眼镜正式发布

两大技术突破，雷鸟X3 Pro Q2上市

雷鸟X3 Pro、V3 亮相 CES 2025，集中展示中国创新力

AR眼镜出海难的不光是卖货，还有建立内容生态｜鲸犀百人谈No.24

好眼镜、好耳机、好相机、好助手

AI补齐了轻便型眼镜展现力不足的短板

预计明年海外收入占总收入一半

最大的困扰是教育市场而非竞争

Rokid Glasses 发布，AR眼镜跑步进入消费时代

“减负满配”的AI+AR眼镜来了

Rokid丛林茂盛，生态伙伴积极拥抱AR

AR的十年也是Rokid的十年

雷鸟Air 3正式发布，李宏伟：年轻人的第一台消费级AR眼镜

最新技术加持，Air 3实现跨越式升级

抛弃伪需求，Air 3专注观影和游戏体验

时隔700天，PICO 带来了两款新产品

雷鸟创新李宏伟：真正的消费级AR 应具备四大特点，全彩光波导眼镜已迈入量产阶段

XR迈过「奇点」后，元宇宙如何生长？

AI团队拆散重组，负责人被迫离职，Meta的动荡还在持续

传 Meta 解散“XROS”团队，近 300 人进行内部转岗

传三星微软合作 AR 项目：产品预计 2024 年亮相

把元宇宙“搬”到技术大会现场，RTE2021大会是怎么做到的？

歌尔股价大涨背后，不仅仅是因为字节

NianticCEO 汉克如何拆解元宇宙这把“双刃剑”

Facebook着手研发同态加密技术，仅仅是精准投放广告吗？

绕不开的用户数据

Facebook考虑将Oculus运动数据整合到Apple Health中

华为比苹果更需要 AR 眼镜

AR 坐上“过山车”

“华为一定会做 AR 眼镜”

当 AR 还是张“大饼”，5G 能做些什么？

华为亟需新终端

Facebook开始测试在VR游戏中植入广告

Facebook“吃鸡”

VR版“吃鸡”：低配操作，高配体验

疯狂收购ing

一颗芯片引发的XR革命

XR专用芯片问世

XR终端的二次觉醒

消费下沉与内容拓荒

5G带来的想象空间

谁来为HTC的万元VR一体机买单？

VR之变：Pico修正航向，互联网巨头候场

Pico 看到光

修正航向

为 Neo 3 画一个“圈”

候场的互联网巨头

VR 的终极方向

Facebook收购VR游戏开发团队Downpour，《Onward》四天营收百万美元

Pico完成2.42亿元B+轮融资，VR再迎融资热潮

苹果AR新专利：可通过AR眼镜识别食物新鲜度、热量

三项新专利

全球开发者大会上，苹果未来的AR产品显得“静悄悄”

苹果公司申请AR触摸检测专利：使用深度映射相机和ML

三星空中投影，下一个智慧屏？

三星的“空中投影”

三星为空中投影设计了一块“全面屏”

三星的空中投影，下一个智慧屏？

美国运营商Verizon收购了Jaunt，加码增强现实

发力AR和XR

Jaunt创始人加入苹果

如何在虚拟世界里灵活运用你的双手？手势交互方案、算法和场景全解析

手势识别的三大硬件方案

1、摄像头方案

1.1 彩色摄像头方案

1.2 深度摄像头方案

2、毫米波雷达

3、数据手套

手势识别的两类算法模型

1、模型驱动类算法

2、数据驱动类算法

1、VR手势

2、AR手势

3、桌面手势

4、车载手势

结语

2019，VR内容迎来关键发展节点

爱奇艺VR内容的“线上”、“线下”布局

3、双目鱼眼摄像头