首页 热门资讯文章正文

对话Rokid副总裁:未来智能眼镜一定会取代手机,大厂加入能进一步教育市场

热门资讯 2025年08月11日 17:32 1 admin

(整理/胡佳烨 编辑/吕栋)

近期,在世界人工智能大会(WAIC 2025)期间,观察者网与智能眼镜头部企业Rokid副总裁蔡国祥进行了深度对话,探讨了AI+AR眼镜的市场现状,以及未来的发展趋势。

对话Rokid副总裁:未来智能眼镜一定会取代手机,大厂加入能进一步教育市场

以下是对话实录:

观察者网:今年,AI眼镜火爆出圈,引发了行业内外的广泛关注。许多人对AI眼镜的底层技术、未来发展前景以及行业竞争格局充满好奇。我们邀请了中国AR行业头部企业Rokid的副总裁蔡国祥,来与我们分享他的见解。

蔡国祥:大家好,我是蔡国祥。Rokid是一家以AI和AR为核心打造产品的平台公司。在市场上,大家熟知的产品是我们的AR眼镜,今天在展会现场,大家可以亲自体验。

观察者网:大家可能认识Rokid是源于今年一场火爆出圈的视频,就是那个提词器,当时也引起了网友们对AI眼镜的一些讨论,这件事当时对你们内部产生了哪些影响呢?

蔡国祥:我清楚记得发生的时间是2月18日,在杭州余杭区高质量产业发展大会上,创始人Misa戴着AR眼镜进行了一场没有演讲稿的演讲,引发了广泛关注。这次事件的传播热度对我们企业带来了显著的积极影响。首先,它让很多人了解到Rokid这家公司以及我们的AR眼镜产品,极大地提升了公司和产品的知名度和流量。许多潜在的合作伙伴、投资人纷纷与我们接洽,带来了更多的合作和投资机会。从行业角度来看,这次事件也让更多人关注到AR眼镜这一新兴产品,推动了行业的普及和教育。

观察者网:这次事件是否也给Rokid带来了更多动力和压力?

蔡国祥:确实如此。动力方面,这次事件让我们更加自信和积极地推动产品的进展。然而,压力也很大,因为产品受到了更多关注,我们不得不投入更多时间打磨产品,确保其品质能够满足用户的期待。这导致我们的研发和生产压力增大。

观察者网:今天我们在世界人工智能大会的现场,主题自然是AI。能否请您介绍一下AI眼镜及其产品的底层能力,以及如何实现这些AI功能?

蔡国祥:Rokid的核心是围绕AI和AR开发产品。AI技术已经非常强大,并且正在成为各行各业的底层技术。我们的另一个核心是打造AR眼镜,并开发自己的AR操作系统。多年来,我们在操作系统方面积累了丰富经验。如何让这一全新设备的操作系统运行得更高效、延迟更低、功耗更小,以及交互效果更佳,这非常考验操作系统的性能。而将这些能力与大模型AI结合,不仅拓展了想象空间,也为用户提供了诸多实用的服务和功能。我们早期推出的提词器功能相对简单,仅通过蓝牙戒指实现翻页。如今,新的提词器已融入人工智能算法,能够识别演讲者的语句并自动跟踪翻页,显著提升了用户体验。在翻译功能方面,我们通过智能眼镜实现了多语言实时翻译。用户面对不同语言的外国人时,只需戴上眼镜即可将对方语言实时翻译成中文,实现无障碍沟通。这一功能在实际应用中获得了广泛认可。

我们与高德合作的导航功能,通过结合高德的导航智能体,实现了更精准的导航体验。此外,我们与支付宝合作推出的“看一眼支付”功能,利用大量人工智能算法确保支付的顺畅与安全。其中,有一个很重要的环节叫声纹识别,它通过声音判断用户身份,进一步提升了支付的安全性。未来,我们还将拓展更多生活服务场景,如打车、点餐和商品搜索等。大模型的广泛应用使其成为一个无所不知的知识库和万能助手。通过将大模型与智能眼镜结合,用户可以随时提问并获得解答。眼镜的摄像头为大模型增加了视觉能力,使其不仅能听懂用户的问题,还能看到用户眼前的世界,提供更全面的解答。这些功能不仅实用,还为用户带来了丰富的想象空间。

观察者网:那在AI能力打磨这方面,你们是跟行业协同发展?还是说自己构建自研AI呢?

蔡国祥:这两块都有。AI能力大多是基于基础大模型的。基础大模型需要大量投入,不是普通创业公司能够承担的,Rokid也明确了自己的定位,不涉足基础大模型的研发,但专注于自身擅长的领域。我们的AR眼镜能够对接多种大模型,例如通义、豆包、智谱以及DeepSeek等。用户可以根据自己的习惯和偏好选择使用哪一种大模型,我们提供了灵活的选择。此外,基于大模型,我们还自主研发了一些模型。以我们开发的意图识别模型为例,当用户通过眼镜与大模型进行交互时,该模型能够判断用户的意图,并据此调用大模型的相应能力进行处理。例如,用户询问眼前的花是什么,系统就会调用视觉大模型;若用户询问历史故事,则会调用语言大模型。由于每个大模型都有自己的侧重点和擅长领域,我们会根据用户的意图对大模型进行分类调用,以确保用户的问题能够得到最合适的解答。同时,像提词器功能的算法也是我们自主研发的。我们在视觉算法和语音算法方面有着丰富的经验和技术积累。我们利用行业内顶尖的大模型作为基础底座,并结合自身操作系统的研发,将人工智能算法和本地模型与大模型相结合,为用户提供更优质的交互体验。

观察者网:现在手机的AI能力是端云结合的模式,您认为未来在眼镜产品上,是否也会采用类似的模式?

蔡国祥:这是肯定的。端云结合在未来的一些场景中,以及编排方面,肯定是三端协同演进的趋势。以端云为例,我们已经在做相关工作了。比如在不同情况下,我们有两个场景已经应用了这种模式。以提词器为例,提词器中的智能滚动算法有两种:在线算法和本地算法。当联网且网络状况良好时,系统会自动使用在线算法,因为其效果更好。但在弱网或无网络的情况下,智能滚动依然可以工作,此时使用的是本地智能滚动算法。翻译功能也是如此,我们支持在线翻译模型和本地翻译模型。网络状况良好时,使用在线翻译模型,其翻译效果更好,支持的语种也更多;而在无网络或弱网情况下,本地翻译小模型也能提供支持。这些都是云端跟云和端两端的协同的一些案例,未来,这种协同模式的应用会更多。不仅是我们,像高德、支付宝等合作伙伴在处理智能体服务时,也会采用云和端的协同策略。这肯定是未来的发展趋势。

观察者网:云和端的协同它其实一方面提高效率,另一方面隐私安全这块,端和端做得更好。

蔡国祥:没错。

观察者网:目前智能眼镜行业吸引了众多企业,但各企业在未来规划及AI应用方面存在差异。Rokid在AI领域处于行业前列,但也有部分企业认为AI技术尚未成熟。若将智能眼镜的AI能力比照自动驾驶的L2至L5级别划分,您认为当前智能眼镜的AI水平处于哪个阶段?

蔡国祥:之前行业内也有这样的说法,将AI分为几个等级。L1是指令式,L2是推理和聊天,可以自由对话;L3是能够帮助执行任务的代理(Agent);L4是帮助创新;L5是大规模自主决策和组织。从这个角度看,我个人认为目前AI在L2阶段,发展已经较为成熟,但L3也已经开始起步。我个人认为,L2和L3并非完全独立,而是存在一定的重叠。L2发展到一定阶段后,L3就开始了。目前L2的推理能力已经很强,具备丰富的知识和强大的逻辑推理能力,甚至在医生、律师等职业资格考试中能够取得高分。因此,L2已经发展到一个比较高的阶段。与此同时,L3的代理和执行功能也开始出现。今年被认为是智能体(Agent)的元年,智能体代表L3。我认为目前AI整体处于L2的较高阶段,同时L3也已经开启。我们认为眼镜是人工智能的最佳载体,其发展与人工智能阶段大致匹配。但由于硬件是新出现的,将人工智能能力集成到眼镜上需要一个开发和对接的过程,因此可能会略晚于人工智能阶段,大约晚几个月。

总体而言,无论是AI还是AI眼镜,目前都处于L2和L3重叠的阶段,L3已经开始。今年我们看到了很多智能体的出现,例如之前很火的智能体Manus。然而,智能体面临一个问题:许多智能体的能力已经被基础大模型本身所涵盖。例如,通义和Gemini的新版已经具备了很强的Agent能力。但在一些深度和专业门槛较高的垂直领域,智能体创业可能仍有机会。如果智能体的门槛不高,大模型本身就能完成这些功能。因此,我认为今年正处于这个阶段,L3已经开始,从今年的展会来看,智能体已经迎来了大爆发。

观察者网:如果说将来眼镜的智能化程度进一步提高的话,从软硬两个方面考虑,应该做哪些改善?

蔡国祥:硬件方面,目前的眼镜已经实现了轻量化设计,外观和重量都已接近普通近视眼镜,佩戴舒适度、重量和外观也有所提升。然而,若要推动眼镜进一步发展,提供更强功能并让用户更愿意长时间佩戴,仍需克服几个关键问题。首先,显示效果需要提升。当前采用的单色光波导显示技术仅支持单色显示,视场角较小,分辨率也不够高。未来,行业需致力于提升显示效果。其次,计算能力有待增强。目前眼镜内置的高通AR1芯片,其计算能力与手机芯片相比仍有差距。未来,芯片行业需在小体积、低功耗的前提下,实现更强的计算能力,以满足更多功能的执行需求。第三,续航能力是另一大挑战。轻量化设计导致电池容量有限,续航时间较短,这限制了用户的长时间使用。因此,电池技术需要突破,研发出高密度、小体积、轻重量且续航能力强的电池是当务之急。显示、计算性能与续航能力构成了一个“不可能三角”,虽难以完全解决,但需持续优化,使其平衡状态越来越好。Rokid Glasses 正是在现阶段尽力平衡这三者的产品。从软件端来看,未来的发展依赖于大模型和智能体的进步。目前仅处于 L3 智能体阶段的第一年。智能体要在眼镜上运行,需适应其显示和交互特性,不能产生大量辅助文本,而应以简洁方式完成交互和服务。这需要根据眼镜的特点进行优化。此外,大模型自身能力的提升以及智能体从L3向L4的演进,都依赖于整个行业的发展。我们也将参与其中,但这些能力的主要决定因素并不完全掌握在我们自己手中。

观察者网:Rokid,虽然说现在因为AI眼镜火出圈,但是当初创业的时候,其实是以 AR 技术起步的,现在也发展了十几年,那您认为传统的AR眼镜,它为什么没有像现在AI眼镜一样那么破圈啊?现在它还存在哪些挑战?

蔡国祥:许多AR行业从业者在多年前进入该领域时,就已经预见了行业未来普及的方式。大家普遍认为,光波导光学方案是实现 C 端普及的关键。多年前,业界就意识到,只有光波导技术成熟并普及后,产品才能真正走向大众市场。因此,行业一直在等待技术突破和供应链的成熟。在技术尚未成熟的前几年,从业者们并未闲着,而是进行了许多其他尝试。例如,我们在四年前推出了一款采用BirdBath光学方案的眼镜,主要面向观影、娱乐和游戏场景。这款眼镜在当时是光波导眼镜普及之前,C端销量较高的消费级眼镜之一。它的显示效果出色,具备1080P的清晰度和50度的视场角,像素密度高,图像显示细腻,非常适合观影和游戏。然而,由于其光学方案的限制,这款眼镜的外观与普通眼镜有较大区别,较为厚重,佩戴舒适度欠佳,不适合长时间佩戴。因此,它更像是游戏机,仅在用户有空闲时间、想要放松或娱乐时才会使用。用户不会在日常生活中一直佩戴,这使得它的使用场景受到限制。这种局限性不仅限制了使用受众,还降低了用户的使用频次。许多用户最初可能每天使用,但随着时间推移,使用频次逐渐减少,最终可能被闲置。要让眼镜真正走向大众市场,必须像如今的光波导方案一样,让用户即使在不使用时也愿意佩戴。只有当用户在没有任何其他需求时,仍然愿意佩戴一副既舒适又美观的眼镜,才能实现“始终在线”的高频使用场景。有了这样的高频使用场景,后续的功能才能真正发挥作用,产品和市场才能真正普及。随着光学方案和行业供应链的成熟,产品已经能够做到轻薄,价格也能控制在消费者可接受的范围内,佩戴舒适度和外观也得到了提升。因此,产品才具备了真正普及的条件。过去多年,行业未能普及的原因在于技术未达到突破瓶颈,供应链不成熟,价格居高不下等多方面因素。如今,硬件已经取得突破,接下来的挑战在于软件、系统交互效果以及生态建设能力。这些将是未来留给我们的关键考验。

观察者网:讲到生态,其实生态对硬件起一个协同发展的作用。您也是生态方面的专家,您能不能讲一讲Rokid这么多年在生态方面有哪些努力?然后有哪些进展?

蔡国祥:Rokid一直专注于核心操作系统,并高度重视生态建设。操作系统与生态密不可分,如同土地与庄稼的关系:没有土地,庄稼无法生长;仅有土地而无庄稼,土地价值也极为有限。因此,我们致力于两者的协同发展。用户购买智能眼镜的目的多样,部分功能仅靠硬件即可实现,如拍照录像、当作耳机使用;但更多功能,如导航、翻译、支付、打车、叫外卖等,则需要丰富的生态支持。生态的价值不言而喻,而构建生态的关键在于开发者。我们自身能提供的服务和应用有限,大量、未来丰富甚至个性化的应用需依赖开发者基于我们的平台开发。因此,Rokid是一家平台公司,核心在于服务好开发者,打造开发者平台。只有吸引开发者加入,才能开发出丰富多样的应用,满足C端消费者的需求。然而,行业面临一个困境:开发者投入成本开发应用,需要看到商业化回报的希望。当用户量少时,开发者看不到回报希望,不愿在平台上开发;而C端消费者若看不到丰富应用,也不愿购买产品。这是一个“先有鸡还是先有蛋”的问题。解决这一矛盾的关键在于平台方和厂商的投入。我们作为平台方,先投入补贴开发者,提供商业化回报,吸引开发者加入。从一个应用到多个应用,逐渐积累,让生态内容丰富起来。当消费者看到平台上丰富的应用时,才会愿意购买产品。因此,厂商需先投入,驱动生态发展。多年来,我们一直这样做,目前我们的开发者社区已有超过13,000名注册的AR眼镜开发者,这在国内乃至全球都是最大的AR眼镜开发者社区之一,其中还包括4,000家企业开发者。我们每年举办众多开发者活动,包括线下沙龙、线上活动和两次大赛。

观察者网:一个成功的产品,是硬件、软件和开发者之间良性循环的结果。说到生态,有一个比较尖锐的问题:目前许多互联网大厂也纷纷入局智能眼镜赛道,他们拥有更成熟的生态体系,以及更丰富的资金和技术资源。那么,您如何看待他们的入局?这是否会为创业企业带来一些挑战?

蔡国祥:上个月小米发布了智能眼镜产品,随后阿里的智能眼镜也在展会上亮相,尽管目前消费者还无法体验到后者。行业从业者对大厂巨头的入局普遍持欢迎态度,因为这对行业的推动作用是显而易见的。例如,小米一场发布会就能让很多原本不知道这个消息的人了解到智能眼镜的存在、功能及潜在需求,这种行业教育和用户普及是其他创业者难以做到的。巨头的加入,瞬间将行业的影响力和潜在用户市场扩大了数倍,这是值得欢迎的。然而,大厂的投入程度也值得关注,是将其视为最高优先级全力投入,还是仅作为内部创新业务试水,这将带来不同的影响。Rokid已经在这个行业深耕11年,从技术和产品角度来看,我们完全不逊色于任何大厂。大厂的优势可能在于品牌、渠道、用户基础和资金资源,但在产品力和技术积累上,我们毫不畏惧。因此,我认为无需过度担忧大厂的竞争。我们清楚大厂的优势和局限,我们团队成员曾经大多也来自大厂,对大厂的运作模式了解。大厂能做什么、不能做什么,我们都一清二楚,所以心里有底。目前,无论是小米还是阿里的入局,智能眼镜市场仍处于起步阶段,他们所拓展的也是各自的增量市场,他们拓展自己的增量市场,我们也在拓展我们的增量市场。在市场共同做大之后,各凭本事去争取市场份额。从产品力角度来看,Rokid与小米相比,目前我们产品在轻量化、外观简洁以及光波导显示等方面具有明显优势,目前我们仍是市场上唯一一款具备这些特点的产品。阿里的产品虽然也有类似显示功能,但其上市时间尚未明确。我认为,大厂的加入能够进一步教育市场,为消费者提供更多选择。大家在硬件、软件或价格等方面各有优势,这取决于各自的市场推进策略。

观察者网:大厂确实有其优势,正如您所说,它们拥有强大的品牌、广泛的渠道以及多方面的资源。然而,由于它们的业务量庞大,涉及众多产品和领域,可能无法像创业企业那样专注聚焦。

蔡国祥:永远不用担心大厂入局来竞争任何行业,因为任何行业都会有创新者会胜出。为什么不是Rokid?

观察者网:其实国内的竞争已经足够激烈了,但是海外大厂也在不断地往这个赛道进入,像谷歌、Meta。那您如何看待中国企业在这方面的优势?

蔡国祥:这一波 AI 眼镜的热潮,最初是由Meta和雷朋的眼镜掀起的,随后从海外刮到国内,引发了国内市场的关注。国外在这一领域确实有其明显的优势。我认为国外的核心优势主要有三个方面:首先是海外的AI大模型,尽管国内大模型的能力已经接近,但仍有差距;其次是核心半导体技术,目前眼镜中使用效果最好的芯片仍然是高通的,国内芯片尚未达到同等水平;第三是国外成熟的用户商业化生态,海外用户在智能化服务上的付费习惯、意识和能力更强,这对行业的健康发展至关重要。当然,国内也有自身的优势。一方面,国内大模型厂家正在奋起直追,市场竞争激烈。另一方面,对于眼镜这类硬件产品,国内最大的优势在于供应链。除了核心的SoC芯片外,国内在其他零部件的供应上已经非常成熟,且在价格和生产周期上具有优势,能够快速整合出成熟的产品。中国作为世界工厂,在供应链方面具备明显优势。此外,中国拥有庞大的消费群体,仅国内市场就为硬件厂商提供了巨大的发展空间。第三个优势在于我国庞大的用户群体。用户使用产品会产生大量数据,这些数据反过来能够促进我们对大模型的优化以及提升产品的交互体验。除了上述三点,国内还有一个重要优势,那就是政府和政策的大力支持。从业者普遍感受到,国家出台的政策在行业多个方面给予了大量支持,无论是在软件、硬件,还是市场端、资本端等,这种支持客观上推动了行业发展,使从业者形成了与西方国家相比的独特优势,这一点不容忽视且极为重要。

观察者网:能否说一下你们跟国内的产业链合作?比如说协同的进步之类的。

蔡国祥:目前,我们在产业链合作方面主要分为硬件和软件两个层面。在硬件方面,我们的眼镜产品是通过与上下游产业的紧密合作研发和生产的。例如,我们开发了一种“一拖二”的光波导显示技术,这项技术能够实现光机驱动两个波导屏的显示,同时解决了结构设计上的痛点,使眼镜外观更接近普通眼镜,重量更轻,功耗更低,成本也得到了有效控制。此外,在芯片等硬件层面,我们也开展了大量的联合研发工作。通过与供应链的紧密合作,我们成功降低了眼镜的整体功耗,提升了反应速度,优化了外观设计,使其更加轻便。在软件层面,我们与高德、支付宝等合作伙伴共同开发了全球首创的眼镜端智能导航和支付功能。Rokid在硬件和软件层面始终致力于为行业探路。我们探索出的成功经验可以为行业做出贡献,而遇到的挫折也能为后来者提供借鉴。作为行业的领先者,我们深知必须承担起引领和探索的责任。

观察者网:听您分析后,我们认识到中国丰富的产业链以及各类应用创新相结合,为众多创业公司带来了巨大机遇。像Rokid这类企业,凭借这些优势,或许能够定义下一代终端的发展方向。今天在人工智能大会现场,我们能明显感受到观众对智能眼镜的高度热情。那么,您能否谈一谈对智能眼镜未来发展的看法?它是否有可能成为像手机那样的爆款消费电子产品呢?

蔡国祥:首先,我的答案是非常肯定的。我认为未来眼镜一定会取代手机,成为人们必不可少的个人信息和交互终端,甚至每个人可能不止拥有一副。但这一转变不会在短时间内发生。

目前,像Rokid Glasses这样的AR眼镜,首先是作为手机的辅助交互设备来使用。它需要借助手机的算力和网络连接来实现功能。它更多地是一个偏交互端的可穿戴设备。但随着时间推移,它会逐步取代手机的部分使用时间。例如,佩戴眼镜后,导航、支付、翻译、点餐、打车等功能都可以通过语音指令在眼镜上完成,无需再掏出手机。这意味着手机的使用时间可能会从每天6小时减少到5小时甚至4小时。这种取代手机使用时间的趋势已经开始逐渐发生。然而,要让眼镜真正取代手机,我认为至少需要3到5年的时间。这取决于整个行业的发展,包括显示效果的提升(如全彩、高分辨率、大视场角)、娱乐功能的增强(如观影、游戏)、计算能力的提升(接近或超过手机)、以及续航时间的延长(能够支撑一整天的使用)。当这些条件都具备时,人们出门可能就不再需要手机,只需佩戴一副眼镜即可。我认为这一过程最快可能在3年内逐步开始,慢的话可能需要5年。5年后,这类产品将逐步普及并开始取代手机。而到10年后,我相信会有越来越多的人选择只佩戴一副眼镜出门。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动