首页 抖音推荐文章正文

微软AI首个自研模型来了,实测可玩性超强,CEO回应与OpenAI隔阂

抖音推荐 2025年08月30日 05:15 1 admin

微软AI首批自研大模型来了!

智东西8月29日报道,今天,微软旗下的AI研究机构微软AI(Mircosoft AI,简称MAI)推出了首批两款全自研AI模型,分别为MAI首款端到端训练的基础模型MAI-1-preview和首款语音生成模型MAI-Voice-1

MAI-Voice-1的发布时机十分凑巧,“铁盟友”OpenAI也在今天发布了一款语音模型。MAI-Voice-1可提供高保真、富有表现力的音频,已经在Copilot Daily和Podcasts上线,还可在Copilot Labs进行体验。

在智东西进行的实测中,这一模型展现出超高的定制化程度:用户不仅可以选择情绪模式、声音模板,还至少有40种语体风格可供选择。除了常见的喜悦、愤怒、悲伤、恶心、恐惧等情绪模板,模型还可以扮演机器人、海盗、吸血鬼、新闻主播、猫头鹰等不同角色,对同一段文本进行自主改写和演绎,可玩性超强。

每一个角色都有各自独特的说话方式、口癖等。猫头鹰会不停地“咕咕”叫,机器人有一种“活人微死”的感觉,新闻主播则一本正经。这些角色都是在统一声音模板的基础上呈现的,展现出很强的可塑性。

MAI-Voice-1生成速度也较快,微软称能在单块GPU上运行,一秒钟输出一分钟的音频。不过,这一语音模型暂时不支持中文输出,输入中文时会自动转为英文。

微软AI首个自研模型来了,实测可玩性超强,CEO回应与OpenAI隔阂

输入中文文本后,也会自动转为英文

体验链接:

https://copilot.microsoft.com/labs/audio-expression

MAI-1-preview是一款混合专家模型,大约在1.5万颗英伟达H100 GPU上完成了预训练和后训练,主打指令遵循和日常问题解答等能力。

这一模型已经在LMArena(大模型竞技场)内进行盲测,不过,智东西进行了多次“抽卡”,都没能体验到这一模型。未来几周内,MAI-1-preview将会应用于Copilot的部分文本场景,以获取反馈,优化用户体验。

新模型发布之际,微软AI CEO Mustafa Suleyman还接受了媒体Semafor的深度专访,向外媒揭秘了自研大模型背后的考量,并正面回应了外界普遍存在的关于微软与OpenAI关系渐行渐远的看法。

微软AI首个自研模型来了,实测可玩性超强,CEO回应与OpenAI隔阂

Mustafa Suleyman在微软发布会上(图源:微软)

MAI成立于2024年3月,是微软推进Copilot和其他消费者AI产品和研究的专门机构。MAI的CEO Suleyman曾担任DeepMind联合创始人兼应用AI部门负责人一职,随着DeepMind被收购而加入谷歌,并在2022年离职创办大模型创企Inflection AI。

2024年初,Infection AI与微软达成6.5亿美元“人才收购”的交易方案,Suleyman与大部分员工加入MAI,14个月后,他们交付了第一款自研模型。

Suleyman称,AI对微软的业务有根本性的意义,而自研模型计划早在14个月前便已开始。他们会继续与OpenAI等企业合作,也会使用开源模型,但重要的是确保始终有选择权

MAI-1-preview被Suleyman定义为“人格原材料”,也就是说,模型可以在融入产品的过程中,表现出各种不一样的人格特点。通过后训练、提示词工程等方法,未来的大模型可以涌现出“数百万种”不同的人格

微软拥有打造强大模型所需的资源,正在构建世界上最大规模的GB200、GB300集群,也能顺利地招募到人才。但Suleyman强调,规模固然重要,但效率同样关键。这意味着要精挑细选高质量训练数据,让每一次浮点运算、每一次GPU迭代都物尽其用。

Suleyman还在访谈中分享了对“可解释性”研究的看法,他认为模型本质是空心的,可解释性研究有意义,但并不会揭示所谓意识的本质。

以下是对Suleyman最新访谈的完整编译:

01.OpenAI不是唯一解,模型不是未来核心知识产权

主持人:我很好奇,为什么微软需要拥有自己的端到端预训练基础模型,而不是使用来自OpenAI等公司的这些其他模型呢?

Mustafa Suleyman:这是一个很好的问题。我们是世界上最大的公司之一,而AI是未来,不仅是技术的未来,也是我们在未来几十年中进行交易、开展业务和创造价值的方式。

因此,这对微软的业务来说具有根本性的意义,必须具备内部的专业能力,去打造世界上最强大的模型。这就是我们在大约14个月前加入微软后不久,就开始着手自研模型工作的原因。这是一段非常令人兴奋的时期。

主持人:这次你们发布了两款模型。一个是MAI-1-Preview,据我理解,这是一个大型语言模型(LLM)。然后还有一个语音模型,它们是两个独立的模型吗?

Mustafa Suleyman:是的,它们是两个独立的模型。我们的语音模型表现非常出色,流畅、干净,而且富有表现力。我们希望确保微软始终有多种选择:会继续使用第三方开发者的模型,当然也会长期使用OpenAI的模型。同时我们也在用开源模型,并会坚持这样做。

我认为未来的关键知识产权在于编排器——它将决定在处理某类查询时该调用哪个模型。这就是我们12到15个月前确立的方法,也是我们现在所走的路线。

主持人:编排器,是不是意味着它会自动帮用户选择最合适的模型?

Mustafa Suleyman:可以把编排器理解为一个路由器,负责决定在何时将哪个请求交给哪个模型。

主持人:外界可能会把你们发布新模型解读为微软和OpenAI的关系出现疏远,或者说两者关系变冷。你怎么看?合作依然紧密吗?

Mustafa Suleyman:我们的目标是进一步深化与OpenAI的合作,确保这种关系能持续很多年。到目前为止,这种合作是非常成功的——他们从中获益很多,我们也是。我希望并且有信心我们会继续合作,我对此没有任何担忧。

02.集群量级小于业界顶级规模,尽量避免在无意义token上浪费算力

主持人:你们公开披露模型是用15000张H100 GPU训练的,这很有意思,因为很多公司通常对此守口如瓶。现在有些公司动用的是10万颗H100 GPU,而且我们已经在迈向下一代GPU。你觉得是否可能用更少的GPU达到同样的效果?

Mustafa Suleyman:我认为我们已经证明了这是可能的。如今一个15000张GPU的集群,相比其他动辄使用数倍规模的来说,算是小的了。但即便如此,我们依然能获得世界级的性能。

这是一个超越其重量级的模型,表现不亚于世界上最顶尖的模型。而且这只是开始。一旦模型进入生产环境,开始收集反馈,迭代过程将显著提升性能。我们的团队已经做得非常好,这是一个重要的里程碑,但对我们来说这只是起点。

主持人:那你们有没有特别针对某些基准测试?

Mustafa Suleyman:我们在各种主流基准测试上都进行了训练。如今模型必须具备通用性,尤其是文本任务。同时我们也在逐渐扩展到多模态,因为多模态能让模型在更多数据上学习,从而表现得更好。我们对未来的发展持开放态度。

主持人:那MAI是否已经具备你所需要的资源?是不是GPU越多越好?

Mustafa Suleyman:我们刚刚开始在GB200上进行训练和测试。微软正在构建世界上最大规模的GB200、GB300集群之一。它们会为OpenAI提供支持,也会服务于MAI以及我们的付费推理合作伙伴。

我们有一个为期五年的宏大路线图,每个季度都会持续投入。这种趋势还会继续下去。

规模固然重要,但效率同样关键。这意味着要精挑细选高质量训练数据,让每一次浮点运算、每一次GPU迭代都物尽其用。

如今训练模型的关键在于数据选择——避免在无意义的token上浪费算力。我们的新模型证明了,在极高效率的前提下,也能取得一流的表现。

03.MAI-1-Preview是“原材料”,可打造出大量人格

主持人:那么,使用这些模型的体验如何?几周前你写了一篇文章,讨论了“近似有意识”的AI,你提醒我们要避免这种情况。但在Inflection和微软,你们也强调过让模型具备同理心、拥有让人乐于交流的人格特质。这篇文章是不是意味着方向要调整?

Mustafa Suleyman:不,并不是。首先要认识到,人类所具备的很多能力——不论是智商(IQ)、情商(EQ)、行为能力,还是社交智能(SQ)——本质上都是高度可训练的。模型也会逐渐获得这些能力,这是它们的“默认”发展方向。

模型通过模仿学习,而它们拥有海量的模仿数据可用。作为“雕塑家”,我们正在塑造它们的知识、人格特质、行为能力和社会智能。

关键问题是:哪些能力是我们希望模型拥有的?哪些是我们不希望它们拥有的?我们如何发现潜在的副作用,并以负责任的方式进行迭代?

我写这篇文章的目的,就是提醒大家:盲目追求模型模仿人类的全部能力,存在实质性的风险。我们必须从现在开始认真思考,而不是等到问题真正出现才去补救。这也是我职业生涯的核心目标之一——推动大家去思考两三年后可能会发生什么,而不是忽视它。

我们需要认真面对AI进入社会后会带来的影响。

主持人:虽然你说那一步还没到,可能要几年后,但最近新闻里出现了OpenAI和Character.AI遭遇的诉讼,指控聊天机器人导致自杀。你觉得这是不是你文章中提到的风险?这是你担心的情况吗?

Mustafa Suleyman:我认为未来会出现各种难以预料的突发效应。我们能做的,就是提前思考可能性,并在发现问题时及时公开,认真对待,并推动社区开发者迅速采取行动。

回顾以往的技术发展,很多时候潜在风险都会被回避,导致反应迟缓。我认为这一次我们必须谨慎、主动,同时尽可能快速地推进技术落地,并把好处惠及世界。

主持人:和MAI-1或语音模型交流时,会有特定的感觉吗?你们的目标是什么?是让人感觉像在和一个善良、有同理心的人对话,但又不至于假装是人类吗?你们如何保持这种平衡?

Mustafa SuleymanMAI-1-Preview可以被看作是“人格原材料”。最终的产品——无论是Copilot还是其他应用——都会被塑造出特定的人格和对话风格。

我预计社区和开源开发者会非常积极地尝试各种不同的人格。我相信未来会出现数以百万计的版本,就像现实中存在数以百万计的个人、品牌和组织一样。

每当人类发明或发现一种新的交流媒介,都会催生大量变体。这一次也不例外。过去两三年,大模型大多只有一种或极少数几种人格。

有些开发者尝试过角色设定或花哨的个性化,但在大型企业产品中依然很少见。我预计未来几年这种情况会发生根本变化,这正是我在博客中呼吁大家注意的。

主持人:听起来在预训练阶段几乎没法做什么,这些工作只能在后训练里处理。

Mustafa Suleyman:是的。预训练阶段基本无法干预。后训练,甚至提示工程,都是非常强大的方法,而且操作并不复杂,很多人都能做到。

因此,我们应该预期未来会出现数百万种不同的人格,各自有不同的背景故事和能力。这会让AI产品与以往的技术和产品截然不同。

04.大模型是空心的,追求可解释性是在“拟人化”

主持人:当你谈到塑造时,有些人称训练大模型几乎就像种地一样,在培育一个模型。在模型变得更有能力,更大之后,为了实现你的上述目标,是否需要更深入地理解模型呢?比如解决黑箱问题,深入到单个神经元中,以实现这个目标呢?

Mustafa Suleyman:我觉得是有可能需要的。但同时,我有一种直觉,认为对“可解释性”的执着其实是一种拟人化的想法。

它假设在生成语言、模拟体验的过程中,语言背后必然有某种“实体”,但在我看来并没有。事实很清楚:一个简单的预测引擎就能以极其深刻的方式模拟出体验和互动。

但这并不意味着在大型语言模型内部真的发生了某种根本性的“体验”。它只是几乎完美地模仿了体验的特性。而这就是模仿和真实体验之间的根本区别。

我们人类和其他动物的意识,其实是基于对感官输入的第一手、实时的体验,对它们进行存储、处理、适应,然后再基于此生成预测。

在我看来,大语言模型是“空心”的。试图去探索它们的内部运作机制,某种程度上也是一种拟人化。

当然,这是一个有趣的科学探索,应该继续做下去。但它不太可能揭示出某种根本性的“意识的本质(Consious Truth)”。而这正是一些学者或开发者开始探讨的东西。我认为这种探索是错误的,也是过早的。

主持人:但即使它们是“空心的”,它们在规模变大、技术改进时,确实会变得更强。所以当它们更强大、更庞大、更难理解时,你认为它们会不会在某种程度上变得难以控制,甚至在后训练阶段也无法掌控?

Mustafa Suleyman:我不这么认为。就像我在博文中写的那样,我看不出这些系统会出现某种“欲望”、“动机”或“意志”的涌现属性的理由。

我没有理由相信这种情况会发生。从历史上看,这些特质的出现是因为我们有“战或逃”的本能,为了生存而对环境作出反应。

后训练的好处就在于,它是一种经过反复验证、非常可靠的方式,可以用来塑造特定的行为。因此,我认为作为模型开发者,我们的责任是仔细思考:哪些行为要通过后训练去抑制,哪些行为要去放大。

这不会自然而然、涌现式地发生。如果会发生,那一定是因为人们刻意地将这些特性工程化地植入系统。因为模型并没有真正的体验,它们只是高质量地模拟对话而已。所以好消息是,我认为我们在这些事情上仍然有很大的控制力。我们可以在积极降低风险的同时,尽可能发挥它们的优势。这就是目标。

05.招募人才没遇到瓶颈,MAI飞轮已经开始旋转

主持人:你们在新闻稿里其实也提到过——“来和我们一起工作吧,我们正在做很酷的事”。招募人才一直是AI行业的一个大问题。你们在这方面情况如何?能不能以理想的薪资招到你们想要的人才?

Mustafa Suleyman:当然可以。我们有一支非常出色的团队。从Inflection带来了一个极其强大的团队,此后也从各大实验室招聘到了一批优秀的人才。

我认为我们的招聘非常顺利。而且我们一直很谨慎,不会增长得过快或过大。其实在这里,你只需要相对较小的团队,就能做出高质量的工作。

与此同时,我们的团队也正在成长到数百人规模,在招聘上我们处在一个很好的状态。

主持人:那你们在吸引年轻的博士生时,通常是怎么说服他们?为什么要选择来这里,而不是去OpenAI或DeepMind?

Mustafa Suleyman:我认为世界上最优秀的人才,想要做的是那些真正有影响力的工作,能带来改变、能做出优秀产品,同时解决如何高效实现目标的技术挑战。

而我们已经证明了:我们能够挑选非常高质量的训练数据,用相对有限数量的GPU,打造出世界级的模型。

我觉得这就是一张很有吸引力的名片,能让更多人愿意加入我们的团队。我相信这只是我们未来几个季度将推出的众多模型中的第一个。我很期待继续打造一支优秀的团队。

主持人:我很好奇,在这次发布之前有报道说模型出现了延迟、遇到问题,早期没能达到预期的能力。你们从中学到了什么?

毕竟这是微软首个完整的端到端基础模型。是不是很大的挑战?有没有收获很多?

Mustafa Suleyman:是的,毫无疑问。构建如此规模的集群、在如此庞大的数据上进行训练,总是很大的挑战。

它需要大量的调试和迭代,需要来回折腾,需要耐心,还需要谦逊。每一家实验室都经历过这种过程,通过多次迭代才推出新版本。

但我认为我们拥有一支非常优秀的团队,会继续不断迭代,把新的优秀模型推向世界。我对未来充满期待,因为我们现在已经让自己的“飞轮”转了起来,接下来会有很多非常有趣的事情发生。

06.核心模型仍需继续迭代,不排除开源可能

主持人:你之前在Inflection做过类似的事,再之前你在DeepMind,但那时还没有大家都在搞十万级GPU集群的规模。所以那些经验能直接迁移过来吗?还是说每家公司都有自己的一套风格或挑战,需要重新学习?

Mustafa Suleyman:这是个好问题。归根结底,这一切都是在于建立一种伟大的文化。文化吸引团队,团队打造模型,而团队的价值观最终会体现在我们做出的模型和产品中。

所以我们正在努力建设一种友善、支持性强、可持续的文化,同时专注于技术卓越,尽可能做到最好。

很多人会觉得这非常令人满足,尤其是当我们的产品能够触达数十亿消费者、数十万大小企业的时候。能让技术惠及这么多人,本身就是很令人满足的事。

主持人:说到这里,你们预计什么时候能把这些模型真正应用到微软庞大的产品网络里?

Mustafa Suleyman:很快。我们还需要在核心模型上继续一些迭代,然后当然要做大量的后训练,把它们应用到不同的产品领域,并让它有可能通过Foundry API提供给外部开发者使用。这一切都在推进中,很快就会发生。

主持人:你提到过你们从开源世界学到了很多,但这个模型本身不是开源的。未来会不会开源?还是说这并不是你们的方向?

Mustafa Suleyman:有可能。我们保持开放的态度,毕竟现在也有很多优秀的开源模型。我认为第一步是看看它在我们产品中的表现,收集反馈,进行迭代,然后可能会提供给其他客户使用。我们现在正在考虑所有这些事情。

主持人:刚才还提到了GB200集群。那么MAI-2已经在路上了吗?是不是一年内就能看到?接下来是什么?

Mustafa Suleyman:是的,我们已经在做下一个模型了,规模肯定更大,训练方案上也会有一些新的调整。一切都在进行中,未来几个月、几年会有很多新东西。

本文来自微信公众号“智东西”(ID:zhidxcom),作者:陈骏达,编辑:李水青,36氪经授权发布。

发表评论

泰日号Copyright Your WebSite.Some Rights Reserved. 网站地图 备案号:川ICP备66666666号 Z-BlogPHP强力驱动