快斗优选

智东西
编译程茜
编辑李水青

智东西8月29日消息，今天凌晨，OpenAI发布为开发人员打造的语音转语音模型GPT-RealTime，并同步更新了包括远程MCP服务器支持、图像输入和SIP（通过会话发起协议）电话呼叫支持的API功能。

OpenAI称这是其迄今为止最先进的语音合成模型，GPT-RealTime在遵循复杂指令、精确调用工具以及生成更自然、更具表现力的语音方面有所改进。该模型可以自然朗读重复的字母、数字，无缝切换语言，甚至可以捕捉笑声等非语言信号。

今天OpenAI还发布了两个新语音Cedar和Marin，它们将在Realtime API中独家提供。

定价方面，通用版Realtime API和新的GPT-RealTime模型从今天起对所有开发者开放，GPT-RealTime每百万token音频输入价格为32美元，缓存输入每百万token为0.4美元，每百万token音频输出价格64美元，GPT-RealTime相比gpt-4o-realtime-preview价格下调20%。

OpenAI增加了对对话上下文的细粒度控制，允许开发者设置智能token限制，并一次截断多个回合，显著降低长会话的成本。

去年10月，OpenAI发布了Realtime API的公开测试版，至今已经有数千名开发者使用该API并提出建议。

但从OpenAI在社交平台X的评论区来看，有用户对这一新模型充满期待，称语音应用将变得更加有趣，但也有开发者反应，模型的声音还是很像机器人，且旧的语音角色听起来只是稍微更具表现力。

一、能捕捉笑声，无缝切换语言调整语气

OpenAI针对GPT-RealTime的音频质量、理解用户指令、遵循指令等方面进行了改进。

语音Agent想要让用户能持续对话，模型需要像人类一样带有语调、情感和节奏，以创造愉悦的对话体验。博客中提到，GPT-RealTime可以产出更自然的高质量语音，并能遵循细粒度的指令，例如“快速专业地说话”或“用法国口音富有同情心地说话”。

在理解用户指令方面，GPT-RealTime可以捕捉笑声等非语言线索，在句子中切换语言，并调整语气。根据OpenAI内部评估，该模型在西班牙语、中文、日语和法语等语言中，检测电话号码等的字母数字序列的准确性也更高。

Big Bench Audio评估中，GPT-RealTime的准确率为82.8%，超过了OpenAI 2024年12月发布的旧模型。Big Bench Audio基准测试是一个用于评估支持音频输入的语言模型推理能力的评估数据集。

在构建语音转语音应用时，开发者会向模型提供一系列行为指令，包括如何说话、在特定情况下该说什么、该做什么或不该做什么。OpenAI专注于改进模型对这些指令的遵循程度，使得即使是微小的指令也能为模型传递更多信息。

在衡量指令遵循准确性的MultiChallenge音频基准测试中，GPT-RealTime得分为30.5%，相较旧模型的20.6%有显著提升。MultiChallenge评估大模型在处理与人类的多轮对话时的表现，OpenAI从测试题中筛选出适合音频呈现的子集，通过文本转语音（TTS）技术将其转换为语音，进而制作出本次评估的音频版本。

要构建一个具备语音转语音模型的强大语音Agent，模型需要能够在正确的时间调用正确的工具。OpenAI在三个维度上改进了函数调用：调用相关函数、在适当的时间调用函数以及使用适当的参数调用函数。在测量函数调用性能的ComplexFuncBench音频评估中，GPT-RealTime得分66.5%，超过旧模型分数。而我们在2024年12月发布的模型得分为49.7%。

此外，OpenAI还改进了异步函数调用。长时间运行的函数调用将不再中断会话流程，模型可以在等待结果时继续流畅地对话。此功能已在GPT-RealTime中原生提升支持，开发者无需更新代码。

ComplexFuncBench测量模型处理具有挑战性的函数调用任务的能力。它在多步调用、推理约束或隐式参数、处理非常长的输入等场景中评估性能。我们将原始文本提示转换为语音，以构建此评估来测试我们的模型。

二、保留语音细微差别，新增四大RealTime API新功能

与传统将语音转文本和文本转语音的多模型链式流程不同，Realtime API通过单个模型和API直接处理和生成音频，这减少了延迟，保留了语音中的细微差别，并使得其响应更自然、更具表现力。

RealTime API的新功能包括：

开发者可以通过在会话配置中传入远程MCP服务器的URL在会话中启用MCP支持。连接后，API会自动处理工具调用，无需开发者手动设置集成。

这种设置使开发者只需将会话指向不同的MCP服务器，就立即可用。

图像输入方面，开发者可以在Realtime API会话中添加图像、照片和截图，与音频或文本一起使用。现在模型可以基于用户实际看到的内容来构建对话，使用户能够提出诸如“你看到了什么？”或“阅读此截图中的文本”等问题。

与其将图像视为实时视频流，系统更像是将图片添加到对话中。开发者的应用程序可以决定与模型共享哪些图像以及何时共享，这样就能控制模型看到什么以及何时回应。

OpenAI还增加了使Realtime API更易于集成的功能，包括会话发起协议（SIP）支持、可重用提示。

SIP支持通过Realtime API直接连接开发者的应用程序到公共电话网络、PBX系统、办公电话和其他SIP终端。

可重用提示允许开发者保存和重用提，包含开发者消息、工具、变量以及示例用户/助手消息，且支持跨Realtime API会话使用，与Responses API的使用逻辑一致。

结语：设多层防护指南防止模型滥用

为了防止实时语音对话被滥用，Realtime API包含多层安全防护和缓解措施，OpenAI对Realtime API会话采用主动分类器，这意味着如果检测到某些对话违反了有害内容指南，可以中止这些对话。开发者还可以使用Agents SDK添加自己的额外安全防护措施。

当下，超逼真的实时语音对话已经展现出颇为广阔的应用场景，豆包实时语音对话、百度新推的数字员工等，都将语音作为与用户的主要交互形式，再加上OpenAI此次发布的新语音转语音模型，也展现出更强的推理能力和更自然的语音表现力，使其能够处理复杂的多步骤请求，在不同赛道构建AI Agent。

OpenAI杀入语音模型大战！祭出最强GPT-RealTime，加量还降价

重要突破！联...

陈奕迅父亲被...

难以置信！亏...

熊园：美国非...

趁换代前“捡...

韩庚卢靖姗二...

长城汽车取消大小周，员工感慨：工作11年，终于等到全面双休了

童颜针代理权遭解约，江苏吴中斥爱美客“趁人之危”

女人过了40岁穿衣要显贵！看看这些秋季穿搭，舒适又有气质

带病出战，李昊发着烧踢满了U23国足与泰国U23的比赛

《披哥5》初舞台惊喜多：第一众望所归，3大黑马抢眼，0731撑门面

官方：巴黎前锋杜埃右大腿肌肉拉伤，将伤缺数周

于朦胧坠楼前最后动态曝光！警方排除他杀，细节令人唏嘘

男子花22天从北京跑700公里到郑州：每天跑五六个小时

曾经历23次手术＂烧伤男孩＂高考664分被东南大学录取

汪峰恋爱，女儿却遭群嘲：她的阴郁是他导致？

百亿龙头股董事长获刑，已上诉！IPO关键期行贿官员，过程曝光

限量555台蔚来新ET5T暗影套装限定车型售31.6万

知情人再曝大S死因，滥用管制药品求生意志薄弱，才延误抢救时机

记者：德保罗去迈阿密不是直接转会，而是租借+1500万欧买断选项

大动作！科技巨头，摊牌了！

大礼包？蓉城海港送对手亚冠首胜！上海双雄成唯二0胜队+包揽倒2

茶颜悦色就手账本涉抄袭致歉：审核疏忽，确实存在部分未经授权的挪用

外媒：中国在关税战中似获得美国尊重盟友得到＂重拳＂

拥抱变革，向智向新，2025中国新媒体智库报告正式发布

郭富城夫妇合体看赛马，透露三胎预产期

风味IP爆发，快消圈拿到长期增长新船票？

代码无需审核、数据随便喂，AI 正在催生下一场企业级灾难

独一无二，世界巨星蒂尔达·斯文顿卓越之作！

媒体:泽连斯基称不需中国提供安全保障言论不太友好