铿鸟百科网

当前位置:主页 > 百科 > 科技数码 >

OpenAI新音频模型实测:定制化语音惊艳,中文表现待加强

OpenAI新音频模型实测:定制化语音惊艳,中文表现待加强

时间:2025-04-22 来源:铿鸟百科网 收集整理:小编 阅读:
导读:近日,OpenAI在其API平台上隆重推出了三款全新的音频处理模型,分别为两款语音转文字模型——gpt-4o-transcribe与gpt-4o-mini-transcribe,以及一款文字转语音模型gpt-4o-mini-tts。据Ope

近日,OpenAI在其API平台上隆重推出了三款全新的音频处理模型,分别为两款语音转文字模型——gpt-4o-transcribe与gpt-4o-mini-transcribe,以及一款文字转语音模型gpt-4o-mini-tts。据OpenAI官方介绍,这些模型在识别准确率、语言理解力及适应性方面实现了显著提升,尤其在面对口音差异、嘈杂环境及语速变化等复杂场景时,表现尤为出色。

gpt-4o-mini-tts模型赋予了开发者前所未有的定制化能力,用户可指令模型以特定风格进行语音输出,如模仿富有同情心的客服、机器人腔调或是疯狂科学家的语调,这一功能无疑将极大丰富智能语音交互的多样性和真实感。

为了直观展示这些新模型的能力,OpenAI还特意搭建了一个专属网站,用户无需复杂操作即可免费体验文字转语音功能,而语音转文字功能则需通过API接口访问。

经过亲身体验,新模型的文字转语音功能确实令人眼前一亮。它不仅能够流畅且富有感情地朗读英文文本,还能在意大利语中演绎餐厅菜单,甚至在粤语中模拟推销电话,不过,在中文语境下,该模型的表现仍有待提升,语音效果相对生硬,缺乏自然流畅感。

在价格方面,OpenAI为用户提供了相对亲民的选择:gpt-4o-transcribe每分钟收费0.006美元(约人民币0.04元),gpt-4o-mini-transcribe则为每分钟0.003美元(约人民币0.02元),而gpt-4o-mini-tts的定价为每分钟0.015美元(约人民币0.11元)。

在OpenAI提供的体验平台上,用户可以从11种预设声音中进行选择,尽管这些声音的名称不够直观,但通过试听可以感受到它们各自的特点。在选择声音后,用户还可以进一步指定风格或人设,如冷静、耐心老师、友好或美食主厨等,这为语音内容的个性化定制提供了无限可能。

以“美食主厨”为例,当选择这一人设并输入相关文本后,模型迅速生成了一段充满意大利风情的语音,不仅准确报出了菜单,还自然融入了意大利口音的英文讲解,细节处理得相当到位。模型还能根据定制化的提示词,模仿特定历史时期的说话方式,如“中世纪骑士”,这一功能的实现离不开详尽的提示词指引。

然而,当尝试中文场景时,模型的表现则略显不足。尽管生成速度理想,但中文语音缺乏起伏与变化,声音较为生硬,缺乏亲和力。在方言测试方面,模型仅成功识别并输出了粤语内容,其他方言如闽南语、山东话等则未能达到预期效果。

在语音转文字方面,OpenAI此次推出的gpt-4o-transcribe和gpt-4o-mini-transcribe两款模型在多个基准测试中均超越了上一代模型whisper。它们在高资源语言上的表现尤为出色,如英语、西班牙语等,但在中文上的表现相对较弱。在低资源语言上,这两款模型也实现了显著改进,如孟加拉语的错误率大幅下降。

OpenAI表示,这些新模型在音频生成和转录技术上的进步,得益于其强大的GPT架构及在专门音频数据集上的大规模预训练。他们还采用了改进的模型蒸馏技术和自博弈技术,使得小型模型也能提供出色的对话质量和响应速度。未来,OpenAI将继续致力于提升音频模型的智能性和准确性,为开发者提供更加个性化的体验。

相关阅读

  • ipadmini2现在还能用吗,苹果ipadmini2现在还能用吗

    ipadmini2现在还能用吗,苹果ipadmini2现在还能用吗

    2023年ipadmini2还能用吗?根据目前的技术发展趋势来看,2023年的iPad mini 2可能已经过时,无法满足最新的软件和应用程序的要求。随着时间的推移,新的操作系统和应用程序通常需要更高的处理能力和更大的内存。因此,尽管iPa

  • 华为p20pro,华为p20pro上市时间和价格

    华为p20pro,华为p20pro上市时间和价格

    华为P20 Pro值得入手吗?你好,华为p20pro是一款非常不错的手机。如果你没有以下问题,那是真心非常建议你立即下手购买的了。1,如果你很穷,只买得起红米、小米,那么,很显然,你不值得入手华为p20rpo的了。2,如果你就是看不惯国产手

  • 越南计划成为半导体领先国家,雄心壮志与挑战并存

    越南计划成为半导体领先国家,雄心壮志与挑战并存

    随着全球半导体市场的不断扩大和技术的飞速发展,越南作为一个具有潜力和优势的新兴经济体,正计划成为半导体领域的领先国家,这一雄心壮志的背后,既体现了越南政府对半导体产业重要性的认识,也反映了该国在半导体领域的独特优势和发展潜力,本文将探讨越南

  • 深度解析,三星I9100——一部经典的智能手机传奇

    深度解析,三星I9100——一部经典的智能手机传奇

    亲爱的读者,你是否曾对一款手机的历史和影响力感到好奇?我们要聊的是那个曾经风靡全球,引领智能手机潮流的明星——三星Galaxy S II,型号为I9100,这款手机就像一部活生生的历史教科书,展示了科技与设计如何完美融合,让我们一起走进它的

  • 深度探索,联想A370e手机,实用与创新的完美结合

    深度探索,联想A370e手机,实用与创新的完美结合

    在这个科技日新月异的时代,一款优质的手机不仅是我们日常生活中的得力助手,更是我们了解科技魅力的窗口,我们将聚焦联想A370e,这款以实用性和创新性并重的智能手机,带你走进它的世界,感受其独特的魅力。联想A370e的外观设计:简约而不简单联想

  • 风车动漫网,探索动画世界的瑰宝与创新引擎

    风车动漫网,探索动画世界的瑰宝与创新引擎

    在信息爆炸的现代社会,我们有幸拥有一种名为“动漫”的艺术形式,它以独特的视觉语言和丰富的情感内涵,引领我们走进一个充满想象力的奇幻世界,我要向大家介绍的就是这样一个充满活力与创新精神的平台——风车动漫网。风车动漫网,这个名字本身就蕴含着对传