Deprecated: Creation of dynamic property db::$querynum is deprecated in /www/wwwroot/zhpower-tech.com/inc/func.php on line 1413

Deprecated: Creation of dynamic property db::$database is deprecated in /www/wwwroot/zhpower-tech.com/inc/func.php on line 1414

Deprecated: Creation of dynamic property db::$Stmt is deprecated in /www/wwwroot/zhpower-tech.com/inc/func.php on line 1453

Deprecated: Creation of dynamic property db::$Sql is deprecated in /www/wwwroot/zhpower-tech.com/inc/func.php on line 1454
OpenAI发布实时API AI实时语音时代加速到来_新闻中心_米乐官方-米乐官方下载-米乐平台下载地址

OpenAI发布实时API AI实时语音时代加速到来

发布时间:2024-10-13 来源:新闻中心

  OpenAI实时API(应用程序接口)公开测试版发布,推动AI应用的加速落地。

  近日,OpenAI发布了其实时API公开测试版,为开发者提供了构建基于GPT-4大型语言模型的高交互性AI应用程序的机会。业内人士认为,该API允许开发者在应用程序中创建低延迟、多模态的实时交互体验,是AI应用领域的一次重大革新。

  同时,OpenAI宣布与三家语音API合作伙伴合作,分别为:LiveKit、Agora和Twilio。三家都是实时音视频(RTC)领域的全球有突出贡献的公司,其中Twilio、LiveKit都是美国本土企业,之前与OpenAI有较多联系,而Agora在中国市场拥有兄弟公司声网,两家公司在2023年5月拆分,专注于中国市场,总部在上海,Agora则面向美国和国际市场。

  《中国经营报》记者发现,随着各平台公司纷纷发布旗下AI大模型产品,大模型领域的竞争也在加剧。10月2日,OpenAI发布了其实时API公开测试版,10月4日,Meta公布了名为Movie Gen的全新AI模型。国内巨头也纷纷推出并更新了性能直追甚至部分超越GPT-4的产品。

  同时,RTC作为AI语音、音视频互动等AI落地强应用场景的关键技术,得到了更多的关注和应用,吸引了巨头们的纷纷布局。除了OpenAI,近日微软AI CEO Mustafa Suleyman也表示,今年年底,的AI将拥有实时的语音界面,允许完全动态的交互。

  人与AI的实时音视频互动正在变成现实。多为业内人士接受记者正常采访时表示,实时API的发布标志着OpenAI在AI应用领域向前跨了一大步,通过降低语音交互延时并增强AI对人类语音及情感的理解,为开发者创造了构建更具沉浸性和动态性的AI应用程序的机遇。

  日常生活中人与人的沟通就是以语音为主,视觉其次,视觉的价值主要在于信息的丰富度,但想要提升信息浓度和沟通效率还得靠语音。如今综合文字、图像、视频等的多模态大模型的出现,推动了人与AI交互方式的变革,而语音多模态将是其中的必经之路。

  在生成式AI领域,大模型多模态交互能力的升级正掀起一股新的AI浪潮,在RTC 能力的加持下,人与AI的交互不再局限于文字,也能够最终靠语音通话进行生动、流畅的低延时交互,这也成为当下国内外大模型厂商新的发力点。

  实际上,引领此轮AI革命浪潮的OpenAI深刻地理解这点,并在此领域深耕已久。

  今年3月,OpenAI就宣布了一项革命性的声音克隆技术——“语音引擎”。该技术作为其现有文本转语音API的扩展,仅需15秒的音频样本,便能模仿任何说话者的声音。

  记者注意到,GPT-4o算是开创了AI实时语音对线o发布以来,支持端到端实时多模态成为国内外大模型厂商纷纷跟进的新方向,先是AI初创公司Character.AI推出一项通话功能,允许用户与其角色语音对话,并支持多种语言。此后巨头们纷纷跟进。

  一般来说,GPT-4o能支持实时语音对话。一方面得益于自身大模型能力的进化,端到端实时多模态模型能够直接处理语音,这与传统的三步骤处理方法(语音识别、语音转文字、文字转语音)相比,响应更加及时。另一方面,通过应用RTC技术,实现了语音的实时传输,逐步降低了语音交互的延时,RTC也成为人与AI交互的重要一环。

  在实践中发现,传统的三步骤处理方法在应用RTC后,响应延时可从4—5秒降低到1—2秒,而在具备端到端实时多模态解决能力后,通过RTC技术,大模型实时语音对话的延时可降到几百毫秒内。

  从体验上看,RTC技术的应用让对话式大模型的交互更智能,更具真实感。一方面,低延时的快速响应让人与AI的互动更接近人与人之间的实时对话更自然。另一方面,语音还能识别说话人的情绪、语调,视频能识别人的表情与所处的环境,最终输出更精准、更智能的回答。

  “基于RTC的超低延迟方法可实现更为逼真的对话,并使AI能够理解人类的情感,从而提供更自然的对话体验。”一位云服务厂商的技术负责人对记者表示,能预见的是,未来基于AI的人机界面从键盘、鼠标、触屏到实时对话的变革,语音将是必须走过的进化过程,实时语音互动或将成为未来对话式多模态大模型交互的终极形态。

  不过,多模态大模型实时语音对话想要落地,背后依然面临着一系列的技术难点。首先,对于大模型厂商而言,具备端到端实时语音处理的能力是关键,端到端模型的训练成本很高,尤其是处理语音与视频数据,面临大量计算,而计算过程往往会造成延迟,这对实时交互的需求形成了挑战,需要边接收语音边处理和解析,对于很多大模型厂商而言,这在某种程度上预示着需要研发更高效的模型或者优化现有模型的运行效率。

  同时,多模态大模型在接入RTC后如何保障低延时、流畅的语音交互体验更为关键。除了低延时问题外,大模型实时语音对话中还面临着噪音、终端适配等一系列问题,要专业的RTC厂商来优化。

  记者注意到GPT-4o的发布会的一个细节,工程师演示GPT-4o的手机上插着一根网线,这也反映了一个现实,GPT-4o的演示是在固定设备、固定网络和固定物理环境下进行的,以确保低延时。而在实际应用场景中,用户的设备通常无法一直插着网线,这就对大模型实时语音对话中的低延时传输、网络优化等提出了考验。

  而在RTC的加持下,随着多模态大模型能力的进化,AIGC应用场景迎来新一轮爆发,AI智能助手、AI情感陪伴、AI口语老师、AI客服的AI交互体验进一步升级,学生的学习效率更加高,社交陪聊场景的娱乐性与沉浸感也逐渐增强。同时,在游戏社交、AI分身、实时语音翻译等场景,对话式多模态大模型也大有可为。

  量子位智库发布的AI智能助手用户数据报告数据显示,截至今年8月,国内市场的AI智能助手App已超过64款。在AI情感陪伴领域也涌现了Soul、星野、Wow等一系列人气社交App。

  业内人士认为,技术的加快速度进行发展,推动实时互动行业持续进化,让实时互动场景变得更丰富、更有趣、更高效,相关市场的应用空间广阔。

  以全球移动应用第一大市场美国为例,相关应用市场广阔,应用收入也在持续增长。公开多个方面数据显示,2023年泛娱乐应用收入规模达到74亿美元,是第二大市场日本的4.6倍,且同比增长12.6%,市场规模仍在稳定增长。

  “美国本土开发者依然把持着泛娱乐头部市场,中国出海App目前仍以短剧为主,尽管在头部App中,中国出海应用较少,但是出海美国的优点是中长尾App时长占比较高,且用户付费能力较强,中小型App也能在美国取得不错的收入。”国内一家短剧出海App的运营负责人向记者称。

  据Ookla的最新数据,美国的移动网络平均网速略低于中国,在测试环境下,美国手机移动网络113Mbp/s(中国为135.7Mbp/s)。在这样的背景下,要实现真实无障碍的AI互动,RTC就成为一个关键,也给相关业内公司能够带来了大的发展机遇。

  财报显示,今年第二季度,声网和Agora分别在中国和海外市场实现了营收增长。声网和Agora的创始人兼CEO赵斌表示:“我很高兴看到声网和Agora在面对极具挑战的宏观环境下,本季度双双实现收入同比增长。这一成果得益于我们不断推动新应用场景落地,另一方面也提升成熟场景方案的质量和价值。我们最近帮助客户在多个应用场景中推出了对话式AI应用,如AI陪伴、AI助理、AI语言陪练和AI客服,并看到了不错的用户和用量增长。我相信,实时互动与对话式AI的结合将是我们未来业务发展的关键驱动力。”

  在这样的背景下,声网在近期推出了Linux Server SDK,支持当下大模型编程最主流的两类语言Python与Go,可以帮助开发者快速构建AI陪伴、AI助理、AI语言陪练等实时AI应用场景。

  不过,声网在2024年第二季度仍处于亏损状态,净亏损仍为920万美元,上年同期的净亏损为4530万美元。声网预计2024年第三季度营收为3150万美元到3350万美元。

  可以预见的是,AI、5G、云计算等成为新时代的基础设施,将会给企业变革与发展带来更多新机会。未来,科技巨头将会在大模型和AI产品上不断推陈出新,RTC则将带来人与AI交互的重要变革,也将加速AI应用场景的新一轮爆发。

上一篇:事关高考!在外地的郑州高考生须5月24日前返郑

下一篇:库:共同 API加快 AI 运用开发落地

米乐官方-米乐官方下载-米乐平台下载地址   备案号: 晋ICP备20004420号-1      网站地图