一家名为 Palabra AI 的初创公司开发了一款人工智能语音翻译引擎,正在解决教授大型语言模型 (LLM) 理解多种语言的一个较困难的方面。
Reddit 联合创始人亚历克西斯·奥哈尼安 (Alexis Ohanian) 表示,如今,法学硕士学位可以更轻松地将文本从一种语言转换为另一种语言,但语音翻译并不那么简单。
“人工智能可以生成内容并翻译文本。但语音翻译是一个独特的问题,因为它需要实时语言切换,而且声音也需要听起来像人类,”奥哈尼安说。
奥哈尼安和他的风险投资公司 Seven Seven Six (776) 相信Palabra AI 或许能解决这个问题。正因如此,该公司领投了这家初创公司 840 万美元的种子轮前融资。Creator Ventures 以及一些个人投资者也参与了此轮融资,其中包括 Instacart 联合创始人 Max Mullen、前 a16z 合伙人 Anne Lee Skates、前 DeepMind 产品主管 Mehdi Ghissassi 以及 Namat Bahram。
Seven Seven Six 的 Ohanian 还指出,Palabra 的产品执行力和团队专业知识的结合推动了该公司进行投资。
“Palabra 的翻译层运行非常顺畅。该公司拥有强大的人工智能研究团队,在语音领域开展了高质量的工作。此外,这家初创公司在产品设计和输出质量方面做出了明智的选择,”他补充道。
Palabra 由 Artem Kukharenko 和 Alexander Kabakov 于 2023 年创立。Kukharenko 曾是三星的机器学习工程师,他表示自己作为数字游民曾在多个国家生活,并面临语言障碍。因此,他想结合自己的机器学习经验来解决实时翻译问题。

“许多其他公司也尝试解决翻译问题。但当他们在翻译过程中结合使用不同的技术,包括语音转文本和文本转语音 API 时,延迟会增加,翻译感觉不够实时。借助 Palabra,我们能够将延迟降低到 800 毫秒,从而实现无缝实时的翻译,”他在电话中告诉 TechCrunch。
Kukharenko 补充说,公司已经构建了一条定制数据管道,以便初创公司能够在几周内轻松添加对新语言的支持。他表示,在这条管道的末端,Palabra 会安排一名人工翻译来检查输出质量。该公司表示,其算法还能考虑到各种场景,例如嘈杂的环境和干扰。
Palabra AI 拥有面向消费者和企业的翻译产品。该公司提供适用于 Mac 和 Windows 的桌面应用程序,可与 Google Meet、Zoom、Discord、Slack 和 Microsoft Teams 等热门视频通话应用兼容。该应用程序支持 30 多种语言的翻译,这意味着您可以用您选择的语言聆听对方用母语讲话。这对于涉及不同国籍参与者的通话非常方便。

Palabra 在其网站上表示,其桌面应用程序将很快支持 YouTube、Netflix、Twitch 和 Vimeo 等内容网站的原生翻译功能。
您每月可免费获得 30 分钟的翻译时间。如果需要更高的使用时长,您可以支付每月 25 美元起的套餐,享受 60 分钟的跨应用翻译服务。
该初创公司向企业提供 API 和 SDK,以将翻译集成到他们的产品中。
目前,其技术正在为 Agora 等视频平台提供多语言直播。此外,GIS Group 等语言服务提供商也在使用 Palabra 的工具和人工翻译。该公司表示,多家活动组织者也在利用其技术提供多语言直播。
Palabra 在翻译市场竞争激烈。在消费者端,像 Y Combinator 支持的 EzDubs 这样的初创公司正在开发用于面对面或通话对话的应用程序。今年早些时候,谷歌还在 Meet 上推出了视频通话实时翻译功能。在商业端,像总部位于迪拜的 Camb.AI 这样的初创公司正在开发翻译技术,以多种语言直播活动。
为了脱颖而出,Palabra 目前正在开发一种新的流媒体预测模型,该模型可以大幅降低延迟。此外,它还致力于支持超过 10,000 个同步音频流的翻译。