Meta的AI实验室迎来了10周年带来三个全新的人工智能项目

Meta的AI实验室迎来了10周年带来三个全新的人工智能项目-3

为庆祝Meta的基础人工智能研究(FAIR)团队成立10周年,该公司推出了三个全新的研究项目:Ego-Exo4D、无缝沟通和Audiobox。

Ego-Exo4D是一个旨在支持视频学习和多模态感知的人工智能研究的数据集和基准。该数据集由Meta的FAIR团队、Project Aria以及来自世界各地的15所大学合作伙伴在两年内共同收集。Ego-Exo4D捕捉了参与者佩戴Project Aria头戴式耳机的摄像机的“自我中心”视角和周围摄像机的“外部中心”视角。

该数据集的重点是复杂的人类活动,如体育、音乐、烹饪、舞蹈和自行车维修。

Meta认为,这一技术在增强现实(AR)系统中具有广泛的应用前景。例如,一个佩戴智能头戴设备的人可以在虚拟AI导师的指导下通过教学视频快速学习新技能;在机器人学习领域,一个观察周围人类活动的机器人可以在较少的物理经验下学习新的处理技能;或者在社交网络中,人们分享知识和互补技能的视频可以促使新的社群形成。

这个超过1,400小时的视频数据集将于12月作为开源项目发布,明年计划举行Ego-Exo4D的公开基准竞赛。

无缝沟通项目旨在实现更自然、更真实的跨语言交流

在今年8月,无缝沟通项目推出了SeamlessM4T多模态翻译模型,现在FAIR团队又推出了一系列基于这一模型的新AI研究模型,以进一步促进跨语言界限的自然、真实的交流。

该项目包括四个模型:

- SeamlessExpressive:保留了语言边界跨越的表达和细微差别。

- SeamlessStreaming:以大约两秒的延迟传递语音和文本翻译。

- SeamlessM4T v2:一个多语言和多任务模型,可轻松进行语音和文本通信。

- Seamless:将SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2的功能集合到一个模型中。

Meta还发布了SeamlessExpressive的演示,您可以在其中体验声音翻译的效果。

Audiobox是Meta的新一代音频生成模型

它能够通过结合声音输入和自然语言文本提示来生成声音和音效,从而更容易为各种用途创建定制音频文件。

与其前身Voicebox相比,Audiobox通过允许用户使用自然语言提示来创建所需的声音或语音类型,提供了更强的可控性。

Meta表示,最初将向一组特选的研究人员和学术机构提供该模型,以推动音频生成研究的最新技术,并确保人工智能的负责任开发。

版权声明:
作者:小火箭
链接:https://www.xiaohuojian8.top/220.html
来源:小火箭官网
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>