简述
紫东.太初是中科院自动化所与MindSpore社区联合打造的全球首个图、文、音三模态大模型。紫东.太初将文本 + 视觉 + 语音 各个模型高效协同,实现超强性能,在图文跨模态理解与生成性能上都能领先目前业界的SOTA模型,高效完成跨模态检测、视觉问答、语义描述等下游任务。此外,视频理解与描述的性能更是实现了全球第一,在今年的两个国际大赛中,ACM Multimedia(国际多媒体大会) 和ICCV(国际计算机视觉大会)紫东太初都获得了第一名的成绩。
紫东.太初的发布将改变当前单一模型对应单一任务的人工智能研发范式,实现三模态图文音的统一语义表达,大幅提升文本、语音、图像和视频等领域的基础任务性能,并在多模态内容的理解、搜索、推荐和问答,语音识别和合成,人机交互和无人驾驶等商业应用中具有潜力巨大的市场价值。
全球首个三模态大模型“紫东.太初”——助力科研创新与应用孵化




以文生图


以图生音


以音生图

演示视频

紫东太初
全球首个三模态大模型