本文作者:博学多才

打造开源技术底座 北大深研院兔展智能AIGC联合实验室推出Open-Sora计划

博学多才 2024-04-09 89367

  3月12日,北京大学深圳研究生院-兔展智能AIGC联合实验室举办Open-Sora计划媒体介绍会,就其技术、应用亮点与未来展望做重点介绍。据悉,该计划日前已上线至国际开源社区平台,旨在以开源形式带动全球范围内对人工智能文生视频大模型感兴趣的技术人员参与和贡献进来,扩大技术的普惠性。

  据介绍,此次由北京大学深圳研究生院-兔展智能AIGC联合实验室打造的Open-Sora核心技术框架包括视频编解码模块、扩散型变换器(Diffusion Transformer)去噪模型和条件注入三大模块。在资源有限的情况下,Open-Sora计划采用了计算更友好的2D + 1D扩散型变换器架构,并在同步推进除文本控制外更多条件控制的视频生成训练。该计划在开源社区发布仅1周内,便实现模型和代码更新200余次,获得14万余次访问,代码被克隆超800次,吸引了来自英国、加拿大、德国、迪拜、沙特阿拉伯、伊朗等多个国家技术人员的讨论参与。

  “技术应该为每个人服务,这是开源的意义,也是人工智能发展迅速的源动力。”北京大学深圳研究生院-兔展智能AIGC联合实验室副主任、北京大学深圳研究生院信息工程学院助理教授、博士生导师袁粒表示,基于目前已经搭好的训练框架,Open-Sora能够支持动态输入、多尺度、多分辨率的训练,对于可变比例、可变时长的视频已经取得了较好的生成效果,已初步完成了第一阶段验证的任务。第二阶段将在有效框架基础上使用更多数据和更大算力,训练出20秒以上、720P清晰度的视频生成模型,实现该开源项目的目标。

  “Open-Sora并不是为了做娱乐视频生成而提出的,依托其底层模型‘兔灵’,将其打造成深植于产业、赋能产业发展的中国本土视觉大模型,进而更精准地匹配产业供给与用户需求,才是更有价值的事情。”深圳兔展智能科技有限公司创始人兼首席执行官董少灵表示,2023年9月,兔展智能推出了以视觉为核心的原创多模态大模型“兔灵”,通过“人工智能+”的形式拥抱新质生产力,将产业界过剩的产能通过更个性化的、体验式的形式匹配至产业从业者甚至是普通消费者。在此基础上,兔展智能已与设计行业展开合作,助力设计生产降本增效。据测算,以室内设计为例,通过人工智能生成效果图和设计说明、匹配相应物料,设计方案总费用可降低97%。

阅读