李飞飞的斯坦福团队与谷歌合作发布了基于Transformer的扩散模型W.A.L.T,用于生成逼真视频。这种新模型在已有的视频和图像生成基准测试上取得了最先进的结果,无需使用分类器指导。该模型的成功突破解决了Transformer在缩放视频成本方面的局限性。因此,我们建议重点关注基于Transformer架构的技术的上市公司,如汉王科技、拓尔思、当虹科技和孩子王。然而,投资需注意技术研发进展是否符合预期。
【事件】12月12日,李飞飞的斯坦福团队同谷歌合作,推出了用于生成逼真视频的扩散模型W.A.L.T。这是一个在共享潜在空间中训练图像和视频生成的,基于Transformer的扩散模型。
研究者通过使用因果编码器为空间和时空联合生成建模量身定制的窗口注意力架构,在已建立的视频和图像生成基准测试上实现了SOTA,而无需使用无分类器指导。另外,团队还训练了三个模型的级联,用于文本到视频的生成任务,包括一个基本的潜在视频扩散模型和两个视频超分辨率扩散模型,以每秒8帧的速度,生成512 x 896分辨率的视频。
【点评】Transformer是高度可扩展和可并行的神经网络架构,是目前AI 大模型最主流的架构。这种理想的特性也让研究界越来越青睐Transformer,而不是语言 、音频、语音、视觉、机器人技术等不同领域的特定领域架构。但随着模型规模的扩展和需要处理的序列不断变长,Transformer 的局限性也逐渐凸显。
李飞飞团队采用基于 Transformer的潜在视频扩散模型 (LVDM) 方法,成功解决了Transformer原本缩放视频时成本较高的缺点,并降低了计算要求。其次这种方法还有利于联合训练,其中空间层独立处理图像和视频帧,而时空层致力于对视频中的时间关系进行建模。团队此次的方法进展加深了Transformer架构的应用范围和可延展性。
我们建议重点关注基于Transformer架构搭建技术的上市公司:
1)汉王科技:公司的Transformer技术可以用于文本的自动撰写和生成,例如新闻标题自动撰写,以及机器写作等;
2)拓尔思:旗下拓天行业大模型采用 Transformer 技术架构,参数量高达上百亿,且支持多任务处理,一个模型可以同时支持成百上千种任务;
3)当虹科技:公司基于Transformer 注意力机制以及去噪扩散技术,成功研发了众多跨模态文本、图像、视频的 AIGC 生成技术;
4)孩子王:公司KidsGPT智能顾问是基于transformer神经网络开发的GPT大模型,具备AIGC的能力,包含文字生成、图片生成、动态图片、音乐生成等功能。
风险提示:技术研发进展不及预期
2、本站永久网址:https://www.xueshe9.com
3、本网站的文章部分内容可能来源于网络,仅供大家学习与参考,如有侵权,请点击跳转到免责声明页面处理。
4、本站一切资源不代表本站立场,并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报。
6、本站资源大多存储在云盘,如发现链接失效,请联系我们我们会第一时间更新。
暂无评论内容