全球刷屏的AI神器竟能“看图生音”？专家：无需过度担心

　　近日，影视飓风创始人Tim(潘天鸿)发布的一期视频引发关注，他在视频中聚焦了字节跳动刚发布的AI视频模型Seedance2.0。Tim一方面感慨Seedance2.0的出色能力，另一方面也直言其能力“恐怖”，到底怎么回事？

　　Seedance2.0表现出色，引发海内外热议

　　Tim在视频中对Seedance2.0赞不绝口，称其生成视频的精细度、摄像机运动的流畅度、分镜的连续性以及音画的匹配度都极为出色，甚至直言这是“改变视频行业的AI”。

　　在国内社交平台微博上，《黑神话：悟空》制作人冯骥评价Seedance2.0，领先，当前地表最强的视频生成模型，没有之一；全能，AI理解多模态信息(文、画、影、音)并整合的能力完成了一次飞跃，令人惊叹。

　　Seedance2.0的出色表现已经在海外社媒平台上引发热议，话题登上热门趋势，多条帖子阅读量过百万。彭博社称，Seedance2.0凭借出色的内容创作效果令分析师印象深刻，带动传媒及人工智能应用类公司股价上涨。

　　开源社区Hugging Face亚太生态负责人Wang Tiezhen转发Seedance2.0生成的演示视频，称效果看起来极棒，并询问能否内测。

　　YouTube上订阅人数超过40万的创作者看完demo视频，称Seedance2.0是真正的技术突破，市面上没有能与之媲美的产品。

　　“恐怖”能力引发思考，专家称不必过度担心

　　在不少网友对Seedance2.0称赞时，Tim也谈了自己的冷思考，他称在体验Seedance2.0时偶然发现，仅将他自己的人脸照片上传至模型，系统就能自动生成与他本人高度相似的声音。

　　Tim创立的影视飓风是影视/科技领域顶流视频账号，生产的高质量视频在网络大量流传，影响力不亚于影视明星，其视频素材早已成为公开数据，很可能因此被用于大模型训练。

　　实际上，基于公开数据进行大模型的训练与调优，是全球AI行业普遍采用的技术路径。大部分生成模型也普遍遵循这一路径，例如谷歌的Gemini多模态模型和Veo3视频生成模型，使用了超过200亿个YouTube视频片段。

　　北京航空航天大学人工智能研究院教授沙磊表示，目前国内外AI大模型，都在使用公开数据进行训练。之前有媒体报道，谷歌Veo3模型推出时，人们发现Veo3生成的视频很像一些知名创作者的作品；OpenAI在最早推出Sora时，外媒也测试到Sora能高度模仿一些经典电影和剧集的片段。

　　沙磊认为，Tim作为一个明星级的公众人物，他的视频素材进入一些公开的数据集，是非常正常的现象，普通人无需过度担心。

　　中国科学院软件研究所研究员张立波也认为，为了实现更好的模型效果，就需要更多的公开数据进行训练，普通用户无需过度焦虑。

　　张立波分析，基于公开数据进行大模型的训练与调优，这一实践在大语言模型时期就已存在，相比文字，声音和视频则具有更强的个人与场景特定性，因此当前阶段，数据使用的责任与边界问题更加凸显。训练过程中可能涉及的内容借鉴、版权关联等议题，也成为技术突破和行业发展必须面对的共性挑战。

　　据了解，现在Seedance2.0还在小范围内测阶段，字节对其也限制了一部分模型功能。例如只有在进行活体认证的情况下可以生成真人视频，不支持输入真人图片/视频做主体参考等，防止AI技术被滥用。

　　张立波强调，“我们要清醒认识到，如何在此过程中更好地保护公众个人隐私，并确保生成内容的安全可靠，是亟待社会各界共同推动解决的重要课题。”(完)

更多新闻