| 版本 | 发布时间 | 核心改进内容 | 开放范围 |
|---|---|---|---|
| Veo 3 | 2025 年 5 月 21 日(北京时间) | 1. 首次实现文生视频 / 图生视频的原生音频同步; |
2. 支持 4K 分辨率输出,物理模拟(如水流、织物运动)与口型同步表现优异;
3. 提供参考视频功能,确保角色 / 场景一致性
2. 支持文本、图像、视频片段多模态输入;
3. 输出控制精细化,支持 720p/1080p 分辨率,帧率稳定 24 帧 / 秒;
4. 拓展服务渠道,接入 Gemini API 生态
相关导航
暂无评论...
Veo3是谷歌(Google DeepMind)研发的第三代 AI 视频生成模型,于 2025 年 5 月 21 日在谷歌 I/O 开发者大会正式发布,核心定位是 “为专业创作者与企业提供革命性视听一体的视频生成能力”。
一、基本概况:定位与核心身份
Veo3最显著的差异化特征是原生集成 V2A(Video-to-Audio)音视频同步技术,打破传统 AI 视频 “先画面后音频” 的割裂模式,实现 “画面与音效、对话、环境音的实时同步生成”,同时支持 4K 电影级画质输出,是目前 AI 视频领域 “视听协同” 与 “专业级质量” 的代表性产品。
二、发展沿革:从 Veo 3 到 3.1 的迭代升级
Veo 3 系列目前已完成两次关键迭代,迭代方向聚焦 “音频处理增强”“输入输出控制精细化” 与 “服务场景拓展”,具体时间线与改进如下:
| 版本 | 发布时间 | 核心改进内容 | 开放范围 |
|---|---|---|---|
| Veo 3 | 2025 年 5 月 21 日(北京时间) | 1. 首次实现文生视频 / 图生视频的原生音频同步; |
2. 支持 4K 分辨率输出,物理模拟(如水流、织物运动)与口型同步表现优异;
3. 提供参考视频功能,确保角色 / 场景一致性
2. 支持文本、图像、视频片段多模态输入;
3. 输出控制精细化,支持 720p/1080p 分辨率,帧率稳定 24 帧 / 秒;
4. 拓展服务渠道,接入 Gemini API 生态

