5月13日,火山引擎在“FORCE LINK AI创新巡展·上海站”上,正式发布豆包·视频生成模型Seedance 1.0 lite、豆包1.5·视觉深度思考模型,并升级豆包·音乐模型。此次发布通过构建更全面的AI模型矩阵和智能体工具,进一步推动企业从业务到智能体的全链路应用落地,助力多行业智能化转型。
图片来源于网络,如有侵权,请联系删除
发布豆包·视频生成模型Seedance 1.0 lite,兼顾效率与性价比
图片来源于网络,如有侵权,请联系删除
作为豆包视频生成模型系列的全新成员,Seedance 1.0 lite以“效果好、生成快、更便宜”为核心优势,支持文生视频、图生视频两种生成方式,可输出5秒或10秒的视频,分辨率覆盖480P和720P。该模型通过小参数量架构设计,在生成速度提升的同时,实现了影视级画质与运镜效果,显著降低企业及个人用户的创作门槛。
在技术亮点方面,Seedance 1.0 lite具备三大突破。首先是精准指令控制——通过强大的语义理解,可精细调控人物外貌、动作细节及多主体交互,支持嵌入式文本响应和镜头切换指令。
此外,影视级运镜技术支持360度环绕、航拍、变焦等专业镜头语言,结合高清画质渲染能力,提升视频的视觉表现力。自然运动交互能够基于动作时序与空间关系分析,优化人物与物体的交互逻辑,使运动轨迹更符合物理规律。
图片来源于网络,如有侵权,请联系删除
该模型可广泛应用于电商广告、影视创作、动态壁纸等场景。例如,电商商家可通过输入商品图文快速生成营销视频,将制作周期从数天缩短至分钟级,显著降低运营成本。目前,企业用户可通过火山方舟平台调用API,个人用户则能在豆包APP及即梦平台体验该功能。
豆包1.5·视觉深度思考模型:多模态推理能力再升级
同期发布的豆包1.5·视觉深度思考模型(Doubao-1.5-thinking-vision-pro),以激活参数仅20B的轻量化设计,在60项公开评测中斩获38项第一,尤其在视频理解、视觉推理及GUI Agent能力上表现突出。
在视频理解方面,支持动态帧率采样,视频时序定位能力显著增强,结合向量搜索,可精准定位视频中与文本描述相对应的片段。同时,新增视频深度思考能力。模型学习了数万亿多模态标记数据,掌握广泛视觉知识,结合强化学习,使视觉推理能力大幅提升。
此外,该模型新增GUI Agent能力。基于强大的GUI定位性能,可在PC端、手机端等不同环境中完成复杂交互任务。例如,可对新开发的APP功能进行自动化检测,目前该功能已经应用于字节跳动多款APP产品的开发测试中。
本次大会上,豆包·音乐模型迎来升级,不仅支持英文歌曲创作,还可以通过理解视频,自动适配纯音乐BGM。目前豆包·音乐模型已全量上线,个人和企业用户可在海绵音乐、火山引擎官网体验。
多行业智能化进程加速 AI驱动行业扩展创新边界
会上,火山引擎同步推出企业级智能体工具,进一步强化AI应用生态。
其中,Data Agent覆盖数据分析与智能营销场景,融合结构化与非结构化数据,生成深度研究报告的时间从2天缩短至30分钟,并支持营销策略的动态优化。Trae IDE作为AI原生集成开发环境,新增统一对话面板、自定义Agent团队等功能,结合豆包1.5模型的20毫秒极低延迟,显著提升代码生成效率。
据了解,目前,豆包大模型已在汽车、智能终端、互联网、金融、教育科研、零售消费等行业广泛落地,覆盖4亿终端设备、八成主流车企、70%系统重要性银行和数十家证券基金公司、近七成的 C9顶级高校和100多家科研院所。
在游戏领域,巨人网络基于豆包大模型与DeepSeek,在《太空杀》中推出AI玩家实时对抗玩法,并在《原始征途》中打造具备情感交互的智能NPC“小师妹”,提升玩家粘性。于医疗领域,礼来制药利用火山引擎平台搭建AI应用开发系统,支撑从药物研发到疾病诊疗的全场景创新,通过智能体实现学术沟通、销售培训、疾病教育的应用化。
火山引擎相关负责人表示,豆包大模型将持续优化推理成本与延迟,推动AI普惠化。目前,随着多模态模型与智能体工具的深度融合,企业智能化转型将迈入更高阶阶段。此次发布将为各行业提供了从内容生成到决策优化的全栈解决方案,助力中国AI产业应用进入规模化落地新阶段。
【纠错】 【责任编辑:周靖杰】-
新华全媒头条丨文脉传承激荡隽永“中华韵”
- 新华全媒+丨100岁的“双枪滕黑子”:“祖国需要随叫随到”
- 新华视点丨外国游客“在华扫货”热:“带空箱子到中国!”
- 财经观察丨“低空+旅游”如何激发消费新活力?
- 新华每日电讯丨于风物间品山海
- 经济参考报丨云南文旅:从“旅居品牌”到“消费升级”
- 追光丨这个项目不适合中国人?这群“00后”说不!
-
当年轻人遇上中医……
-
上亿穗玉米出口海外当“顶流”
推荐阅读: