深度求索发布多模态模型DeepSeek-Vision,可实时解析视频内容

科技
2026 01-06 11:55:09
分享

今日,国内领先的人工智能公司深度求索正式发布了其新一代多模态大模型——DeepSeek-Vision。该模型标志着AI在理解和解析动态视觉信息方面取得了重大进展,其核心能力在于能够对实时视频流进行高效、精准的语义理解与内容分析。

据悉,DeepSeek-Vision采用了全新的“时空统一”架构,不仅能识别静态图像中的物体和场景,更能理解视频中动作的连续性、事件的因果关系以及人物间的交互逻辑。在官方演示中,模型可实时接收摄像头画面,准确描述如“一名工人正在将零件A组装到设备B的第三槽位”等复杂工业场景,并能即时提示潜在操作风险。

深度求索CEO在发布会上表示:“文本、语音与视觉的融合是通向通用人工智能的关键一步。DeepSeek-Vision的突破在于将传统的视觉识别提升到了‘动态认知’层面。” 该模型在多项国际标准评测中,尤其在涉及时序理解的视频问答(Video QA)任务上,性能超越了当前国际主流模型。

技术亮点方面,DeepSeek-Vision通过自研的稀疏激活技术,在保持极高精度的同时,大幅降低了计算能耗,使其在边缘设备(如车载计算单元、工厂巡检机器人)上的部署成为可能。这为自动驾驶的实时环境感知、工业智能制造中的质量检测与流程监控提供了强大的AI赋能。

目前,深度求索已与国内多家新能源车企及高端制造企业达成初步合作意向,首批应用将聚焦于高级别辅助驾驶系统与全自动产线质检。DeepSeek-Vision的发布,预示着AI从“静态感知”迈向“动态理解”的新阶段,或将重塑多个产业的智能化升级路径。


The End
企业新闻网站介绍,适用于多行业站点,您可以在后台>全局配置>定制标签>站点介绍中进行修改此区域内容。