TrafficVLM:基于视觉语言模型的交通视频智能字幕生成工具 TrafficVLM 是一个专注于交通场景的可控视觉语言模型,主要用于交通视频的字幕生成任务。该模型融合了多粒度视觉特征(全局、子全局、局部)与时间编码机制,能够精准理解交... 14小时前 AI新闻 24