金融界2025年5月3日消息,国家知识产权局信息显示,北京字跳网络技术有限公司、脸萌有限公司申请一项名为“视频到文本生成方法、装置、介质和电子设备”的专利,公开号CN119906858A,申请日期为2023年10月。 专利摘要显示,本公开涉及一种视频到文本生成方法、装置、介质和电子设备,属于计算机技术领域,能够降低对视频‑文本配对数据的依赖性,提高在不采用视频‑文本配对数据进行训练的情况下文本生成的性能。一种视频到文本生成方法,包括:获取待处理视频;从所述待处理视频的多个视频帧中提取视觉特征;对所述多个视频帧的所述视觉特征进行融合;对融合的视觉特征进行文本解码,得到所述待处理视频的文本描述。 (责任编辑:) |