Skip to content

chongyu2021/VisClipper

Repository files navigation

Introduction

在当今数字创作的潮流下,本地剪辑素材库的管理变得愈发关键。然而,当前市场上的素材管理软件往往存在一些不足,仅提供简单的分类功能,且需要用户手动添加标签,无法满足复杂场景下的快速检索需求。举例而言,一个拥有庞大视频素材库的创作者,若想要找到其中一个特定场景——比如“某人站在树下”的视频,没有预先添加标签的情况下,将面临着繁琐且低效的搜索过程。这一挑战促使我们意识到需要一个更智能、更高效的本地素材库管理系统,能够提供更强大的搜索功能,包括模糊查询等高级功能,以满足用户对于快速、准确检索的需求。

我们的目标是开发一款与大语言模型结合的本地素材管理软件,旨在为数字内容创作者提供更智能、更高效的素材管理解决方案。该软件将利用视觉语言预训练模型对剪辑素材进行自动描述和标记,从而提高素材检索的准确性和效率。与此同时,通过与大语言模型的结合,我们计划实现一种类似于langchain-chatchat的方法,允许用户以自然语言输入他们的需求,然后通过系统的综合处理和输出,为用户提供定制化的剪辑素材使用建议。这一目标的实现将使用户能够更快速地找到符合其创作需求的素材,极大地提升创作效率和质量。

该软件的关键功能和特点包括:利用视觉语言预训练模型进行自动描述和标记,LLM结合的智能搜索,模糊查询功能以及智能推荐系统。这些特点将使本地素材库管理软件成为数字内容创作者不可或缺的创作助手。通过本地素材库管理软件的使用,我们期望实现提高工作效率、优化资源利用、提升创作质量和增强用户体验的效果,从而推动数字内容创作和技术研发领域的持续发展。

Related Technology

SSIM:使用SSIM来进行视频的切片。结构相似指标可以衡量图片的失真程度,也可以衡量两张图片的相似程度。对视频进行逐帧对比,将视频切分成不同场景的切片,以便于后续标注。

BLIP:使用BLIP进行视频内容标注,BLIP是一种统一视觉语言理解与生成的预训练模型。利用 Captioner-Filter 机制来生成文本标注。我们对视频进行图片采样后通过BLIP得到视频内容的描述。

Neo4j:使用Neo4j进行视频信息的存储,记录图结构来表示视频经模型处理之后输出的内容标注,从中提取出的物品类别,场景描述以及不同内容之间的关系等信息。以便后续使用视频特征快速检索到与其有联系的视频信息。

BlueLM:使用蓝心大模型对视频描述文本进行调整以及获取关键词信息,并且根据视频描述以及用户偏好等信息生成对视频片段的剪辑推荐。

Marketing Survey

随着抖音占据国内短视频平台霸主地位,短视频平台如雨后春笋般在中国市场,甚至国际市场中出现,除了抖音、快手这样本身以短视频起家的平台,还有Bilibili、微信甚至淘宝都提供了短视频的服务。视频内容已经成为用户内容消费和日常社交最主流的选择,同时也在企业进行品牌曝光、内容种草、销售转化的内容营销中,发挥着越来越关键的作用。

而视频创作有很重要的一部分工作需要通过剪辑来完成,例如动漫混剪、Vlog、影视剧剪辑、教学视频等等,它们都使用了剪辑的技术来使视频内容流畅,突显主旨思想,展现出某种风格来吸引观看者的注意。所以剪辑不是简单的视频的剪切与拼接,而是一个复杂的,需要专业知识的技术。

根据《2022视频创作行业趋势白皮书》显示,截止 2022年6月,达人内容兴趣总体标签同比增长26.3%,快速增长,创作者全面覆盖垂直细分领域。同时各领域头部创作者播放量、互动量、粉丝量表现优异且快速增长。随着赛道细分和新人创作者层出不穷,用户审美疲劳倒逼创作者需要用更加专业的技术,更加优质的素材来创作符合用户需求的视频。

剪辑往往涉及到背景音乐的选择、图片或视频过渡效果、内容的顺序、视角的转换等等细节知识,这让新人创作者感觉无从下手,即使是具备专业知识的人也会觉得头疼。除此之外,素材的选择往往也是一个大问题,本身有摄影师的团队会自己搜集大量的素材,其它的个人创作者则会从网络渠道包括论坛,网站,电商平台获得到大量的冗杂的素材。这些搜集到的大量素材很可能大部分都与创作者剪辑的目的不符合,他们需要耗费大量的时间整理素材,挑选出对他们有用的素材。所以挖掘出一个大体量素材库的潜力,根据用户的输入客制化建议,包括选取素材和上面的种种细节,对于如今大量生长的短视频或者长视频创作者们有着很大的作用:帮助新手较快的上手剪辑,让成熟的创作团队简化工作效率,基于给出的建议调整自己的剪辑策略。

此外,我们还调研了当前的AI剪辑网站如国内的腾讯智影,国外的Fliki等网站,他们都利用AI技术做到了很多剪辑上的重要的工作,提供了不同风格的剪辑模板,人物配音,利用计算机视觉的技术来自动识别图像的起始和结束帧并进行组合。但我们认为他们的技术存在一定的局限性,首先虽然有不同风格的模板,但是每个风格的模板只有一种而且是固定了的,创作者只能削足适履,把自己的想法和素材都限定在这个模板中。不仅如此,他们往往直接生成一个成品的视频,创作者只是提供了素材和选项而已。我们希望的是以创作者为主导,我们帮助创作者来发现他们手中大量素材的潜力,提供多样化的指导意见,并且这个建议是基于选择的风格和素材,创作者可以有足够的自由操作的空间。一条龙的服务受限于训练资料的不充足,当前AI技术的不完善,如果使用目前的AI剪辑直接生成视频只会让短视频市场变得千篇一律,我们尽可能避免这点,充分发挥当前的大模型的作用,但并没有过分高估它,而是将它作为一个具有丰富经验的,工作效率极高的指导者。我们后面也会考虑学习新的剪辑技术,可以通过用户输入学习或者利用大模型随机产生,然后进行标注,尽可能不止步于当前的剪辑技术。

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages