在短视频创作领域,紧跟热点、分析爆款文案至关重要。但是利用第三方如轻抖、通义等只能逐条提取视频文案,效率低下,难以应对批量采集批量提取的大规模数据要求。接下来我将分享我的工作流,如何通过本地部署 利用 whisper 或 sensevoice 实现日均提取抖音/小红书/B站视频号等视频文案 2 万+条。
整体工作流如下
1.视频作品采集:使用RPA或者自己开发或者第三方工具等都可以,目的就是通过策略或者手动筛选获取到自己的对标视频
2.视频作品无水印解析及下载: 本地或者服务器部署开源项目,解析目标平台如抖音、小红书、B站等的视频链接,获取无水印视频地址并下载。
3.音频转换: 利用 ffmpeg 工具将下载的视频文件转换为音频文件,为后续语音识别做准备。
4.语音识别: 使用 whisper 或 sensevoice 等语音识别引擎将音频文件转录为文本。其中,sensevoice 速度更快,而 whisper large 相比准确率更高,可根据实际需求选择。
5.数据整理与AI重写等: 将识别出的文案信息根据实际需求使用AI进行清洗和格式化,导出为可供分析的数据格式
这套流程效率极高。以使用sensevoice为例,在我的 4070Ti super 显卡上,处理一条抖音小红书视频通常只需3-5秒,B站视频较长30秒内也可以转录完成。在开启并发的情况下,单日最多处理约2.6万条各类平台视频,总计超1000小时的数据。
硬件要求
….