Video-use:口播视频剪辑 skills丨可剪口癖、调色、加字幕、做动画

@i陆三金:Browser Use 创始人老哥搓的口播视频剪辑 skills:可剪口癖、调色、加字幕、做动画(用的 Manim 和 Remotion)

核心理念:基于转录做视频编辑

第一层 – 音频转录(始终加载)。每次源文件调用 ElevenLabs Scribe 都会提供词级别的时戳、说话人分离和音频事件(如(笑声)、(掌声)、(叹息))。所有这些信息都打包成一个约 12KB 的 takes_packed.md 文件——这是 LLM 的主要阅读视图。

第二层 – 视觉合成(按需)。timeline_view 会为任何时间范围生成一个包含胶片条、波形和词标签的 PNG 图像。仅在决策点调用——例如模糊的停顿、重录比较、剪辑点合理性检查。

项目地址:https://github.com/browser-use/video-use

JameCling
JameCling