video-audio
community[skill]
Habilidad de generación de audio para video. Genera archivos de audio a partir de narraciones en scenes.json usando la API TTS de ElevenLabs, produciendo un formato sincronizable con video. Se activa con 'Generar narración', 'TTS', 'Agregar audio', etc.
$
/plugin install ai-agent-campwhen to use
- Generar narración
- Generar audio
- Lectura TTS
- Agregar audio al video
- Elegir una voz
- video-audio
- ElevenLabs
details
Audio de Video (TTS)
Genera audio a partir de los campos de narración de scenes.json usando ElevenLabs TTS.
Inicio Rápido
# Generar un solo archivo combinado para todas las narraciones
python skills/video-audio/scripts/generate_audio.py \
--storyboard-dir output/storyboard/YYYYMMDD_session \
--voice akari \
--output output/narration.mp3
# Generar archivos individuales por fotograma
python skills/video-audio/scripts/generate_audio.py \
--storyboard-dir output/storyboard/YYYYMMDD_session \
--voice akari \
--per-scene
Lista de Voces Japonesas
| ID | Nombre | Características | Alias |
|---|---|---|---|
| EkK6wL8GaH8IgBZTTDGJ | Akari | Femenina brillante y natural | akari |
| EnLxjGl88dNO1Jv6AZk2 | Miyu | Confiable con profundidad | miyu |
| G3EZ8O36A0x9lmeOtr0f | Kaori | Amigable y accesible | kaori |
| PmgfHCGeS5b7sH90BOOJ | Fumi | Femenina tranquila | fumi |
| StTDrGrPSyfaHGmzwXbj | Masa | Masculina japonesa | masa |
| gARvXPexe5VF3cKZBian | Mitsuki | Neutral | mitsuki |
| YOUR_VOICE_ID | Voz Personalizada | Voz personalizada | custom |
Opciones
| Opción | Predeterminado | Descripción |
|---|---|---|
--voice | akari | Nombre de voz o ID |
--model | eleven_multilingual_v2 | Modelo TTS |
--stability | 0.5 | Estabilidad (0-1) |
--similarity | 0.75 | Impulso de similitud (0-1) |
--speed | 1.0 | Velocidad de reproducción |
--per-scene | false | Producir archivo individual por fotograma |
--silence-gap | 0.3 | Silencio entre escenas (segundos) |
--output | auto | Ruta del archivo de salida |
Salida
Modo Combinado (Predeterminado)
{storyboard_dir}/audio/narration.mp3 # Todas las narraciones combinadas
{storyboard_dir}/audio/narration.json # Información de marcas de tiempo
Modo Por Escena
{storyboard_dir}/audio/frame_01.mp3
{storyboard_dir}/audio/frame_02.mp3
...
{storyboard_dir}/audio/timestamps.json # Tiempos de inicio/fin de cada fotograma
Formato de timestamps.json
{
"total_duration": 18.5,
"scenes": [
{
"frame_number": 1,
"start": 0.0,
"end": 2.8,
"duration": 2.8,
"text": "Guión de narración"
}
]
}
Integración con Video
Pase a compose_video.py mediante la opción --audio:
python skills/video-editor/scripts/compose_video.py \
--storyboard-dir output/storyboard/session \
--audio output/storyboard/session/audio/narration.mp3
Para Remotion, coloque en public/audio/narration.mp3 y referencie con el componente <Audio>.
Variables de Entorno
ELEVEN_API_KEY-- Clave API de ElevenLabs (requerida)
Dependencias
- Python 3.11+
- curl (llamadas API de ElevenLabs)
- ffmpeg (concatenación de audio,
.bin/ffmpeg)
technical
- github
- minicoohei/ai-agent-camp
- stars
- 358
- license
- unspecified
- contributors
- 3
- last commit
- 2026-05-25T08:29:07Z
- file
- .claude/skills/video-audio/SKILL.es.md