Skill Index

ai-agent-camp/

video-audio

community[skill]

Habilidad de generación de audio para video. Genera archivos de audio a partir de narraciones en scenes.json usando la API TTS de ElevenLabs, produciendo un formato sincronizable con video. Se activa con 'Generar narración', 'TTS', 'Agregar audio', etc.

$/plugin install ai-agent-camp

when to use

details

Audio de Video (TTS)

Genera audio a partir de los campos de narración de scenes.json usando ElevenLabs TTS.

Inicio Rápido

# Generar un solo archivo combinado para todas las narraciones
python skills/video-audio/scripts/generate_audio.py \
  --storyboard-dir output/storyboard/YYYYMMDD_session \
  --voice akari \
  --output output/narration.mp3

# Generar archivos individuales por fotograma
python skills/video-audio/scripts/generate_audio.py \
  --storyboard-dir output/storyboard/YYYYMMDD_session \
  --voice akari \
  --per-scene

Lista de Voces Japonesas

IDNombreCaracterísticasAlias
EkK6wL8GaH8IgBZTTDGJAkariFemenina brillante y naturalakari
EnLxjGl88dNO1Jv6AZk2MiyuConfiable con profundidadmiyu
G3EZ8O36A0x9lmeOtr0fKaoriAmigable y accesiblekaori
PmgfHCGeS5b7sH90BOOJFumiFemenina tranquilafumi
StTDrGrPSyfaHGmzwXbjMasaMasculina japonesamasa
gARvXPexe5VF3cKZBianMitsukiNeutralmitsuki
YOUR_VOICE_IDVoz PersonalizadaVoz personalizadacustom

Opciones

OpciónPredeterminadoDescripción
--voiceakariNombre de voz o ID
--modeleleven_multilingual_v2Modelo TTS
--stability0.5Estabilidad (0-1)
--similarity0.75Impulso de similitud (0-1)
--speed1.0Velocidad de reproducción
--per-scenefalseProducir archivo individual por fotograma
--silence-gap0.3Silencio entre escenas (segundos)
--outputautoRuta del archivo de salida

Salida

Modo Combinado (Predeterminado)

{storyboard_dir}/audio/narration.mp3    # Todas las narraciones combinadas
{storyboard_dir}/audio/narration.json   # Información de marcas de tiempo

Modo Por Escena

{storyboard_dir}/audio/frame_01.mp3
{storyboard_dir}/audio/frame_02.mp3
...
{storyboard_dir}/audio/timestamps.json  # Tiempos de inicio/fin de cada fotograma

Formato de timestamps.json

{
  "total_duration": 18.5,
  "scenes": [
    {
      "frame_number": 1,
      "start": 0.0,
      "end": 2.8,
      "duration": 2.8,
      "text": "Guión de narración"
    }
  ]
}

Integración con Video

Pase a compose_video.py mediante la opción --audio:

python skills/video-editor/scripts/compose_video.py \
  --storyboard-dir output/storyboard/session \
  --audio output/storyboard/session/audio/narration.mp3

Para Remotion, coloque en public/audio/narration.mp3 y referencie con el componente <Audio>.

Variables de Entorno

  • ELEVEN_API_KEY -- Clave API de ElevenLabs (requerida)

Dependencias

  • Python 3.11+
  • curl (llamadas API de ElevenLabs)
  • ffmpeg (concatenación de audio, .bin/ffmpeg)

technical

github
minicoohei/ai-agent-camp
stars
358
license
unspecified
contributors
3
last commit
2026-05-25T08:29:07Z
file
.claude/skills/video-audio/SKILL.es.md

related