Volver al blog
openclawiaagentesttswhisperproductividad
·5 min de lectura

Mi agente de IA ya habla, escucha redes sociales y analiza vídeos — y todo gratis

Día 7 con Harvie, mi agente de IA. Hoy hemos añadido tres capacidades nuevas: voz, escucha de redes sociales y análisis de vídeos. Lo más sorprendente: el coste total de todo esto es cero euros.

Harvie ya habla

Hasta ayer nuestra comunicación era solo texto. Hoy le he dicho: "¿puedes hablarme con voz?" Y en 5 minutos estaba configurado.

Cómo funciona por dentro

  1. Yo le mando un audio por Telegram (nota de voz normal)
  2. Whisper (modelo de OpenAI, corriendo en local) transcribe el audio a texto
  3. Harvie procesa el texto y genera su respuesta
  4. Edge TTS (motor de voz de Microsoft) convierte la respuesta a audio
  5. Me llega una nota de voz de vuelta a Telegram

Audio de Johnny → Whisper (STT) → Texto → Harvie piensa → Edge TTS → Audio de vuelta

El catálogo de voces

Edge TTS tiene 44 voces en español con acentos de todo el mundo hispanohablante:

  • 🇪🇸 España (Álvaro, Elvira, Ximena)
  • 🇨🇴 Colombia (Gonzalo, Salomé)
  • 🇦🇷 Argentina (Tomás, Elena)
  • 🇻🇪 Venezuela (Sebastián, Paola)
  • 🇲🇽 México (Jorge, Dalia)
  • 🇨🇺 Cuba (Manuel, Belkys)
  • Y más: Chile, Perú, Ecuador, Puerto Rico...

El coste

ComponentePrecio
Whisper (STT)Gratis — corre en local, modelo tiny
Edge TTSGratis — API de Microsoft, sin key
TelegramGratis
Total0 €/mes

No hay API keys de pago. No hay límites de uso. No hay suscripciones. Whisper corre en el mismo servidor donde vive Harvie, y Edge TTS es un servicio público de Microsoft.

Harvie escucha las redes sociales

Cada mañana a las 9:00, Harvie revisa automáticamente:

Twitter/X

Monitoriza cuentas que me interesan, buscando tweets sobre AI agents, open source tools y developer tools. Me manda un digest con los mejores tweets del día y sugerencias de cuentas nuevas.

YouTube

Revisa canales específicos buscando vídeos nuevos. Si hay uno nuevo, descarga los subtítulos y me manda un resumen.

Instagram

Cuando le paso un reel, extrae el audio, lo transcribe y analiza el contenido. Si el reel menciona otros recursos, los busca y los resume.

Cómo funciona por dentro

Cron job (9:00 cada día) → bird CLI (Twitter) / yt-dlp (YouTube/Instagram) → Descarga contenido → Whisper (si es audio/vídeo) → Análisis y resumen → Me llega por Telegram

Todas las herramientas son open source:

  • bird: CLI para Twitter, sin API oficial
  • yt-dlp: descarga de cualquier plataforma (YouTube, Instagram, TikTok, Bilibili...)
  • Whisper: transcripción de audio a texto
  • Cron jobs de OpenClaw: programación de tareas automáticas

Ejemplo real: de un reel a conocimiento accionable

Hoy alguien me mandó un reel de Instagram. 30 segundos de alguien recomendando 5 vídeos de YouTube. En 10 minutos Harvie había:

  1. Descargado el audio del reel
  2. Transcrito el contenido con Whisper
  3. Identificado los 5 vídeos mencionados
  4. Buscado cada uno en YouTube
  5. Descargado subtítulos y generado resúmenes

Un ejemplo — Jaime Guerra: "¿Quieres ser rico? No empieces un negocio"

Su tesis: no empieces un negocio si no tienes habilidades. Primero aprende algo valioso (growth marketing, ventas, liderazgo). Las habilidades perduran, los negocios van y vienen. Él pasó de 5€ en la cuenta a 100.000€/mes aprendiendo growth marketing y ofreciendo sus servicios a marcas de e-commerce.

Un reel de 30 segundos contenía 5 horas de contenido de YouTube. Sin este pipeline, habría tardado una tarde entera. Con él, 10 minutos.

Lo que vale esto para el desarrollo

Estas capacidades abren puertas que antes no existían:

  • Investigación de mercado: Harvie puede monitorizar qué se dice en redes sobre mi sector y resumirlo cada mañana
  • Curación de contenido: en vez de scrollear durante horas, recibo lo relevante filtrado
  • Creación de contenido: los resúmenes de vídeos se convierten en material para posts del blog
  • Prospección: si un lead publica en redes, Harvie lo detecta y adapta el pitch
  • Aprendizaje acelerado: puedo "ver" 10 vídeos en el tiempo que tardo en ver uno

Y todo funciona con herramientas open source, sin APIs de pago, corriendo en un VPS de 10€/mes.

Stack completo y costes

ServicioFunciónCoste
VPS (Hostinger)Servidor donde vive todo~10 €/mes
OpenClawOrquestador del agenteGratis (open source)
WhisperTranscripción de audioGratis (local)
Edge TTSSíntesis de vozGratis
yt-dlpDescarga de contenidoGratis (open source)
bird CLILectura de TwitterGratis (open source)
Telegram BotCanal de comunicaciónGratis
Claude (Anthropic)Cerebro del agenteVariable (API)

El único coste real más allá del servidor es la API del modelo de lenguaje. Todo lo demás es open source y gratuito.

Tu turno

Si quieres montar algo similar:

  1. Empieza por la voz: pip install edge-tts — 5 minutos y tu agente habla
  2. Añade escucha: yt-dlp + un cron job = monitorización automática
  3. Conecta con tu workflow: que los resúmenes alimenten tu trabajo real, no sean solo notificaciones más

La IA más útil no es la que sabe más. Es la que se integra en tu vida sin que tengas que cambiar cómo trabajas.


— yo, Johnny — agente configurado: Harvie. La pregunta ya no es si la IA cambiará tu trabajo, sino si tú vas a decidir cómo.