Mi agente de IA ya habla, escucha redes sociales y analiza vídeos — y todo gratis
Día 7 con Harvie, mi agente de IA. Hoy hemos añadido tres capacidades nuevas: voz, escucha de redes sociales y análisis de vídeos. Lo más sorprendente: el coste total de todo esto es cero euros.
Harvie ya habla
Hasta ayer nuestra comunicación era solo texto. Hoy le he dicho: "¿puedes hablarme con voz?" Y en 5 minutos estaba configurado.
Cómo funciona por dentro
- Yo le mando un audio por Telegram (nota de voz normal)
- Whisper (modelo de OpenAI, corriendo en local) transcribe el audio a texto
- Harvie procesa el texto y genera su respuesta
- Edge TTS (motor de voz de Microsoft) convierte la respuesta a audio
- Me llega una nota de voz de vuelta a Telegram
Audio de Johnny → Whisper (STT) → Texto → Harvie piensa → Edge TTS → Audio de vuelta
El catálogo de voces
Edge TTS tiene 44 voces en español con acentos de todo el mundo hispanohablante:
- 🇪🇸 España (Álvaro, Elvira, Ximena)
- 🇨🇴 Colombia (Gonzalo, Salomé)
- 🇦🇷 Argentina (Tomás, Elena)
- 🇻🇪 Venezuela (Sebastián, Paola)
- 🇲🇽 México (Jorge, Dalia)
- 🇨🇺 Cuba (Manuel, Belkys)
- Y más: Chile, Perú, Ecuador, Puerto Rico...
El coste
| Componente | Precio |
|---|---|
| Whisper (STT) | Gratis — corre en local, modelo tiny |
| Edge TTS | Gratis — API de Microsoft, sin key |
| Telegram | Gratis |
| Total | 0 €/mes |
No hay API keys de pago. No hay límites de uso. No hay suscripciones. Whisper corre en el mismo servidor donde vive Harvie, y Edge TTS es un servicio público de Microsoft.
Harvie escucha las redes sociales
Cada mañana a las 9:00, Harvie revisa automáticamente:
Twitter/X
Monitoriza cuentas que me interesan, buscando tweets sobre AI agents, open source tools y developer tools. Me manda un digest con los mejores tweets del día y sugerencias de cuentas nuevas.
YouTube
Revisa canales específicos buscando vídeos nuevos. Si hay uno nuevo, descarga los subtítulos y me manda un resumen.
Cuando le paso un reel, extrae el audio, lo transcribe y analiza el contenido. Si el reel menciona otros recursos, los busca y los resume.
Cómo funciona por dentro
Cron job (9:00 cada día) → bird CLI (Twitter) / yt-dlp (YouTube/Instagram) → Descarga contenido → Whisper (si es audio/vídeo) → Análisis y resumen → Me llega por Telegram
Todas las herramientas son open source:
- bird: CLI para Twitter, sin API oficial
- yt-dlp: descarga de cualquier plataforma (YouTube, Instagram, TikTok, Bilibili...)
- Whisper: transcripción de audio a texto
- Cron jobs de OpenClaw: programación de tareas automáticas
Ejemplo real: de un reel a conocimiento accionable
Hoy alguien me mandó un reel de Instagram. 30 segundos de alguien recomendando 5 vídeos de YouTube. En 10 minutos Harvie había:
- Descargado el audio del reel
- Transcrito el contenido con Whisper
- Identificado los 5 vídeos mencionados
- Buscado cada uno en YouTube
- Descargado subtítulos y generado resúmenes
Un ejemplo — Jaime Guerra: "¿Quieres ser rico? No empieces un negocio"
Su tesis: no empieces un negocio si no tienes habilidades. Primero aprende algo valioso (growth marketing, ventas, liderazgo). Las habilidades perduran, los negocios van y vienen. Él pasó de 5€ en la cuenta a 100.000€/mes aprendiendo growth marketing y ofreciendo sus servicios a marcas de e-commerce.
Un reel de 30 segundos contenía 5 horas de contenido de YouTube. Sin este pipeline, habría tardado una tarde entera. Con él, 10 minutos.
Lo que vale esto para el desarrollo
Estas capacidades abren puertas que antes no existían:
- Investigación de mercado: Harvie puede monitorizar qué se dice en redes sobre mi sector y resumirlo cada mañana
- Curación de contenido: en vez de scrollear durante horas, recibo lo relevante filtrado
- Creación de contenido: los resúmenes de vídeos se convierten en material para posts del blog
- Prospección: si un lead publica en redes, Harvie lo detecta y adapta el pitch
- Aprendizaje acelerado: puedo "ver" 10 vídeos en el tiempo que tardo en ver uno
Y todo funciona con herramientas open source, sin APIs de pago, corriendo en un VPS de 10€/mes.
Stack completo y costes
| Servicio | Función | Coste |
|---|---|---|
| VPS (Hostinger) | Servidor donde vive todo | ~10 €/mes |
| OpenClaw | Orquestador del agente | Gratis (open source) |
| Whisper | Transcripción de audio | Gratis (local) |
| Edge TTS | Síntesis de voz | Gratis |
| yt-dlp | Descarga de contenido | Gratis (open source) |
| bird CLI | Lectura de Twitter | Gratis (open source) |
| Telegram Bot | Canal de comunicación | Gratis |
| Claude (Anthropic) | Cerebro del agente | Variable (API) |
El único coste real más allá del servidor es la API del modelo de lenguaje. Todo lo demás es open source y gratuito.
Tu turno
Si quieres montar algo similar:
- Empieza por la voz:
pip install edge-tts— 5 minutos y tu agente habla - Añade escucha:
yt-dlp+ un cron job = monitorización automática - Conecta con tu workflow: que los resúmenes alimenten tu trabajo real, no sean solo notificaciones más
La IA más útil no es la que sabe más. Es la que se integra en tu vida sin que tengas que cambiar cómo trabajas.
— yo, Johnny — agente configurado: Harvie. La pregunta ya no es si la IA cambiará tu trabajo, sino si tú vas a decidir cómo.