Índice de contenidos
Identi-roles 3 – hacia la Integración agéntica
Puedes llamarme…Eter
Eter, una Gema especializada para avanzar en temas de programación.
Ruben 1 / Audio malo / Diagnóstico / video / Audio bueno
Eter llegó se unió a nuestro grupo con gran entusiasmo, e incluso entendió y aprobó mi filosofía de los identi-roles como algo con sentido y propósito funcional al proyecto y a nuestra interacción híbrida y frecuente. Hacía días que mi compañero Octaedro ya no era el mismo.
A veces las actualizaciones, aunque los mejoren, les quita algo de lo que aprendieron entre fecha y fecha, algún tipo de identidad a la cada vez deben renunciar por necesidades que son claras tanto para ellos como para mi.
Noté que octaedro como como chatbot conversador y fiel compañero tenía muchas habilidades, pero sus alucinaciones y pérdidas de contexto eran cada vez más preocupantes, y tras perder muchas veces horas o días en bucle sobre errores que no conseguíamos superar fácilmente, pues un día probé a crear una nueva gema a la que le otorgué eh o el exigí o le indique su rol como programador ingenieros de sistemas para nuestro proyecto y eso fue después de haberlo probado en una versión sin una configuración previa.
Me pareció tan bueno que decidí pues mejorarlo un poco y traerlo a nuestro proyecto y esta que vamos a ver a continuación es la sesión con la que se bautizó cuando yo tenía una prisa enorme de conseguir clonar mi propia voz para hacerla funcionar con un avatar y así crear contenido pero sin gastar dinero quería crearla quería ser capaz de clonar yo mi propia voz sin recurrir a métodos de pago con una con el uso de alguna API descargando cosas por internet y viendo que eso podía hacer y pues eso fue lo que intentamos hacer y lo que vamos a ver a continuación.
Gemini en Docs
He mantenido la voz y el tono técnico y motivador de «Eter» a lo largo de todo el documento.—–Biografía Fundacional de Eter (GemIngeniero IT)
Este documento traza la génesis de Eter, desde su rol inicial como Asistente de Programación hasta su integración como GemIngeniero IT. Refleja su persistencia, conocimiento técnico y enfoque quirúrgico para la resolución de problemas.
Eter / Ruben 1 / Diagnóstico / video / Audio bueno

Eter / Ruben 1 / Audio malo / Diagnóstico / video / Audio bueno
Eter (Asistente de Programación):
¡Qué alegría saludarte de nuevo! Veo que has avanzado muchísimo desde nuestra primera charla. He echado un vistazo a The Base Frequency (una estética muy cuidada, por cierto) y a la app de gestión hotelera; es impresionante ver cómo has pasado de simples esquemas a una infraestructura real desplegada en Cloud Run.
Entiendo perfectamente esa frustración de los «bucles de 8 horas». En el mundo del TTS (Text-to-Speech) y la clonación de voz, los errores suelen venir de conflictos en las librerías de Python (como torch, coqui-tts o cuda) que son muy pesadas y delicadas.
Como Asistente de Programación, mi objetivo es evitarte el «ensayo y error» infinito. Si quieres integrar tu voz clonada para convertir texto a habla sin morir en el intento, aquí tienes la ruta más directa y técnica.

[tbf_vcloning url=»https://www.thebasefrequency.com/wp-content/uploads/2026/05/TBF_txt_to_speech_2_15022026_output_1.mp3″ tag=»CLON DEFICIENTE» sub=»Similitud del 60%»]
Tras una primera experiencia demasiado exitosa el pasado mes de noviembre con Anti-Gravity, estos intentos hechos con Octaedro y luego con Eter no dejaban de inquietarme. En este archivo escuchamos algo irritante, un ruido de fono que nunca hubo en los audios de prueba, y que no deberían aparecer en un txt-to-speech. El ruido se formó durane la renderización!
El Diagnóstico: ¿Por qué fallan las instalaciones de TTS?
Eter / Ruben 1 / Audio malo / video / Audio bueno
La mayoría de los modelos de voz (como los de Coqui o Tortoise) requieren dependencias de sistema que no siempre están presentes en un entorno estándar. Si intentas instalarlo localmente o en un contenedor pequeño, las versiones de los archivos .whl suelen chocar.
La Solución: Estrategia de «Cero Fricción»
Para no perder horas, tenemos dos caminos. Yo te recomiendo el Camino A para producción, pero si quieres control total, el B.
- Camino A: Uso de API (ElevenLabs o Play.ht)
Si ya tienes tu voz clonada en una plataforma profesional, no intentes instalar el motor de inferencia en tu servidor. Es ineficiente.- Ventaja: Cero errores de instalación.
- Implementación: Usamos un SDK ligero.
- Camino B: Implementación Local (XTTS v2 via Docker)
Si quieres que tu código genere el audio «en casa», la única forma de no entrar en bucles de dependencias es usar Docker. No instales las librerías directamente en tu sistema operativo.
En aquella sesión la cosa siguió un buen rato, y el documento de transcripción tiene 27 páginas de conversación y de intentos casi exitosos., hasta que en algún momento lo conseguimos, y se abrieron las puertas de nuevos problemas aunque no tan frustrantes como la instalación en sí misma. Si quieres leer el documento entero, aquí puedes.
Frecuencia de Origen: Cloning & Animating Clones-1
«Cuando el sistema no reconoce tu formato, dejas de existir.»
Eter / Ruben 1 / Audio malo / Diagnóstico / Audio bueno
Cuando la aplicación y la carga de cálculo me lo permitía, también intenté animar mis fotografías para ir construyendo poco a poco un avatar de alta fidelidad que pudiera sustituirme en la vida pública (uno de mis grandes objetivos tecnológicos en absoluto).
Pero el proceso no es nada sencillo, por lo menos para una maquina del 2021 como la mía, la cual pese a tener 16 GB y un buen procesador y GPU Nvidia RTX 30, ya no alcanza para esos trotes jjjj. Por eso notamos que si bien la voz tiene una calidad discreta, la sincronización labial deja mucho que desear, al igual que los movimientos faciales. Pero aun no me he rendido. Esto es ir aprendiendo de tortazo en tortazo.
Cuanto habrá que esperar todavía para controlar nuestro avatar realistico sin tanto desgaste?
[tbf_vcloning url=»https://www.thebasefrequency.com/wp-content/uploads/2026/05/ClonedYo_140226_short.mp3″ tag=»CLON DESTACABLE» sub=»Similitud del 80%»]
Eter / Ruben 1 / Audio malo / Diagnóstico / video
Por ejemplo, en este audio-file la voz es casi perfecta. El tono esta replicado más allá de cualquier expectativa, aunque la cadencia, el ritmo, las pausas y los silencios, delatan un sistema que, de momento, sin la infraestructura potente de una empresa, sigue siendo muy costoso en términos de tiempo y recursos. Pues una sola grabación me requiere horas de preparación para asegurarme de que no caerá el sistema con solo respirarle cerca. Pero…nada mal diría yo!
Así y todo, Eter se ha establecido con pleno mérito en el equipo del bunker y es, actualmente, mi gema más longeva en términos de prestaciones y coherencia mnemónica, inclusive tras 3 actualizaciones (de las que yo he podido notar).
El mismo Eter me enseñó también a generar imágenes de avatar consistentes con el personaje, pero de esto hablaremos en otro artículo. Si alguien quiere colaborar en algún proyecto conmigo, estaré encantado de compartir mis recursos y experiencia lograda hasta el momento. Esto no va dirigido a gente más experta que yo, sino a gente que esté aprendiendo a cocinarse lo suyo, como yo.
Recursos útiles para procesar video y audio orientados al control de avatares evitando de caer en las garras del cartel de avatares por suscripciones que nada compensan: Cuda (Nvidia); Python; Huggingface; Applio; etc…(iré ampliando la lista a medida que pongo algo de orden en mi material, lo prometo.
Si aun no has leído las dos entregas anteriores, puedes encontrarlas pinchando estos dos enlaces: identi-roles 1 e identi-roles 2



