Google ofrece por fin su Text-to-Speech de forma oficial para desarrolladores
Hace algún tiempo descubrimos que, utilizando el servicio de traducción de Google, podíamos utilizar el TTS de Google pasando un texto en una URL y Google nos devolvía un archivo de audio que podíamos reproducir en Asterisk. Era un TTS (Text-To-Speech) muy bueno y, utilizando este sistema, gratuito. Desde entonces Google ha ido cambiando este servicio poco a poco, lo que ha requerido que muchos servicios TTS integrados con distintos software tuvieran que ser modificados cuando dejaba de funcionar. Era una especie de hack que permitía tener un TTS profesional de forma prácticamente gratis. El problema era que no había forma oficial de utilizar el TTS de Google, ni pagando, ni sin pagar. Si te gustaba su TTS, solo podías buscar la última manera de obtener el archivo de audio y confiar en que este sistema se mantuviese estable el mayor tiempo posible.
Un sistema Text To Speech (TTS), es una aplicación que convierte un texto escrito a audio, permitiendo escuchar cualquier texto: un documento, un email o incluso llamar a un número de teléfono y poder escuchar una información que previamente alguien ha escrito.
Ocho años después, Google por fin publica de forma oficial en su nube Google Cloud, su servicio de TTS aprovechando la integración con un sistema llamado WaveNet que permite crear audio en bruto partiendo de texto gracias a la tecnología DeepMind de aprendizaje automático, lo que permite crear un audio mucho más realista en un tiempo mínimo (apenas 50ms.). El inconveniente es que esta nueva tecnología por el momento únicamente está disponible en Inglés, así que si queremos utilizar el TTS en español tendremos que utilizar el de toda la vida, aunque al menos ya disponemos de una API para facilitarnos la vida a los que programamos.
No obstante, y como viene siendo habitual, ahora que Google ofrece esta herramienta para integrarlo con nuestros desarrollos, ya tiene un coste: $4 el primer millón de caracteres, por lo que si escribimos un ejemplo en plan:
Gracias por llamar a EMPRESA, en este momento no podemos atenderle, nuestro horario de atención al cliente es de lunes a jueves de nueve treinta a diecinueve horas y los viernes de nueve treinta a quince horas, deje su mensaje y su teléfono después de oir la señal y nos pondremos en contacto con usted.
Que son unos 300 caracteres, nos costaría unos $0,0012.
Seguramente no parezca un precio excesivo si la idea es grabar ese audio en un archivo y poder reproducirlo tantas veces como deseemos, pero suponiendo que queremos personalizar el audio cada vez que llama una persona, tendríamos que generar ese audio en tiempo real por cada llamada, con lo que el precio seguramente algo mayor.
Por supuesto, si entrar en el ecosistema de Google y su Google Cloud no te interesa, siempre puedes mirar otros sistemas.
Aquí tenéis el enlace al servicio de Text-to-Speech de Google: https://cloud.google.com/text-to-speech/