Text-To-Speech: la tecnología para personas con trastornos de habla

Text-To-Speech,que bajo la premisa del movimiento global Tech for Good promueve desarrollar la tecnología e inteligencia artificial al servicio de la inclusión y el bien común, que realizó Xiaomi Al Lab.

Se trata de una herramienta tecnológica para los usuarios con trastornos del habla, que rompe con la habitual voz electrónica de los asistentes inteligentes para generar una voz personalizada para usuarios con trastorno de habla.

El proyecto pertenece a Own My Voice el cual significa “Mi propia voz”, y fue desarrollado por el Comité Técnico de la marca, visibilizando la relación de Xiaomi con el movimiento global mencionado.

Esta corriente pone el foco sobre la Agenda 2030, la cual establece un plan global que tiene como objetivo erradicar la pobreza, el cambio climático y reducir las desigualdades sociales en todo el mundo. Actualmente, es una idea adoptada por grandes empresas de la industria y de innovación tecnológica en el mundo, contando con la participación de 193 países de las Naciones Unidas.

Un gran avance

Desde la firma afirman que, Own My Voice, representa haber alcanzado un nuevo estadio de innovación, ya que los investigadores del gigante chino lograron desarrollar una nueva síntesis de voz, con el objetivo de que los usuarios con trastornos de habla puedan acceder a servicios más humanizados. Para conseguirlo, el equipo de Xiaomi reclutó a más de 200 voluntarios para que donaran sus voces y así desarrollar y producir la voz más adecuada para el destinatario o la persona que lo fuera a requerir.

“La tecnología de texto a voz espontánea ha demostrado que también se puede adoptar en áreas de accesibilidad y, sobre todo, mejorar la experiencia del usuario”, comentó el fabricante en un comunicado.

Su funcionamiento es a partir de algoritmos, los cuales se combinaron con una tecnología de voz avanzada que desarrolló la empresa, posteriormente la voz real seleccionada y se manipuló con una modificación acústica para construir un sonido completamente nuevo y original.

Más tarde utilizaron la tecnología Text-To-Speech para entrenar el modelo de IA, esto permitió que la voz sintetizada de los asistentes inteligentes tuviera más parecido a la voz de una persona real. Gracias a este modelo se mejoró la entonación, la repetición, las pausas, la estructura y algunas otras características del habla.

Según los desarrolladores, esta herramienta es capaz de “sustituir la sensación monótona y antinatural de la voz electrónica” en los dispositivos, por una sensación más natural, humana y realista.

“Si advertimos y atendemos las necesidades de los grupos minoritarios en una fase temprana, el proceso de difusión de la tecnología podría acortarse”, expresó el presidente del Comité de Tech for Good, Zhu Xi, respecto a la aplicación de este desarrollo.