XRAI Glass traduce el habla de las personas sordas al combinar la transcripción en tiempo real con los lentes de realidad aumentada.
Cuando visitaba a su familia en las vacaciones de invierno de 2021, al especialista en tecnologías de la información Dan Scarfe le molestaba que su abuelo, de 96 años, no pudiera participar plenamente en una conversación debido a su creciente sordera. Según la Organización Mundial de la Salud (OMS), más de 1,500 millones de personas en todo el mundo (casi el 20% de la población mundial) viven con algún tipo de pérdida auditiva, y 430 millones de ellas tienen discapacidad a causa de ella. Si bien muchas personas sordas pueden comunicarse mediante la lengua de señas o escuchar a través de dispositivos como audífonos o implantes cocleares, es común que vivan en aislamiento social como el abuelo de Scarfe.
Por ende, el especialista quería ayudar. “Tenemos subtítulos en tiempo real en [Microsoft] Teams y Zoom, y ya conocíamos esos novedosos lentes de realidad aumentada (RA)”, recuerda, “así que pensé: ¿por qué no combinamos ambas cosas y creamos subtítulos en directo?”.
Scarfe se asoció con seis amigos y excompañeros, los cuales contaban con experiencia en aprendizaje automático, mercadotecnia y filantropía, para fundar XRAI Glass (Lente XRAI) en julio de 2022. Su misión, dice, es “subtitular el mundo”.
XRAI Glass es una aplicación que permite que los lentes de realidad aumentada se conecten a servicios de transcripción en la nube de Amazon, Microsoft y Deepgram para crear subtítulos en tiempo real en la pantalla de los lentes.
“Sólo tienes que instalar el software en tu teléfono, y luego puedes ver cómo se conecta a los servicios en la nube”, explica Scarfe. “Es literalmente como proyectar contenidos digitales en el mundo real, justo frente a ti”.
El software tiene funciones de grabación y reproducción e incluso puede identificar a un orador dentro de un grupo de personas.
En tan sólo un año, la empresa ha crecido hasta alcanzar los 5,000 usuarios en todo el mundo. Carol Cover, experta en gestión educativa, cuya audición se deterioró rápidamente tras un implante coclear fallido, celebra que esta tecnología exista porque le permite participar en conversaciones dentro de restaurantes concurridos y confesarse en la iglesia en privado, como los demás. “Para mí es como un milagro”, afirma.
La empresa está financiada por varios inversores privados y ha recaudado lo que Scarfe llama “una cifra pequeña de millones de dólares”. Organizaciones benéficas como el UK Royal National Institute for Deaf People (Real Instituto Nacional de Personas Sordas del Reino Unido) y DeafKidz International (Niños Sordos Internacional) también han prestado su apoyo.
Una de las primeras inquietudes que Scarfe y sus cofundadores tuvieron fue la privacidad del usuario, por lo que la política de XRAI ha sido abstenerse de recopilar datos de los dispositivos de los usuarios. En cambio, el usuario es el controlador oficial de los datos y es legalmente responsable, bajo las leyes de privacidad locales, de garantizar que sus interlocutores den su consentimiento para transcribir sus palabras.
La fase inicial incluyó mejoras al software, como los servicios de traducción de la aplicación y su asistente virtual. Ahora la aplicación puede procesar 76 idiomas y 140 dialectos diferentes, así como traducirlos y transcribirlos en tiempo real. El nuevo asistente virtual funciona con ChatGPT, lo cual permite que los usuarios hagan preguntas como “¿Cómo estará el clima hoy?" y recibir las respuestas subtituladas en la pantalla de los lentes. El asistente también puede reproducir conversaciones anteriores y crear un resumen del contenido.
Los fundadores de XRAI están desarrollando un software de traducción inversa que permitirá que los dispositivos utilicen la aplicación para hablar y transcribir. Esta función puede ser importante para algunas personas, como aquellas que tienen sordera desde el nacimiento y no pueden hablar por sí mismas (alrededor de 70 millones de personas en todo el mundo, según la OMS).
Dado que muchas personas sordas prefieren utilizar la lengua de señas para comunicarse, Scarfe está interesado en desarrollar una versión del software que pueda traducir American Sign Language (Lengua de señas estadounidense, ASL por sus siglas en inglés), proyectando la palabra hablada en una imagen AR dentro de los lentes. Scarfe ha estado en contacto con una empresa que podría hacer realidad esta idea en los próximos meses.
Scarfe asegura que constantemente recibe noticias de usuarios encantados de poder escuchar varios pódcast, conversar durante la cena e ir al confesionario sin tener que pasar notas de un lado a otro. “Para ser una empresa tan pequeñita como la nuestra es increíble la respuesta que hemos recibido de todos los rincones del mundo”, dice.
Autores originales
- Emma Woollacott es una periodista británica que ha colaborado con la BBC, Forbes y otros medios.
|
Este artículo es contenido original de la Revista Stanford Social Innovation Review publicado en la edición invierno 2024.
- Traducción del artículo Subtitling the World por Ángela Mariscal.
|
Recomendado para ti
Subtitular la televisión: cómo alfabetizar a mil millones de personas
|
El subtitulado en la misma lengua (SLS por sus siglas en inglés) en los principales canales de televisión de la India pasó de ser un concepto en 1996 a una política nacional de difusión en 2019. Esta es la historia de cómo lo lograron.
|
TV para la comunidad sorda de África
|
Signs TV Uganda ofrece programación realizada por presentadores sordos que también se interpreta en lenguaje de señas para atender a la creciente pero desatendida población con discapacidad auditiva en África.
|