Inicio Actualidad El reconocimiento de voz de Microsoft escucha como un humano

El reconocimiento de voz de Microsoft escucha como un humano

0
Compartir

Los sistemas de reconocimiento de voz y transcripción constituyen un sueño de la informática para muchos. Poder hablar a un ordenador o dispositivo y que transcriba con una exactitud aceptable lo que le decimos supondría el ahorro de mucho tiempo en ciertos ámbitos y posibilitaría tareas con las que hasta ahora sólo soñamos.

Te puede interesar: El traductor de Google va a mejorar notablemente gracias al “deep learning”

Sin embargo, Microsoft acaba de anunciar un avance muy esperanzador en este campo, y es que la compañía con base en Redmond ha logrado que su programa de reconocimiento y transcripción alcance un porcentaje de fallo muy similar al de una persona humana.

Respuesta humana

Hace más o menos un mes Microsoft ya alcanzó el récord mundial en este tipo de tareas al lograr alcanzar una tasa de error del 6,3 por ciento. Se trataba entonces de un gran avance, aunque al tener en cuenta que la tasa de error humana se sitúa en el 5,9 por ciento, no podíamos decir que el software hubiese alcanzando la meta. Reconocimiento de voz

En esta ocasión, en Microsoft han conseguido igualar ese 5,9 por ciento y por lo tanto ya podemos hablar de máquinas que transcriben cómo si fuesen humanas. Esto es lo mismo que decir que a la hora de trabajar con el software, será como si una persona estuviera redactando lo que decimos, y los errores y correcciones a posteriori serán mínimos.

Deep learning

Desde la empresa responsable de Windows reconocen que dos de las claves más importantes para alcanzar este logro han sido la Inteligencia Artificial y el Deep Learning. La creación de redes neuronales ha posibilitado un trabajo específico con nubes de palabras, de forma que al programa le resulta mucho más fácil detectar las palabras que componen una frase, así como diferenciar entre dos términos con sonidos similares.

Aunque el logro alcanzado ya nos parece increíble, en Engadget descubrimos que el equipo responsable trabaja ahora en conseguir un funcionamiento óptimo del sistema de transcripción en situaciones de la vida diaria, como puede ser mientras conducimos un vehículo o caminamos por la calle (situaciones en las que el ruido ambiente puede entorpecer la transcripción). Transcripción de voz

Para rizar el rizo y alcanzar unos límites fuera de lo previsible, también se contempla la posibilidad de poder transcribir discursos producidos por varias personas a la vez. ¿Os imagináis un grupo de 4 o más personas hablándole a la vez al mismo ordenador y que este sea capaz de crear sus correspondientes documentos Word con cada discurso por separado?

Dejar una respuesta

Please enter your comment!
Please enter your name here