La empresa que desarrolló ChatGPT ahora ha lanzado un sistema de reconocimiento de voz que permite
OpenAI, la empresa que creó los sistemas con Inteligencia Artificial ChatGPT y DALL-E, estrenó hoy API Whisper, su nuevo modelo de voz a texto de código abierto que comenzó a probar en septiembre. Se trata de un sistema de reconocimiento de voz automático que permite realizar transcripciones a varios idiomas, así como su respectiva traducción al inglés. Pueden hacerse a una gran variedad de formatos entre los que se incluyen M4A, MP3, MP4, MPEG, MPGA, WAV and WEBM. Tiene un precio de $0.006 dólares por minuto.
Google, Amazon y Meta son algunas de las compañías que han desarrollado sistemas de reconocimiento de voz altamente capaces, sin embargo, lo que hace diferente a Whisper es que ha sido entrenado con alrededor de 680 mil horas de datos multilingües y multitarea que se recolectaron en la web. Greg Brockman, presidente de OpenAI, informó que se trabajo en el reconocimiento de acentos únicos, jergas y en enfrentarse al problema del ruido de fondo.
“La API de Whisper es el mismo modelo grande que puede obtener de código abierto, pero lo hemos optimizado al extremo. Es mucho, mucho más rápido y extremadamente conveniente”, expresó Brockman para una entrevista con el portal TechCrunch.
¿Cuáles son los inconvenientes a los que se enfrentan los sistemas de reconocimiento de voz?
Los sistemas de reconocimiento de voz cuentan con problemas relacionados con el acento o el dialecto, además de que suelen ser costosos por lo que las empresas se encuentran con muchas barreras cuando se disponen a desarrollar este tipo de tecnologías.
Whisper ha tenido problemas sobre todo con su herramienta que permite predecir "la palabra que sigue" porque el sistema fue entrenado con una gran cantidad de datos. Esto causa que Whisper incluya palabras que no se dijeron. Además, no funciona igual en todos los idiomas sobre todo en los que no ha sido entrenado lo suficiente o nada.
Estos inconvenientes también los tienen los sistemas de Amazon, Apple, Google, IBM y Microsoft, según un informe de Stanford de 2020. También llama la atención que se cometen errores un 19% menos con usuarios blancos que con usuarios negros por los distintos tipos de ‘slang’ que suelen manejar.