Buenas a todos, la pasada semana os hablamos sobre Teachable Machine, el proyecto de Google que nos permitía, de forma sencilla, entrenar nuestros propios modelos de aprendizaje automático para el reconocimiento de imágenes, videos o audios. Hoy hemos querido continuar con el artículo en el que os enseñamos cómo entrenar un modelo capaz de detectar armas AK47 y MP5 en imágenes, pero orientándolo en este caso al reconocimiento de audios.
En el post de hoy, aprovechando las largas y constantes comparecencias públicas de diferentes políticos en todos los medios de comunicación, las cuales están teniendo lugar por la desgraciada situación de la Covid19, contamos con un más que interesante dataset al alcance de cualquier internauta. Con ello, hemos querido entrenar un modelo capaz de reconocer las voces de Pedro Sánchez y de Santiago Abascal, como un ejemplo que ilustre las capacidades de esta tecnología.
El funcionamiento es exactamente el mismo que para el caso de las imagenes que vimos ya la semana pasada, con la salvedad de que, en esta ocasión, nos requerirá utilizar el micrófono para extraer los fragmentos de audio, así como grabar 20 segundos de ruido ambiente para poder establecer el nivel de ruido que debe tener en cuenta.
Con apenas 300 fragmentos de audios de cada uno de los 2 políticos, hemos podido entrenar un modelo con un alto nivel de acierto, como podréis ver en los siguientes vídeos.
Prueba de concepto con Pedro Sánchez:
Prueba de concepto con Santiago Abascal:
Con algo más de tiempo, y algunas horas de entrenamiento, será fácil llegar a tasas cercanas al 100%, dado que contamos con un dataset ingente de todos nuestros políticos al alcance de cualquier persona. Por lo que no dudéis en probar cualquier idea loca que se os ocurra :)
Saludos!