¿Alguna vez habéis pausado Prime video y habéis visto qu salen los perfiles de los actores que están en pantalla en ese mismo momento de la pausa? ¿Magia? No, un modelo entrenado con cientos de miles de imágenes "sabe" reconocer a los actores al darle el frame en el que has pausado, y te muestra la ficha de información de los labels que ha podido reconocer.
Nosotros haremos lo mismo, de manera minimalista. En esta ocasión vamos a competir por hacer el sistema de reconocimiento más competente de los personajes de Futurama en algunos frames seleccionados al azar de los siete primeros capítulos. El resto de frames serán usados para entrenar al modelo.
La fecha límite de entrega es el 7 de agosto a las 11:59 PM
Link a la competición
Reglas de la competición
La competición está hosteada en Kaggle puesto que tienen un sistema para organizar competiciones, yo he dado el csv con las respuestas correctas y cuando entreguéis vuestras respuestas os dará vuestra nota. A partir de ahi podréis ver vuestra posición en el ranking con otros participantes y saber qué puntuación batir para intentar mejorar vuestra precisión en sucesivos intentos.
Podéis entregar las respuestas en formato csv obtenido de la manera que queráis, tanto con python como con R, Kaggle tiene su propia plataforma para subir vuestro código y que podamos ver el procedimiento de cada uno. No es necesario enseñar el código de esta manera, pero si recomendable, teniendo en cuenta que estamos aquí para aprender cosas. Para hacer vuestro código en Kaggle id a la pestaña de Code desde el enlace a la competición y empezar un New Notebook
Todo método de predicción es válido; Deep learning, decision trees, SVMs... ¡Puedes probarlos todos también!
Las respuestas pueden obtenerse/comprobarse a mano muy fácilmente, puedes abrir una imagen y ver quien aparece, pero entiendo que aquí somos todos amigos y no habrá ningún colgado que se ponga a rellenar la respuesta a mano. Si esto no fuese el caso se podría exigir mostrar el código que haya generado las respuestas del primer puesto.
Evaluación de las respuestas
Esta vez la predicción es multi-label, en un frame puede estar Fry, Leela, Bender, cualquier combinación de estos o ninguno. Al entregar una respuesta se evaluará en función del error cuadrático de las respuestas individuales en los tres posibles labels, Fry, Leela y Bender. Predecir todas las respuestas correctas será puntuado con un 0, todas las respuestas incorrectas con un 1.
El benchmark a batir es el de asumir que nadie sale en ningún frame (todas las respuestas a 0), en el que el error cuadrático es de 0.62446.
Se podrán entregar hasta 10 respuestas por día durante dos semanas
Archivos
- train_data.csv - el dataset de entrenamiento
- sample_submission.csv - un ejemplo de una respuesta con el formato adecuado
- train_img Directorio con las imágenes de entrenamiento
- test_img Directorio con las imágenes de evaluación
Consejos
- Si no tenéis experiencia en predicciones multi-target nada os impide predecir los targets individualmente con distintos modelos o reentrenando el mismo modelo con distintos datos
- Info sobre multi-target https://machinelearningmastery.com/multi-label-classification-with-deep-learning/
¡Buena suerte!