Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Un experimento en evolución: ciclo de vida de un proyecto de ciencia de datos

Un experimento en evolución: ciclo de vida de un proyecto de ciencia de datos

En mi experiencia de trabajo en proyectos de ciencia de datos, he observado una clara diferencia en la forma en que las distintas partes interesadas entienden su funcionamiento. Mientras que el desarrollo de software se entiende bien -la gente sabe qué esperar o cómo comunicarse-, los proyectos de ciencia de datos no, ya que son relativamente nuevos. Suelen ser de naturaleza no determinista, con dependencias de la información contenida en los datos que no pueden conocerse antes de iniciar el proyecto. En este artículo, describo el flujo típico de un proyecto de ciencia de datos. Espero que esto ayude a stakeholders a entender cómo se ejecutan los proyectos de ciencia de datos de principio a fin.

A figure showing the lifecycle of a typical data science project. This starts with the problem definition, then research which then parallely may lead to literature survey, understanding the data and ideating based on existing knowledge. This leads to choosing the initial dataset and approach to implement an algorithm to create a model (if applicable). The results of this model are analyzed and depending on the result, the literature, data & ideation stages are revisited. Once an acceptable model is created, this is productionised and monitored in production.

Figura 1: Ciclo de vida de un proyecto de ciencia de datos

 

Cada parte del ciclo de vida de un proyecto de ciencia de datos suele ser un experimento. Todo proyecto de ciencia de datos comienza definiendo el planteamiento del problema, para tener una idea clara de lo que estamos tratando de resolver. Esto también incluye el establecimiento de los criterios de éxito. Puede tratarse de una métrica comercial, por ejemplo, el aumento de las ventas, o de una métrica de rendimiento del modelo, por ejemplo, la puntuación F1/F2, la precisión, la recuperación o la exactitud.

 

En algunos proyectos, la definición del propio planteamiento del problema puede ser la primera etapa. Esto suele ocurrir cuando un/a cliente dice que tiene algunos datos disponibles y pide a los equipos de ciencia de datos que extraigan ideas útiles o hagan predicciones a partir de ellos. Al hacer esto, los equipos de ciencia de datos averiguarán también las incertidumbres. Por ejemplo, si intentan hacer una previsión, buscarán claridad en aspectos específicos como "¿cuánto hay que prever en el futuro, para la próxima semana o el próximo mes? Comprender el contexto empresarial con la ayuda de los expertos en la materia, los usuarios y stakeholders ayuda a crear una solución aceptable y robusta.

 

La siguiente etapa es la investigación. Para ello, leerán sobre el ámbito, comprenderán los distintos tipos de enunciados de problemas aplicables, calcularán los datos que necesitarán, etc. Si el enunciado del problema es vago, la investigación y la definición del problema pueden superponerse. Este esfuerzo colectivo ayudará a responder a algunas de las preguntas que surgen en la fase de definición del problema.

 

Después de esto, hay tres vías que suelen ir en paralelo:

 

  1. Evaluación de datos

     

  2. Revisión de literatura

     

  3. Ideación

 

Evaluación de datos

 

En esta fase, los equipos de ciencia de datos comprenderán los datos del sistema. Recogerán los datos útiles para resolver el problema. A continuación, identificarán las lagunas en los datos que deben cubrirse antes de iniciar el proyecto. Este paso es como un estudio de viabilidad con los datos. A grandes rasgos, el resultado puede pensarse como "¿Tenemos suficientes datos para empezar el proyecto, tanto en términos de número de puntos de datos como de características en los datos?"

 

Según mi experiencia, la mayoría de los problemas que se plantean tienen que ver con los datos más que con la modelización. Si los datos están limpios, faltan pocos o ningún valor y las características requeridas están presentes, entonces el modelado se convierte en una tarea más fácil.

 

Stakeholders interesadas pueden ver esto como una oportunidad para aprender más sobre sus datos.

 

Revisión de literatura

 

Se trata de leer mucho y encontrar los últimos avances en los algoritmos o el tipo de algoritmos utilizados en el ámbito. 

 

Mientras que la etapa de investigación implica el estudio del dominio, la etapa de revisión de la literatura es más específica. En ella, los científicos de datos estudian detenidamente la literatura que ya existe sobre los problemas que intentan resolver. La literatura puede incluir artículos de investigación, blogs, github, informes técnicos, etc. En raras ocasiones, puede que se encuentren con un problema que nunca se haya estudiado antes. En estos casos, aprenderán de proyectos similares o adyacentes. 

 

La revisión de la literatura suele hacerse en dos etapas: primero en profundidad y luego en amplitud. El equipo de ciencia de los datos comprenderá primero las diferentes formas y metodologías en que se ha abordado el problema hasta ahora. Luego, a partir de ellas, identificarán las pocas relevantes para el problema en cuestión y las estudiarán en profundidad.

 

Ideación

 

En esta fase, el equipo de ciencia de datos tomará la información de los procesos de datos y de las pistas de revisión de la literatura para llevar a cabo una lluvia de ideas, debates, hipótesis y pizarras. También explorarán nuevas formas de abordar el problema. La participación activa de stakeholders con experiencia relevante en el dominio y de la industria/expertos en la materia puede aportar ideas valiosas a la mesa para explorar. El objetivo es garantizar un flujo máximo de ideas. Una vez reunidas todas las ideas, se combinarán, descartarán, reflexionarán y evolucionarán algunas de ellas. En la fase de ideación se trata de obtener el mayor número de ideas posible y de contemplar el problema en cuestión desde muchos ángulos diferentes. La fase de ideación también puede incluir PdC. 

 

Todas las actividades anteriores pueden considerarse como una fase de descubrimiento de datos o pre-estudio. Algunos ejemplos de posibles resultados de esta fase podrían ser:

 

  • Una decisión sobre si los datos son adecuados para el modelado estadístico o el aprendizaje automático, o para ninguno de los dos.

     

  • El problema tiene solución, pero necesitamos más datos o más datos etiquetados o más características. Esto puede requerir un análisis de coste-beneficio adicional: ¿se justifica el costo asociado a la recopilación de datos?

     

  • En el caso del aprendizaje por reforzamiento, las posibles funciones de recompensa y sus pros y contras
  •  

  • El equipo dispone de la información necesaria para continuar con la siguiente fase

 

Combinando las tres vías anteriores, el equipo de ciencia de datos identificará los posibles enfoques para resolver el problema, los priorizará y finalizará el enfoque inicial. Por ejemplo, cuando tengan un problema de clasificación, esbozarán el tipo de modelos que hay que explorar y los priorizarán basándose en la experiencia y en el equilibrio entre tiempo y esfuerzo. También discutirían con stakeholders para identificar qué características son importantes y necesitan ser diseñadas si se requiere alguna. Se quedarán con las más importantes para el primer ciclo. También se puede considerar cada ciclo como un hito.

 

A continuación, el equipo aplicaría estos algoritmos y analizaría los resultados. Pueden mirar más allá de la precisión del modelo para entender las características de entrada y su impacto en el modelo (importancia de las características). También realizarían un análisis comparativo con los resultados anteriores. 

 

Basándose en los resultados, suelen volver a las fases de datos e ideación. A veces también a la fase de literatura. Con un conocimiento más profundo de los datos y de cómo han funcionado las ideas/hipótesis iniciales, ajustarían el enfoque y optimizarían cíclicamente. Una vez que tengan buenos resultados y suficiente confianza en el modelo, lo integrarían en la herramienta/producto/software. 

 

Antes de poner el modelo en producción, definirían las métricas de seguimiento para seguir el rendimiento del modelo, rastrear la deriva del mismo y hacer los ajustes adecuados. Basándose en estas métricas, el modelo tendría que ser mantenido, entrenado de nuevo a intervalos identificados y desplegado de nuevo. 

 

Invito a stakeholders en un proyecto de ciencia de datos a considerarlo no desde la perspectiva de la precisión del resultado final, sino como un experimento en evolución. En cada etapa del proyecto se puede obtener información útil. Tanto el equipo de ciencia de datos como stakeholders están aprendiendo juntos a medida que el equipo explora los datos para descubrir la información que pueden contener. Espero que este artículo ayude a comprender el tipo de actividades que conlleva un proyecto de este tipo y la importancia de las mismas.

Aviso legal: Las declaraciones y opiniones expresadas en este artículo son las del autor/a o autores y no reflejan necesariamente las posiciones de Thoughtworks.

Mantente al día con nuestros últimos insights