Hace poco me entrevisaron en Data for Future, un nuevo podcast muy interesante sobre la intersección entre ciencia de datos y  sostenibilidad. Charlamos sobre mi trabajo en el sector de las energías renovables y en Data Science for Social Good, y también sobre la transición del mundo académico a la industria.

El anfitrión y yo, además de tener nombres muy parecidos (Pavlo vs Pablo) y un gusto similar en cortinas (atadas para evitar ataques gatunos), también coincidimos en varios temas relacionados con la ciencia de datos. Así que decidí escribir este post para cubrir las principales conclusiones de la conversación.

¿Debería tu empresa contratar científicos o ingenieros de datos?

Los científicos de datos pueden ser aún más valiosos si tienen ingenieros de datos a su lado.

Las empresas suelen esperar que los data scientists hagan magia con sus datos. Pero es posible que la empresa no cuente con buenas arquitecturas de datos y pipelines ETL robustas, lo que da como resultado poca calidad en los datos o poca capacidad para iterar modelos de machine learning. Cuando esto es así, el científico de datos no puede brillar, lo que puede llevar a las empresas a creer que no vale la pena invertir en ciencia de datos. Si tu empresa se encuentra en estas circunstancias, tal vez lo que necesiten sean ingenieros de datos. Podrían mejorar dichos procesos, permitiendo que los datos sean luego mejor “cientificados” por los data scientists.

Para nada insinúo que los científicos de datos sean menos necesarios que los ingenieros. Al contrario, los científicos de datos pueden ser aún más valiosos si tienen ingenieros de datos a su lado. El ingeniero se asegurará de que las pipelines de datos sean escalables, computacionalmente eficientes y lo suficientemente robustas para un entorno de producción. Y mientras tanto, el científico tendrá la libertad de iterar modelos y experimentar con nuevos enfoques para extraer más valor de los datos.

Al final, la línea entre ciencia e ingeniería de datos es muy fina, y es posible que ambos títulos se fusionen en un futuro cercano (junto con ese otro híbrido llamado “machine learning engineer”). Pero es el justo equilibrio de ambas profesiones lo que crea el cóctel perfecto para una empresa “data-driven”.

Lo bueno y malo de trabajar con datos sucios

La ciencia de datos es mucho más que deep learning sofisticado.

“Pensé que la ciencia de datos trataba de entrenar redes neuronales, pero en la práctica …” – He escuchado muchos comentarios de este tipo de gente que empieza a trabajar como data scientist. Esto sucede porque escuchamos con mucha más frecuencia sobre aplicaciones sofisticadas y de vanguardia de la ciencia de datos, y no tanto sobre los aspectos menos interesantes de la misma. Pero en realidad, la ciencia de datos es mucho más que deep learning sofisticado. Y en realidad esas otras cosas “aburridas” a menudo ocupan la mayor parte del tiempo de un científico de datos.

Esto es particularmente cierto en sectores como el que he trabajado durante los últimos años: el sector energético. Desde la perspectiva de un científico de datos, este sector es un gran caos (al menos en mi país). No sólo las instalaciones de gas y electricidad son antiguas, sino que el sistema existente también lo es y ha estado monopolizado por unas pocas compañías poderosas hasta hace muy poco. Aunque las cosas están mejorando rápidamente (lo que es bueno para los científicos de datos y también para el medio ambiente), en este momento, todos estos ingredientes suelen generar un caos de datos. Y, por lo tanto, es posible que no tengas muchas oportunidades de probar ese increíble modelo de aprendizaje profundo sobre el que leíste en un blog.

Pero trabajar con datos sucios (en el sector energético o en cualquier otro) también tiene un lado positivo. Aprender a extraer valor de datos caóticos es una habilidad poderosa, que a menudo se olvida en cursos y blogs de ciencia de datos. Al final y al cabo, es posible que muchas empresas, startups, ONGs e instituciones gubernamentales aún no tengan la infraestructura o la necesidad de entrar en el mundo del big data.

Messy cables

Sencillez frente a complejidad

Haz tu modelo lo más simple posible, pero no más simple.

Un modelo simple que funciona bien a menudo es preferible a uno complejo que funciona un poco mejor. Te daré un par de razones. En primer lugar, los modelos más simples tienden a tomar menos tiempo (y capacidad de computación) para desarrollar y entrenar, lo que permite una mayor flexibilidad para adaptarlos o ajustarlos si es necesario. Y en segundo lugar, los modelos más simples tienden a ser más fáciles de interpretar. La interpretabilidad del modelo no solo permite descubrir malas conductas inesperadas y sesgos del modelo, sino que también puede revelar información valiosa a partir de los datos. Por lo tanto, siempre deberías intentar hacer tu modelo lo más simple posible, pero no más simple.

¿Qué hace que una empresa sea data-driven?

Tomar decisiones basadas en datos es lo que hace que una empresa sea realmente data-driven.

Cada decisión empresarial se basa en una predicción. Por ejemplo, se predice que las ventas aumentarán si se ofrece un determinado producto. O que la fracción de bajas disminuirá si reduce el precio de un servicio. Para hacer esas predicciones, simplemente puedes confiar en tu intuición. Sin embargo, si tienes datos relevantes a tu disposición, también puedes respaldar esas predicciones con un análisis, lo que aumentará la precisión de esas predicciones y, por lo tanto, las posibilidades de éxito.

Al fin y al cabo, una empresa basada en datos no es necesariamente una que utiliza inteligencia artificial o deep learning. Más bien, tomar decisiones basadas en datos es lo que hace que una empresa sea realmente data-driven.

Consejos para académicos que se pasan a científicos de datos

En lugar de buscar el resultado óptimo, intenta obtener mini-resultados desde el principio.

Si pudiera viajar en el tiempo, hay muchos consejos que le daría a mi yo más joven. Y aunque sería difícil decidir cuáles serían los más importantes, creo que los dos siguientes definitivamente estarían arriba en la lista:

Primero, aprende a escribir buen código. En el mundo académico, puede que no tengas la necesidad de escribir buen código. Puede que tu código solo sea utilizado por ti y ejecutado solo una vez (por ejemplo, para generar el resultado de un artículo). Pero si terminas pasándote a la industria, poder escribir un buen código te brindará una gran ventaja.

En segundo lugar, prueba diferentes metodologías de trabajo para ser más eficiente. Por ejemplo, imagina que quieres publicar un artículo (¡lo cual no es difícil si eres académico!). Puedes escribir todas las tareas necesarias para lograr ese objetivo en post-its y pegarlas en un tablero Kanban. Y si te atascas en un problema, divide el problema en pequeños pasos y aborda primero los “quick wins”. En lugar de buscar el resultado óptimo, intenta obtener mini-resultados desde el principio. Eso generará una constante sensación de logro y posiblemente facilitará el camino para resolver ese problema complicado. Cuanto antes empieces a trabajar con esta mentalidad, más fácil será tu transición a la industria.

Post-it notes on a Kanban board

Soluciones híbridas entre humano e Inteligencia Artificial

Deja que la IA reduzca la parte más tediosa del trabajo humano, y deja que los humanos tomen las decisiones difíciles.

Finalmente hablamos de mi trabajo como mentor técnico en Data Science for Social Good. Y mencioné una de las principales lecciones que aprendí allí: A veces, la mejor solución a un problema de datos no es ni totalmente humana ni totalmente basada en inteligencia artificial, sino híbrida.

Como ejemplo, mencioné uno de los proyectos que consistió en clasificar artículos médicos en diferentes categorías. Hasta entonces, los voluntarios de Cochrane hacían ese trabajo manualmente, lo que consumía mucho tiempo. Y podríamos haber propuesto una solución totalmente automatizada, utilizando machine learning. Sin embargo, eso habría dado lugar a una cierta cantidad de errores, que tendría un impacto negativo en la carga de trabajo de esos voluntarios. Potencialmente, también tendría consecuencias a una escala mucho mayor: Artículos médicos relevantes podrían ser ignorados.

Así que propusimos una solución híbrida entre humano e inteligencia artificial: los artículos que eran definitivamente relevantes en una categoría se clasificaban automáticamente. Los artículos que definitivamente eran irrelevantes se descartaban automáticamente. Y todos los artículos intermedios, para los que el modelo de machine learning estaba inseguro, se pasaban a los humanos para que decidieran.

Cuando el impacto potencial de un error es grande, las soluciones híbridas pueden ser más seguras que las totalmente automatizadas. Deja que la IA reduzca la parte más tediosa del trabajo humano, y deja que los humanos tomen las decisiones difíciles.