Challenges infrastructure

Limitaciones de los datos de ciencia de materiales

Situación actual de las bases de datos en ciencia de materiales

La ciencia computacional de materiales es un campo emergente que ha mostrado un progreso significativo en los últimos años. Como se destacó en un post anterior, los recientes e impresionantes avances tecnológicos en cuanto a capacidad computacional y la demanda acuciante de mejores materiales  promueven que el volumen de datos de materiales, así como el número de bases de datos del sector, crezca año tras año.

Sin embargo, la actual infraestructura de datos en ciencia de materiales sigue lejos de alcanzar su máximo potencial. De esta forma, aún queda mucho camino por recorrer de cara a conseguir una plena optimización de los procesos de inteligencia artificial (IA) aplicados al diseño y desarrollo de nuevos materiales. Según Himanen et al. (2019), los retos a los que deben enfrentarse las bases de datos del campo pueden clasificarse en cinco categorías principales:

Data challenges

Desafíos a los que se enfrentan las infraestructuras de datos de materiales de cara a su adopción completa por parte de academia, industria, administraciones públicas y público en general (Himanen et al., 2019)

Relevancia y adopción de los datos

Las bases de datos de materiales deben proporcionar datos de relevancia para todos los actores interesados en el campo, como pueden ser la comunidad académica, la industria o la administración pública. La relevancia de los datos puede determinarse generalmente por su volumen, su calidad, su exhaustividad y su homogeneidad.

Desarrollar infraestructuras que puedan ser adoptadas por las distintas comunidades interesadas no es una tarea sencilla. La relevancia de los datos también está íntimamente relacionada con su accesibilidad por parte de las herramientas de análisis de datos. Dado que los algoritmos de aprendizaje automático (Machine Learning, ML) han ganado mucha importancia en este sentido, las características y propiedades de los datos deben ser adecuadas y compatibles con  los algoritmos de ML para poder alcanzar su máximo potencial.

Integridad de los datos

La integridad es la cualidad de ser completo o perfecto y de carecer de ausencias. Atendiendo a esta definición, las infraestructuras de datos adolecen hoy en día de un grave problema de integridad, ya que mientras los datos computacionales dominan las bases de datos existentes, los datos experimentales continúan siendo bastante escasos. Facilitar una comparación fluida entre datos computacionales y experimentales es importante para validar las predicciones teóricas y mejorar las estrategias actuales de descubrimiento de nuevos y mejores materiales. Crear sinergias entre los datos computacionales y los experimentales sigue siendo un reto esencial para el futuro de la ciencia de materiales.

Normalización de los datos

Algún tipo de normalización es esencial para la adopción generalizada de un nuevo paradigma o tecnología. El desarrollo de metadatos normalizados que sean informativos, exhaustivos y adaptables es un reto pendiente de la ciencia de materiales.

A lo largo de los años, se han producido esfuerzos para desarrollar algunas ontologías generalistas de materiales, como PIF (Michel & Meredig, 2016), MatSeek (Cheung et al., 2009), o MatOWL (Zhang et al., 2009). También es muy destacable el reciente consorcio OPTiMaDe (Andersen et al., 2021), que está construyendo una interfaz común para acceder a datos de múltiples bases de datos de materiales.

Sin embargo, todas estas iniciativas están lejos de convertirse en un estándar maduro y de ser ampliamente adoptadas por todos los actores del campo. Estos esfuerzos suelen ser insuficientes especialmente para fines industriales, lo que obliga a las empresas a crear sus propias ontologías internas, específicas de cada dominio, lo que refuerza una mayor heterogeneidad en el campo.

Aceptación de los datos y ecosistemas interdisciplinares

Las infraestructuras de datos de materiales sólo serán útiles si todas las comunidades implicadas en el sector las aceptan como una herramienta útil. La facilidad de carga, descarga y uso de los datos, así como la confianza en su calidad, son esenciales para una aceptación generalizada por todas las partes.

Debido a que las infraestructuras actuales son mantenidas y utilizadas principalmente por académicos, la mayor parte del I+D empresarial sigue desconectado de este gran ecosistema de datos y plataformas de cómputo. El desarrollo de proyectos coordinados entre academia, industria y administraciones, que promuevan el crecimiento de un ecosistema de datos interdisciplinar sigue constituyendo un desafío más del sector.

Longevidad y difusión de los datos

Con la creciente concienciación del campo sobre la importancia de los datos computacionales y sobre la necesidad de crear librerías de código libre, está aumentando la financiación nacional e internacional para proyectos de ciencia de datos. Sin embargo, los organismos de financiación rara vez incluyen en sus planes tanto la difusión de los avances tecnológicos alcanzados por sus proyectos de I+D, como su cuidado, mantenimiento y perfeccionamiento a largo plazo. En consecuencia, gran parte de la infraestructura computacional que se va generando en el campo corre el riesgo de acabar convertida en una enorme colección de ruinas digitales.

Conclusión

En conclusión, a pesar de que la ciencia de los materiales basada en datos ha avanzado enormemente en los últimos años, es necesario abordar varios retos para alcanzar todo su potencial. Dado que nuestro principal objetivo de acelerar el diseño y desarrollo de nuevos materiales está íntimamente ligado a la potenciación de la infraestructura de datos de materiales, nuestros expertos están trabajando para abordar cada uno de los desafíos mencionados en este post.

Con el desarrollo y mantenimiento a largo plazo de una base de datos normalizada, fácil de usar y compatible con nuestros algoritmos de IA, y nuestro compromiso de hacerla relevante tanto para la industria como para el mundo académico, estamos muy orgullosos de contribuir al progreso imparable de la ciencia computacional de materiales.