Las bases de datos desempeñan un papel fundamental en la ciencia y la ingeniería de materiales actuales. Son de vital importancia porque permiten a científicos e ingenieros almacenar, consultar y analizar grandes cantidades de datos procedentes de diversas fuentes, tanto experimentales como teóricas como computacionales. Por ejemplo, bases de datos como ICSD o Materials Project proporcionan información muy diversa sobre un gran número de materiales, incluidas sus estructuras, propiedades o rutas de síntesis. Tener acceso a esta gran diversidad de datos puede acelerar considerablemente el proceso de descubrimiento y desarrollo de materiales, ya que permite a los investigadores encontrar y analizar rápidamente la información pertinente, identificar candidatos prometedores para estudios posteriores y tomar decisiones informadas sobre cómo proceder para el desarrollo y optimización de nuevos materiales.
Además, las bases de datos pueden facilitar la colaboración interdisciplinar entre investigadores experimentales, científicos teóricos, químicos, programadores y otros expertos. Esto puede conducir a una resolución de problemas más eficiente y eficaz, así como a una mejor comprensión de la naturaleza subyacente al comportamiento de los materiales, especialmente con el auge de la inteligencia artificial (IA), que es capaz de explorar cantidades ingentes y a priori muy complejas de datos con el fin de identificar patrones, tendencias y relaciones entre materiales, estructuras o propiedades que pueden no ser particularmente evidentes para los expertos del campo. A continuación, introduciremos algunas de las bases de datos más importantes en ciencia de materiales:
- ICSD (Inorganic Crystal Structure Database). Esta base de datos es privada y contiene sobre todo estructuras cristalinas experimentales, aunque también cuenta con un cierto número de estructuras teóricas. Alberga información muy útil sobre la simetría de los cristales, su composición y sus propiedades físicas. Actualmente contiene más de 300.000 estructuras y se puede acceder a ella a través del sitio web del FIZ Karlsruhe en https://icsd.fiz-karlsruhe.de/.
- COD (Crystallography Open Database). Es una colección de datos experimentales de libre acceso sobre estructuras cristalinas y sus propiedades, que incluye tanto compuestos inorgánicos como orgánicos. La base de datos contiene actualmente más de medio millón de estructuras y se puede acceder a ella desde https://www.crystallography.net/.
- MP (Materials Project). Gestiona una base de datos de materiales que proporciona acceso gratuito a cálculos de más de 140.000 materiales, que incluyen datos estructurales, electrónicos y termodinámicos. MP es un esfuerzo de colaboración entre investigadores de varias instituciones, entre ellas el Laboratorio Nacional Lawrence Berkeley. Su base de datos permite realizar búsquedas por diversas propiedades y ofrece herramientas de análisis y visualización de datos. MP constituye una potente plataforma para el descubrimiento y diseño de materiales mediante IA, que permite a los investigadores reducir drásticamente el tiempo necesario para desarrollar nuevos materiales centrándose en los compuestos más prometedores desde el punto de vista computacional. Se puede acceder a la base de datos desde https://materialsproject.org/.
- OQMD (Open Quantum Materials Database). Es una base de datos similar a MP porque también se centra en cálculos derivados de la Teoría del Funcional de la Densidad (DFT por sus siglas en inglés). La principal ventaja de esta base de datos es que tiene una mayor cantidad de cálculos de libre acceso (más de un millón), aunque, por otra parte, se preocupa menos por la armonización y la facilidad de acceso a sus datos. OQMD fue creada en el grupo de Chris Wolverton de la Universidad de Northwestern de Estados Unidos, y se puede acceder a ella desde https://oqmd.org/.
- AFLOW (Automatic Flow for Materials Discovery). Nació como un framework para el cribado de materiales de alto rendimiento, pero ha acabado convirtiéndose en una de las bases de datos computacionales más enormes del campo, con más de tres millones de cálculos. Por su carácter colaborativo entre diferentes instituciones y por sus librerías asociadas de automatización de cálculos y análisis de datos es comparable a MP. Toda su información es de libre acceso desde https://aflow.org/.
- JARVIS (Joint Automated Repository for Various Integrated Simulations). Es una base de datos relacionada con el National Institute of Standards and Technology (NIST) de Estados Unidos, y alberga miles de cálculos DFT y de aprendizaje automático, así como datos experimentales. Ofrece acceso web gratuito mediante credenciales de usuario desde https://jarvis.nist.gov/.
- MatNavi es un conjunto de bases de datos mantenidas por el Instituto Nacional de Ciencia de Materiales (NIMS por sus siglas en inglés) de Japón. Alberga información muy heterogénea que recoge datos sobre polímeros (Polymer DB), metales (Metallic Material DB) o cristales inorgánicos (Inorganic MaterialDB). También ofrece aplicaciones como Composite Design o Property Prediction System. Estas bases de datos puede consultarse en https://mits.nims.go.jp/.
- Citrination es una base de datos y plataforma en la nube para datos de ciencia de materiales. Es la única base de datos de la lista mantenida por una empresa privada. A través de ella, los usuarios pueden colaborar compartiendo sus datos y ya alberga cientos de datasets de fuentes muy diversas. Se puede acceder a Citrination desde https://citrination.com/ mediante registro previo.
Cronología y distribución geográfica de las base de datos de materiales y algunas empresas relacionadas: Data-Driven Materials Science: Status, Challenges, and Perspectives (Himanen, 2019)
Aunque estas son algunas de las bases de datos más importantes en ciencia de materiales, lo cierto es que hay muchas otras que podrían perfectamente ser también comentadas en este post, ya que, como puede verse en la imagen, el campo posee multitud de ejemplos. Los impresionantes avances en tecnología y capacidad computacional y el aumento de la demanda de nuevos y mejores materiales promueven que el número de bases de datos y su tamaño crezca año tras año. Esto es, en general, muy positivo, ya que cuantos más datos puedan usarse para el entrenamiento de los modelos de IA, mayor precisión potencial podrán alcanzar sus inferencias. Sin embargo, este rápido crecimiento del volumen de datos también exige una gran responsabilidad por parte del gremio de programadores e ingenieros, ya que es imprescindible que la calidad y la armonización de los datos se mantengan a la altura de su gran volumen para que las tecnologías actuales de IA exploten su potencial al máximo. Al fin y al cabo, este es precisamente uno de los objetivos principales de las bases de datos del campo.