La importancia de la representación de los materiales para los métodos de IA
Las representaciones materiales juegan un papel crucial en la aplicación del aprendizaje automático en la ciencia de los materiales. La forma en que los materiales se representan como datos de entrada para los métodos de inteligencia artificial (IA) tiene un impacto significativo en la precisión y eficiencia de los algoritmos de aprendizaje automático. La elección de la representación material depende del tipo de problema que se aborde y del algoritmo de aprendizaje que se utilice.
En las bases de datos populares, los materiales se representan típicamente con su fórmula química, su grupo espacial estructural o con archivos CIF. CIF, o Archivo de información cristalográfica, es un formato estandarizado para almacenar información sobre estructuras cristalinas (Hall et al., 1991). Este formato de archivo contiene información sobre las posiciones atómicas y los parámetros de red de una estructura cristalina, así como información sobre operaciones de simetría y más. Este tipo de representación se usa comúnmente en ciencia de materiales y proporciona una descripción detallada de la estructura 3D de un material.
Sin embargo, como las fórmulas químicas contienen información limitada sobre los materiales y los archivos CIF son representaciones muy ineficientes de los materiales para que los métodos de IA aprendan de ellos, ha surgido una amplia gama de representaciones materiales. Para hacerlo sencillo, en esta publicación consideramos tres grandes grupos de representaciones materiales: basadas en composición, basadas en estructuras y basadas en propiedades.
Representaciones de materiales basadas en la composición
Las representaciones basadas en la composición encapsulan los detalles esenciales de una composición material, incluidos los elementos que la componen y la proporción en la que están presentes. La representación de materiales a través de su composición se puede hacer a través de dos tipos de datos populares: cadenas de caracteres y vectores 1D. Por ejemplo, el mineral cuarzo (SiO2) podría representarse como la cadena «SiO2» que representa su fórmula química.
Otra representación sencilla del cuarzo podría ser un vector con 118 números, la mayoría de los cuales son ceros excepto la posición 14 (número atómico del silicio) que tiene un valor de 1 (que representa la proporción de silicio en el cuarzo) y la posición 8 (número atómico del oxígeno) que tiene un valor de 2 (que representa la proporción de oxígeno en el cuarzo). Una representación vectorial 1D ampliamente utilizada en la ciencia de los materiales inorgánicos es el conjunto de atributos Magpie, que codifica información como la estequiometría, las propiedades iónicas y elementales y la estructura electrónica en una secuencia de 145 números (Ward et al., 2016).
Representaciones de materiales basadas en la estructura
Las representaciones de materiales basadas en la estructura tienen en cuenta la disposición de los átomos en un material, proporcionando información sobre su organización interna. Estas representaciones pueden proporcionar una comprensión más profunda de las propiedades y el comportamiento del material, ya que codifican información sobre enlaces e interacciones interatómicas. Estas representaciones pueden tomar varias formas, como vectores 1D, matrices 2D, vóxeles 3D y gráficos, cada uno de los cuales puede proporcionar información única sobre la estructura del material.
Representación en una dimensión
Además de los vectores 1D basados en la composición, también hay representaciones de materiales 1D que codifican información estructural; algunos ejemplos populares son las huellas dactilares del entorno local, como Atom Centered Symmetry Function (ACSF) o Smooth Overlap of Atomic Positions (SOAP), que son descriptores que codifican información sobre las relaciones atómicas locales en la estructura del material (Behler, 2011; Bartók et al., 2013).
Representación en dos dimensiones
La representación matricial 2D de un material contiene, como el CIF, información sobre la disposición de los átomos en un material, pero en una forma matemática simplificada (como en la figura siguiente, a la izquierda).
Representación en tres dimensiones
Los vóxeles 3D son una forma de representar la estructura tridimensional de un material como una cuadrícula tridimensional discreta y regularmente espaciada de vóxeles en forma de cubo. En esta representación, el valor de cada vóxel puede representar la presencia (o ausencia) de un átomo en ese punto del espacio: en la figura siguiente, al centro, un color amarillo verdoso indica la presencia de un elemento químico dado en ese punto (densidad electrónica) mientras que el color púrpura muestra la ausencia de átomos en esa región del vóxel.
Representación en forma de grafo
Finalmente, los grafos son estructuras de datos expresivas que pueden capturar la estructura atómica del material. En esta representación, cada átomo se representa como un nodo en el grafo, y los enlaces químicos entre átomos vecinos se representan como aristas que conectan nodos (figura a continuación, a la derecha). Esta representación puede captar la disposición de los átomos o moléculas en el espacio, así como los enlaces químicos entre ellos.
Representación matricial 2D (Ren et al., 2021). | Representación de vóxel (Long et al,, 2022). Izquierda: vóxel 3D para cada elemento. Centro: elementos químicos en estructura 3D. Derecha: estructura 3D. | Representación en forma de grafo (Xie & Grossman, 2018). Izquierda: estructura 3D. Centro, de arriba a abajo: ambiente local de Na en estructura. entorno local de Cl en estructura, vector que describe el enlace Na-Cl. Derecha: grafo. |
Representaciones de materiales basadas en propiedades
La tercera categoría amplia de representaciones materiales se basa en propiedades. Estas representaciones, como su nombre indica, contienen información sobre las propiedades del material, como la conductividad eléctrica, las propiedades ópticas, las propiedades mecánicas y más. La extracción de las propiedades correctas del material puede facilitar y mejorar el proceso de aprendizaje de los modelos de IA. Esta información se puede codificar en una variedad de formatos, como vectores 1D o 2D, valores numéricos y más, según el caso de uso específico y el método de IA que se utilice.