Hiperdata y buscadores semánticos

Hiperdata

Con Hiperdata queremos designar el modo en el que un conjunto de datos se vincula con otros conjuntos de datos que se encuentran alojados en otros lugares o silos de información, del mismo modo que por hipertexto indicamos la relación entre textos distribuidos por la web. Las estrategias basadas en hiperdata posibilitan la condensación de datos en una 'red de datos' o Grafo de Conocimiento, que es un conjunto de datos enlazados a través de una estrategia hiperdata.

Un enlace de hiperdata siempre se refiere a una entidad y, de hecho, la nombra. Puede, por ejemplo, referirse a una [cosa física], tal que una [obra de arte] ('Las Meninas', por ejemplo), a una persona ('Velázquez', el autor del cuadro mencionado), o bien a una exposición en la que esa obra haya participado, las restauraciones o intervenciones que ha sufrido a lo largo del tiempo o la descripción de su contenido (personales, fauna, flora, lugares representados...).

Un enlace de hipertexto indica que hay una conexión entre dos documentos; el enlace hiperdata va más allá y denota o expresa de manera explícita las relaciones semánticas de tal clase de conexión, esto es, gracias a hiperdata los sistemas son capaces de conocer y computar las relaciones entre las entidades que ligan dos documentos, facilitando a las personas ese reconocimiento. Al contrario que las estrategias basadas en hipertexto, las estrategias basadas en hiperdata no dejan todo el problema de reconocer las relaciones significativas de un conjunto de recursos conectados del lado de las personas; al permitir a los sistemas computar esa clase de relaciones entre entidades hacen posible que las personas puedan interrogar e interpretar grandes cantidades de información significativamente enlazada en un grafo por los sistemas.

Buscadores Semánticos y Grafos de Conocimiento

Un buscador que rastrea los enlaces hiperdata es lo que técnicamente podríamos denominar un buscador semántico. En la práctica, el conjunto de los enlaces hiperdata de un conjunto de recursos constituyen un grafo de conocimiento y, por tanto, un buscador semántico es un buscador que posibilita navegar por un grafo de conocimiento.

La arquitectura de la web semántica se acopla, como el haz lo hace con el envés de una hoja, al formato del documento web, que típicamente es HTML, sobre el que tradicionalmente operan y buscan los robots de los buscadores de la web, como Google y otros. Un buscador semántico basado en hiperdata requiere de ficheros RDF, que es el modo en el que la web semántica representa entidades y, por ende, habilitan el navegar por ellas.

Un Grafo de Conocimiento basado en hiperdata permite modelos de interrogación conversacionales o naturales. Por ejemplo, se puede restringir el conjunto del grafo o de los hiperdata solicitando sólo aquellos que cumplan con una determinada condición, como podría ser, en el caso del grafo del Museo del Prado, el haber sido pintados en tal o cual año o pertenecer a esta o a aquella escuela. Además, un buscador basado en hiperdata puede no sólo restringir el ámbito de la búsqueda, sino computar el número exacto de relaciones y sus clases para un conjunto de recursos dado. A esta clase de buscadores semánticos se les denomina buscadores facetados con sumarización. Un buscador de esta clase, permite, además, agregar o iterar las interrogaciones o las restricciones, emulando de este modo el modo en el que las personas razonamos de modo natural. En el caso anterior, a los resultados que arrojaba nuestra pregunta sobre los cuadros del Prado que pertenecían a una determinada época y escuela, podríamos añadir en una segunda vuelta que representaran tal tema, la caza, por ejemplo, o que contuvieran tal objeto, una escopeta o bien que estuviera representado tal animal, un perro por ejemplo. Aquello por lo que finalmente estaríamos preguntando, en ese caso, es por los cuadros del Prado que tratan del tema de la caza y en los que, además, hay escopetas y perros, de una época determinada y pongamos por caso de la escuela española. Esto restringe, en la medida en la que las máquinas son capaces de comprender el mundo de entidades de las personas, el número de resultados y hace que las respuestas a nuestras preguntas sean precisas y semánticamente relevantes.