Tecnologías Semánticas e Inteligencia Artificial

Las Tecnologías Semánticas están en el corazón de las posibilidades que tienen nuestros sistemas de comprender el razonamiento humano. Éstas son, a su vez, la base para el desarrollo de Soluciones Semánticas que, actualmente, constituyen el núcleo del recientemente recuperado programa de Inteligencia Artificial. 

Las tecnologías semánticas se han convertido en un componente clave de la Inteligencia Artificial -y otras aplicaciones basadas en Big Data-, que ha resurgido con fuerza después de un largo período de hibernación. Dentro de este nuevo paradigma, las tecnologías semánticas son las que apuntalan este renacimiento, permitiendo que los sistemas puedan entender el modo en el que las personas razonamos y conectamos la información y, a la vez, reforzando las capacidades de los usuarios para comprender textos, audios y descubrir toda clase de relaciones entre los datos y entidades contenidos entre los mismos.

El modo en el que las tecnologías semánticas consolidan toda esa información distribuida de manera significativa es integrándola en un Grafo de Conocimiento interrogable. Éste relaciona de un modo significativo en el marco de un ámbito de conocimiento entidades con entidades y entidades con sus atributos. Un Grafo de Conocimiento es la condición para que un sistema pueda ser inteligente.

Tecnologías y estándares semánticos. Máquinas que entienden.

Ontologías y vocabularios controlados

En su acepción primera, la ontología (del griego οντος 'relativo al ente o a lo que existe' y λóγος 'ciencia, estudio, teoría') es una rama de la metafísica que estudia lo que hay. Aristóteles denomino Metafísica a lo que de manera literal, en sus escritos, venía después de la Física.  A esa parte del conocimiento correspondía el estudio de lo que denominó filosofía primera u ontología, esto es, el estudio de lo que hay, es real o existe.

Ver más
Ontologías y vocabularios controlados -- Ontologías y vocabularios

Ontologías 

La ontología se ocupa no sólo de los entes, esto es, de lo que existe, sino también de la manera en que se relacionan las entidades que existen. Esta idea de una ciencia que se ocupa de las entidades y de sus relaciones pasó a designar en ciencias de la computación y de la información a un conjunto de definiciones en un lenguaje formal de las clases, tipos, atributos, propiedades y relaciones entre entidades que operan en un dominio dado de realidad y conocimiento. Se trata, en definitiva, de una aplicación práctica del concepto de ontología filosófica. 

Lo que el enfoque filosófico y el informático tienen en común es la representación de entidades, ideas y eventos, junto con sus propiedades y relaciones, de acuerdo con un sistema de categorización. Los informáticos, sin embargo, están más preocupados por “cerrar” las ontologías representándolas con vocabularios controlados susceptibles de ser computados.

En este sentido, una ontología es un conjunto de individuos (instancias u objetos); clases (conjuntos, colecciones, conceptos, tipos de objetos o tipos de cosas); atributos (aspectos, propiedades, rasgos, características, o parámetros que objetos y clases pueden tener); relaciones (formas en la cual las clases y los individuos se pueden relacionar unos con otros); funciones (complejas estructuras formadas de cierta relación que pueden ser usadas en lugar de un término individual en una declaración); restricciones (establecen descripciones formales de lo que debe ser verdad con el objetivo de que alguna aserción pueda ser aceptada como entrada); reglas (declaraciones con forma de oraciones si-entonces, antecedente-consecuente, que describen inferencias lógicas que pueden ser derivables de una aserción en una forma particular); axiomas (aserciones, incluyendo reglas, descritas en una forma lógica que incluye toda la teoría que la ontología describe en su dominio de aplicación); y eventos (los cambios de los atributos o relaciones). 

Las ontologías son usualmente codificadas usando los lenguajes estándar de ontologías, Ontology Web Language (OWL), que permite describir las clases y su conjunto de atributos. Por ejemplo, la clase 'persona' y sus atributos, tener un nombre, un apellido, un lugar de nacimiento, una fecha de nacimiento, etc… y Resource Description Framework (RDF), un fichero que identifica a un individuo concreto de una clase, como, por ejemplo, 'Diego de Silva y Velázquez', que nació en Sevilla, en tal fecha, fue pintor, etc.
 

Ontologías de dominio  

Una ontología de dominio (u ontología de dominio específico), representa conceptos que pertenecen a una parte específica del mundo y puede considerarse por tanto que gestiona conocimiento altamente especializado. En la medida en la que las aspiraciones ontológicas de las ciencias y tecnologías de la información propenden a cerrar y controlar los vocabularios hasta donde sea posible, las ontologías de dominio específico son un resultado natural de los esfuerzos por representar y computar el contenido de los recursos digitales. En este contexto, el significado particular de un término aplicado a ese dominio es proporcionado por el dominio de la ontología. 

Como las ontologías de dominio basadas en conceptos representan los conceptos de su ámbito de aplicación de manera muy específica, normalmente resultan exteriores entre sí.
 

Hibridación ontológica 

Sin embargo, la realidad en su conjunto presenta una notable propensión a la continuidad y los dominios en los que se organiza el mundo suelen ser menos puros o más mezclados que nuestros vocabularios controlados. Es por ello que los sistemas del mundo, como los que son cualquier organización o institución humana, necesitan de ontologías de dominio expandidas u ontologías híbridas, que proceden de la mezcla e integración de diferentes ontologías de dominio en una representación más general. Esto obliga a diseñar ese relato ontológico superior, sobre la base de vocabularios controlados que están construidos sobre diferentes ideas de mundo, a veces diferentes lenguajes y, siempre, desde espacios culturales exteriores o distintos. 

Además, mezclar ontologías es un proceso artesanal, que tiene que ver con la ambición de computar un dominio o ámbito de realidad que excede las capacidades de representación de los vocabularios controlados. 

Hiperdata y buscadores semánticos

Las relaciones entre textos en una web han evolucionado hacia redes de datos enlazados en un Grafo de Conocimiento. Las máquinas son capaces de comprender el mundo de entidades de las personas.

Ver más
Hiperdata y buscadores semánticos -- Hiperdata y buscadores semánticos

Hiperdata

Con Hiperdata queremos designar el modo en el que un conjunto de datos se vincula con otros conjuntos de datos que se encuentran alojados en otros lugares o silos de información, del mismo modo que por hipertexto indicamos la relación entre textos distribuidos por la web. Las estrategias basadas en hiperdata posibilitan la condensación de datos en una 'red de datos' o Grafo de Conocimiento, que es un conjunto de datos enlazados a través de una estrategia hiperdata.

Un enlace de hiperdata siempre se refiere a una entidad y, de hecho, la nombra. Puede, por ejemplo, referirse a una [cosa física], tal que una [obra de arte] ('Las Meninas', por ejemplo), a una persona ('Velázquez', el autor del cuadro mencionado), o bien a una exposición en la que esa obra haya participado, las restauraciones o intervenciones que ha sufrido a lo largo del tiempo o la descripción de su contenido (personales, fauna, flora, lugares representados...).

Un enlace de hipertexto indica que hay una conexión entre dos documentos; el enlace hiperdata va más allá y denota o expresa de manera explícita las relaciones semánticas de tal clase de conexión, esto es, gracias a hiperdata los sistemas son capaces de conocer y computar las relaciones entre las entidades que ligan dos documentos, facilitando a las personas ese reconocimiento. Al contrario que las estrategias basadas en hipertexto, las estrategias basadas en hiperdata no dejan todo el problema de reconocer las relaciones significativas de un conjunto de recursos conectados del lado de las personas; al permitir a los sistemas computar esa clase de relaciones entre entidades hacen posible que las personas puedan interrogar e interpretar grandes cantidades de información significativamente enlazada en un grafo por los sistemas.

Buscadores Semánticos y Grafos de Conocimiento

Un buscador que rastrea los enlaces hiperdata es lo que técnicamente podríamos denominar un buscador semántico. En la práctica, el conjunto de los enlaces hiperdata de un conjunto de recursos constituyen un grafo de conocimiento y, por tanto, un buscador semántico es un buscador que posibilita navegar por un grafo de conocimiento.

La arquitectura de la web semántica se acopla, como el haz lo hace con el envés de una hoja, al formato del documento web, que típicamente es HTML, sobre el que tradicionalmente operan y buscan los robots de los buscadores de la web, como Google y otros. Un buscador semántico basado en hiperdata requiere de ficheros RDF, que es el modo en el que la web semántica representa entidades y, por ende, habilitan el navegar por ellas.

Un Grafo de Conocimiento basado en hiperdata permite modelos de interrogación conversacionales o naturales. Por ejemplo, se puede restringir el conjunto del grafo o de los hiperdata solicitando sólo aquellos que cumplan con una determinada condición, como podría ser, en el caso del grafo del Museo del Prado, el haber sido pintados en tal o cual año o pertenecer a esta o a aquella escuela. Además, un buscador basado en hiperdata puede no sólo restringir el ámbito de la búsqueda, sino computar el número exacto de relaciones y sus clases para un conjunto de recursos dado. A esta clase de buscadores semánticos se les denomina buscadores facetados con sumarización. Un buscador de esta clase, permite, además, agregar o iterar las interrogaciones o las restricciones, emulando de este modo el modo en el que las personas razonamos de modo natural. En el caso anterior, a los resultados que arrojaba nuestra pregunta sobre los cuadros del Prado que pertenecían a una determinada época y escuela, podríamos añadir en una segunda vuelta que representaran tal tema, la caza, por ejemplo, o que contuvieran tal objeto, una escopeta o bien que estuviera representado tal animal, un perro por ejemplo. Aquello por lo que finalmente estaríamos preguntando, en ese caso, es por los cuadros del Prado que tratan del tema de la caza y en los que, además, hay escopetas y perros, de una época determinada y pongamos por caso de la escuela española. Esto restringe, en la medida en la que las máquinas son capaces de comprender el mundo de entidades de las personas, el número de resultados y hace que las respuestas a nuestras preguntas sean precisas y semánticamente relevantes.

Datos abiertos y datos abiertos enlazados

Según la definición del Open Data Handbook, los datos abiertos son aquellos que pueden ser utilizados, reutilizados y redistribuidos libremente por cualquier persona, y que se encuentran sujetos, como mucho, al requerimiento de atribución y de compartirse de la misma manera en que aparecen. Podemos resumir la apertura completa de los datos con las siguientes características: 

  • Disponibilidad y acceso: la información debe estar disponible en una forma conveniente y modificable, como un todo y a un costo razonable de reproducción, preferiblemente descargándola de internet. 

  • Reutilización y redistribución: los términos de uso de los datos deben permitir reutilizarlos y redistribuirlos, e incluso integrarlos con otros conjuntos de datos. 

  • Participación universal: todos deben poder utilizar, reutilizar y redistribuir la información, sin discriminación en términos de esfuerzo, personas o grupos; ni  restricciones “no comerciales” o de uso. 

Ver más
Datos abiertos y datos abiertos enlazados -- Datos abiertos

Datos enlazados y Grafos de Conocimiento

Máquinas que colaboran con las personas en sus procesos de interrogación, recuperación de la información, descubrimiento de conocimiento y aprendizaje proporcionando sistemas de recomendación confiables.

Ver más
Datos enlazados y Grafos de Conocimiento -- Datos enlazados

Linked Data o Datos Enlazados

Tim Berners-Lee es el responsable tanto del concepto de Web Semántica -que acuñó en 2001 en un artículo seminal publicado en 'Scientific American', 'Semantic Web'-, como del de Linked Data desarrollado a partir de una nota de diseño relacionada con la construcción del proyecto de Web Semántica.

Linked Data o Datos Enlazados o Enlazables designan un método de publicación estructurada de datos que, en la práctica es el que hace posible la navegación por hiperdata y la construcción de Grafos de Conocimiento.  Este método de publicación posibilita el que las personas pueden interrogar los datos de un grafo de manera semántica.

Para publicar de acuerdo con los principios de la Web de los Datos Enlazados o Linked Data Web es preciso utilizar algunos estándares como http, RDF y URIs, que se utilizan no tanto para servir las páginas que leen las personas, sino para editar las páginas que pueden interpretar automáticamente los sistemas  y, por tanto,  compartir la información con ellos. Esto posibilita conectar los datos de diferentes fuentes en un grafo unificado e interrogable.

En el caso de GNOSS, el proyecto del Museo del Prado ha estado orientado desde el principio a integrar todos los recursos del Museo en un grafo de conocimiento cuyo objetivo era construir una nueva presencia del Museo en la Web, mejorar la experiencia de los usuarios en su interacción con los recursos del museo e integrar y enlazar toda la producción del museo en un grafo unificado o, dicho de otro modo, convertir todos los datos de todos los sistemas en hiperdata. Finalmente, este enfoque basado en la utilización de los datos del Museo para la mejora de sus propios procesos y no sólo enfocado a la reutilización de los mismos por parte de terceros, ha mostrado una incidencia importante en el modo en el que el museo opera, al conectar de manera directa los procesos de creación y generación de conocimiento del museo, con los de publicación y con los de descubrimiento de conocimiento.

Por otro lado, cuando se transciende el punto de vista de la publicación de los datos para uso de los presuntos reutilizadores y se adopta el punto de vista de desarrollar utilidades para las diferentes audiencias, incluidas algunos grupos de interés de la propia institución el resultado puede transformar de manera significativa los modos de producción y consumo de los materiales que representan el patrimonio y conocimiento de la institución.

¿Qué es un grafo? 

En griego la palabra grafo significa dibujo.  Desde un punto de vista técnico, “grafo” en matemáticas y ciencias de la computación designa un conjunto de objetos, llamados vértices o nodos, unidos entre sí mediante aristas o arcos, que representan las relaciones entre los elementos de un conjunto. Se utiliza la palabra “grafo” para designar el modo en el que se representan típicamente esta clase de objetos matemáticos, como un conjunto de puntos (vértices o nodos) unidos por líneas (aristas). La teoría de los grafos se ocupa del estudio de este tipo objetos matemáticos.

Desde un punto de vista aplicado, los grafos permiten estudiar las interrelaciones entre unidades que interactúan entre sí. Puede pensarse en una red de ordenadores, pero también en el conjunto de relaciones implícitas entre los libros de una biblioteca, las obras de un museo o un conjunto de artículos científicos y un determinado conjunto de ensayos clínicos.

La teoría de grafos permite representar, formalizar y desarrollar explotaciones y aplicaciones prácticas para un conjunto muy amplio de problemas.

Grafos de Conocimiento

Un grafo de conocimiento es un sistema de representación de un conjunto de contenidos y recursos digitales que, sobre la base de un modelo ontológico, entiende hechos relacionados con los objetos de conocimiento o entidades de un área de conocimiento en particular y, especialmente, entiende el modo en que este conjunto de entidades está todo él conectado. Cuando decimos que es un sistema que 'entiende' debemos asumir que es un sistema escrito en un lenguaje técnico que posibilita que las máquinas o sistemas 'entiendan' y traten correctamente el conjunto de entidades al que nos hemos referido para, de ese modo, colaborar con las personas en sus procesos de interrogación, recuperación de la información, descubrimiento de conocimiento y aprendizaje proporcionando sistemas de recomendación confiables.

Los Grafos de Conocimiento son una dimensión esencial de un proyecto de inteligencia artificial, proporcionan un medio cognitivo a través del que se puede viajar, al que se puede interrogar y que es capaz de inferir y proponer a partir de las peticiones de los usuarios nuevos relatos o narrativas vinculadas con las áreas de conocimiento de que se trate. 

Big Semantic Data

Big Data o Datos Masivos, habitualmente, se refiere a cualquier conjunto de datos de gran volumen y complejidad. Tales conjuntos de datos almacenan millones de valores ocultos que no están disponibles para un procesamiento automático eficiente, si no es mediante técnicas de razonamiento e inferencia capaces de emular el razonamiento natural humano, que siempre es contextual. Estas técnicas están disponibles en nuestros proyectos de Semantic Big Data, que generan grafos de conocimiento con una cantidad de nodos y relaciones que se mide en magnitudes de miles de millones de triples. 

Ver más
Big Semantic Data -- Big Semantic Data