Blog de la Escuela de Ingeniería Informática de la UNED: A las puertas de la Web semántica

Image: Duncan Hull/Flickr (Creative Commons)

La Web semántica surge de la idea del científico Tim Berners-Lee como base precursora del conjunto de actividades de investigación llevadas a cabo por el organismo W3C.

Básicamente, el concepto de partida de la Web 1.0 es la de una Web estática, mientras que la de la Web 2.0 la dota de contenidos sociales, dinámicos y abiertos. Son páginas que inicialmente se desarrollan codificando en HTML, XHTML, AJAX, CSS, RSS/ATOM, junto con las novedosas páginas que aglutinan diferentes servicios de la nube: los Mashups.

Según los apuntes de Sistemas Basados en el Conocimiento de los autores J. Mira Mira y R. Martinéz Tomás (II-UNED): «la información contenida en las webs desarrolladas hasta el momento es del tipo convencional y con una metainformación orientada al humano, al lenguaje natural, y que por tanto hace muy difícil la interpretación, gestión y búsqueda de la información de manera automática. Desde luego, Google ha supuesto un gran avance en particular en la búsqueda de información, pero no deja de ser una búsqueda a partir de palabras clave. Esto es, se busca sobre páginas de semántica plana para el buscador.»

En consecuencia, y según las palabras de estos profesores, el objetivo que se intenta alcanzar es el de una Web con páginas de semántica propia, interpretable por agentes software y no solo por humanos. Obviamente, la estructura de la Web cambiará en un futuro próximo de acuerdo al esquema indicado a continuación y a la imagen anterior:

Unicode: Codificación en caracteres en formato internacional de 16-bits.
URI (Unform Resource Identifier): Para especificar las referencias de recursos en Internet, especialmente URL (Uniform Resource Locator) y URN (Uniform Resource Name). A través de estos identificadores se podrá localizar cualquier objeto Web.
XML, ns, y xmlschema: Esta compleja capa se encargará de la intercomunicación de los agentes gracias a la capacidad de intercambio de documentos XML. Con los NS (namespaces) se podrá cualificar los contenidos del XML de dichos documentos, y con xmlschema se restringirá el formato de los documentos XML mediante una convención sintáctica.
RDF y rdfschema: Esta capa se basa en la anterior y permite especificar contenidos semánticos de acuerdo a la estructura sujeto-predicado-objeto. RDF es un lenguaje que define un modelo de datos orientado a objetos donde el sujeto y el predicado serán URIs y el objeto un URI o una cadena literal.
OWL: Es la capa de ontologías, donde se establece una estructura relacionada que define el conocimiento del dominio o dominios.
Reglas: Esta capa realizará razonamientos e inferencias basadas en la información de la capa anterior.
Comprobación: Se realizan pruebas en un lenguaje unificado de la Web semántica, facilitando las inferencias realizadas con las reglas anteriores.
Confianza: Los agentes software se mantienen escépticos hasta que la información proporcionada por la Web semántica se haya comprobado exhaustivamente.
Firma digital: Se utilizará la firma digital para asegurar la autenticidad e integridad de la fuente.

La Web semántica está todavía en fase de pruebas y solo se han implementado algunos proyectos pilotos como el de la Biblioteca Nacional de Francia y en resultados semánticos de búsquedas en Google.

Por otro lado, existe cierta controversia en la adopción de la Web semántica causada por su complejidad técnica y la falta de interés de los propios usuarios.

De ser realidad el desarrollo de las webs semánticas se daría un gran salto cualitativo en la búsqueda de información en Internet, pudiendo llegar a consultar contenidos insospechados y al alcance de unos pocos hasta el momento.

Respecto a la investigación en la generación de webs semánticas a partir de webs convencionales, existe una tesis doctoral realizada en nuestra Universidad que estudia cómo hacer efectiva dicha conversión: