Big Data, Linked Data, Open Data

2012 julio 26
por icaderno

Supongo que los que os movéis entre estos temas ya lo habréis notado. Cada vez aparecen más movimientos, tendencias, corrientes o tecnologías relacionadas con los datos. Se reconocen enseguida por sus terminaciones en inglés, con un énfasis explícito sobre la palabra data. En este post trataremos de desgranar las premisas fundamentales de estos movimientos y su relación con las bases de conocimiento, la Web Semántica y, en general, el futuro de Internet.

Big Data (Grandes Volúmenes de Datos)

El concepto de Big Data se refiere al almacenamiento y procesado de enormes cantidades de datos, tan desproporcionadamente grandes que resulta imposible tratarlos con las herramientas de bases de datos convencionales.

Estamos hablando de los miles de millones de registros que deben manejar internamente algunas empresas para tratar la proliferación de páginas web (Google), petabytes de imagen y vídeo (YouTube), movimientos en redes sociales (Facebook), dispositivos móviles y aplicaciones (Apple), sensores meteorológicos (National Weather)… etc. Nos referimos a empresas y organizaciones capaces de generar, según IBM, más de 2.5 quintillones de bytes al día, hasta el punto de que el 90% de los datos del mundo se crean durante los últimos dos años. Una curva claramente exponencial.

Big Data

Debido a esta curva y al incremento del número de compañías que manejan ingentes volúmenes de información, los sistemas Big Data se ha convertido en un suculento negocio para los grandes jugadores del sector de base de datos, como Oracle o IBM.

Linked Data (Datos Entrelazados)

El concepto de Linked Data surge dentro del marco general de la Web Semántica (propuesta por Tim Berners-Lee) y se refiere al método con el que se pueden mostrar, intercambiar y conectar datos a través de la Web.

La Web que tenemos en la actualidad se basa en documentos enlazados, no en datos enlazados. El objetivo del Linked Data es, precisamente, conseguir que la Web se convierta en una gran base de datos interconectados y distribuidos, perfectamente legibles por máquinas, que harán el trabajo sucio de entender los requisitos del usuario y buscar automáticamente las respuestas adecuadas.

Linked Data

El Linked Data se basa en la aplicación de cuatro principios básicos, respaldados por la W3C, que tratan de regular el crecimiento de la Web, tanto a nivel de documentos HTML (vista clásica de la Web), como a nivel de los datos expresados en RDF (vista de la Web Semántica):

  • Utilizar URIs para identificar los recursos publicados en la Web
  • Aprovechar el protocolo HTTP para acceder a URIs y consultar dichos recursos
  • Ofrecer información estructurada sobre los recursos usando RDF
  • Incluir enlaces entre URIs relacionadas, vinculando los datos entre si

Open Data (Datos Abiertos)

El concepto de Open Data se refiere a una filosofía que pretende que determinados datos estén disponibles de forma libre a todo el mundo, sin restricciones de copyright, patentes u otros mecanismos de control. Tiene una trasfondo similar a otros movimientos como el Software Libre (Free Software), el Código Abierto (Open Source) o el Acceso Libre (Open Access).

La definición oficial de Open Data implica que los datos pueden ser utilizados, reutilizados y redistribuidos libremente por cualquier persona, y que se encuentran sujetos, cuando más, al requerimiento de atribución y de compartirse de la misma manera en que aparecen.

Open Data

Lo bueno de este movimiento es que, lejos de quedarse en el terreno teórico, está siendo respaldado de manera proactiva desde varias administraciones públicas. Un ejemplo directo es el Portal de Datos Públicos del Gobierno Español (y los correspondientes de muchas autonomías y ciudades). La explicación a este fenómeno anómalo de colaboración por parte del Gobierno es doble: por un lado, se potenciaron mediante Fondos Europeos los proyectos para recopilar y estructurar datos públicos manejados internamente. Por otro lado, el proceso de apertura favorece el reaprovechamiento de dichos datos ya que, al ponerlos al alcance de muchas empresas y particulares, éstos pueden utilizar su inventiva para hacer negocio o méritos, respectivamente. Un buen ejemplo de participación ciudadana es el Concurso Abre Datos.

Combinando los conceptos: Big-Linked-Open Data

Resulta esperanzador comprobar como estas tendencias están llegando a buen puerto por separado. Pero lo realmente asombroso y visionario llega cuando hallamos la intersección de todas ellas: disponer públicamente de una web basada en grandes bases de datos interconectadas y abiertas. Insisto: una web basada en datos (con sus correspondientes ontologías y metadatos), no en documentos HTML (con texto plano y enlaces básicos). Las posibilidades de esta arquitectura son impresionantes.

Linked Open Data Cloud Diagram

Pues bien, hoy en día existe una iniciativa desarrollada por la W3C que ya ha avanzado mucho terreno en este sentido: se trata del proyecto Linking Open Data, encargado de divulgar y explicar la Web semántica (Semantic Web Education and Outreach) y ampliar la web actual con bases de datos abiertas y disponibles en RDF.

Esta iniciativa ha estado respaldada desde prácticamente sus inicios por las principales bases de conocimiento del mundo (DBPedia, Freebase… etc.). En Classora, aunque tenemos la capacidad para hacerlo, de momento hemos optado por no publicar datos en formato RDF. Somos la principal base de conocimiento en español, de modo que… ¡ese momento llegará!

Basadas en el proyecto Linking Open Data existen otras iniciativas como Linked Data Tools, The Data Hub, Schema o The Linking Open Data Cloud Diagram, un diagrama de nube que recopila, año tras año, las webs que se adhieren a este movimiento.

Si estás interesado en este tema, no dudes en contactar con nosotros para que te hagamos llegar más enlaces y documentación adicional.

En resumen, mi pronóstico personal es que estamos asistiendo al nacimiento de una nueva manera de entender la información almacenada en Internet. De momento es un proceso que avanza despacio, aunque sin pausa (sólo hay que ver la evolución interanual del diagrama de nube). A pesar de ello, lo más probable es que dentro de unos años sólo unas pocas plataformas acaparen más del 80% de los datos publicados en RDF por todo Internet. El resto de la web se incorporará gradualmente quizá utilizando HTML5 y su microdata, hasta llegar a conformar la long-tail de los datos estructurados disponibles públicamente.

Dejar una respuesta

Note: You can use basic XHTML in your comments. Your email address will never be published.

Subscribe to this comment feed via RSS