Skip to content

Principales tecnologías utilizadas en los proyectos de enriquecimiento semántico

2013 enero 30
by classora

El principal objetivo del enriquecimiento semántico consiste en complementar todos los textos digitales y contenidos audiovisuales de una determinada empresa con un conjunto de recursos cognitivos que optimicen su organización, su consumo y su explotación, tanto por parte de los propios empleados como por parte de usuarios externos.

A día de hoy, el enriquecimiento semántico se puede dividir en tres bloques principales de funcionalidad: enriquecimiento para aportar metadatos (metadata enhancement engines), enriquecimiento para sugerir y descubrir contenidos (content discovery platforms) y enriquecimiento para integrar recursos informativos relevantes (content enhancement engines), como información enciclopédica, datos de redes sociales… etc.

Ejemplo de enriquecimiento semántico de las búsquedas de Google (Knowledge Graph)

De hecho, y como ya hemos comentado en anteriores posts, el enriquecimiento semántico de contenidos es probablemente una de las principales tendencias en los diarios líderes a nivel mundial (BBC, The Guardian, New York Times… etc.) y se basa en aportar semántica (es decir, contenidos externos contextuales, metadatos, profiling… etc.) a la información disponible en la plataforma digital. Es importante distinguir que este proceso de mejora semántica no se limita a incrustar microdatos o posicionar mejor en los buscadores, sino en aportar valor real, complementando cada noticia publicada, cada texto, cada tema, el propio buscador… etc. con información diferente y útil para el lector. En muchos casos se trata de alimentar al medio digital con una ventaja competitiva sobre sus principales rivales directos.

Al margen del éxito conseguido por Google con su proyecto de enriquecimiento semántico, Knowledge Graph, entre las referencias más reconocidas de proyectos notables en estos temas figura el Dynamic Semantic Publishing de la BBC, Open Calais de Thomson-Reuters, el Thesaurus de The New York Times o el Data Store de The Guardian, por citar algunos.

Ejemplo de enriquecimiento semántico de contenidos basado en Classora

El enriquecimiento semántico utiliza por debajo una amplia amalgama de tecnologías diferentes que básicamente se pueden agrupar en tres pilares principales:

Primero: para el análisis semántico de los textos se utilizan tecnologías basadas en Procesado de Lenguaje Natural (NLP). El enriquecimiento semántico necesita como input un texto estandarizado (esto es: en el idioma esperado, con el encoding/charset convenido… etc.). A partir de ahí, aplica varios algoritmos NLP. El primero es un preprocesado básico para eliminar impurezas lingüisticas, como stopwords. A continuación, se aplican algoritmos de reconocimiento de entidades con nombre (NER: Named-Entities Recognition) y etiquetado gramatical (POST: Part-of-Speech Tagging).

Segundo: para saber el significado de cada elemento y tema encontrado es necesario cruzarlo con un tesauro, generalmente una base de conocimiento. En español apenas existen bases de conocimiento públicas, con un API disponible y con un volumen y una calidad de datos suficientes como garantizar los resultados. La creación y mantenimiento de esta base de conocimiento contra la que cruzar los datos supone en si misma un esfuerzo técnico descomunal, en que se ven implicadas principalemente tecnologías de ETL (Extraction, Transformation and Load) de información, muy típicas en soluciones empresariales de Business Intelligence, así como técnicas para estructurar datos a partir de textos desestructurados, integrar fuentes heterogéneas (Linked-Data, Open-Data) y monitorizar constantemente los cambios para avalar la actualidad de los datos.

Tercero: y último, para presentar los datos devueltos en un formato adecuado es necesario recurrir a herramientas avanzadas de visualización. Esta parte se suele cubrir utilizando herramientas externas con un API disponible. Entre ellas, destacan la utilización de cartografías para visualización de mapas, gráficas para representar datos visualmente, HTML5 y jQuery e integración con estándares de la Web Semántica, especialmente RDF y OWL.

Ejemplo de enriquecimiento semántico de contenidos basado en Apture

Más información

Como en otras ocasiones, si te interesa conocer más información sobre este tema no dudes en contactar con nosotros para que te enviemos documentación adicional. Cuenta con Classora Technologies para estar informado sobre enriquecimiento semántico.

Leave a Reply

Note: You can use basic XHTML in your comments. Your email address will never be published.

Subscribe to this comment feed via RSS