<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>El Blog de Classora</title>
	<atom:link href="http://blog.classora.com/feed/" rel="self" type="application/rss+xml" />
	<link>http://blog.classora.com</link>
	<description>Líderes en volumen de datos y en tecnologías de enriquecimiento semántico</description>
	<lastBuildDate>Mon, 13 May 2013 01:40:36 +0000</lastBuildDate>
	<language>es-ES</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.4.2</generator>
		<item>
		<title>Real Madrid vs FC Barcelona: análisis comparativo desde el principio de la historia</title>
		<link>http://blog.classora.com/2013/05/13/real-madrid-vs-fc-barcelona-analisis-comparativo-desde-el-principio-de-la-historia/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=real-madrid-vs-fc-barcelona-analisis-comparativo-desde-el-principio-de-la-historia</link>
		<comments>http://blog.classora.com/2013/05/13/real-madrid-vs-fc-barcelona-analisis-comparativo-desde-el-principio-de-la-historia/#comments</comments>
		<pubDate>Mon, 13 May 2013 01:40:36 +0000</pubDate>
		<dc:creator>classora</dc:creator>
				<category><![CDATA[classora]]></category>
		<category><![CDATA[datos inéditos]]></category>
		<category><![CDATA[rankings]]></category>

		<guid isPermaLink="false">http://blog.classora.com/?p=1588</guid>
		<description><![CDATA[Hoy vamos a escribir un post de análisis de datos, centrándonos en esta ocasión en los que son probablemente los dos equipos más laureados de la historia del fútbol: Real Madrid y FC Barcelona. Pero lo haremos desde una perspectiva diferente. Cada día corren ríos de tinta en los principales medios deportivos que repasan la [...]]]></description>
			<content:encoded><![CDATA[<p>Hoy vamos a escribir un post de análisis de datos, centrándonos en esta ocasión en los que son probablemente los dos equipos más laureados de la historia del fútbol: <a href="http://es.classora.com/units/v261775/real-madrid-cf" title="Real Madrid en Classora Knowledge Base" target="_blank"><strong>Real Madrid</strong></a> y <a href="http://es.classora.com/units/g200111/fc-barcelona" title="FC Barcelona en Classora Knowledge Base" target="_blank"><strong>FC Barcelona</strong></a>. Pero lo haremos desde una perspectiva diferente.</p>
<p>Cada día corren ríos de tinta en los principales medios deportivos que repasan la actualidad de ambos clubes. De modo que nosotros enfocaremos el análisis desde un <strong>punto de vista estrictamente imparcial e histórico</strong>. Pero no nos limitaremos a dar el nº final de puntos conseguido por cada equipo, sino que también facilitaremos <strong>herramientas para filtrar los datos por ventanas de tiempo</strong>, de tal manera que cada uno pueda sacar sus propias conclusiones. <strong>Y si lo desea, comparar los datos con los de otros equipos</strong>.</p>
<p>La hipótesis inicial es clara: <em>el Real Madrid es el mejor equipo de la historia, mientras que el FC Barcelona es el mejor equipo de los últimos años</em>. Pero&#8230; ¿te atreves a adentrarte en los datos?</p>
<p><img src="http://blog.classora.com/wordpress/wp-content/uploads/2013/05/madbar.png" alt="Análisis Real Madrid - FC Barcelona a lo largo de la historia" title="Análisis Real Madrid - FC Barcelona a lo largo de la historia" width="590" height="369" class="aligncenter size-full wp-image-1621" /></p>
<h2>Número de ligas ganadas</h2>
<p>En el valor absoluto de este indicador existe una clara ventaja histórica por parte del Real Madrid. Como se muestra en la gráfica de evolución inferior, el equipo blanco consiguió superar al Barça y consolidar esa ventaja durante las décadas de 1960 y 1970. A partir de 1980 ambos equipos se igualaron de tal forma que la liga la conquistaba uno u otro. La única excepción visible en la gráfica fue a principios de los ochenta, con el dominio impuesto por los equipos vascos en la LFP. En 1950 el FC Barcelona tenía cuatro ligas más que el Madrid (máxima diferencia). Por su parte, en 1990 el Madrid tenía 15 ligas más que en FC Barcelona (máxima diferencia).</p>
<p><iframe src='http://www.classora.com/reports/p26595/widget/' style='width:590px; height:300px; border:0;'></iframe></p>
<p><iframe src='http://media.classora.com/api/widget_comparation?entries=2617-2001&#038;type=lc&#038;user=CKB&#038;ranking=p26595&#038;width=560&#038;height=240&#038;header=false&#038;format=full&#038;skin=h' style='width:590px;height:275px; border:0;'></iframe><br />
Para que puedas jugar con estos datos:<br />
<a target="_blank" href="http://es.classora.com/reports/p26595/ranking-de-los-equipos-que-mas-veces-han-ganado-la-liga-de-futbol-de-espana"><b>Ranking de equipos con más ligas »</b></a><br />
<a target="_blank" href="http://es.classora.com/reports/p26595/graphics/ranking-de-los-equipos-que-mas-veces-han-ganado-la-liga-de-futbol-de-espana"><b>Gráfica de evolución de equipos con más ligas »</b></a></p>
<h2>Liga de fútbol (LFP). Clasificación histórica</h2>
<p>Para tener una perspectiva más detallada de lo que sucede en la liga española se puede recurrir a la clasificación histórica. Esta clasificación suma los puntos conseguidos por cada equipo en cada temporada de primera división. Si un año un club desciende a segunda división, simplemente no puntúa. Los únicos equipos que se han mantenido siempre en primera división desde el inicio de la LFP son: Real Madrid, FC Barcelona y <a href="http://es.classora.com/units/t30766535/athletic-club-de-bilbao" title="Athletic de Bilbao en Classora" target="_blank">Athletic de Bilbao</a>. Según este indicador, merengues y azulgranas están mucho más empatados entre sí. Y no solo eso, sino que le sacan mucha distancia al tercer clasificado: el <a href="http://es.classora.com/units/l30765010/valencia-cf" title="Valencia CF en Classora Knowledge Base" target="_blank">Valencia</a>. Esto se debe a que prácticamente en todas las temporadas ambos equipos han conseguido estar en el top 3 de la tabla. De hecho, el Real Madrid ha ocupado el segundo puesto en 21 ocasiones, y el tercer puesto en 7 ocasiones. Por su parte, el Barça ha ocupado en segundo puesto en 23 ocasiones, y el tercer puesto en 12 ocasiones.<br />
<iframe src='http://www.classora.com/reports/o25306/widget/' style='width:590px; height:300px; border:0;'></iframe></p>
<p><iframe src='http://media.classora.com/api/widget_comparation?entries=2617-2001&#038;type=lc&#038;user=CKB&#038;ranking=200&#038;width=560&#038;height=240&#038;header=false&#038;format=full&#038;skin=h' style='width:590px;height:275px; border:0;'></iframe><br />
Para que puedas jugar con estos datos:<br />
<a target="_blank" href="http://es.classora.com/reports/o25306/clasificacion-historica-de-la-liga-de-futbol-de-espana"><b>Clasificación histórica de la LFP »</b></a><br />
<a target="_blank" href="http://es.classora.com/reports/o25306/graphics/clasificacion-historica-de-la-liga-de-futbol-de-espana"><b>Gráfica de evolución de la clasificación histórica »</b></a></p>
<h2>Copas del Rey ganadas</h2>
<p>En el caso de la competición copera se cambian las tornas: el equipo que más títulos ha ganado en la historia es el FC Barcelona. Y lo curioso es que el Real Madrid no es el segundo del ranking, sino el tercero. Esto se debe al <a href="http://es.classora.com/units/t30766535/athletic-club-de-bilbao" title="Athletic de Bilbao en Classora" target="_blank">Athletic de Bilbao</a>. El equipo vasco fue <a href="http://es.classora.com/reports/q26949/graphics/ranking-de-los-equipos-que-mas-veces-han-ganado-la-copa-del-rey-de-futbol" title="Comparativa de los cuatro equipos con más copas del Rey" target="_blank">el club con más copas del Rey</a> desde el inicio de la competición, en 1901, hasta el año 1997, en el que fue igualado por el Barça. Sobre la Copa del Rey cabe destacar (como se puede observar en la gráfica inferior) como parece que está siendo bastante ignorada por merengues y azulgranas durante los últimos años (la gráfica deja de crecer para ambos clubes). Es por ello que, a partir de mediados de los años 90, la copa del Rey empezó a ser asequible para el resto de equipos.<br />
<iframe src='http://www.classora.com/reports/q26949/widget/' style='width:590px; height:300px; border:0;'></iframe></p>
<p><iframe src='http://media.classora.com/api/widget_comparation?entries=2617-2001&#038;type=lc&#038;user=CKB&#038;ranking=q26949&#038;width=560&#038;height=240&#038;header=false&#038;format=full&#038;skin=h' style='width:590px;height:275px; border:0;'></iframe><br />
Para que puedas jugar con estos datos:<br />
<a target="_blank" href="http://es.classora.com/reports/q26949/ranking-de-los-equipos-que-mas-veces-han-ganado-la-copa-del-rey-de-futbol"><b>Ranking de equipos con más copas del Rey »</b></a><br />
<a target="_blank" href="http://es.classora.com/reports/q26949/graphics/ranking-de-los-equipos-que-mas-veces-han-ganado-la-copa-del-rey-de-futbol"><b>Gráfica de evolución de los equipos con más copas del Rey »</b></a></p>
<h2>Champions League ganadas</h2>
<p>Una vez más pasamos a manejar un indicador futbolístico dominado por el Real Madrid. Al igual que en la LFP, el equipo merengue consiguió su ventaja histórica sobre el FC Barcelona y sobre los demás titanes del fútbol europeo (<a href="http://es.classora.com/units/e49310453/bayern-de-munich" title="Bayern de Munich en Classora" target="_blank">Bayern</a>, <a href="http://es.classora.com/units/j49310065/manchester-united" title="Manchester United en Classora" target="_blank">Manchester</a>, <a href="http://es.classora.com/units/m51534813/" title="Milán AC en Classora" target="_blank">Milan</a>, <a href="http://es.classora.com/units/s49310763/liverpool-fc" title="Liverpool FC en Classora" target="_blank">Liverpool</a>&#8230; etc.) durante los años 50 y 60. A partir de 1966 el Real Madrid sufrió una sequía de 30 años en esta competición, hasta que en 1997 consiguió volver a codearse con los grandes levantando la séptima copa. A día de hoy, con nueve títulos, es simplemente el equipo más laureado de Europa. Por su parte, al FC Barcelona se le resistió su primera Champions durante décadas, hasta que en 1991 consiguió romper la racha. Sin embargo, el <em>milagro azulgrana</em> despierta de nuevo a partir de 2005, cuando el equipo toma las riendas del fútbol europeo y encarrila tres nuevos títulos en apenas seis años.<br />
<iframe src='http://www.classora.com/reports/s27527/widget/' style='width:590px; height:300px; border:0;'></iframe></p>
<p><iframe src='http://media.classora.com/api/widget_comparation?entries=2617-2001&#038;type=lc&#038;user=CKB&#038;ranking=s27527&#038;width=560&#038;height=240&#038;header=false&#038;format=full&#038;skin=h' style='width:590px;height:275px; border:0;'></iframe><br />
Para que puedas jugar con estos datos:<br />
<a target="_blank" href="http://es.classora.com/reports/s27527/ranking-de-los-equipos-con-mejor-palmares-en-la-champions-league"><b>Ranking de equipos con más Champions Leagues »</b></a><br />
<a target="_blank" href="http://es.classora.com/reports/s27527/graphics/ranking-de-los-equipos-con-mejor-palmares-en-la-champions-league"><b>Gráfica de evolución de los equipos con más Champions Leagues »</b></a></p>
]]></content:encoded>
			<wfw:commentRss>http://blog.classora.com/2013/05/13/real-madrid-vs-fc-barcelona-analisis-comparativo-desde-el-principio-de-la-historia/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>ETL: extracción, transformación y carga de datos, base de muchos proyectos Big Data y Open Data</title>
		<link>http://blog.classora.com/2013/04/30/etl-extraccion-transformacion-y-carga-de-datos-base-de-muchos-proyectos-big-data-y-open-data/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=etl-extraccion-transformacion-y-carga-de-datos-base-de-muchos-proyectos-big-data-y-open-data</link>
		<comments>http://blog.classora.com/2013/04/30/etl-extraccion-transformacion-y-carga-de-datos-base-de-muchos-proyectos-big-data-y-open-data/#comments</comments>
		<pubDate>Tue, 30 Apr 2013 11:25:40 +0000</pubDate>
		<dc:creator>classora</dc:creator>
				<category><![CDATA[bases de conocimiento]]></category>
		<category><![CDATA[classora]]></category>
		<category><![CDATA[sobre nosotros]]></category>
		<category><![CDATA[web semántica]]></category>

		<guid isPermaLink="false">http://blog.classora.com/?p=1532</guid>
		<description><![CDATA[Los procesos ETL son probablemente los componentes más importantes y de mayor valor añadido en una infraestructura que implique la integración de varias fuentes de datos. En consecuencia, representan un pilar fundamental tanto de simples proyectos de recopilación como de soluciones complejas de Big Data o Business Intelligence, especialmente si se requiere mucha precisión o [...]]]></description>
			<content:encoded><![CDATA[<p>Los <strong>procesos ETL</strong> son probablemente los componentes más importantes y de mayor valor añadido en una infraestructura que implique la <strong>integración de varias fuentes de datos</strong>. En consecuencia, representan un pilar fundamental tanto de simples proyectos de recopilación como de soluciones complejas de <a href="http://blog.classora.com/2012/07/26/big-data-linked-data-open-data/" title="Big Data, Linked Data, Open Data">Big Data</a> o <a href="http://sinnexus.es/business_intelligence/index.aspx" title="¿Qué es Business Intelligence?" target="_blank">Business Intelligence</a>, especialmente si se requiere mucha precisión o actualización en los datos. </p>
<p>Aunque suelen resultar transparentes a los usuarios, los procesos ETL son los encargados de recuperar información de todos los orígenes necesarios, formatearla, limpiarla e integrarla en un datamart, un datawarehouse, una base de conocimiento o cualquier otro tipo de repositorio digital. En resumen, los procesos ETL recopilan los datos y hacen posible que la información subyacente pueda ser presentada mediante las herramientas de análisis y reporting pertinentes. En el caso de Classora, los propios robots son los encargados de complementar y enriquecer cada dato con los <a href="http://blog.classora.com/2013/02/28/metadatos-definicion-aplicaciones-y-estandares/" title="Metadatos: definición, aplicaciones y estándares">metadatos correspondientes</a> (fecha de carga, fuente, fiabilidad del dato, frecuencia de refresco, significado, relaciones&#8230; etc.) que permiten su posterior procesado y recuperación.</p>
<p><img src="http://blog.classora.com/wordpress/wp-content/uploads/2013/05/etl1.jpg" alt="Extraction, Transformation  and Load" title="Extraction, Transformation  and Load" width="590" height="225" class="aligncenter size-full wp-image-1574" /></p>
<p>Como su propio nombre indica, los procesos ETL se dividen en tres fases:</p>
<ul>
<li><b>Extracción</b>: consiste en obtener los datos del sistema origen, realizando volcados completos o incrementales. En ocasiones esta etapa suele apoyarse en un almacén intermedio, llamado ODS (<a href="http://en.wikipedia.org/wiki/Operational_data_store" title="Definición de ODS en Wikipedia" target="_blank">Operational Data Store</a>), que actúa como pasarela entre los sistemas fuente y los sistemas destino, y cuyo principal objetivo consiste en evitar la saturación de los servidores funcionales de la organización.</li>
<li><b>Transformación</b>: los datos procedentes de repositorios digitales distintos no suelen coincidir en formato. Por tanto, para lograr integrarlos resulta imprescindible realizar operaciones de transformación. El objetivo no es otro que evitar duplicidades innecesarias e impedir la generación de islas de datos inconexas. Las transformaciones aplican una serie de <a href="http://es.wikipedia.org/wiki/Reglas_de_negocio" title="Definición en Wikipedia" target="_blank">reglas de negocio</a> (o funciones) sobre los datos extraídos para convertirlos en datos destino.</li>
<li><b>Carga</b>: se trata de introducir los datos, ya adaptados al formato deseado, dentro del sistema destino. En algunos casos se sobreescribe la información antigua con la nueva, mientras que en otros se guarda un historial de cambios que permite consultas retrospectivas en el tiempo, así como revertir modificaciones. Para la carga masiva de datos suele ser necesario desactivar temporalmente la <a href="http://es.wikipedia.org/wiki/Integridad_referencial" title="Definición en Wikipedia" target="_blank">integridad referencial</a> de la base de datos destino.</li>
</ul>
<p>Para los que nos dedicamos profesionalmente a la monitorización continua de fuentes <a href="http://blog.classora.com/2012/07/26/big-data-linked-data-open-data/" title="Open Data">Open Data</a> disponibles en Internet, existen numerosos desafíos si queremos implementar unos procesos ETL eficaces y fiables, que se pueden resumir en los siguientes puntos:</p>
<ul>
<li><strong>Los volúmenes de datos están creciendo de forma exponencial</strong>, especialmente los que se vierten de manera incesante sobre Internet. Precisamente para cosas como ésta nacieron las soluciones Big Data. Por su parte, la Web Semántica, de la que ya hemos hablado en <a href="http://blog.classora.com/category/web-semantica/" title="Web semántica en este blog">anteriores ocasiones</a>, es un intento de poner orden y organizar este vertido constante de información desestructurada a la Red.</li>
<li><strong>A mayor disparidad de fuentes, mayor dificultad de integración</strong>, a medida que los sistemas de información crecen en diversidad, también aumenta la complejidad de su integración. Crear reglas de transformación customizadas para cada nueva fuente supone un esfuerzo manual inviable en sistemas que pretenden ser escalables. De ahí, una vez más, la patente necesidad de respetar estándares como <a href="http://blog.classora.com/2012/10/10/describiendo-el-conocimiento-en-un-formato-estandar-para-la-web-semantica-rdf/" title="Describiendo el conocimiento en un formato estándar para la Web Semántica: RDF">RDF o XML</a> para publicar información.</li>
<li><strong>Las transformaciones implicadas pueden llegar a ser muy complejas.</strong> Los datos necesitan agregarse, analizarse, computarse, procesarse estadísticamente&#8230; etc. En ocasiones también se necesitan transformaciones demasiado costosas desde el punto de vista computacional. Los procesos ETL necesitan una mayor flexibilidad para conseguir respuestas en tiempo real.</li>
</ul>
<p>Actualmente, existen herramientas comerciales, e incluso de software libre, con una gran potencia para la extracción de datos. De hecho, los problemas de rapidez y rendimiento no suelen suponer hoy en día un gran escollo técnico para la extracción y la carga. Donde realmente se sitúa el cuello de botella es en la transformación de datos: en este punto la información desestructurada debe ser convertida en información estructurada para poder ser integrada con el resto de los datos que ya existen en el sistema destino. De hecho, la automatización de este proceso es sólo uno de los grandes retos de la Web Semántica.</p>
<h2>El caso de Classora Knowledge Base</h2>
<p>Para que la base de conocimiento de Classora tenga información actualizada y realmente útil es necesario que se nutra constantemente de datos disponibles en distintas fuentes públicas. De hecho, dada la amplitud proyecto, estas fuentes pueden oscilar desde plataformas de referencia oficiales y completamente estructuradas (como es el caso de Eurostat, el Instituto Nacional de Estadística, o la FIFA) hasta fuentes no oficiales, escritas en texto plano o dotadas de escasos niveles de estructuración (como pueden ser blogs, noticias de medios digitales o incluso la propia Wikipedia). Con este fin, Classora Technologies ha desarrollado tres tipos de robots para la gestión de datos:</p>
<ul>
<li><b>Crawlers de extracción:</b> encargados de la carga masiva de informes a partir de fuentes públicas oficiales. Sirven tanto para cargas absolutas como incrementales.</li>
<li><b>Exploradores de datos:</b> encargados de buscar y actualizar atributos concretos de una unidad de conocimiento a partir de una fuente determinada.</li>
<li><b>Agregadores de contenidos:</b> no se conectan a fuentes externas, sino que utilizan datos internos de Classora para generar nueva información (histórica, agregada&#8230; etc.).</li>
</ul>
<p>No obstante, en valores absolutos, los millones de unidades de conocimiento que atesora Classora Knowledge Base son una cantidad minúscula de la información pública realmente disponible en La Red. Además, como hemos visto antes, cada nueva fuente de datos incorporada aumenta la complejidad de la integración con los datos previamente cargados, ya que se incrementa el número de transformaciones. Sin una supervisión manual (cada vez más costosa e inviable), esto se traduce a medio plazo en que la calidad de los datos puede disminuir a medida que crece la cantidad de los mismos.</p>
<p>Sin embargo, estas limitaciones se pueden paliar parcialmente con un mayor esfuerzo en I+D+i. Por ello, nuestra empresa plantea un proceso de mejora continua para los robots de carga que permitan incorporar más fuentes de datos, con menor nivel de estructuración, en más idiomas, y con una mejor integración con los datos previamente cargados. El problema original al que nos enfrentamos es, en el fondo, uno de los mayores retos que ha impuesto la evolución tecnológica: <strong>la transformación de información desestructurada a información estructurada</strong>. </p>
<p><img src="http://blog.classora.com/wordpress/wp-content/uploads/2013/05/etl2.jpg" alt="Internet como fuente incesante de datos" title="Internet como fuente incesante de datos" width="590" height="270" class="aligncenter size-full wp-image-1576" /></p>
<h2>Más acerca de los procesos de Extracción, Transformación y Carga</h2>
<p>Si te interesa saber más sobre el tema no dudes en <strong>contactar con nosotros</strong> para que te enviemos documentación adicional. Esperamos haber conseguido despejar algunas dudas sobre los procesos ETL, tan importantes para muchos proyectos de Big Data, Open Data, Linked Data y Business Intelligence, y que sin embargo suelen permanecer en la sombra, pasando desapercibidos para el usuario que los utiliza en última instancia.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.classora.com/2013/04/30/etl-extraccion-transformacion-y-carga-de-datos-base-de-muchos-proyectos-big-data-y-open-data/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Economía de la atención: cómo mantener el interés del usuarioante la sobrecarga informativa de Internet</title>
		<link>http://blog.classora.com/2013/03/26/economia-de-la-atencion-como-mantener-el-interes-del-usuarioante-la-sobrecarga-informativa-de-internet/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=economia-de-la-atencion-como-mantener-el-interes-del-usuarioante-la-sobrecarga-informativa-de-internet</link>
		<comments>http://blog.classora.com/2013/03/26/economia-de-la-atencion-como-mantener-el-interes-del-usuarioante-la-sobrecarga-informativa-de-internet/#comments</comments>
		<pubDate>Tue, 26 Mar 2013 12:19:05 +0000</pubDate>
		<dc:creator>classora</dc:creator>
				<category><![CDATA[medios digitales]]></category>
		<category><![CDATA[sobre nosotros]]></category>
		<category><![CDATA[web semántica]]></category>

		<guid isPermaLink="false">http://blog.classora.com/?p=1470</guid>
		<description><![CDATA[La economía de la atención es una teoría para la gestión de la información que trata a la atención humana como un bien escaso. Básicamente, indica que todas las personas estamos constantemente envueltas en un mercado de oferta-demanda de información. Los proveedores de este mercado son medios de comunicación, empresas anunciantes, redes sociales, plataformas informativas&#8230; [...]]]></description>
			<content:encoded><![CDATA[<p>La <strong>economía de la atención</strong> es una teoría para la gestión de la información que trata a la atención humana como un bien escaso. Básicamente, indica que todas las personas estamos constantemente envueltas en un <strong>mercado de oferta-demanda de información</strong>. Los proveedores de este mercado son medios de comunicación, empresas anunciantes, redes sociales, plataformas informativas&#8230; etc.</p>
<p>Por ejemplo, cada día se crean en Internet 1 millón de nuevas páginas webs, se publican 1.000 millones de noticias en diarios digitales y se envían 20.000 millones de correos electrónicos. Todo ello sin tener en cuenta los mensajes publicados en Facebook o Twitter por nuestros amigos. Y por supuesto, sin contar llamadas telefónicas, SMS o Whatsapps.</p>
<p>En un contexto como éste, las plataformas que basan su modelo de negocio en la publicidad (como es el caso de los medios de comunicación) se tienen que enfrentar no sólo con un número demasiado alto de competidores dentro de su propio sector, sino con la posibilidad de que el usuario se vea distraído por un estímulo externo procedente de cualquier otro sector. </p>
<p>De hecho, las plataformas que viven de la publicidad, ya sea mediante <strong>CPC</strong> (<a href="http://en.wikipedia.org/wiki/Cost_per_click" title="Definición en Wikipedia" target="_blank">Coste por Click</a>), <strong>CPM</strong> (<a href="http://en.wikipedia.org/wiki/Cost_per_mille" title="Definición en Wikipedia" target="_blank">Coste por Mil Impresiones</a>), <strong>CPA</strong> (<a href="http://en.wikipedia.org/wiki/Cost_per_action" title="Definición en Wikipedia" target="_blank">Coste por Acción</a>) o cualquier tipo de patrocinio suelen acabar centrándose en mejorar los dos indicadores principales de audiencia: el nº de <strong>páginas servidas</strong> a final de mes (cantidad de tráfico) y el <strong>engagement</strong> o <em>fidelización</em>, para segmentar mejor las campañas publicitarias en base a perfiles (calidad del tráfico). Por supuesto, también es posible aumentar la <strong>rentabilidad por impresión</strong>, aunque dada la situación actual de crisis y, salvo honrosas excepciones, muchos editores suelen zanjar este tema masificando su <em>site</em> con banners y publicidad intrusiva.</p>
<p><img src="http://blog.classora.com/wordpress/wp-content/uploads/2013/03/information-overload.png" alt="Information overload" title="Information overload" width="590" height="319" class="aligncenter size-full wp-image-1526" /></p>
<p>Desde <a href="http://classora-technologies.com/" title="Classora Technologies">Classora Technologies</a> tenemos productos especialmente orientados a mantener el interés del usuario aportando valor añadido a su navegación. Veamos cómo.</p>
<h2>Incrementando el número de páginas servidas</h2>
<p>Desde el punto de vista de su necesidad concreta, los usuarios de Internet se pueden clasificar en dos grandes grupos: </p>
<ul>
<li><b>Buscadores de información:</b> se han conectado porque necesitan conocer un dato puntual. Esta necesidad pueden resolverla abriendo su diario online habitual (si desean hacer seguimiento de una noticia) o utilizando una red social (si se trata de algún evento de su entorno). Sin embargo, en la mayor parte de los casos, esta necesidad se suele resolver mediante una búsqueda en Google (si no tienen una fuente de referencia).</li>
<li><b>Buscadores de entretenimiento:</b> ojo, la información también es un entretenimiento. Estos usuarios navegan sin un rumbo prefijado: están utilizando Internet como medio de ocio y se encuentran más disponibles para dejarse persuadir por contenidos que no estaban dentro su plan inicial. Las redes sociales suelen ser su principal destino, pero por fortuna para nosotros éstas complementan sus contenidos enlazando medios online y blogs.</li>
</ul>
<p>Cuando estamos en modo «buscar información», nuestras barreras están activadas y apenas nos influyen las propuestas que nos hagan. Sin embargo, tarde o temprano todos acabamos entrando en Internet en modo «buscar ocio». Este es el momento en el que los medios online tienen su oportunidad para engancharnos y convencernos de que ellos son una referencia, o en su caso, un recurso informativo mejor que la competencia.</p>
<p>Para aumentar el <strong>número de páginas vistas</strong>, desde Classora Technologies dividimos este parámetro en dos indicadores más fácilmente atacables:</p>
<ul>
<li><b>Ratio de páginas/visita:</b> indica cuantas páginas ve un usuario en nuestra web antes de abandonarla. Para mejorar este indicador desde Classora proponemos utilizar, aparte de las técnicas de <a href="http://es.wikipedia.org/wiki/Usabilidad" title="Definición de usabilidad en Wikipedia" target="_blank">usabilidad</a> habituales, <a href="http://blog.classora.com/2013/01/30/principales-tecnologias-utilizadas-en-los-proyectos-de-enriquecimiento-semantico/" title="Enriquecimiento semántico">enriquecimiento semántico de noticias</a> y <a href="http://blog.classora.com/2012/08/29/motores-de-enriquecimiento-semantico-de-contenidos/" title="Motores de enriquecimiento y de recomendación">motores de recomendaciones de contenidos</a>. Además, se puede mejorar el buscador convirtiéndolo en un <em>autosugeridor</em> de contenidos en tiempo real, a medida que el usuario teclea. Así, aunque no encuentre exactamente lo que busca, tendrá alternativas válidas para continuar navegando por nuestra web.</li>
<li><b>Número de visitas:</b> para mejorar este indicador desde Classora proponemos utilizar, aparte de las técnicas <a href="http://es.wikipedia.org/wiki/Posicionamiento_en_motores_de_b%C3%BAsqueda" title="Definición de SEO en Wikipedia" target="_blank">SEO</a>, <a href="http://es.wikipedia.org/wiki/Marketing_en_motores_de_b%C3%BAsqueda" title="Definición de SEM en Wikipedia" target="_blank">SEM</a> y <a href="http://es.wikipedia.org/wiki/Marketing_de_medios_sociales" title="Definición en Wikipedia" target="_blank">SMM</a> habituales, la creación de páginas de temas automáticas y el <a href="http://blog.classora.com/2013/01/30/principales-tecnologias-utilizadas-en-los-proyectos-de-enriquecimiento-semantico/" title="Enriquecimiento semántico">enriquecimiento semántico</a> de las mismas mediante contenidos de valor añadido. Se trata de un refuerzo complementario a cualquier otra acción de posicionamiento en buscadores o redes sociales, ya que con ello estaremos aumentando los contenidos internos, dotándolos en ocasiones de componentes más virales.</li>
</ul>
<p>Tanto el enriquecimiento semántico como los motores de recomendación de contenidos arrojan unos resultados extraordinarios y fácilmente trazables. Simplemente mediante la monitorización de estos indicadores con una herramienta de análisis de audiencia, como <a href="http://www.google.com/analytics/" title="Google Analytics" target="_blank">Google Analytics</a>, puede comprobarse rápidamente sus beneficios.</p>
<h2>Incrementando el <em>engagement</em> y mejorando la imagen de marca</h2>
<p>Aunque aumentar el tráfico de una web a costa de su contenido es un objetivo deseable, este incremento debe ir de la mano de una mejora sustancial en la calidad transmitida. En numerosas ocasiones previas muchos <em>sites</em> sacrificaron la calidad con la que habían ganado su audiencia para conseguir una mayor cantidad de contenido a ofrecer. </p>
<p>En este sentido, el enriquecimiento semántico es quizá la manera más natural de optimizar una web aunando contenido y calidad. Por ejemplo, si en una noticia se habla de un determinado personaje, se puede mostrar información asociada al mismo. Si se habla de la cotización bursátil de una empresa, se puede incorporar la gráfica pertinente actualizada. Si se habla de la actuación de un equipo en una competición deportiva, se puede incrustar la tabla clasificatoria de la misma. Si se habla de un lugar desconocido para el gran público, se puede insertar un mapa para ubicar la noticia. Si se habla de un evento al que han asistido personajes del corazón, se suele acompañar la noticia con una galería de imágenes del mismo. </p>
<p>En todos, absolutamente todos los casos, <strong>estamos aportando valor</strong> al usuario. De hecho, en muchos casos <strong>nos estaremos adelantando a sus demandas</strong> de información. Y siempre le estaremos brindando una oportunidad para que investigue un tema de su interés <strong>sin abandonar nuestra plataforma</strong>.</p>
<p>Y es que un comportamiento típico, cuando un usuario desea profundizar en un tema, radica en abrir una nueva pestaña del navegador y buscar en Google la información que necesita para completar su conocimiento. ¿Por qué dejar que el usuario se informe fuera si esa información ya la tenemos perfectamente empaquetada para él? El enriquecimiento semántico pone a disposición de nuestra editorial una cantidad impresionante de información pública estructurada que se presenta al usuario cuando la necesita y de la manera que la necesita.</p>
<p>En fin, fidelizar al usuario, conseguir su atención y su respeto, que prefiera informarse leyéndonos a nosotros en lugar de la competencia&#8230; todo ello supone un proceso largo que se va consiguiendo con detalles como éste, que se incorporan directamente a la <a href="http://en.wikipedia.org/wiki/Value_chain" title="Cadena de Valor - Wikipedia" target="_blank">cadena de valor</a> de la empresa e incluso, en algunos casos, consiguen generar una <a href="http://en.wikipedia.org/wiki/Competitive_advantage" title="Ventaja Competitiva" target="_blank">ventaja competitiva</a>.</p>
<h2>Conclusiones</h2>
<p>Muchos usuarios de Internet están inconscientemente saturados con tanta información. Esto hace que cada vez nos volvamos <strong>más dispersos</strong> (es decir, que tengamos <a href="http://www.elconfidencial.com/alma-corazon-vida/2013/02/22/es-internet-la-causa-real-de-que-nos-hagamos-mas-tontos-115441/" title="¿Es Internet la causa de que seamos más tontos? El Confidencial" target="_blank">menos capacidad de concentración</a>), que tengamos <strong>menos memoria</strong> (es decir, que tengamos menos capacidad de retención, tendiendo a utilizar a Google como un disco duro externo a nuestro cerebro) y al mismo tiempo que nos volvamos <strong>más impacientes</strong> (la distancia máxima entre una web y otra se encuentra al alcance de un click).</p>
<p>Las empresas que viven de la atención del usuario, sosteniendo su negocio con tráfico y publicidad, deben esforzarse por consolidarse como referencias dentro de la mente del consumidor. Para ello existen multitud de herramientas, pero es necesario <strong>llevarlas a la práctica adecuadamente</strong> para lograr resultados positivos.</p>
<p>Como en otras ocasiones, si te interesa conocer más información sobre este tema no dudes en <strong>contactar con nosotros</strong> para que te enviemos documentación adicional.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.classora.com/2013/03/26/economia-de-la-atencion-como-mantener-el-interes-del-usuarioante-la-sobrecarga-informativa-de-internet/feed/</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Metadatos: definición, aplicaciones y estándares</title>
		<link>http://blog.classora.com/2013/02/28/metadatos-definicion-aplicaciones-y-estandares/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=metadatos-definicion-aplicaciones-y-estandares</link>
		<comments>http://blog.classora.com/2013/02/28/metadatos-definicion-aplicaciones-y-estandares/#comments</comments>
		<pubDate>Thu, 28 Feb 2013 19:34:06 +0000</pubDate>
		<dc:creator>classora</dc:creator>
				<category><![CDATA[bases de conocimiento]]></category>
		<category><![CDATA[classora]]></category>
		<category><![CDATA[sobre nosotros]]></category>
		<category><![CDATA[web semántica]]></category>

		<guid isPermaLink="false">http://blog.classora.com/?p=1155</guid>
		<description><![CDATA[Los metadatos son simplemente datos sobre datos, es decir, información estructurada que describe a otra información y que nos permite encontrarla, gestionarla, controlarla, entenderla y preservarla en el tiempo. Los metadatos no son un concepto nuevo: la inclusión de metadatos es el método utilizado tradicionalmente en el mundo de las bibliotecas para gestionar libros y [...]]]></description>
			<content:encoded><![CDATA[<p>Los <strong>metadatos</strong> son simplemente <strong>datos sobre datos</strong>, es decir, información estructurada que describe a otra información y que nos permite encontrarla, gestionarla, controlarla, entenderla y preservarla en el tiempo.</p>
<p>Los metadatos no son un concepto nuevo: la inclusión de metadatos es el método utilizado tradicionalmente en el mundo de las bibliotecas para gestionar libros y archivos. Sin embargo, el nacimiento de la informática y, más concretamente, las posibilidades de intercambio de información surgidas en torno a la Web Semántica, hizo que aumentara la popularidad del término. Del mismo modo se hizo patente la necesidad de describir estándares.</p>
<p>Para ilustrar su utilidad, podemos ver unos sencillos ejemplos de metadatos empleados por <a href="http://www.classora.com" title="Classora Knowledge Base - Portal Público">Classora Knowledge Base</a>. Si tomamos una unidad de conocimiento como <a href="http://es.classora.com/units/q100035/fernando-alonso" title="Fernando Alonso en Classora Knowledge Base">Fernando Alonso</a>, vemos que tiene asociados diferentes atributos en su ficha: fecha de nacimiento, profesión, carreras en F1&#8230; etc. Cada uno de estos atributos dispone en Classora de un conjunto de metadatos asociados como el que se describe a continuación:</p>
<ul>
<li><strong>Tipo de dato:</strong> indica si es una fecha, un valor numérico, otra unidad de conocimiento, una cadena de caracteres&#8230; etc. Por ejemplo: la fecha de nacimiento es de tipo <code>DATE</code>, la profesión es de tipo <code>KNOWLEDGE-UNIT</code> y el nº de carreras es de tipo <code>INTEGER</code>. En general, tener los datos tipificados resulta imprescindible en cualquier base de datos estructurada.</li>
<li><strong>Unidades:</strong> indica las unidades en las que está medido el dato, si procede. Por ejemplo, la fecha de nacimiento y la profesión no tienen unidades asociadas, mientras que el nº de carreras tiene una unidad específica para indicar que se trata de eventos de Fórmula 1.</li>
<li><strong>Modalidad de carga:</strong> indica si el dato fue cargado manualmente (por un miembro de <a href="http://www.classora-technologies.com" title="Classora Technologies">Classora Technologies</a> o por un usuario del <a href="http://www.classora.com" title="Classora Knowledge Base - Portal Abierto">portal público</a> de datos) o bien si fue cargado automáticamente (a través de los robots de carga -<em>crawlers</em>- de Classora).</li>
<li><strong>Autor:</strong> indica, si procede, la persona o el <em>bot</em> que modificó el dato por última vez.</li>
<li><strong>Fecha de actualización:</strong> indica la fecha de la última vez que se modificó el dato.</li>
<li><strong>Fuente:</strong> indica la fuente de donde se extrajo el último valor del dato.</li>
<li><strong>Frecuencia de refresco:</strong> indica la periodicidad con la cual los robots de Classora deben conectarse a la fuente original de datos para mantenerlo actualizado. Por ejemplo, la fecha de nacimiento de Fernando Alonso es un dato constante (es decir, no necesita ser actualizado), mientras que el nº de carreras disputadas en F1 es un dato que es necesario contrastar en las fuentes originales cada 15 días.</li>
<li><strong>Fiabilidad:</strong> hay datos que están disponibles en más de una fuente. Por ejemplo, la fecha de nacimiento de Fernando Alonso puede estar disponible en la <a href="http://en.wikipedia.org" title="Wikipedia en inglés" target="_blank">Wikipedia en inglés</a>, la <a href="http://es.wikipedia.org" title="Wikipedia en español" target="_blank">Wikipedia en español</a>, la <a href="http://www.fia.com/" title="FIA" target="_blank">página de la FIA</a>, y <a href="http://www.freebase.com/" title="Freebase" target="_blank">Freebase</a>. Con los metadatos adecuados, los robots pueden saber que se trata del mismo dato y evaluar si su valor coincide en todas las fuentes. Por ello, si tres de las cuatro indican la misma fecha, podría establecerse una fiabilidad aproximada del 75%. Otro tema muy importante en este sentido es el orden y la actualización de las fuentes. Por ejemplo, si el mismo dato está disponible en dos fuentes diferentes, pero su valor no coincide&#8230; ¿cuál se escoge de entre los dos? Para ello Classora utiliza la <em>precedencia de las fuentes</em>, que establece cuales son, a priori, más fidedignas. Por ejemplo, en el caso de la Wikipedia, los bots de Classora siempre otorgan mayor precedencia a la versión inglesa que a la española.</li>
<li><strong>Significado:</strong> es probablemente uno de los metadatos más importantes, ya que permite que el dato sea interpretado automáticamente vía software. Classora sabe que el 29 de Julio de 1981 es la fecha de nacimiento de Fernando Alonso, que es un piloto de F1. Por tanto, es posible crear un informe vía CQL que devuelva todos los pilotos de F1 nacidos en ese año.</li>
<li><strong>Historial de cambios:</strong> entre los metadatos de cada unidad de conocimiento se encuentra una lista con los valores anteriores de cada atributo, incluyendo también para cada caso la fecha en la que fue incluído el valor, su autor&#8230; etc. Se trata de tener una perspectiva histórica de los cambios tanto para fines consultivos como para fines preventivos (posibilidad de recuperarse de ataques o deshacer aportaciones incorrectas).</li>
</ul>
<p>Esta capa de inteligencia basada en metadatos es lo que hace que el repositorio digital de Classora sea considerado una <a href="http://blog.classora.com/2012/01/26/bases-de-conocimiento-en-internet/" title="Bases de conocimiento en Internet">base de conocimiento</a>, y no solo una <a href="http://es.wikipedia.org/wiki/Base_de_datos" title="Base de datos - Wikipedia" target="_blank">base de datos</a>.</p>
<h2>Tipos de metadatos</h2>
<p>En general, los metadatos pueden clasificarse en tres amplias categorías con límites no siempre bien definidos, y muchas veces superpuestos:</p>
<p><strong>Metadatos descriptivos:</strong> son aquellos que sirven para la descripción e identificación de los recursos de información. Permiten la búsqueda y recuperación de los datos, así como distinguir recursos y entender sus contenidos. Se realizan mediante estándares como <a href="http://dublincore.org/" title="Dublin Core Homepage" target="_blank">Dublin Core</a>, <a href="http://en.wikipedia.org/wiki/MARC_standards" title="Estándares MARC en Wikipedia" target="_blank">estándares MARC</a>, <a href="http://en.wikipedia.org/wiki/Microdata_(HTML)" title="Microdata de HTML5 - Wikipedia" target="_blank">microdatos de HTML</a>&#8230; etc.</p>
<p><strong>Metadatos estructurales:</strong> son los que más influyen en la recuperación de la información, facilitando la navegación y presentación de los recursos. Ofrecen información sobre su estructura interna y permiten establecer relaciones entre ellos, de manera que pueden incluso unir los archivos de imagen y textos que están relacionados. Los estándares más difundidos para en este sentido son <a href="http://en.wikipedia.org/wiki/Standard_Generalized_Markup_Language" title="Standard Generalized Markup Language" target="_blank">SGML</a>, <a href="http://blog.classora.com/2012/10/10/describiendo-el-conocimiento-en-un-formato-estandar-para-la-web-semantica-rdf/" title="RDF en Classora">RDF</a> y <a href="http://en.wikipedia.org/wiki/Encoded_Archival_Description" title="Encoded Archival Description" target="_blank">EAD</a> (Encoded Archival Description).</p>
<p><strong>Metadatos administrativos:</strong> incluyen datos para la gestión de derechos, firma digital, auditorías de calidad, control de acceso mediante contraseñas&#8230; etc. También se podrían enmarcar en esta categoría los metadatos sobre preservación a largo y corto plazo. Ejemplo, imágenes <a href="http://es.wikipedia.org/wiki/DICOM" title="Imágenes DICOM" target="_blank">DICOM</a> que incluyen metadatos como: tipo y modelo de escáner utilizado, resolución, paciente, limitaciones de reproducción&#8230; etc.</p>
<h2>Dublin Core y otros estándares</h2>
<p>Dublin Core es probablemente el estándar de metadatos más extendido. Su nombre hace referencia a <a href="http://es.wikipedia.org/wiki/Dublin_(Ohio)" title="Dublin - Ohio (Wikipedia)" target="_blank">Dublín (Ohio, Estados Unidos)</a>, ciudad que en 1995 albergó la primera reunión a nivel mundial de muchos de los especialistas en metadatos y Web de la época.</p>
<p>Dublin Core describe material digital como videos, sonidos, imágenes, textos y páginas web. Para ello utiliza básicamente <a href="http://webposible.com/microformatos-dublincore/ejemplos-microformatos-dublincore.html" title="Ejemplos de microformatos de Dublin Core" target="_blank">XML, HTML y RDF</a>. Además, proporciona un conjunto de convenciones simples y estandarizadas para describir recursos de forma que se facilite su encuentro online. Para la transmisión de datos, tiene asociado el protocolo <a href="http://es.wikipedia.org/wiki/OAI-PMH" title="OAI-PMH en Wikipedia" target="_blank">OAI-PMH</a>.</p>
<p>Dublin Core está gestionado por la <a href="http://www.oclc.org/research/activities/dublincore.html" title="Dublin Core Metadata Iniciative" target="_blank">DCMI</a> (Dublin Core Metadata Iniciative), una organización que trata de fomentar la adopción de estándares y generar un foro abierto para el desarrollo de vocabularios especializados en describir recursos, que permitan sistemas de recuperación más inteligentes.</p>
<p>La siguiente tabla es una recopilación no exhaustiva de algunos de los más importantes estándares para metadatos que se han generado hasta el momento.</p>
<table style="border: 1px solid gray; width: 100%; border-radius: 6px; padding: 6px; background: #FAFAFA; box-shadow: 2px 2px 2px gray; margin-bottom: 15px;">
<tbody>
<tr>
<td><strong>Recursos en general</strong></td>
<td style="border-bottom: 1px solid gray; font-size: 9pt;">Dublin Core (DCMES, DCMI Metadata Terms)</td>
</tr>
<tr>
<td><strong>Obras de arte</strong></td>
<td style="border-bottom: 1px solid gray; font-size: 9pt;">CDWA (Categories for the Description of Works of Art)<br />
CDWA Lite<br />
VRA (Visual Resources Association)<br />
Core Categories</td>
</tr>
<tr>
<td><strong>Recursos bibliográficos</strong></td>
<td style="border-bottom: 1px solid gray; font-size: 9pt;">MODS (Metadata Object Description Schema)<br />
MARC21, UNIMARC, MARCXML<br />
TEI (Text Encoding Initiative) Headers</td>
</tr>
<tr>
<td><strong>Archivos y preservación</strong></td>
<td style="border-bottom: 1px solid gray; font-size: 9pt;">EAD (The Encoded Archival Description)<br />
OAIS (Reference Model for an Open Archival Information System)<br />
PREMIS (Preservation Metadata: Implementation Strategies)</td>
</tr>
<tr>
<td><strong>Recursos educativos</strong></td>
<td style="border-bottom: 1px solid gray; font-size: 9pt;">IMS<br />
LOM (Learning Object Metadata)<br />
CanCore<br />
SCORM (Sharable Content Object Reference Model)</td>
</tr>
<tr>
<td><strong>Publicación</strong></td>
<td style="border-bottom: 1px solid gray; font-size: 9pt;">ONIX (ONline Information Exchange)</td>
</tr>
<tr>
<td><strong>Derechos de autor</strong></td>
<td style="border-bottom: 1px solid gray; font-size: 9pt;">CopyrightMD<br />
DOI (Digital Object Identifier)<br />
ODRL (Open Digital Rights Language)</td>
</tr>
<tr>
<td><strong>Recursos científicos</strong></td>
<td style="border-bottom: 1px solid gray; font-size: 9pt;">CSDGM (Content Standard for Digital Geospatial Metadata)<br />
Darwin Core</td>
</tr>
<tr>
<td><strong>Multimedia</strong></td>
<td style="border-bottom: 1px solid gray; font-size: 9pt;">MPEG-7 Multimedia Content Description Interface<br />
PBCore (The Public Broadcasting Metadata Dictionary)</td>
</tr>
<tr>
<td><strong>Redes sociales y personas</strong></td>
<td style="border-bottom: 1px solid gray; font-size: 9pt;">vCard<br />
FOAF (Friend Of A Friend)</td>
</tr>
<tr>
<td><strong>Información geográfica</strong></td>
<td style="border-bottom: 1px solid gray; font-size: 9pt;">ISO-19115<br />
FGDC (Federal Geographic Data Committee)</td>
</tr>
<tr>
<td><strong>Libro electrónico</strong></td>
<td style="border-bottom: 1px solid gray; font-size: 9pt;">EPUB (Electronic Publication)</td>
</tr>
<tr>
<td><strong>Imágenes médicas</strong></td>
<td>DICOM (Digital Imaging and Communication in Medicine)</td>
</tr>
</tbody>
</table>
<p>En definitiva, tal y como hemos comentado en otras ocasiones, si estás interesado en este tema, no dudes en <strong>contactar con nosotros</strong> para que te hagamos llegar más enlaces y documentación adicional. Desde <a title="Web de Classora Technologies" href="http://www.classora-technologies.com/"><strong>Classora Technologies</strong></a> quedamos completamente a tu disposición.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.classora.com/2013/02/28/metadatos-definicion-aplicaciones-y-estandares/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Principales tecnologías utilizadas en los proyectos de enriquecimiento semántico</title>
		<link>http://blog.classora.com/2013/01/30/principales-tecnologias-utilizadas-en-los-proyectos-de-enriquecimiento-semantico/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=principales-tecnologias-utilizadas-en-los-proyectos-de-enriquecimiento-semantico</link>
		<comments>http://blog.classora.com/2013/01/30/principales-tecnologias-utilizadas-en-los-proyectos-de-enriquecimiento-semantico/#comments</comments>
		<pubDate>Wed, 30 Jan 2013 09:10:11 +0000</pubDate>
		<dc:creator>classora</dc:creator>
				<category><![CDATA[bases de conocimiento]]></category>
		<category><![CDATA[classora]]></category>
		<category><![CDATA[medios digitales]]></category>
		<category><![CDATA[web semántica]]></category>

		<guid isPermaLink="false">http://blog.classora.com/?p=1335</guid>
		<description><![CDATA[El principal objetivo del enriquecimiento semántico consiste en complementar todos los textos digitales y contenidos audiovisuales de una determinada empresa con un conjunto de recursos cognitivos que optimicen su organización, su consumo y su explotación, tanto por parte de los propios empleados como por parte de usuarios externos. A día de hoy, el enriquecimiento semántico [...]]]></description>
			<content:encoded><![CDATA[<p>El principal objetivo del <strong>enriquecimiento semántico</strong> consiste en complementar todos los textos digitales y contenidos audiovisuales de una determinada empresa con un conjunto de recursos cognitivos que optimicen su organización, su consumo y su explotación, tanto por parte de los propios empleados como por parte de usuarios externos. </p>
<p>A día de hoy, el enriquecimiento semántico se puede dividir en <a href="http://blog.classora.com/2012/08/29/motores-de-enriquecimiento-semantico-de-contenidos/" title="Tipos de motores para enriquecimiento semántico">tres bloques principales de funcionalidad</a>: enriquecimiento para <strong>aportar metadatos</strong> (<em>metadata enhancement engines</em>),  enriquecimiento para <strong>sugerir y descubrir contenidos</strong> (<em>content discovery platforms</em>) y enriquecimiento para <strong>integrar recursos informativos relevantes</strong> (<em>content enhancement engines</em>), como información enciclopédica, datos de redes sociales… etc. </p>
<p><a href="http://es.wikipedia.org/wiki/Knowledge_Graph"><img src="http://blog.classora.com/wordpress/wp-content/uploads/2013/01/sample1.jpg" alt="Ejemplo de enriquecimiento semántico de las búsquedas de Google (Knowledge Graph)" title="Ejemplo de enriquecimiento semántico de las búsquedas de Google (Knowledge Graph)" width="590" height="357" class="aligncenter size-full wp-image-1367" /></a></p>
<p>De hecho, y como ya hemos comentado en <a href="http://blog.classora.com/2012/06/27/ultimas-tendencias-tecnologicas-en-los-medios-digitales/" title="Últimas tendencias tecnológicas en los medios digitales">anteriores posts</a>, el enriquecimiento semántico de contenidos es probablemente <strong>una de las principales tendencias en los diarios líderes a nivel mundial</strong> (BBC, The Guardian, New York Times&#8230; etc.) y se basa en aportar semántica (es decir, contenidos externos contextuales, metadatos, profiling&#8230; etc.) a la información disponible en la plataforma digital. Es importante distinguir que este proceso de <strong>mejora semántica</strong> no se limita a incrustar <a href="http://en.wikipedia.org/wiki/Microdata_%28HTML%29" title="HTML5 Microdata" target="_blank">microdatos</a> o posicionar mejor en los buscadores, sino en aportar valor real, complementando cada noticia publicada, cada texto, cada tema, el propio buscador&#8230; etc. con información diferente y útil para el lector. En muchos casos se trata de alimentar al medio digital con una ventaja competitiva sobre sus principales rivales directos.</p>
<p>Al margen del éxito conseguido por Google con su proyecto de enriquecimiento semántico, <a href="http://www.google.com/insidesearch/features/search/knowledge.html" title="Google Knowledge Graph" target="_blank">Knowledge Graph</a>, entre las referencias más reconocidas de proyectos notables en estos temas figura el <a href="http://www.quora.com/What-is-dynamic-semantic-publishing" title="BBC- Dynamic Semantic Publishing en Quora" target="_blank">Dynamic Semantic Publishing</a> de la BBC, <a href="http://en.wikipedia.org/wiki/Calais_%28Reuters_product%29" title="Open Calais - Wikipedia" target="_blank">Open Calais</a> de Thomson-Reuters, el <a href="http://open.blogs.nytimes.com/2009/06/26/nyt-to-release-thesaurus-and-enter-linked-data-cloud/" title="NYT - Thesaurus" target="_blank">Thesaurus</a> de The New York Times o el <a href="http://www.guardian.co.uk/news/datablog/2011/jul/28/data-journalism" title="Data Store - The Guardian" target="_blank">Data Store</a> de The Guardian, por citar algunos.</p>
<p><a href="http://media.classora.com/samples/interactive-catalog.jsp?entry=11342"><img src="http://blog.classora.com/wordpress/wp-content/uploads/2013/01/classora-semantic-enhancement.jpg" alt="Ejemplo de enriquecimiento semántico de contenidos basado en Classora" title="Ejemplo de enriquecimiento semántico de contenidos basado en Classora" width="590" height="345" class="aligncenter size-full wp-image-1385" /></a></p>
<p>El enriquecimiento semántico utiliza por debajo una amplia amalgama de tecnologías diferentes que básicamente se pueden agrupar en tres pilares principales:</p>
<p><b>Primero:</b> para el análisis semántico de los textos se utilizan tecnologías basadas en <a href="http://es.wikipedia.org/wiki/Procesamiento_de_lenguajes_naturales" title="Procesado de Lenguaje Natural en Wikipedia" target="_blank">Procesado de Lenguaje Natural</a> (<strong>NLP</strong>). El enriquecimiento semántico necesita como <em>input</em> un texto estandarizado (esto es: en el idioma esperado, con el <em>encoding</em>/<em>charset</em> convenido&#8230; etc.). A partir de ahí, aplica varios algoritmos NLP. El primero es un preprocesado básico para eliminar impurezas lingüisticas, como <em>stopwords</em>. A continuación, se aplican algoritmos de reconocimiento de entidades con nombre (<strong>NER</strong>: <a href="http://en.wikipedia.org/wiki/Named-entity_recognition" title="Explicación en Wikipedia" target="_blank">Named-Entities Recognition</a>) y etiquetado gramatical (<strong>POST</strong>: <a href="http://en.wikipedia.org/wiki/Part-of-speech_tagging" title="Explicación en Wikipedia" target="_blank">Part-of-Speech Tagging</a>).</p>
<p><b>Segundo:</b> para saber el significado de cada elemento y tema encontrado es necesario cruzarlo con un <a href="http://en.wikipedia.org/wiki/Thesaurus" title="Definición de Tesauro en Wikipedia" target="_blank"><strong>tesauro</strong></a>, generalmente una <a href="http://blog.classora.com/2012/01/26/bases-de-conocimiento-en-internet/" title="Bases de conocimiento en Internet"><strong>base de conocimiento</strong></a>. En español apenas existen bases de conocimiento públicas, con un API disponible y con un volumen y una calidad de datos suficientes como garantizar los resultados. La creación y mantenimiento de esta base de conocimiento contra la que cruzar los datos supone en si misma un esfuerzo técnico descomunal, en que se ven implicadas principalemente tecnologías de <strong>ETL</strong> (<a href="http://en.wikipedia.org/wiki/Extract,_transform,_load" title="Definición de ETL en Wikipedia" target="_blank">Extraction, Transformation and Load</a>) de información, muy típicas en soluciones empresariales de <strong>Business Intelligence</strong>, así como técnicas para estructurar datos a partir de textos desestructurados, integrar fuentes heterogéneas (<a href="http://blog.classora.com/2012/07/26/big-data-linked-data-open-data/" title="Big data, Linked data, Open data">Linked-Data</a>, <a href="http://blog.classora.com/2012/07/26/big-data-linked-data-open-data/" title="Big data, Linked data, Open data">Open-Data</a>) y monitorizar constantemente los cambios para avalar la actualidad de los datos.</p>
<p><b>Tercero:</b> y último, para presentar los datos devueltos en un formato adecuado es necesario recurrir a herramientas avanzadas de <strong>visualización</strong>. Esta parte se suele cubrir utilizando herramientas externas con un API disponible. Entre ellas, destacan la utilización de <a href="http://en.wikipedia.org/wiki/Cartography" title="Definición en Wikipedia" target="_blank"><strong>cartografías</strong></a> para visualización de mapas, gráficas para representar datos visualmente, <strong>HTML5</strong> y <strong>jQuery</strong> e integración con estándares de la <strong>Web Semántica</strong>, especialmente <a href="http://blog.classora.com/2012/10/10/describiendo-el-conocimiento-en-un-formato-estandar-para-la-web-semantica-rdf/" title="Describiendo el conocimiento en un formato estándar para la Web Semántica: RDF"><strong>RDF</strong></a> y <a href="http://blog.classora.com/2012/12/18/owl-el-lenguaje-de-ontologias-web-del-w3c/" title="OWL: el lenguaje de ontologías web del W3C"><strong>OWL</strong></a>.</p>
<p><img src="http://blog.classora.com/wordpress/wp-content/uploads/2013/01/apture-based-sample.png" alt="Ejemplo de enriquecimiento semántico de contenidos basado en Apture" title="Ejemplo de enriquecimiento semántico de contenidos basado en Apture" width="590" height="308" class="aligncenter size-full wp-image-1375" /></p>
<h2>Más información</h2>
<p>Como en otras ocasiones, si te interesa conocer más información sobre este tema no dudes en <strong>contactar con nosotros</strong> para que te enviemos documentación adicional. Cuenta con <a href="http://www.classora-technologies.com/" title="Classora Technologies"><strong>Classora Technologies</strong></a> para estar informado sobre enriquecimiento semántico.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.classora.com/2013/01/30/principales-tecnologias-utilizadas-en-los-proyectos-de-enriquecimiento-semantico/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>OWL: el lenguaje de ontologías web del W3C</title>
		<link>http://blog.classora.com/2012/12/18/owl-el-lenguaje-de-ontologias-web-del-w3c/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=owl-el-lenguaje-de-ontologias-web-del-w3c</link>
		<comments>http://blog.classora.com/2012/12/18/owl-el-lenguaje-de-ontologias-web-del-w3c/#comments</comments>
		<pubDate>Tue, 18 Dec 2012 12:48:46 +0000</pubDate>
		<dc:creator>classora</dc:creator>
				<category><![CDATA[bases de conocimiento]]></category>
		<category><![CDATA[classora]]></category>
		<category><![CDATA[sobre nosotros]]></category>
		<category><![CDATA[web semántica]]></category>

		<guid isPermaLink="false">http://blog.classora.com/?p=1158</guid>
		<description><![CDATA[Con este post finalizamos la descripción de los tres estándares fundamentales para la Web Semántica: RDF, SPARQL y OWL. No obstante, dada su importancia en este texto, antes de seguir deberíamos recordar qué es una ontología, ya que se trata de un concepto que en algunas ocasiones es difícil de explicar: Una ontología es un [...]]]></description>
			<content:encoded><![CDATA[<p>Con este post finalizamos la descripción de los tres estándares fundamentales para la Web Semántica: <a href="http://blog.classora.com/2012/10/10/describiendo-el-conocimiento-en-un-formato-estandar-para-la-web-semantica-rdf/" title="Describiendo el conocimiento en un formato estándar para la Web Semántica: RDF"><strong>RDF</strong></a>, <a href="http://blog.classora.com/2012/11/05/sacando-provecho-a-la-web-semantica-sparql/" title="Sacando provecho a la Web Semántica: SPARQL"><strong>SPARQL</strong></a> y <a href="http://blog.classora.com/2012/12/18/owl-el-lenguaje-de-ontologias-web-del-w3c/" title="OWL: el lenguaje de ontologías web del W3C"><strong>OWL</strong></a>.</p>
<p>No obstante, dada su importancia en este texto, antes de seguir deberíamos recordar qué es una <a href="http://blog.classora.com/2012/09/30/taxonomias-ontologias-y-folksonomias-que-son-y-para-que-sirven/" title="Taxonomías, ontologías y folksonomías...  ¿qué son y para qué sirven?">ontología</a>, ya que se trata de un concepto que en algunas ocasiones es difícil de explicar:</p>
<p><em>Una ontología es un conjunto de reglas que permiten describir y representar el conocimiento de un determinado contexto o dominio. En la práctica, lo único que hacen estas reglas es definir conceptos básicos y las posibles relaciones entre ellos. Las ontologías son utilizadas por personas, bases de datos y aplicaciones software que necesitan utilizar o compartir información en un determinado sector (medicina, economía y finanzas, deportes&#8230; etc.).</em></p>
<p><img src="http://blog.classora.com/wordpress/wp-content/uploads/2012/10/semantic-web-cloud.jpg" alt="Semantic Web Cloud" title="Semantic Web Cloud" width="580" height="302" class="aligncenter size-full wp-image-1292" /></p>
<h2>OWL: Web Ontology Language</h2>
<p>Como su propio nombre indica, OWL es un lenguaje para crear ontologías en la Web. Si bien existían lenguajes ontológicos previos, especialmente destinados a temas científicos y aplicaciones de comercio electrónico, no fueron definidos para ser compatibles con la arquitectura de la <b>World Wide Web</b> en general, y de la <b>Web Semántica</b> en particular. </p>
<p>Para que la Web Semántica funcione, los ordenadores deben tener acceso a <a href="http://blog.classora.com/2012/01/26/bases-de-conocimiento-en-internet/" title="Bases de conocimiento en Internet">bases de conocimiento</a> y conjuntos de <a href="http://blog.classora.com/2012/09/30/taxonomias-ontologias-y-folksonomias-que-son-y-para-que-sirven/" title="Taxonomías, ontologías, folksonomías...">reglas de inferencia</a> que puedan utilizar para llevar a cabo un razonamiento automatizado. Sin embargo, la representación del conocimiento se encuentra actualmente en un estado comparable al del HTML antes del nacimiento de la Web: es claramente una buena idea, y existen algunas demostraciones prácticas prometedoras, pero todavía no se ha extendido ni ha cambiado el mundo. Para desarrollar todo su potencial debe existir un estándar y estar conectado a un sistema global único. El lenguaje OWL es ese estándar, ya que sin él, otros lenguajes como RDF perderían su potencia al representar conocimiento de manera aislada.</p>
<p>Como referencia para evaluar el esfuerzo que se está llevando a cabo en este sentido a nivel mundial, cabe destacar que detrás de OWL y de los demás estándares de la Web Semántica (RDF y SPARQL) están varias empresas y organizaciones punteras. Entre ellas figuran el Gobierno de los EEUU (a través de <strong>DARPA</strong> y la <strong>NSF</strong>) y la Unión Europea (mediante las infraestructuras de 5ª y 6ª generación del programa <strong>IST</strong>).</p>
<h2>Un caso práctico de ejemplo</h2>
<p>Veamos un ejemplo básico de OWL. Cabe destacar que, de manera estrictamente resumida, OWL permite definir <strong>clases</strong>, <strong>relaciones</strong> entre clases, <strong>atributos</strong> de clases e <strong>instancias</strong> de clases. Todos estos conceptos se corresponden o guardan una gran analogía con la <strong>Programación Orientada a Objetos</strong> (POO), y por supuesto, con la <a href="http://es.classora.com/compendium/show_entry_type.do?id=100" title="Ontología de Classora Knowledge Base"><strong>ontología de Classora</strong></a>. Por ejemplo, una clase «Persona» puede tener una subclase «Deportista», un atributo «lugar de nacimiento», y una instancia llamada «Fernando Alonso». ¿Cómo se modelaría esto?</p>
<pre>
<span style="color:blue;"><b>Definimos las clases principales de la ontología</b></span>
&lt;owlx:Class owlx:name="<strong>Person</strong>" owlx:complete="false" /&gt;
&lt;owlx:Class owlx:name="<strong>Region</strong>" owlx:complete="false" /&gt;

<span style="color:blue;"><b>Definimos la clase «Deportista», hija de la clase «Persona»</b></span>
&lt;owlx:Class owlx:name="Sportsman" owlx:complete="false"&gt;
  &lt;owlx:Class owlx:name="#Person" /&gt;  
&lt;/owlx:Class&gt;

<span style="color:blue;"><b>Definimos la clase «Piloto», hija de la clase «Deportista»</b></span>
&lt;owlx:Class owlx:name="Driver" owlx:complete="false"&gt;
  &lt;owlx:Class owlx:name="#Sportsman" /&gt;  
&lt;/owlx:Class&gt;

<span style="color:blue;"><b>Definimos las propiedades de la clase «Piloto»</b></span>
&lt;owlx:ObjectProperty owlx:name="birthPlace"&gt; 
  &lt;owlx:domain owlx:class="#Driver" /&gt; 
  &lt;owlx:range owlx:class="#Region" /&gt; 
&lt;/owlx:ObjectProperty&gt; 
&lt;owlx:DatatypeProperty owlx:name="birthYear"&gt;
  &lt;owlx:domain owlx:class="#Driver" /&gt; 
  &lt;owlx:range owlx:datatype="&xsd;positiveInteger" /&gt; 
&lt;/owlx:DatatypeProperty&gt; 
</pre>
<p>Una vez definida esta ontología básica, es posible utilizarla para representar conocimiento estructurado. Por ejemplo, podemos crear instancias sobre ella utilizando los típicos tripletes de <a href="http://blog.classora.com/2012/10/10/describiendo-el-conocimiento-en-un-formato-estandar-para-la-web-semantica-rdf/" title="RDF - Classora">RDF</a>, o bien aplicando directamente OWL:</p>
<pre>
<span style="color:blue;"><b>Creamos un individuo o instancia de la clase «Piloto»</b></span>
&lt;owlx:Individual owlx:name="Fernando Alonso"&gt; 
  &lt;owlx:type owlx:name="Driver" /&gt;
  &lt;owlx:ObjectPropertyValue owlx:property="birthPlace"&gt; 
    &lt;owlx:Individual owlx:name="#Oviedo" /&gt; 
  &lt;/owlx:ObjectPropertyValue&gt; 
  &lt;owlx:DataPropertyValue owlx:property="birthYear"&gt;
    &lt;owlx:DataValue owlx:datatype="&xsd;positiveInteger"&gt;1981&lt;/owlx:DataValue&gt; 
  &lt;/owlx:DataPropertyValue&gt;
&lt;/owlx:Individual&gt; 

</pre>
<h2>Utilización de OWL</h2>
<p>Hoy en día existe ya un gran número de ontologías OWL disponibles en la Web. Por ejemplo, cabe destacar la <a href="http://www.daml.org/ontologies/" title="Biblioteca de ontologías DAML" target="_blank">biblioteca DAML</a>, que contiene unos 250 ejemplos hechos con OWL o DAML+OIL (hay un <a href="http://www.mindswap.org/2002/owl.html" title="Conversor de DAML+OIL a OWL" target="_blank">conversor de DAML+OIL a OWL</a> disponible online). Además se han publicado en OWL varias ontologías especialmente extensas y de interés general, como la <a href="http://www.mindswap.org/2003/CancerOntology/" title="Ontología del Cáncer" target="_blank"><strong>ontología del cáncer</strong></a>, desarrollada por el <a href="http://ncicb.nci.nih.gov/" title="Enlace a la web institucional" target="_blank">Centro de Bioinformática del Instituto Nacional del Cáncer de los EEUU</a> (contiene cerca de 17.000 términos relacionados con el cáncer) o la conocida <a href="http://www.opengalen.org/index.html" title="Página principal" target="_blank"><strong>ontología médica GALEN</strong></a> desarrollada en la <strong>Universidad de Manchester</strong>.</p>
<p><img src="http://blog.classora.com/wordpress/wp-content/uploads/2012/10/w3c-standard-new.jpg" alt="W3C - OWL" title="W3C - OWL" width="450" height="117" class="aligncenter size-full wp-image-1297" /></p>
<p>En cuanto a la utilización de OWL en ontologías generales (no necesariamente publicadas en Web) cabe destacar <a href="http://dublincore.org/" title="Dublín Core" target="_blank">Dublín Core</a> (<a href="http://bloody-byte.net/rdf/dc_owl2dl/index.html" title="Dublín Core en OWL2" target="_blank">Dublín Core en OWL</a>), <a href="http://www.ontologyportal.org/" title="Suggested Upper Merged Ontology" target="_blank">SUMO</a>, <a href="http://xmlns.com/foaf/spec/" title="FOAF Vocabulary" target="_blank">FOAF</a> y muchas otras <a href="http://www.cs.utexas.edu/users/mfkb/related.html" title="Some Ongoing KBS/Ontology Projects and Groups" target="_blank">ontologías sectoriales</a>. Además. las principales bases de conocimiento en Internet (Freebase, DBPedia, Classora) suelen manejar ontologías propias en OWL o lenguajes afines.</p>
<h2>Variantes de OWL</h2>
<p>La especificación W3C incluye tres sublenguajes OWL, con diferentes niveles de potencia: <strong>OWL Lite</strong>, <strong>OWL DL</strong> y <strong>OWL Full</strong> (ordenados de menor a mayor potencia). Como consecuencia, cada uno de estas variantes contiene una extensión sintáctica de su predecesora más simple.</p>
<ul>
<li><strong>OWL Lite:</strong> fue diseñado como una versión simple de OWL, que permitiera representar las necesidades básicas de una ontología. Sin embargo, en muchos casos dicha simplificación derivó en una serie de limitaciones no deseadas, que poco a poco lo han ido aparcando.</li>
<li><strong>OWL DL:</strong> fue diseñado para mantener la integridad de la información, facilitando a su vez la aplicación de algoritmos de razonamiento automático. OWL DL incluye todas las construcciones del lenguaje OWL, pero sólo se puede utilizar bajo restricciones controladas.</li>
<li><strong>OWL Full:</strong> se basa en una semántica distinta a la de <strong>OWL Lite</strong> o <strong>OWL DL</strong>. Fue diseñado para preservar cierta compatibilidad con <strong>RDF-schema</strong>. Por ejemplo, en <strong>OWL Full</strong> una clase puede ser tratada simultáneamente como una colección de individuos y como entidad por derecho propio, lo que no está permitido en las otras versiones de OWL. Sin embargo, y como contrapartida, OWL Full puede generar bucles infinitos durante el razonamiento.</li>
</ul>
<h2>Información adicional</h2>
<p>Como en otras ocasiones te recomendamos que <strong>contactes directamente con nosotros</strong> si quieres obtener más información sobre este tema. Sin duda OWL es uno de los estándares que mayor peso están cobrando en el futuro de Internet, y estar al tanto sobre él es algo que no sobra para ningún profesional del sector. Cuenta con <a href="http://www.classora-technologies.com/" title="Classora Technologies S.L."><strong>Classora Technologies</strong></a> para estar informado.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.classora.com/2012/12/18/owl-el-lenguaje-de-ontologias-web-del-w3c/feed/</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Sacando provecho a la Web Semántica: SPARQL</title>
		<link>http://blog.classora.com/2012/11/05/sacando-provecho-a-la-web-semantica-sparql/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=sacando-provecho-a-la-web-semantica-sparql</link>
		<comments>http://blog.classora.com/2012/11/05/sacando-provecho-a-la-web-semantica-sparql/#comments</comments>
		<pubDate>Mon, 05 Nov 2012 11:50:02 +0000</pubDate>
		<dc:creator>classora</dc:creator>
				<category><![CDATA[bases de conocimiento]]></category>
		<category><![CDATA[classora]]></category>
		<category><![CDATA[datos inéditos]]></category>
		<category><![CDATA[sobre nosotros]]></category>
		<category><![CDATA[web semántica]]></category>

		<guid isPermaLink="false">http://blog.classora.com/?p=1025</guid>
		<description><![CDATA[¿Para qué vale la Web Semántica? ¿qué sentido tiene esforzarse tanto en estructurar información de Internet siguiendo unos estándares? Quizás el principal motivo sea el poder cruzar o integrar, de manera completamente automática, la información de una compañía con datos externos de su mercado, su competencia, sus proveedores&#8230; o con cualquier otra información disponible en [...]]]></description>
			<content:encoded><![CDATA[<p><strong>¿Para qué vale la Web Semántica?</strong> ¿qué sentido tiene esforzarse tanto en estructurar información de Internet siguiendo unos estándares? </p>
<p>Quizás el principal motivo sea el poder cruzar o integrar, <strong>de manera completamente automática</strong>, la información de una compañía con datos externos de su mercado, su competencia, sus proveedores&#8230; o con cualquier otra información disponible en La Red. Independientemente de donde venga, de su idioma original o de quién la haya publicado. De ahí el esfuerzo en implantar unos estándares universales para representar el conocimiento.</p>
<p>Pero una vez integrada toda esa información, para sacarle partido es necesario poder crear informes o consultas que nos permitan obtener conocimiento aplicable a nuestro negocio. Por ello, en este post vamos a intentar explicar el principal lenguaje de consulta para la Web Semántica: <a href="http://www.w3.org/standards/techs/sparql" title="SPARQL en W3C" target="_blank"><strong>SPARQL</strong></a>. </p>
<p>Al igual que <a href="http://www.w3.org/standards/techs/rdf" title="RDF en W3C" target="_blank"><strong>RDF</strong></a>, <a href="http://www.w3.org/standards/techs/sparql" title="SPARQL en W3C" target="_blank"><strong>SPARQL</strong></a> es un estándar ideado por <a href="http://en.wikipedia.org/wiki/Tim_Berners-Lee" title="Tim Berners-Lee en Wikipedia" target="_blank"><strong>Tim Berners-Lee</strong></a> y monitorizado por el <strong>Data Access Working Group</strong> (<strong>DAWG</strong>) del <strong>World Wide Web Consortium</strong> (<a href="http://www.w3.org/" title="Web oficial de W3C" target="_blank"><strong>W3C</strong></a>).</p>
<p>Si no lo has hecho ya, te recomendamos que antes de leer este post leas nuestra entrada anterior acerca de <a href="http://blog.classora.com/2012/10/10/describiendo-el-conocimiento-en-un-formato-estandar-para-la-web-semantica-rdf/" title="Describiendo el conocimiento en un formato estándar para la Web Semántica: RDF">cómo se describe el conocimiento en la Web Semántica utilizando RDF</a>.</p>
<p><img src="http://blog.classora.com/wordpress/wp-content/uploads/2012/10/sparql-version.jpg" alt="Pirámide de niveles en Web Semántica" title="Pirámide de niveles en Web Semántica" width="580" height="348" class="aligncenter size-full wp-image-1232" /></p>
<h2>SPARQL: SPARQL Protocol and RDF Query Language</h2>
<p>SPARQL es el lenguaje que nos permitirá extraer información y conocimiento de la Web Semántica. Utiliza una sintaxis derivada de SQL, y está especialmente diseñado para recuperar datos partiendo de <a href="http://blog.classora.com/2012/09/30/taxonomias-ontologias-y-folksonomias-que-son-y-para-que-sirven/" title="Taxonomías, ontologías y folksonomías...  ¿qué son y para qué sirven?">ontologías</a> y <a href="http://blog.classora.com/2012/10/10/describiendo-el-conocimiento-en-un-formato-estandar-para-la-web-semantica-rdf/" title="Describiendo el conocimiento en un formato estándar para la Web Semántica: RDF">documentos RDF</a>.</p>
<p>Al igual que SQL, mantiene una estructura declarativa con la típica sintaxis basada en cláusulas <b>SELECT</b>, <b>FROM</b>, <b>WHERE</b> y <b>ORDER BY</b>. Por supuesto, y siguiendo la equivalencia con SQL, también es necesario distinguir entre <em>lenguaje de consulta</em> y <em>motor para almacenar y recuperar los datos</em>. Por este motivo, existen múltiples implementaciones de SPARQL, generalmente ligadas a entornos concretos de desarrollo y plataformas tecnológicas.</p>
<p>En principio SPARQL únicamente incorpora funciones para recuperar información. Sin embargo, algunas propuestas también incluyen operaciones para el mantenimiento (creación, modificación y borrado) de datos.</p>
<p>Veamos cláusula a cláusula como se podría trasladar una consulta SQL a SPARQL:</p>
<ul>
<li><b>SELECT</b>: se mantiene su funcionalidad, indicando cada elemento a seleccionar (sujeto, predicado, objeto) precedido de un símbolo <code>?</code>. Al igual que en SQL, es posible especificar un carácter <code>*</code> para representar todos los elementos.</li>
<li><b>FROM</b>: la tabla a consultar (en este caso, la ontología o grafo a consultar) no se especifica mediante la cláusula FROM, sino que se indica de manera externa a la consulta. El motor SPARQL utilizado tendrá una ontología por defecto.</li>
<li><b>WHERE</b>: la cláusula WHERE sigue siendo la parte más importante de la consulta. Para filtrar tripletes, es posible establecer una parte del triplete (sujeto, predicado, objeto) como variable, asignándole un nombre precedido del símbolo <code>?</code>. El resto del triplete puede mantenerse constante, manteniendo las URIs para especificar los valores por los que filtrar.</li>
<li><b>GROUP BY</b>: el funcionamiento es el mismo que en SQL. Permite agrupar resultados, y realizar operaciones de grupo tipo SUM o COUNT, al igual que filtros HAVING.</li>
<li><b>ORDER BY</b>: al igual que en SQL, la cláusula ORDER BY sigue permitiendo ordenar los resultados en SPARQL. No hay variación significativa.</li>
</ul>
<p><br/>De esta forma, la query SPARQL más simple sería la siguiente:</p>
<pre>
SELECT ?sujeto ?predicado ?objeto
WHERE {  
   ?sujeto ?predicado ?objeto .
}
</pre>
<p>Vendría a significar un <code>SELECT * FROM [TABLA]</code> ya que todos los elementos del triplete especificados en la cláusula WHERE son variables. Pongamos ahora una consulta ficticia basada en el primer ejemplo RDF de nuestro <a href="http://blog.classora.com/2012/10/10/describiendo-el-conocimiento-en-un-formato-estandar-para-la-web-semantica-rdf/" title="Describiendo el conocimiento en un formato estándar para la Web Semántica: RDF">post anterior</a>:</p>
<pre>PREFIX base: &lt;http://www.knowledge.base.org/&gt; .
PREFIX ontology: &lt;http://www.ontology.org/&gt; .

SELECT ?sujeto
WHERE {  
   ?sujeto ontology:hasMother base:susana . 
}
</pre>
<p>La cual pregunta al motor de SPARQL: <strong>¿cuáles son los hijos de Susana?</strong></p>
<p>Evidentemente, las consultas SPARQL pueden llegar a complicarse de una manera sorprendente, combinando múltiples cláusulas y condiciones. Pongamos a continuación un ejemplo de consulta real basada en el <a href="http://blog.classora.com/2012/10/10/describiendo-el-conocimiento-en-un-formato-estandar-para-la-web-semantica-rdf/" title="Describiendo el conocimiento en un formato estándar para la Web Semántica: RDF">ejemplo previo</a> de RDF:</p>
<pre>
PREFIX clsa:     &lt;http://www.classora.com/units/&gt; .
PREFIX ontology: &lt;http://www.classora.com/ontology/&gt; .

SELECT ?objeto
WHERE {  
   clsa:q10035/fernando-alonso ontology:x81190/birthPlace ?objeto . 
}
</pre>
<p>La cual pregunta al motor de SPARQL: <strong>¿dónde nació Fernando Alonso?</strong>. La respuesta de Classora se puede consultar en <a href="http://es.classora.com/knowledge/data/search?text=lugar%20de%20nacimiento%2c%20fernando%20alonso" title="Respuesta de Classora Knowledge Base" target="_blank">este enlace</a>.</p>
<p>Para finalizar, hagamos una consulta real a DBPedia:</p>
<pre>
SELECT *
WHERE {  
  ?company a &lt;http://dbpedia.org/ontology/Organisation&gt; .
  ?company &lt;http://dbpedia.org/ontology/foundationPlace&gt; &lt;http://dbpedia.org/resource/California&gt; .
  ?product &lt;http://dbpedia.org/ontology/developer&gt; ?company  .
  ?product  a &lt;http://dbpedia.org/ontology/Software&gt; .
}
</pre>
<p>La cual pregunta al motor de SPARQL: <strong>dime todas las empresas de California que sean fabricantes de software</strong>. La respuesta de DBPedia se puede consultar en <a href="http://dbpedia.org/sparql?default-graph-uri=http%3A%2F%2Fdbpedia.org&#038;query=select+*%0D%0Awhere%0D%0A%7B+%3Fcompany+a+%3Chttp%3A%2F%2Fdbpedia.org%2Fontology%2FOrganisation%3E+.%0D%0A%3Fcompany+%3Chttp%3A%2F%2Fdbpedia.org%2Fontology%2FfoundationPlace%3E+%3Chttp%3A%2F%2Fdbpedia.org%2Fresource%2FCalifornia%3E+.%0D%0A%3Fproduct+%3Chttp%3A%2F%2Fdbpedia.org%2Fontology%2Fdeveloper%3E+%3Fcompany++.%0D%0A%3Fproduct++a+%3Chttp%3A%2F%2Fdbpedia.org%2Fontology%2FSoftware%3E+.%0D%0A%7D%0D%0A&#038;format=text%2Fhtml&#038;debug=on" title="Respuesta de DBPedia" target="_blank">este enlace</a>.</p>
<p>Si lo deseas, es posible &#8220;cacharrear&#8221; con SPARQL en este portal online del <a href="http://risp.asturias.es/sparql" title="Portal SPARQL online con datos de Asturias" target="_blank">Principado de Asturias</a>.</p>
<p><a target="_blank" href="http://triplify.org/Overview"><img src="http://blog.classora.com/wordpress/wp-content/uploads/2012/11/triplify-overview.png" alt="Triplify - Te recomendamos que le eches un vistazo" title="Triplify - Te recomendamos que le eches un vistazo" width="595" height="252" class="aligncenter size-full wp-image-1325" /></a><br/></p>
<h2>Más información sobre SPARQL</h2>
<p>En fin, no es nuestra intención escribir un curso detallado de SPARQL en este post, pero si te interesa saber más sobre el tema no dudes en <strong>contactar con nosotros</strong> para que te enviemos documentación adicional. Esperamos al menos haber logrado despejar las principales dudas sobre este lenguaje tan importante para el futuro de Internet.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.classora.com/2012/11/05/sacando-provecho-a-la-web-semantica-sparql/feed/</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>Describiendo el conocimiento en un formato estándar para la Web Semántica: RDF</title>
		<link>http://blog.classora.com/2012/10/10/describiendo-el-conocimiento-en-un-formato-estandar-para-la-web-semantica-rdf/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=describiendo-el-conocimiento-en-un-formato-estandar-para-la-web-semantica-rdf</link>
		<comments>http://blog.classora.com/2012/10/10/describiendo-el-conocimiento-en-un-formato-estandar-para-la-web-semantica-rdf/#comments</comments>
		<pubDate>Wed, 10 Oct 2012 16:05:41 +0000</pubDate>
		<dc:creator>classora</dc:creator>
				<category><![CDATA[bases de conocimiento]]></category>
		<category><![CDATA[classora]]></category>
		<category><![CDATA[datos inéditos]]></category>
		<category><![CDATA[sobre nosotros]]></category>
		<category><![CDATA[web semántica]]></category>

		<guid isPermaLink="false">http://blog.classora.com/?p=1201</guid>
		<description><![CDATA[A pesar de lo complejo del tema, hoy vamos a intentar explicar con lenguaje poco técnico uno de los pilares fundamentales de la Web Semántica: RDF, el lenguaje estándar para representar el conocimiento humano en formato digital. RDF fue impulsado por el creador de la Web, Tim Berners-Lee y es reconocido y monitorizado por el [...]]]></description>
			<content:encoded><![CDATA[<p>A pesar de lo complejo del tema, hoy vamos a intentar explicar con lenguaje poco técnico uno de los pilares fundamentales de la Web Semántica: <a href="http://www.w3.org/standards/techs/rdf" title="RDF en W3C" target="_blank"><strong>RDF</strong></a>, el lenguaje estándar para representar el conocimiento humano en formato digital. RDF fue impulsado por el creador de la Web, <a href="http://en.wikipedia.org/wiki/Tim_Berners-Lee" title="Tim Berners-Lee en Wikipedia" target="_blank"><strong>Tim Berners-Lee</strong></a> y es reconocido y monitorizado por el <strong>Data Access Working Group</strong> (<strong>DAWG</strong>) del <strong>World Wide Web Consortium</strong> (<a href="http://www.w3.org/" title="Web oficial de W3C" target="_blank"><strong>W3C</strong></a>).</p>
<p><img src="http://blog.classora.com/wordpress/wp-content/uploads/2012/10/incoming-web.jpg" alt="Intersección entre tecnologías web y tecnologías semánticas" title="Intersección entre tecnologías web y tecnologías semánticas" width="450" height="342" class="aligncenter size-full wp-image-1194" /></p>
<h2>RDF: Resource Description Framework</h2>
<p>RDF es un lenguaje genérico para describir recursos, es decir, para identificar unívocamente <strong>entidades</strong> (personas, organizaciones, lugares, películas&#8230;etc) y <strong>relaciones o hechos</strong> (<em>facts</em>) sobre las mismas. Por ejemplo, para una entidad «persona» se pueden especificar hechos como: de dónde proviene, cuándo nació, quién es su padre, quién es su madre&#8230; etc.</p>
<p>Cuando la W3C se propuso escribir las especificaciones de RDF, su objetivo era crear una fórmula genérica para representar el conocimiento humano. Se trataba de crear una sintaxis tan amplia que permitiese expresar cualquier hecho, y a la vez tan estructurada que cualquier software pudiese interpretarlo de manera automática.</p>
<p>Para conseguirlo, la fórmula más básica que lograron sintetizar fueron los <strong>tripletes</strong>. Los tripletes son &#8220;piezas&#8221; de conocimiento que tienen la siguiente estructura:</p>
<p><img src="http://blog.classora.com/wordpress/wp-content/uploads/2012/10/tipletes-rdf.jpg" alt="Tripletes RDF" title="Tripletes RDF" width="500" height="80" class="aligncenter size-full wp-image-1099" /></p>
<ul>
<li><b>Sujeto:</b> indica la entidad sobre la que se describe el hecho (ejemplo: Juan)</li>
<li><b>Predicado:</b> indica el tipo de hecho a describir (ejemplo: tiene un padre)</li>
<li><b>Objeto:</b> indica un valor adicional que ayuda a completar el hecho (ejemplo: Martín)</li>
</ul>
<p>No es casualidad que <strong>un triplete sea una versión simple de una oración humana</strong>: así es como nosotros representamos nuestro conocimiento. RDF no es más que un estándar para que las máquinas también puedan entenderlo.</p>
<p>Los sujetos y predicados deben ser recursos referenciables, es decir, <strong>deben ser identificados mediante una URI</strong> (<a href="http://en.wikipedia.org/wiki/URI" title="URI- Wikipedia" target="_blank"><strong>Identificador Único de Recurso</strong></a>) . Sin embargo, los objetos pueden ser referenciables o <strong>pueden ser valores literales</strong> (como strings, fechas, números&#8230; etc.).</p>
<p>Un ejemplo simplificado:</p>
<pre>@prefix base: &lt;http://www.knowledge.base.org/&gt; .
@prefix ontology: &lt;http://www.ontology.org/&gt; .

<span style="color:blue;"><b>Sujeto</b></span>      <span style="color:blue;"><b>Predicado</b></span>           <span style="color:blue;"><b>Objeto</b></span> 
base:juan   ontology:isA        base&#58;person .  <span style="color:blue;"><b>Juan es una persona</b></span>
base:juan   ontology:hasMother  base:susana .  <span style="color:blue;"><b>Juan tiene una madre llamada Susana</b></span>
base:juan   ontology:hasFather  base:martin .  <span style="color:blue;"><b>Juan tiene un padre llamado Martín</b></span>
base:martin ontology:hasBrother base:pedro  .  <span style="color:blue;"><b>Martín tiene un hermano, Pedro</b></span>
</pre>
<p>Se han introducido dos prefijos para facilitar la lectura de las URIs. A partir de ahí, cada línea es un hecho (<em>fact</em>). Nótese que las líneas terminan con un punto final y un retorno de carro. </p>
<p>Para que este ejemplo ficticio funcione, todos los recursos utilizados, tanto los <strong>sujetos</strong> (Juan, Martín) como los <strong>predicados</strong> (<em>isA</em>, <em>hasMother</em>, <em>hasFather</em>, <em>hasBrother</em>) como los <strong>objetos</strong> (Person, Susana, Martín, Pedro) deberían estar referenciados mediante una <strong>URI</strong> real.</p>
<p>En la <strong>Web Semántica</strong>, las URIs de ficheros RDF públicos suelen apuntar a:</p>
<ul>
<li><strong>Bases de conocimiento</strong> (bibliotecas digitales) como <a href="http://dbpedia.org" title="DBPedia" target="_blank">DBPedia</a>, <a href="http://www.freebase.com" title="Freebase" target="_blank">Freebase</a> o <a href="http://www.classora.com" title="Classora Knowledge Base" target="_blank">Classora</a>.</li>
<li><strong>Ontologías</strong> (vocabularios, tesauros&#8230; etc.) como <a href="http://dublincore.org/" title="Dublín Core" target="_blank">Dublín Core</a>, <a href="http://www.ontologyportal.org/" title="Suggested Upper Merged Ontology" target="_blank">SUMO</a>, <a href="http://xmlns.com/foaf/spec/" title="FOAF Vocabulary" target="_blank">FOAF</a> u otras <a href="http://www.cs.utexas.edu/users/mfkb/related.html" title="Some Ongoing KBS/Ontology Projects and Groups" target="_blank">ontologías sectoriales</a>. Si bien las bases de conocimiento suelen manejar ontologías propias.</li>
</ul>
<p>Veamos ejemplos de tripletes aplicando URIs del mundo real:</p>
<pre>
@prefix foaf:     &lt;http://xmlns.com/foaf/0.1/&gt; .
@prefix dbpd:     &lt;http://live.dbpedia.org/resource/&gt; .
@prefix frbs:     &lt;http://rdf.freebase.com/rdf/en.&gt; .
@prefix clsa:     &lt;http://www.classora.com/units/&gt; .
@prefix ontology: &lt;http://www.classora.com/ontology/&gt; .

<span style="color:blue;"><b>Sujeto</b></span>                        <span style="color:blue;"><b>Predicado</b></span>                    <span style="color:blue;"><b>Objeto</b></span> 
clsa:q10035/fernando-alonso   foaf:primaryTopic            dbpd:Fernando_Alonso .
clsa:q10035/fernando-alonso   foaf:primaryTopic            frbs:fernando_alonso .
clsa:q10035/fernando-alonso   ontology:x81190/birthPlace   clsa:y23605921/oviedo .
</pre>
<p>Este ejemplo utiliza tres bases de conocimiento (DBPedia, Freebase y Classora) y dos ontologías: FOAF y Classora. Lo único que hace es establecer una equivalencia entre los recursos llamados «Fernando Alonso» en las tres bases de conocimiento (utilizando FOAF). Por último, indica que el lugar de nacimiento de Fernando Alonso es Oviedo (utilizando Classora).</p>
<p>Con solo poner tres entidades juntas, el motor RDF ya sabe como interpretar un hecho. Al poner muchos hechos juntos, se llega a representar (e incluso a generar) conocimiento. En la práctica, existen aplicaciones construidas sobre RDF que agregan semántica para la elaboración de inferencias lógicas. Es decir, permiten que las máquinas saquen sus propias conclusiones.</p>
<p>Como se puede observar, los documentos RDF están pensados para ser leídos vía software, no por humanos. Por ejemplo, para representar una simple clasificación deportiva, perfectamente resumible en una tabla HTML, serían necesarios miles de tripletes. Esto hace especialmente relevante la notación que utilicemos.</p>
<p><img src="http://blog.classora.com/wordpress/wp-content/uploads/2012/10/semantic-web-rdf-sparql.png" alt="Web Semántica - RDF- SPARQL" title="Web Semántica - RDF- SPARQL" width="537" height="387" class="aligncenter size-full wp-image-1191" /></p>
<h2>Notaciones de RDF</h2>
<p>Cabe destacar que un fichero <strong>RDF</strong> no es más que un conjunto de tripletes. Por tanto, puede ser representado en <strong>XML</strong>, en <strong>JSON</strong>, en <strong>CSV</strong>&#8230; etc. Incluso puede ser almacenados en una simple tabla de base de datos con tres columnas. Los documentos RDF suelen tener la extensión <code>.rdf</code> sólo cuando están basados en RDF/XML. Sin embargo, ésa no es necesariamente la mejor notación para RDF. A continuación se detallan las principales variantes utilizadas:</p>
<ul>
<li><a href="http://en.wikipedia.org/wiki/Notation3" title="Notation 3 - Wikipedia" target="_blank"><b>Notation 3</b></a>: es una aproximación no XML creada por  <a href="http://en.wikipedia.org/wiki/Tim_Berners-Lee" title="Tim Berners-Lee - Wikipedia" target="_blank"><strong>Tim Berners-Lee</strong> </a>y sus compañeros cuando se definió la Web Semántica. Esta notación es la más amplia (no solo es válida para RDF) pero también es la más ineficiente desde el punto de vista computacional.<br/>Extensión de los ficheros: <code>.n3</code></li>
<li><a href="http://en.wikipedia.org/wiki/Turtle_(syntax)" title="Turtle - Wikipedia" target="_blank"><b>Turtle</b></a>: es un subconjunto de <em>Notation 3</em> limitado únicamente para describir grafos RDF mediante tripletes. Fue la primera notación aceptada por la W3C, en Agosto de 2011. Hoy en día es <u>probablemente la notación RDF más extendida</u>.<br/>Extensión de los ficheros: <code>.ttl</code></li>
<li><a href="http://en.wikipedia.org/wiki/N-Triples" title="N-Triples - Wikipedia" target="_blank"><b>N-Triples</b></a>: es un subconjunto de <em>Turtle</em>, es decir, un nivel más de simplificación sobre <em>Notation 3</em>. Su objetivo es crear cadenas serializables y, por tanto, fácilmente transmitibles. No obstante, su extrema sencillez deriva en una pérdida de potencia.<br/>Extensión de los ficheros: <code>.nt</code></li>
</ul>
<h2>Motores de RDF</h2>
<p>Para trabajar con documentos RDF y crear aplicaciones para web semántica existe un incipiente conjunto de librerías, siendo quizá <a href="http://jena.apache.org/" title="Apache Jena Project" target="_blank"><strong>Apache Jena</strong></a> uno de los frameworks más destacados.</p>
<h2>Validación de RDF</h2>
<p>Para validar que un texto o fichero RDF está correctamente formado existe un <a href="http://www.w3.org/RDF/Validator/" title="Validador RDF de la W3C" target="_blank"><strong>validador W3C</strong></a>, que permite analizar online documentos RDF en varias notaciones.</p>
<h2>Información adicional</h2>
<p>Como en otras ocasiones te recomendamos que <strong>contactes directamente con nosotros</strong> si quieres obtener más información sobre este tema. Sin duda RDF es uno de los estándares que mayor peso están cobrando en el futuro de Internet, y estar al tanto sobre él es algo que no sobra para ningún profesional del sector. Cuenta con <a href="http://www.classora-technologies.com" title="Classora Technologies"><strong>Classora Technologies</strong></a> para estar informado.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.classora.com/2012/10/10/describiendo-el-conocimiento-en-un-formato-estandar-para-la-web-semantica-rdf/feed/</wfw:commentRss>
		<slash:comments>7</slash:comments>
		</item>
		<item>
		<title>Taxonomías, ontologías y folksonomías&#8230; ¿qué son y para qué sirven?</title>
		<link>http://blog.classora.com/2012/09/30/taxonomias-ontologias-y-folksonomias-que-son-y-para-que-sirven/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=taxonomias-ontologias-y-folksonomias-que-son-y-para-que-sirven</link>
		<comments>http://blog.classora.com/2012/09/30/taxonomias-ontologias-y-folksonomias-que-son-y-para-que-sirven/#comments</comments>
		<pubDate>Sun, 30 Sep 2012 10:28:32 +0000</pubDate>
		<dc:creator>classora</dc:creator>
				<category><![CDATA[bases de conocimiento]]></category>
		<category><![CDATA[classora]]></category>
		<category><![CDATA[datos inéditos]]></category>
		<category><![CDATA[sobre nosotros]]></category>
		<category><![CDATA[web semántica]]></category>

		<guid isPermaLink="false">http://blog.classora.com/?p=1041</guid>
		<description><![CDATA[En este post vamos a explicar una familia de conceptos que en los últimos años ha adquirido una mayor relevancia en Internet, especialmente para todos aquellos que nos movemos alrededor de las tecnologías semánticas. Se trata de las taxonomías, las ontologías y las folksonomías. Sin embargo, no nos centraremos en su significado tradicional (que tiene [...]]]></description>
			<content:encoded><![CDATA[<p>En este post vamos a explicar una <strong>familia de conceptos</strong> que en los últimos años ha adquirido una mayor relevancia en Internet, especialmente para todos aquellos que nos movemos alrededor de las <strong>tecnologías semánticas</strong>. Se trata de las taxonomías, las ontologías y las folksonomías. Sin embargo, no nos centraremos en su <a href="http://es.wikipedia.org/wiki/Ontolog%C3%ADa" title="Significado tradicional de Ontología" target="_blank"><strong>significado tradicional</strong></a> (que tiene un marcado carácter etéreo y filosófico) sino en su <a href="http://revistas.urosario.edu.co/index.php/empresa/article/view/1079" title="Artículo detallado que describe los conceptos antiguos y modernos" target="_blank"><strong>significado moderno</strong></a>, acuñado para describir términos informáticos reales y concretos. </p>
<p><img src="http://blog.classora.com/wordpress/wp-content/uploads/2012/10/virtual-schema.jpg" alt="Taxonomías, ontologías y folksonomías…  ¿qué son y para qué sirven?" title="Taxonomías, ontologías y folksonomías…  ¿qué son y para qué sirven?" width="590" height="480" class="aligncenter size-full wp-image-1081" /></p>
<h2>Taxonomías</h2>
<p>Una <b>taxonomía</b> no es más que un sistema de clasificación que permite agrupar un conjunto de elementos dentro de unas categorías predefinidas. Estas categorías (o taxones) pueden estar contenidas unas en otras, o relacionadas de cualquier otra manera. Un ejemplo muy ilustrativo es la <strong>taxonomía biológica</strong>: la ciencia que clasifica los seres vivos en reinos, especies, razas&#8230; etc. Análogamente existe la <strong>taxonomía geográfica</strong>, que clasifica los territorios en diferentes niveles organizacionales: país, provincia, municipio&#8230; etc. En el mundo de los medios digitales resulta básica la <strong>taxonomía IPTC</strong>, que clasifica cualquier noticia o publicación dentro de unos estándares, permitiendo así automatizar su intercambio.</p>
<p>Y es que en informática, y especialmente dentro de la Web Semántica, las taxonomías son un pilar imprescindible que sirven para agrupar las entidades con características comunes. No en vano la propia idea de la <b>Programación Orientada a Objetos</b> está basada en la construcción de taxonomías customizadas para los intereses de cada aplicación.</p>
<h2>Ontologías</h2>
<p>Una <b>ontología</b> es un modelo conceptual para representar, almacenar e intercambiar datos. Por ejemplo, un <strong>modelo entidad-relación</strong> que describe la base de datos de una empresa puede ser considerado una ontología básica. Sin embargo, hoy en día el concepto de ontología es mucho más amplio, y se apoya en la creciente posibilidad de describir <strong>estándares para compartir información</strong> entre sistemas completamente heterogéneos. </p>
<p>La mayor parte de estos estándares se basan en XML. Por ejemplo, en Web Semántica resulta fundamental la utilización de <strong>RDF</strong> (<a href="http://es.wikipedia.org/wiki/Resource_Description_Framework" title="Definición en Wikipedia" target="_blank"><strong>Resource Description Framework</strong></a>) y cada vez se está extendiendo con mayor virulencia el <strong>OWL</strong> (<a href="http://www.w3.org/2007/09/OWL-Overview-es.html" title="Definición en W3" target="_blank"><strong>Web Ontology Language</strong></a>), un lenguaje que tiene como objetivo facilitar la construcción de ontologías propias que luego se publican vía web. Por último, no podemos dejar de mencionar <strong>SKOS</strong> (<a href="http://es.wikipedia.org/wiki/Simple_Knowledge_Organization_System" title="Definición en Wikipedia" target="_blank"><strong>Simple Knowledge Organization System</strong></a>), una iniciativa del <strong>W3C</strong>, basada en RDF, que proporciona un modelo para representar la estructura básica y el contenido de esquemas conceptuales como taxonomías, esquemas de clasificación, tesauros y cualquier tipo de vocabulario controlado.</p>
<h2>Folksonomías</h2>
<p>Una <b>folksonomía</b> es un sistema de clasificación abierto y/o colaborativo basado en etiquetas (tags). Estas etiquetas no son jerárquicas, es decir, no se anidan unas dentro de otras. Las folksonomías son el sistema de clasificación nativo de muchas plataformas web que almacenan <strong>datos producidos con la participación de miles de usuarios</strong>. Es el caso de Wikipedia, Flickr o Delicious. Sin embargo, el sistema de etiquetas que permite Gmail para clasificar correos no es una folksonomía, ya que no es abierto ni colaborativo.</p>
<p>El término «folksonomía» es muy reciente. Fue acuñado hace apenas unos años por <a href="http://en.wikipedia.org/wiki/Thomas_Vander_Wal" title="Artículo en Wikipedia" target="_blank"><strong>Thomas Vander Wal</strong></a>, y significa simplemente <strong>taxonomías populares</strong> (<em>folks</em> es «popular» en inglés). Por ello, una <a href="http://www.meneame.net/cloud.php" title="Ejemplo de nube de tags de Menéame" target="_blank"><strong>nube de tags</strong></a> es una buena representación visual de una folksonomía. Según su autor, existen dos tipos de folksonomías:</p>
<ul>
<li><strong>Folksonomías amplias:</strong> el creador no influye en las etiquetas que se ponen a su contenido, sino que son los propios usuarios quienes lo hacen, favoreciendo así que las etiquetas estén en sus propios idiomas y en sus propias palabras. Ejemplo: del.icio.us.</li>
<li><strong>Folksonomías estrechas:</strong> al contrario que en las anteriores, sólo el creador del contenido o un número reducido de personas pueden aplicar etiquetas. Un ejemplo de folksonomía estrecha es flickr, donde la utilización de los tags la lleva a cabo el propietario.</li>
</ul>
<p>Para poner un caso práctico que ilustre como se pueden utilizar estos conceptos en conjunto, podemos comentar que en <a href="http://www.classora.com" title="Classora Knowledge Base - Portal Público"><strong>Classora Knowledge Base</strong></a> disponemos de una <strong>taxonomía jerárquica</strong> para organizar las unidades de conocimiento, y de una <strong>folksonomía colaborativa</strong> para organizar rankings e informes. Además, toda la base de conocimiento se apoya en una <strong>ontología propia</strong> fácilmente exportable a estándares de la Web Semántica.</p>
<p>En definitiva, tal y como hemos comentado en otras ocasiones, si estás interesado en este tema, no dudes en <strong>contactar con nosotros</strong> para que te hagamos llegar más enlaces y documentación adicional. Desde <a href="http://www.classora-technologies.com/" title="Web de Classora Technologies"><strong>Classora Technologies</strong></a> quedamos completamente a tu disposición.</p>
]]></content:encoded>
			<wfw:commentRss>http://blog.classora.com/2012/09/30/taxonomias-ontologias-y-folksonomias-que-son-y-para-que-sirven/feed/</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Motores de enriquecimiento semántico de contenidos</title>
		<link>http://blog.classora.com/2012/08/29/motores-de-enriquecimiento-semantico-de-contenidos/?utm_source=rss&#038;utm_medium=rss&#038;utm_campaign=motores-de-enriquecimiento-semantico-de-contenidos</link>
		<comments>http://blog.classora.com/2012/08/29/motores-de-enriquecimiento-semantico-de-contenidos/#comments</comments>
		<pubDate>Wed, 29 Aug 2012 16:06:44 +0000</pubDate>
		<dc:creator>icaderno</dc:creator>
				<category><![CDATA[bases de conocimiento]]></category>
		<category><![CDATA[classora]]></category>
		<category><![CDATA[datos inéditos]]></category>
		<category><![CDATA[medios digitales]]></category>
		<category><![CDATA[sobre nosotros]]></category>
		<category><![CDATA[tv interactiva]]></category>
		<category><![CDATA[web semántica]]></category>

		<guid isPermaLink="false">http://blog.classora.com/?p=973</guid>
		<description><![CDATA[Hoy vamos a intentar poner un poco de orden sobre las herramientas lingüísticas y semánticas que están apareciendo en el incipiente mundo del Procesamiento de Lenguaje Natural (NLP). Sin embargo, no nos centraremos en las ramas encargadas de comprender íntegramente el texto de entrada (para traducirlo o interpretarlo), sino en el mecanismo habitual que se [...]]]></description>
			<content:encoded><![CDATA[<p>Hoy vamos a intentar poner un poco de orden sobre las herramientas lingüísticas y semánticas que están apareciendo en el incipiente mundo del <strong>Procesamiento de Lenguaje Natural</strong> (<a href="http://en.wikipedia.org/wiki/Natural_language_processing" title="NLP Wikipedia" target="_blank">NLP</a>). Sin embargo, no nos centraremos en las ramas encargadas de comprender íntegramente el texto de entrada (para traducirlo o interpretarlo), sino en el mecanismo habitual que se utiliza para procesar un determinado contenido y enriquecerlo con datos externos.</p>
<p><img src="http://blog.classora.com/wordpress/wp-content/uploads/2012/08/example_semantic_enhancement.jpg" alt="Ejemplo de enriquecimiento de contenidos en The Washington Post" title="Ejemplo de enriquecimiento de contenidos en The Washington Post" width="590" height="419" class="aligncenter size-full wp-image-1014" /></p>
<p>Para llegar a conseguir este comportamiento final, aparentemente sencillo, existe una amplia amalgama de herramientas o <em>motores</em> disponibles, cada uno de ellos encargado de agrupar un conjunto de funcionalidades similares. En cada caso, trataremos de indicar dichas funcionalidades y algunas alternativas de software libre y comercial que las implementan.</p>
<h2>Motores de preprocesado de textos</h2>
<p><b>Preprocessing engines:</b> son los primeros en enfrentarse al texto de entrada, y por tanto, les toca realizar el trabajo <em>sucio</em> de generar un modelo homogéneo a partir de la gran diversidad de formatos, idiomas y metadatos disponibles. En algunas ocasiones, sus responsabilidades se solapan con las de herramientas <a href="http://es.wikipedia.org/wiki/Extract,_transform_and_load" title="Extracción, Transformación y Carga de datos" target="_blank">ETL</a>. Sus principales funciones son:</p>
<ul>
<li>Detectar el idioma del texto</li>
<li>Reconocer el <em>encoding</em> y <em>content-type</em> del texto</li>
<li>Extraer los metadatos a partir de los diferentes formatos</li>
<li>Convertir el texto a partir de diferentes formatos a un modelo estándar</li>
</ul>
<p>Algunas soluciones de software libre que los implementan son <a href="http://tika.apache.org/" title="Apache Tika Project" target="_blank">Apache Tika</a>, <a href="http://wiki.iks-project.eu/index.php/Metaxa-MetadataTextExtractionEnhancementEngine" title="Metaxa Engine Project" target="_blank">Metaxa Engine</a> y <a href="http://aperture.sourceforge.net/" title="Aperture Framework" target="_blank">Aperture Framework</a>. Dentro de las comerciales, no podemos dejar de destacar a <a href="http://www.autonomy.com/content/Products/products.en.html" title="Web de Autonomy" target="_blank">Autonomy</a>, aunque también nos gustaría mencionar a alternativas más modestas como la finlandesa <a href="http://www.connexor.com/nlplib/?q=technology" title="Connector Machinese" target="_blank">Connector Machinese</a>. </p>
<h2>Motores de reconocimiento de entidades con nombre (NER)</h2>
<p><b>Named-Entity Recognition Engines</b>: el reconocimiento de entidades con nombre consiste, como su propio nombre indica, en la detección de elementos con <strong>nombre propio</strong> dentro de un determinado texto, y su clasificación en categorías predefinidas, como personas, organizaciones, empresas, lugares, etc. La complejidad de este proceso se basa en que muchas entidades equivalentes pueden aparecer escritas de diferentes formas, por lo que es necesario contar con un conjunto de reglas semánticas avanzadas y un <em>corpus</em> contra el que cruzar la información para realizar desambiguaciones.</p>
<p>El reconocimiento de entidades con nombre se suele utilizar para hacer etiquetado automático de textos (por ejemplo, en las noticias de un diario digital) y como paso previo para el enriquecimiento semántico. El gran problema del NER es que el tratamiento de temas (<em>topics</em>) como <em>prima de riesgo</em>, o <em>crisis eurozona</em> es más complejo y requiere utilizar metainformación semántica.</p>
<p>Algunas reglas típicas de motores NER se pueden resumir en expresiones regulares como:</p>
<pre>
<b>(N)ombre (A)pellido : Nombre / Apellido / N. Apellido / Nombre A. / N. A.</b>
<span style="color:blue;"><b>Ejemplo:</b> Fernando Alonso: Fernando / Alonso / F. Alonso / Fernando A. / F. A.</span>
</pre>
<pre><b>(A)aa [de|del|la|los|las]? (B)bb [de|del|la|los|las]? (C)cc : ABC</b>
<span style="color:blue;"><b>Ejemplo:</b> Organización de Naciones Unidas: ONU</pre>
<p></span></p>
<p>Soluciones de software libre que implementan motores NER son, por ejemplo: <a href="http://opennlp.apache.org/" title="Apache OpenNLP Project" target="_blank">Apache OpenNLP</a> y <a href="http://nlp.stanford.edu/software/CRF-NER.shtml" title="Página del grupo en la Universidad de Stanford" target="_blank">Stanford NER</a> (dirigido por el profesor <a href="http://blog.classora.com/2011/03/15/nuestra-experiencia-en-silicon-valley/" title="El día que conocimos a Christopher Manning..." target="_blank">Christopher Manning</a>). Dentro de las soluciones comerciales cabe destacar, por ejemplo, <a href="http://extractiv.squarespace.com/" title="Web de Extractiv" target="_blank">Extractiv</a>, <a href="http://alias-i.com/lingpipe/web/demo-ne.html" title="Web de Lingpipe" target="_blank">Lingpipe NER</a>, <a href="http://www.daedalus.es/productos/stilus/stilus-ner/" title="Web de Daedalus" target="_blank">Daedalus Stilus NER</a>, <a href="http://www.connexor.com/nlplib/?q=technology" title="Connector Machinese NER" target="_blank">Connexor NER</a> o <a href="http://www.nstein.com/en/products-and-technologies/text-mining-engine/" title="Web de Text Mining Engine (OpenText)" target="_blank">Text Mining Engine</a>. Por supuesto, en ese terreno también tiene cabida la omnipresente <a href="http://www.autonomy.com/content/Products/products.en.html" title="Web de Autonomy" target="_blank">Autonomy</a>. Finalmente, no podemos dejar de mencionar nuestra propia alternativa, <a href="http://media.classora.com/demo/cms_tagging.jsp" title="Demo online de Classora Autotagging" target="_blank">Classora Autotagging</a>, que además de entidades con nombre reconoce temas.</p>
<h2>Motores de enriquecimiento semántico</h2>
<p><b>Semantic Enhancement Engines</b>: representan el eslabón más avanzado de desarrollo técnico, ya que requieren que se hayan llevado a cabo los procesos anteriores (preprocesado y NER) junto con otros algoritmos semánticos adicionales (por ejemplo, <strong>POST</strong>: <a href="http://en.wikipedia.org/wiki/Part-of-speech_tagging" title="Definición en Wikipedia" target="_blank">Part-of-Speech Tagging</a>) para finalmente cruzar los resultados con una <a href="http://blog.classora.com/2012/01/26/bases-de-conocimiento-en-internet/" title="Bases de conocimiento en Internet" target="_blank">base de conocimiento</a> que les permita enriquecer los contenidos con datos adicionales procedentes de fuentes externas.</p>
<p>En este sentido, los motores de enriquecimiento semántico se subdividen en tres grupos principales:</p>
<ul>
<li><span style="color:blue;"><b>Metadata Enhancement Engines</b></span>: utilizan los contenidos externos para incrustar <em>metadatos</em> sobre el texto de entrada, como los <a href="http://en.wikipedia.org/wiki/Microdata_%28HTML%29" title="HTML5 Microdata" target="_blank">microdatos de HTML5</a> o el <a href="http://es.wikipedia.org/wiki/Resource_Description_Framework" title="RDF: Resource Description Frameword" target="_blank">etiquetado RDF</a>. El objetivo de estas herramientas es múltiple: estructurar la información interna, posicionar mejor en buscadores, o añadir un determinado website al <a href="http://blog.classora.com/2012/07/26/big-data-linked-data-open-data/" title="Big Data, Linked Data, Open Data" target="_blank">Linked-Data Cloud</a>. La herramienta mundialmente más conocida para este fin es <a href="http://www.opencalais.com/" title="Open Calais Homepage" target="_blank">Open Calais</a> de la agencia <strong>Thomson-Reuters</strong>, que proporciona un API abierto.</li>
<li><span style="color:blue;"><b>Content Discovery Platforms</b></span>: manejan datos internos y externos para sugerir contenidos relacionados al usuario. Los datos internos suelen ser la propia navegación del usuario, y los externos suelen ser perfiles de usuarios similares. Además, estas herramientas manejan unos <strong>grafos de navegación</strong> muy potentes, construidos mediante la agregación del comportamiento de millones de usuarios en Internet. Los contenidos ofertados pueden proceder del mismo website, o bien de otros sitios afines. Las empresas líderes en este campo son <a href="http://www.outbrain.com/about" title="Outbrain Homepage" target="_blank">Outbrain</a> y <a href="http://nrelate.com/" title="nRelate Homepage" target="_blank">nRelate</a>, si bien existen múltiples alternativas como <a href="http://orcainteractive.com/index.php" title="Orca Homepage" target="_blank">Orca</a>, <a href="http://www.arcticstartup.com/2011/10/28/pinevio-a-new-look-on-content-discovery" title="Pinevio Homepage" target="_blank">Pinevio</a> o <a href="http://www.cxense.com/solutions.html" title="Cxense Homepage" target="_blank">Cxense</a>.</li>
<li><span style="color:blue;"><b>Content Enhancement Engines</b></span>: utilizan el cruce con las <strong>bases de conocimiento</strong> para complementar el texto de entrada con contenidos externos relevantes. Estos contenidos pueden ser de naturaleza muy variada, desde definiciones enciclopédicas a imágenes, vídeos o componentes de <strong>redes sociales</strong>. Este tipo de herramientas están entre las últimas tendencias de Internet. No hay más que ver el fulminante éxito de <a href="http://www.google.com/insidesearch/features/search/knowledge.html" title="Google Knowledge Graph" target="_blank">Google Knowledge Graph</a>, que enriquece semánticamente la búsquedas en Google.
<p>Entre las soluciones de software libre para los <b>Content Enhancement Engines</b> cabe destacar <a href="http://incubator.apache.org/stanbol/index.html" title="Apache Stanbol (en incubación)" target="_blank">Apache Stanbol</a>, que también da soporte a otros tipos motores para procesamiento de textos y <a href="http://jena.apache.org/" title="Apache Jena Homepage" target="_blank">Apache Jena</a>, orientado a construir aplicaciones semánticas. En cuanto a las alternativas comerciales, cabe destacar soluciones como <a href="http://www.zemanta.com/" title="Zemanta Homepage" target="_blank">Zemanta</a> (para enriquecer blogs con contenidos externos desde el panel de administración), <a href="http://www.apture.com/" title="Apture Homepage" target="_blank">Apture</a> (comprada por <strong>Google</strong>, que enriquecía cualquier web desde dentro con un simple <em>javascript</em>, o desde fuera como <em>plugin</em> para el navegador). Y por supuesto, en este punto cabe destacar <a href="http://media.classora.com" title="Classora Media Support" target="_blank">Classora Media Support</a>, nuestra alternativa comercial y -<em>con humildad</em>- la herramienta más avanzada en muchos sentidos.</li>
</ul>
<p>Todos estos motores están diseñados para poder ser integrados en plataformas <a href="http://es.wikipedia.org/wiki/Sistema_de_gesti%C3%B3n_de_contenidos" title="Definición de CMS en Wikipedia" target="_blank">CMS</a>. Como ya hemos comentado en ocasiones anteriores, los motores de enriquecimiento semántico se están convirtiendo en una de las <a href="http://blog.classora.com/2012/06/27/ultimas-tendencias-tecnologicas-en-los-medios-digitales/" title="Últimas tendencias en CMS para medios digitales" target="_blank">principales tendencias en CMS y medios digitales</a>. Su objetivo no es otro que dar un paso más sobre el tratamiento tradicional de los contenidos, ofreciendo un evidente valor añadido al usuario.   </p>
]]></content:encoded>
			<wfw:commentRss>http://blog.classora.com/2012/08/29/motores-de-enriquecimiento-semantico-de-contenidos/feed/</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
	</channel>
</rss>
