Skip to content

Big Data, Linked Data, Open Data

2012 julio 26
by icaderno

Supongo que los que os movéis entre estos temas ya lo habréis notado. Cada vez aparecen más movimientos, tendencias, corrientes o tecnologías relacionadas con los datos. Se reconocen enseguida por sus terminaciones en inglés, con un énfasis explícito sobre la palabra data. En este post trataremos de desgranar las premisas fundamentales de estos movimientos y su relación con las bases de conocimiento, la Web Semántica y, en general, el futuro de Internet.

Big Data (Grandes Volúmenes de Datos)

El concepto de Big Data se refiere al almacenamiento y procesado de enormes cantidades de datos, tan desproporcionadamente grandes que resulta imposible tratarlos con las herramientas de bases de datos convencionales.

Estamos hablando de los miles de millones de registros que deben manejar internamente algunas empresas para tratar la proliferación de páginas web (Google), petabytes de imagen y vídeo (YouTube), movimientos en redes sociales (Facebook), dispositivos móviles y aplicaciones (Apple), sensores meteorológicos (National Weather)… etc. Nos referimos a empresas y organizaciones capaces de generar, según IBM, más de 2.5 quintillones de bytes al día, hasta el punto de que el 90% de los datos del mundo se crean durante los últimos dos años. Una curva claramente exponencial.

Big Data

Debido a esta curva y al incremento del número de compañías que manejan ingentes volúmenes de información, los sistemas Big Data se ha convertido en un suculento negocio para los grandes jugadores del sector de base de datos, como Oracle o IBM.

Linked Data (Datos Entrelazados)

El concepto de Linked Data surge dentro del marco general de la Web Semántica (propuesta por Tim Berners-Lee) y se refiere al método con el que se pueden mostrar, intercambiar y conectar datos a través de la Web.

La Web que tenemos en la actualidad se basa en documentos enlazados, no en datos enlazados. El objetivo del Linked Data es, precisamente, conseguir que la Web se convierta en una gran base de datos interconectados y distribuidos, perfectamente legibles por máquinas, que harán el trabajo sucio de entender los requisitos del usuario y buscar automáticamente las respuestas adecuadas.

Linked Data

El Linked Data se basa en la aplicación de cuatro principios básicos, respaldados por la W3C, que tratan de regular el crecimiento de la Web, tanto a nivel de documentos HTML (vista clásica de la Web), como a nivel de los datos expresados en RDF (vista de la Web Semántica):

  • Utilizar URIs para identificar los recursos publicados en la Web
  • Aprovechar el protocolo HTTP para acceder a URIs y consultar dichos recursos
  • Ofrecer información estructurada sobre los recursos usando RDF
  • Incluir enlaces entre URIs relacionadas, vinculando los datos entre si

Open Data (Datos Abiertos)

El concepto de Open Data se refiere a una filosofía que pretende que determinados datos estén disponibles de forma libre a todo el mundo, sin restricciones de copyright, patentes u otros mecanismos de control. Tiene una trasfondo similar a otros movimientos como el Software Libre (Free Software), el Código Abierto (Open Source) o el Acceso Libre (Open Access).

La definición oficial de Open Data implica que los datos pueden ser utilizados, reutilizados y redistribuidos libremente por cualquier persona, y que se encuentran sujetos, cuando más, al requerimiento de atribución y de compartirse de la misma manera en que aparecen.

Open Data

Lo bueno de este movimiento es que, lejos de quedarse en el terreno teórico, está siendo respaldado de manera proactiva desde varias administraciones públicas. Un ejemplo directo es el Portal de Datos Públicos del Gobierno Español (y los correspondientes de muchas autonomías y ciudades). La explicación a este fenómeno anómalo de colaboración por parte del Gobierno es doble: por un lado, se potenciaron mediante Fondos Europeos los proyectos para recopilar y estructurar datos públicos manejados internamente. Por otro lado, el proceso de apertura favorece el reaprovechamiento de dichos datos ya que, al ponerlos al alcance de muchas empresas y particulares, éstos pueden utilizar su inventiva para hacer negocio o méritos, respectivamente. Un buen ejemplo de participación ciudadana es el Concurso Abre Datos.

Combinando los conceptos: Big-Linked-Open Data

Resulta esperanzador comprobar como estas tendencias están llegando a buen puerto por separado. Pero lo realmente asombroso y visionario llega cuando hallamos la intersección de todas ellas: disponer públicamente de una web basada en grandes bases de datos interconectadas y abiertas. Insisto: una web basada en datos (con sus correspondientes ontologías y metadatos), no en documentos HTML (con texto plano y enlaces básicos). Las posibilidades de esta arquitectura son impresionantes.

Linked Open Data Cloud Diagram

Pues bien, hoy en día existe una iniciativa desarrollada por la W3C que ya ha avanzado mucho terreno en este sentido: se trata del proyecto Linking Open Data, encargado de divulgar y explicar la Web semántica (Semantic Web Education and Outreach) y ampliar la web actual con bases de datos abiertas y disponibles en RDF.

Esta iniciativa ha estado respaldada desde prácticamente sus inicios por las principales bases de conocimiento del mundo (DBPedia, Freebase… etc.). En Classora, aunque tenemos la capacidad para hacerlo, de momento hemos optado por no publicar datos en formato RDF. Somos la principal base de conocimiento en español, de modo que… ¡ese momento llegará!

Basadas en el proyecto Linking Open Data existen otras iniciativas como Linked Data Tools, The Data Hub, Schema o The Linking Open Data Cloud Diagram, un diagrama de nube que recopila, año tras año, las webs que se adhieren a este movimiento.

Si estás interesado en este tema, no dudes en contactar con nosotros para que te hagamos llegar más enlaces y documentación adicional.

En resumen, mi pronóstico personal es que estamos asistiendo al nacimiento de una nueva manera de entender la información almacenada en Internet. De momento es un proceso que avanza despacio, aunque sin pausa (sólo hay que ver la evolución interanual del diagrama de nube). A pesar de ello, lo más probable es que dentro de unos años sólo unas pocas plataformas acaparen más del 80% de los datos publicados en RDF por todo Internet. El resto de la web se incorporará gradualmente quizá utilizando HTML5 y su microdata, hasta llegar a conformar la long-tail de los datos estructurados disponibles públicamente.

Últimas tendencias tecnológicas en los medios digitales

2012 junio 27
by icaderno

Durante los últimos meses hemos tomado contacto de manera intensiva con el mercado de los medios de comunicación. Además, en paralelo, hemos tenido que desarrollar un breve estudio interno acerca de la realidad en los principales gestores de contenido (CMS) orientados precisamente a medios digitales. En el estudio nos hemos centrado de manera especial en aquellas empresas que más están invirtiendo en I+D para impedir que estos tiempos de crisis les pasen factura a largo plazo.

Últimas tendencias en medios digitales

En general se puede concluir que los medios que mejor están gestionando estos tiempos convulsos no son sólo aquellos que tienen una posición inequívoca de liderazgo, ni siquiera los que se amparan en mercados más proclives al pago por contenidos (en contraposición con el mercado latino). La calidad editorial y la actualización de contenidos es para ellos un must-have, una obligación, pero tampoco es una garantía absoluta para superarlo todo. Al contrario, los que mejores resultados están obteniendo son los que están probando constantemente nuevas fórmulas para fidelizar al usuario y dar valor añadido tanto a los lectores como a los anunciantes. Su método no es otro que prueba-error, una vez tras otra, hasta conseguir el objetivo que se proponen. Es la ya antigua receta de la innovación.

A continuación resumimos algunas novedades que están impactando positivamente en diarios líderes, y que algunos CMS de alto nivel, junto con empresas especializadas, ya empiezan a apuntar como herramientas potenciales para mejorar el sector:

1º) Enriquecimiento semántico de contenidos: es probablemente una de las principales tendencias en los diarios líderes a nivel mundial (BBC, The Guardian, New York Times… etc.) y se basa en aportar semántica (es decir contenidos externos contextuales, metadatos, profiling… etc.) a la información disponible en el diario. Dicho de otro modo, este proceso de Semantic Enhancement no se refiere sólo a incrustar microdatos de HTML5 o RDF en la web (para posicionar mejor en los buscadores), sino en complementar cada noticia, cada página de tema, cada componente del diario, con información diferente y útil para el lector. Hay proyectos muy ambiciosos en este sentido. Por ejemplo: Dynamic Semantic Publishing de la BBC, Open Calais de Thomson-Reuters, el Thesaurus de The New York Times o el Data Store de The Guardian. Justo aquí es donde estamos nosotros posicionándonos con Classora Media Support.

Ejemplo de enriquecimiento con contenidos de fuentes externas. Mapa del paro en USA.

2º) Personalización de contenidos: una idea muy practicada en Internet desde sus comienzos, y que las redes sociales supieron aprovechar como nunca. La tendencia se basa en que cada usuario pueda configurar una o varias portadas y tableros customizados indicando los temas de actualidad que le interesan. De esta forma, al entrar al medio obtienen una especie de muro de Facebook, o timeline de Twitter, con las noticias de su incumbencia. Este tipo de funcionalidades pueden llevarse a su máximo esplendor si permiten configurar no sólo hashtags para buscar noticias, sino también todo tipo de gadgets informativos (cotizaciones bursátiles, clasificaciones deportivas, búsquedas en tiempo real en Twitter…). Estas herramientas, cuya filosofía es similar a la de iGoogle, tienen una potencia impresionante para la rentabilidad del medio si los datos se aprovechan adecuadamente para segmentar al usuario y enviar al Ad Server en busca de los anuncios mejor enfocados.

3º) Motores de recomendación: a estas alturas está claramente comprobado que la mayor parte de los usuarios son perezosos a la hora de parametrizar sus intereses, e incluso a la hora de llevar una navegación ordenada. Amazon se dió cuenta de esto hace muchos años y creó un impresionante motor de recomendaciones que convirtió en una clara ventaja competitiva. Lo mismo sucedió posteriormente con muchos otros proyectos, como Spotify. Hoy en día, estos motores se encuentran especialmente extendidos en la publicidad online. En general, se basan en analizar la navegación del usuario y cruzarla con un grafo de información interna, de manera que siempre podamos ofrecer contenidos íntimamente ligados a lo que visualiza el usuario. Aunque parezca mentira, hasta hace poco la mayor parte de los medios digitales no estaban aprovechando esta importante característica, tecnológicamente simple, y con resultados inmediatos. Por supuesto, son una manera sencilla de ayudar a la personalización de contenidos, vista en el punto anterior.

Interacción constante entre Medios y Redes Sociales

4º) Interacción con Redes Sociales (Facebook, Twitter) en ambos sentidos: estas funcionalidades responden a la estrategia de potenciar la imagen de marca del periodista en Social Media. Por un lado, los CMS pueden integrar trending topics customizados, analizando información externa. Por otro lado, permiten que todos los periodistas de un medio puedan interactuar con las redes sociales a través del propio CMS de varias formas:

  • al publicar una noticia se puede publicar también un tweet con el hashtag adecuado
  • si una noticia tiene mucha aceleración de visitas, se publica automáticamente un enlace adaptado a ella en el muro de Facebook del periódico
  • conseguir followers de forma automática, mediante robots autónomos

5º) Autotagging y autobriefing de noticias: estas funcionalidades consisten en aumentar la productividad del periodista automatizando dos tareas recurrentes y monótonas: el etiquetado de noticias y la generación de resúmenes. Hoy en día la mayor parte de los diarios disponen de una colección de etiquetas predefinidas gracias a la cual los lectores pueden analizar transversalmente los contenidos en dichos medios, es decir, pueden cruzar noticias por tema o protagonista. No obstante, el hecho de cambiar el método de trabajo de ciertos redactores, unido con el hecho de que una misma etiqueta pueda ser escrita de múltiples maneras, ha propiciado que la automatización de esta tarea se haya vuelto algo de gran valor en muchas redacciones. La generación de resúmenes automáticos, aunque más reciente y menos extendida, se basa en la misma línea de incremento de productividad.

6º) Generación automática de noticias a partir de los datos: aunque parezca ciencia ficción, esta posibilidad está encima de la mesa desde hace ya unos años. Los algoritmos más rudimentarios en este sentido empezaron, curiosamente, en ámbitos cercanos al Digital Media. Nos remontamos a software que era capaz de generar textos human-readable a partir de las clasificaciones y los resultados en algunas ligas escolares y competiciones locales que no tenían recursos para contratar a un humano. No obstante, las enormes posibilidades de este tipo de herramientas está haciendo que surjan nuevas iniciativas y que algunas grandes empresas las evalúen con aproximaciones mucho más serias e inversiones mucho mayores.

Cálculo automático de etiquetas

7º) Clasificación automática de comentarios: esta funcionalidad, heredada de la disciplina de gestión documental, sirve para determinar que comentarios son spam, o resultan ofesivos/inadecuados. Estas herramientas realizan una clasificación automática de los textos volcados por los usuarios basándose en patrones de publicidad (enlaces salientes) y en la polaridad de la información subjetiva contenida: opinión positiva, opinión negativa, no opinión. En los dos primeros casos también se puede calcular para cada uno de los comentarios analizados un valor porcentual que indica el grado de intensidad de la opinión. Aunque estas herramientas todavían funcionan mal ante recursos como la ironía o el sarcasmo, es indudable que ayudan a mejorar la productividad de administradores y Community Managers.

8º) Soporte multicanal: el objetivo de estas funcionalidades consiste en ayudar a la convergencia de redacciones (digitales, en papel… etc). El mismo CMS vale para editar y publicar noticias (con sus diferentes versiones) en la edición en papel, la edición digital estándar, la edición digital de pago, la edición para tablets… etc. Es una funcionalidad existente desde hace años pero no por ello está siendo menos valorada o demandada.

9º) Componentes novedosos de workflow (flujo de trabajo): relacionado con lo anterior y con grupos editoriales de tamaño medio-grande, se popularizaron hace un tiempo plugins para gestionar el flujo de trabajo y el flujo de la información a través de la empresa. El objetivo principal de estas funcionalidades, heredadas principalmente de sistemas ERP y CRM es, como en otros sectores, potenciar y dar mayor protagonismo a la cadena de valor de la empresa.

Herramientas de workflow y monitorización para controlar los indicadores

10º) Paneles de Business Intelligence y estadísticas de monitorización: que permiten resumir la estrategia de la empresa en una serie de indicadores y monitorizarlos constantemente mediante un Cuadro de Mando o un Sistema de Soporte a la Decisión. Como es natural, en los medios digitales estos módulos están intimamente ligados a estadísticas de tráfico/audiencia y análisis de navegación del usuario. Aunque estas funcionalidades ya no son novedosas, últimamente algunos CMS han perfeccionado su tecnología para ofrecer datos en tiempo real que pueden enriquecer a los de Google Analytics y otros medidores.

En fin, como se puede observar, estas tendencias se pueden clasificar en dos grandes grupos: las destinadas a aumentar ingresos (tecnologías semánticas, integración de contenidos externos e interacción real con redes sociales) apostando fuerte por mejorar la experiencia de usuario y el engagement. Y, por otro lado, las destinadas a reducir costes, automatizando tareas e incrementando internamente la productividad. Huelga decir que los diarios que están obteniendo mejores resultados son los que invierten principalmente en las primeras tendencias. De hecho, es esta inversión en I+D+i, acompañada de la innovación constante de múltiples startups, la que está abriendo camino y creando tendencia para el futuro del Digital Media. De ahí el orden de los puntos tratados.

Nuevo diseño gráfico de la web abierta de Classora Knowledge Base

2012 mayo 25
by classora

Unos meses después del lanzamiento de la web abierta de Classora Knowledge Base, y tras haber seguido las recomendaciones de ilustres compañeros en Internet, hoy nos enorgullece presentar el nuevo diseño gráfico de dicha web. Poco a poco, se había ido convirtiendo en el principal escaparate público de la recopilación de datos horizontales que llevamos a cabo en la empresa.

Boceto inicial de la portada

Los principales retos de la revisión fueron los temas de usabilidad y comunicación. La web de Classora Knowledge Base tiene una infinidad de opciones de cruce de datos y, según el caso, diferentes modalidades de visualización. Esto hace especialmente complicado potenciar las alternativas de navegación principales (que suelen interesar a la mayor parte de los usuarios) sin descuidar las opciones de navegación secundarias (que, en nuestro caso suelen ser mucho más potentes, pero sólo son explotadas por una parte reducida de usuarios).

El proyecto de rediseño fue llevado a cabo por la empresa Mediadvanced, de Gijón, que se tuvo que emplear a fondo para poder priorizar y cuadrar en pantalla las principales funcionalidades con sus correspondientes variantes y mensajes explicativos. Las páginas que supusieron un mayor cambio de enfoque fueron las siguientes:

  • Portada: el objetivo era enviar un mensaje “limpio” al usuario, tratando de indicar que Classora maneja información estructurada, que los datos están interconectados aunque procedan de muchas fuentes distintas. En definitiva, que el potencial para extraer conocimiento es enorme.
  • Unidad de conocimiento: se reordenaron las pestañas y se incorporaron gráficas en miniatura sobre la evolución de algunos atributos. Además, se hizo una distinción explícita entre los dos tipos de informes: rankings y encuestas (los rankings son estáticos, las encuestas permiten la participación de los usuarios).
  • Informe (ranking/encuesta): se buscó un aspecto visual más ordenado, eliminando la barra lateral izquierda, y dejando las principales funcionalidades a la derecha. El objetivo es que el usuario no se quede sólo con la lista estática que tiene delante, sino que vea que existen múltiples ediciones de esa misma lista, que puede cruzar datos, que puede visualizarlos de distintas maneras… etc.

En fin, esperamos que el nuevo diseño haya resultado de vuestro agrado. Después de esta experiencia, valoramos mucho más el difícil trabajo al que se enfrentan los diseñadores gráficos: parece fácil una vez finalizado, pero durante el proceso se puede observar la necesidad de un profundo conocimiento de los hábitos del usuario y, por supuesto, de una inspiradora vena artística.

Search plugin de Classora para navegadores

2012 abril 27
by classora

Hoy nos complace presentar un componente novedoso: un plugin de búsqueda para navegadores sobre Classora Knowledge Base. El plugin es un componente que se integra directamente con el navegador (Firefox, Chrome, Safari, Explorer… etc.) y sirve para poder realizar búsquedas sobre la base de conocimiento, sin necesidad de acceder previamente al website de Classora.

Ejemplo de search plugins

El plugin es compatible con los principales navegadores y su funcionamiento es directo y sencillo, exactamente igual que una búsqueda con Google. De hecho, Google Search es el plugin de búsqueda más común (y que suelen traer por defecto la mayor parte de los navegadores actuales). No obstante, muchas plataformas de Internet que prestan servicios básicos y manejan un importante volumen de información tienen su propio plugin de búsqueda. Es el caso, por ejemplo, de Wikipedia, eBay, Yahoo, Bing, Twitter… e incluso la propia RAE, la Real Academia de la Lengua Española.

El plugin de búsqueda de Classora está disponible en el Mycroft Project, el almacén oficial de Search Engine Plugins en Internet, iniciado hace unos años por Mozilla Corporation. Aquí se pueden encontrar prácticamente la totalidad de plugins destinados a este fin, e incluso consultar el ranking de los más utilizados del mundo.

El único paso necesario para descargar e instalar el plugin es pinchar sobre el enlace del mismo en el Mycroft Project y aceptar las condiciones del navegador. Una vez hecho esto, el plugin estará disponible en la caja de búsqueda del navegador y ya se podrán realizar pruebas sobre él. El software instalado por Classora es mínimo, ya que técnicamente el plugin no es más que un fichero xml que especifica al navegador las características del motor de búsquedas.

En fin, este componente se suma a la lista de aplicaciones de integración que estamos generando últimamente para que los datos de Classora Knowledge Base estén accesibles desde más dispositivos. Esperamos que el componente os guste y, sobre todo, que os resulte de utilidad. Estaremos encantados de ayudar a otros desarrolladores a implementar su propio search plugin y, por supuesto, a recibir cualquier feedback al respecto.

API de Classora para desarrolladores

2012 marzo 5
by classora

Por fin ha llegado el momento. Desde Classora nos alegra anunciar el lanzamiento de un API REST para realizar consultas y operaciones sobre la base de conocimiento Classora Knowledge Base. El API forma parte de un servicio de pago orientado a agencias de contenidos, aunque desde Classora nos comprometemos a compartirlo de manera gratuita con cualquier desarrollador con un proyecto interesante entre manos.

Classora API Rest sirve contenidos en formato XML o JSON. Como es habitual en estos casos, para convertir este contenido en formato HTML es recomendable utilizar hojas de transformación XSL y maquetarlo utilizando hojas de estilo CSS, o bien emplear directamente Javascript. No obstante, la misma arquitectura es igualmente válida a la hora de desarrollar aplicaciones específicas para otros dispositivos, como iPhone, iPad, Android, Nokia, BlackBerry… etc.

El API está dividido en tres bloques de operaciones. En primer lugar, hay un bloque de herramientas de utilidad general (que comprenden desde componentes autosuggest sobre jerarquías geográficas hasta operaciones para obtener la lista de personajes que cumplen años el día de hoy). En segundo lugar, hay un bloque de operaciones para la generación de widgets (gráficos, mapas, rankings) utilizando información de la base de conocimiento. En tercer lugar, hay un bloque de operaciones destinadas a la publicación de contenidos de fuentes libres.

Entre las principales ventajas de la utilización del API está que dispondrás de información actualizada (los robots de Classora se conectan periódicamente a las fuentes originales para evaluar posibles cambios en los datos). En muchos casos, tendrás acceso libre a herramientas inéditas (autoetiquetado de textos, búsqueda semántica de conceptos, rastreo de fuentes… etc). Por último, si estás reutilizando un componente que ya ha sido previamente maquetado, tendrás a tu disposición los ficheros XSL y CSS utilizados con anterioridad.

Algunas aplicaciones ya desarrolladas hasta el momento sobre el API REST de Classora Knowledge Base son las siguientes:

Así como otras webs de carácter general, que incluyen componentes de Classora en forma de widgets (algunos ejemplos: Clasificaciones Deportivas, Festival Eurovisión).

Poco a poco, trataremos de ir incorporando nuevas funcionalidades al API. De modo que ya sabes, si eres desarrollador y necesitas conectividad con la base de conocimiento, o bien si simplemente eres proactivo y deseas crear una aplicación rompedora, no dudes en ponerte en contacto con nosotros para poder acceder libremente al API.

Por último, nos gustaría dejar abierto un buzón para que cualquiera, ya sea desarrollador o no, pueda sugerir aplicaciones que sea posible implementar rápidamente con el API gracias a la tecnología de minería de datos de Classora.

Las anécdotas del logotipo de Classora

2012 febrero 24
by classora

Inicialmente, el logotipo de Classora trataba de imitar una concatenación de Cubos OLAP, convenientemente alineados y formateados según los colores típicos del sector. Los Cubos OLAP son unas estructuras de datos muy ligadas con los orígenes del proyecto, ya que suelen integrar información de varias fuentes, que después permiten analizar de manera ágil y sencilla.

Estas estructuras se representan gráficamente mediante un cubo para ilustrar cómo es posible llegar a un dato concreto cruzando tres dimensiones diferentes. Los cubos OLAP no tienen por qué limitarse a tres dimensiones, pero para que resulte intuitiva, su representación sobre el papel tiene que venir marcada por las tres únicas dimensiones espaciales que existen.

En la siguiente imagen se muestra un ejemplo de como representa Oracle sus cubos OLAP multidimensionales:

Ejemplo de cubo OLAP de la página de Oracle

Por tanto, con el convencimiento de que disponíamos de un logotipo original y acorde a la finalidad de la empresa, a mediados del año 2010 procedimos a solicitar el registro del logotipo comercial, tanto a nivel español como a nivel europeo.

El registro a nivel español resultó completamente fructífero, pero a nivel europeo recibimos una inesperada sorpresa: la empresa Seven Towns Limited, del Reino Unido, se puso en contacto con nosotros para avisarnos de que nuestro logotipo se parecía demasiado a una marca registrada previamente por ellos: el Cubo de Rubik.

Logo inicial de Classora

Aunque el parecido es evidente, jamás se nos había pasado por la cabeza la posibilidad de que pudiese entrar en conflicto con aquella marca. Uno al lado del otro, los logotipos en conjunto tienen formas diferentes (5 cubos frente a 1), colores distintos y, lo más importante: representan conceptos totalmente dispares.

Realmente, lo mismo debieron pensar en Seven Towns Limited, ya que su carta era una invitación a resolver la situación de manera amistosa: ellos se ponían a nuestra disposición para reembolsar todo el dinero que nos costó la solicitud de registro de marca a cambio de que hiciésemos unos pequeños retoques en boceto inicial del logotipo.

Tras las comprobaciones pertinentes y un cordial intercambio de correos, finalmente llegamos a un acuerdo y generamos la nueva versión del logo de Classora, un poco menos sofisticada que la anterior, pero manteniendo la esencia del mensaje inicial:

Logo actual de Classora

De la misma forma, ellos cumplieron su parte y reembolsaron íntegramente el importe del registro en el plazo establecido. Dejaron una impresión muy positiva.

La lección aprendida de esta historia es que parece que en este mundo todo está inventado, y demasiadas cosas de carácter universal están sujetas a registros de marcas o derechos de autor. De hecho, teniendo en cuenta que el registro europeo de logotipos se realiza en blanco y negro (ignorando colores, teniendo en cuenta sólo la forma) es fácil que, una vez registrada la imagen básica de un cubo 3D, cualquier imagen derivada pueda entrar en conflicto.

De modo que si tienes previsto registrar un logotipo que te gusta, mejor no tardes mucho tiempo en iniciar el proceso. Puede que tú también te lleves una sorpresa inesperada.

Bases de conocimiento en Internet

2012 enero 26
by classora

Hace apenas unos años, los principales términos informáticos giraban en torno a los datos que generaba y controlaba una organización. Hoy en día, cada vez se habla más de su conocimiento. ¿En qué se diferencian los datos de la información o el conocimiento?

En una conversación informal los tres conceptos suelen utilizarse indistintamente, lo que puede llevar a una interpretación libre de los mismos. Quizás la forma más sencilla de diferenciarlos sea recordar la regla del teléfono: un número de teléfono aislado representa un dato, un listín telefónico (convenientemente organizado, formateado y contextualizado) representa información, y todo el procedimiento que cada uno de nosotros sabe repetir para localizar el número que necesita, teclearlo en el móvil, y contactar con el interlocutor deseado, eso es lo que representa el conocimiento.

Datos, información, conocimiento

Hasta hace no mucho tiempo, los datos podían estar localizados en sistemas software (bases de datos, principalmente), pero el conocimiento no. El conocimiento era un campo reservado a agentes de mayor nivel, como personas o empresas. Sin embargo, la escalada de complejidad y mejoras que experimentaron las aplicaciones de gestión (ERP, CRM, CMI, BPM, GD, WF… etc.) hizo que los datos de las organizaciones, y de los sistemas de información en general, se fuesen documentando cada vez más, dotándolos de metadatos y mecanismos que permitían mejorar su consumo interno.

Así fue como nacieron las bases de conocimiento, una evolución de las bases de datos que hacen que la información almacenada en ellas se encuentre catalogada de tal manera que pueda ser entendida y consumida no sólo por una persona, sino también por una máquina.

Hoy en día, el concepto de «base de conocimiento» se proyecta como la evolución natural de los sistemas de información, tanto a nivel privado (dentro de grandes empresas) como a nivel público (en gobiernos e instituciones oficiales). De hecho, muchas bases de conocimiento empiezan a estar accesibles directamente desde Internet. Un buen ejemplo es el Portal de Datos Públicos del Gobierno Español, enmarcado en el movimiento Open Data.

Llegados a este punto, lo normal es que surjan iniciativas abiertas y disponibles en Internet. Mucha gente estará pensando en Wikipedia como una base de conocimiento. Sin embargo, la realidad es que, aunque Wikipedia almacena una cantidad ingente de información, no es capaz de interpretarla de manera automática. Así que para obtener un buen ejemplo abierto y disponible de base de conocimiento, debemos recurrir a la DBPedia, un proyecto promovido por la Universidad de Berlín que se basa en la Wikipedia para estructurar información pública.

Entre las principales bases de conocimiento generalistas disponibles en Internet nos encontramos con las iniciativas más similares a Classora Knowledge Base en cuanto a finalidad y arquitectura: Wolfram Alpha, Dbpedia, Freebase y True Knowledge.

  • Wolfram Alpha: promovida por el prestigioso científico Stephen Wolfram (padre del programa Matemathica) en la Universidad de Illinois. Ahora mismo representa una de las líneas de negocio más pioneras de la matriz del grupo empresarial Wolfram Research.
  • Dbpedia: iniciativa de la Universidad de Berlín en colaboración con otras universidades alemanas. Han invertido una gran cantidad de recursos en estructurar la información disponible en Wikipedia, transformando artículos de texto plano en datos computables.
  • Freebase: es una base de conocimiento colaborativa y libre, recientemente adquirida por Google, que fue impulsada inicialmente por la empresa Metaweb Technologies, en San Francisco. Freebase basaba todo su contenido en licencias Creative Commons.
  • True Knowledge: es una iniciativa de la Universidad de Cambridge cuya finalidad última consiste en crear un motor computacional de respuestas estructuradas. True Knowledge maneja el récord en cuanto a volumen de información almacenada.

Por su parte, Classora Knowledge Base es la primera base de conocimiento internacionalizada y disponible completamente en español e inglés. Classora presenta una característica diferencial sobre las iniciativas anteriores: la aplicación de técnicas de Business Intelligence para cruzar información de cada unidad de conocimiento con todos los informes (listas, clasificaciones, rankings y encuestas) en los que figura, monitorizar su evolución temporal, y representar todos estos resultados en múltiples formatos e interfaces sencillas.

A nivel técnico, todas las bases de conocimiento se deben enfrentar a varios problemas generales: (1º) conseguir un volumen suficiente de información estructurada, (2º) eliminar duplicidades -datos repetidos- e islas de información -datos inconexos-, (3º) actualizar cada dato almacenado con la cadencia oportuna, consultando periódicamente la fuente original, (4º) entender los requerimientos concretos del usuario -humano o máquina- a través de asistentes o consultas en lenguajes formales y (5º) ofrecer un rendimiento óptimo, proporcionando una solución en un tiempo de respuesta razonable -aunque no necesariamente tiempo real-.

En fin, éste es el estado actual del arte en cuanto a las bases de conocimiento y las herramientas públicamente disponibles en Internet. Un paso más para acercar los dispositivos electrónicos a nuestro modo de ver las cosas… ¿crees que algún día los humanos conseguiremos sintetizar completamente nuestro conocimiento en un sistema software?

La verdad es que ya hemos empezado a hacerlo… ¿quieres ver cómo?

Microsoft vs Apple: quizá la mayor rivalidad de la historia empresarial

2011 diciembre 22
by icaderno

Steve Jobs y Bill Gates

En la historia empresarial ha habido grandes rivalidades entre compañías de referencia: Coca-Cola vs Pepsi, Nike vs Adidas, Ford vs General Motors, McDonals vs Burguer King… etc. Sin embargo, la que está resultando más mediática en los últimos años es quizá la protagonizada por las dos corporaciones tecnológicas por excelencia: Microsoft y Apple.

Todo empezó el 4 de Abril de 1975, año en el que se fundó Microsoft. En menos de 12 meses, el 1 de Abril de 1976, entró en escena la compañía de la manzana. Al principio, Apple y Microsoft no jugaban exactamente en el mismo sector, pero una cuidada estrategia de esta última, acompañada de una serie de artimañas empresariales de dudosa índole, hicieron que ambas compañías pasasen a ser competidoras directas en el año 1978. Todo el proceso se explica bastante bien en la película Piratas de Silicon Valley.

Con el mercado del PC y del software para el usuario final todavía por explotar, las dos compañías iniciaron una encarnizada lucha por el liderazgo, acompañada durante años por un constante incremento de su facturación y su plantilla. Eso hizo posible que en menos de una década pudieran pasar de ser startups a ser corporaciones cotizadas en bolsa. Apple inició su andadura en el índice NASDAQ en 1984, apenas 8 años después de su fundación. Microsoft empezó a cotizar unos meses más tarde, a principios de 1986.

Hasta ese momento, el partido entre ambas empresas estaba prácticamente en tablas. Sin embargo, el inicio de las cotizaciones de Apple coincidió con la marcha forzada de Steve Jobs: el consejo de dirección de Apple, ahora con grandes inversores de por medio, lo había echado de la compañía que él mismo había fundado.

Tras la marcha de Steve Jobs, Apple pasó a ser la sombra de lo que era. Por su parte, Microsoft, que seguía liderada por Bill Gates, le tomó enseguida la delantera. Todo ello se ve reflejado en el precio de la acción de ambas compañías: entre 1986 y 1998, el precio de la acción de Microsoft siempre estuvo por encima de la de Apple. De hecho, en Enero de 1998, las acciones de Microsoft valían 10 veces más que las de Apple.

Pero resultó que en ese momento, Steve Jobs, el hijo pródigo, ya se había reincorporado como CEO a su antigua compañía. Lo que pasó a continuación, desde el punto de vista comercial y empresarial, se ve perfectamente reflejado en las gráficas del NASDAQ que se muestran a continuación. Sólo basta decir que, en el momento de la muerte de Steve Jobs, en Octubre de 2011, las acciones de Apple valían 16 veces más que las de Microsoft. O lo que es lo mismo, 160 veces más que antes de su reincorporación a la compañía.

Gráficas comparativas de Apple y Microsoft

De hecho, en diversos momentos del año 2011, Apple se convirtió en la mayor empresa del mundo por cotización bursátil. La empresa de la manzana llegó a valer la impresionante cifra de 346.000 millones de dólares. Para hacernos una idea y poder interpretar correctamente esta cifra, si Apple fuese un país, lograría estar entre los 25 países más ricos del mundo por PIB, prácticamente a la misma altura que Argentina.

A pesar de todo, esta rivalidad aparentemente tan dura entre Apple y Microsoft, no lo fue tanto entre bastidores. Por ejemplo, en el año 1997, cuando Steve Jobs regresó a Apple porque la empresa se encontraba al borde la quiebra, el apoyo de Microsoft resultó fundamental. En esos momentos difíciles, la compañía de Bill Gates invirtió 150 millones de dólares en Apple, y mostró su compromiso para seguir desarrollando aplicaciones como Office y Explorer para Macintosh. Al fin y al cabo, algo le tenemos que reconocer a las dos compañías: gracias a ellas la tecnología ha irrumpido definitivamente en los hogares para enriquecer nuestras vidas.

Según tu opinión, ¿cuál de estas dos empresas ganará a largo plazo? Ahora que sus líderes no son Bill Gates ni Steve Jobs, ¿te atreves a hacer un pronóstico?

Classora Finance: la nueva app móvil de Classora para iPhone y Android

2011 noviembre 7
by classora

Ya está disponible la segunda aplicación móvil temática construída sobre la base de conocimiento de Classora: Classora Finance. Se trata de una herramienta dedicada a explorar datos bursátiles históricos, en forma de rankings de empresas, para los índices IBEX-35, NASDAQ y Dow-Jones. Classora Finance incorpora además listados de países ordenados sobre diferentes indicadores económico-financieros: renta per cápita, PIB, tasa de paro… etc.

Classora Finance es un clon de nuestra primera aplicación móvil: Classora Sports. Al igual que ésta, Classora Finance está disponible tanto para dispositivos Android como para dispositivos iPhone. Y por supuesto, Classora Finance es gratuita (aunque quizá solo temporalmente) y no incluye ningún tipo de publicidad.

Classora Finance

Los datos que están disponibles en Classora Finance para las empresas que cotizan en el IBEX-35, Dow Jones, NASDAQ-100 Y NASDAQ Composite son:

  • El número mensual de operaciones de compra-venta de acciones
  • El precio por acción al final de mes
  • La revalorización de las acciones mes a mes

Además, con Classora Finance podrás consultar otros informes como:

  • Renta per cápita y PIB de países según el Banco Mundial.
  • PIB de las comunidades autónomas.
  • Renta per cápita y PIB de los estados de USA.
  • Tasa de paro en todas las comunidades autómomas de España; en los países de la Unión Europea, Estados Unidos y Japón.
  • Datos demográficos de países según el Banco Mundial.
  • Datos demográficos de municipios, provincias y comunidades autónomas de España.
  • Infraestructuras como carreteras pavimentadas, puentes, trenes de alta velocidad, aeropuertos, etc. Según el Banco Mundial y otras fuentes oficiales.
  • Información de recursos naturales como por ejemplo. El número de playas con bandera azul por Comunidad Autónoma, etc.

Analiza la evolución de empresas en cada bolsa en la que cotizan. Personaliza tus intereses para estar al día de la información de forma rápida y sencilla. En definitiva, consulta y averigua muchos datos de interés a través de una nueva perspectiva.

classora-finance-iphone
classora-finance-android

Nos gustaría agradecer su colaboración a Juan Bautista Pouso, para la creación del clon en Android, y a Zadia Software, para el correspondiente clon en iPhone.

Aunque Classora Finance es gratuita, si eres un lector asiduo de este blog y te la descargas, el precio que tienes que pagar (por supuesto, solo si lo consideras conveniente) es el de ponernos una nota alta y escribir un comentario positivo sobre la app. ¡Gracias!

Classora ha parseado y estructurado la información del BORME

2011 octubre 17
by classora

Como ya sabéis, en Classora hemos desarrollado una tecnología que nos permite procesar, de manera semiautomática, distintas fuentes de datos públicas con suma rapidez y facilidad. Pues bien, en nuestra última incursión en datos estatales hemos estructurado una gran parte de la información disponible en el BORME (Boletín Oficial del Registro Mercantil).

El BORME es el documento público en el que se recopila información relacionada con la actividad mercantil de todas las empresas españolas. Entre sus entradas destacan depósitos de cuentas, revocaciones o nombramientos de administradores, modificaciones estatutarias, alteraciones en el capital social, cambios de domicilio social, fusiones y adquisiciones… etc.

El robot encargado de descargar, interpretar y estructurar la información del BORME constituye un buen ejemplo de las capacidades de nuestra tecnología. Esto se debe a que los boletines oficiales son fuentes que presentan información no estructurada (en muchas ocasiones, texto escrito a mano, con diferencias gramaticales y alguna que otra falta de ortografía), en diferentes formatos (hay secciones disponibles en HTML, otras en PDF) y sin integración previa (la misma empresa puede estar escrita de varias maneras diferentes, por no mencionar las innumerables formas de abreviar los regímenes jurídicos).

Logos de Classora y el BORME

El resultado de este proceso es un conjunto de más de 1.500.000 empresas parseadas que se irán incorporando paulatinamente a Classora como unidades de conocimiento. En este caso, además de una serie de rankings e informes predefinidos, Classora permitirá visualizar para cada empresa las entradas publicadas en el BORME en los últimos tres años, así como datos telefónicos y de contacto fruto de otro rastreo automático e independiente sobre la web.

Estas capacidades del motor ETL de Classora ya se habían puesto de manifiesto en otras ocasiones, ya que Classora ofrece un servicio orientado al sector bancario para detectar automáticamente situaciones concursales publicadas en el BOE (Boletín Oficial del Estado).

Con el BORME ya son más de 100 las fuentes que revisan periódicamente los robots de Classora para tratar de mantener actualizada la información de la plataforma. Además, con más de 2 millones de unidades de conocimiento, Classora pasa a manejar un número superior al de artículos de Wikipedia en español. Si bien los conceptos «unidad de conocimiento» y «artículo de Wikipedia» no son directamente comparables, esta cifra representa un buen indicador del volumen de datos actual de Classora. Así que ya sabéis, si en vuestra empresa necesitáis ayuda para automatizar la extracción y la interpretación de datos desde una o varias fuentes, y/o la actualización periódica de las mismas, quizás podamos ayudaros. Contad con nuestra experiencia y nuestra tecnología para afrontar el proyecto de forma ágil y con garantías.