¿Qué es Classora?

2010 diciembre 29
por classora

Classora Knowledge Base es una base de conocimiento para Internet orientada al análisis de datos. Classora Technologies es la empresa que la ha desarrollado.

Classora Technologies ofrece servicios semánticos y de integración de información a compañías de diferentes sectores. Para ello, Classora Knowledge Base supone un pilar fundamental. El objetivo de Classora Knowledge Base consiste precisamente en integrar información procedente de fuentes públicas (Banco Mundial, Fondo Monetario Internacional, CIA… etc), fuentes privadas y usuarios de Internet, enriqueciendo el resultado con numerosos valores añadidos. Entre ellos, cabe destacar su capacidad para convertir datos desestructurados en información completamente estructurada, así como sus herramientas para representar la información recabada en diferentes formatos (rankings, tablas, gráficas, mapas… etc). La consecuencia es un proyecto con muchas aplicaciones prácticas y que esperamos que te pueda resultar útil.

Internamente, debes saber que Classora Knowledge Base está organizada en «unidades de conocimiento» e «informes». Una unidad de conocimiento es cualquier elemento del mundo sobre el que se puede guardar información (una persona, una empresa, un país… etc.). Un informe es, simplemente, un conjunto de unidades de conocimiento: un ranking de empresas, una clasificación deportiva, una encuesta de opinión, una consulta de un usuario… etc. Por ejemplo: el «Real Madrid» está representado en Classora como una unidad de conocimiento, y la «Liga de fútbol de España (LFP)» es uno de los muchos informes en los que participa.

Así es nuestro modelo fundamental: cada unidad de conocimiento puede verse como un artículo de la Wikipedia.  No obstante, en lugar de texto plano, las unidades de conocimiento de Classora están dotadas de información estructurada y enriquecidas con datos adicionales procedentes de los informes en los que figuran.

Toda la información disponible en la base de conocimiento de Classora puede proceder de un proceso de carga automático (mediante robots de ETL) o de carga manual (mediante la colaboración de los usuarios). A través de esta infraestructura, Classora pretende llegar a ofrecer una respuesta con el dato concreto o con el conjunto de datos exacto que el usuario necesita. Además, las herramientas de Classora permitirán a los usuarios combinar datos de las unidades de conocimiento para extraer nueva información, en ocasiones no evidente, aplicando para ello prácticas de datamining y tecnologías OLAP. Como consecuencia, Classora pretende ser considerada una plataforma de Business Intelligence aplicada a todo el conocimiento humano disponible en fuentes públicas de La Red.

No obstante, Classora Knowledge Base es actualmente un proyecto en proceso de construcción. En esta etapa inicial hemos potenciado los informes públicos, es decir, todas las listas, clasificaciones deportivas y encuestas de opinión en las que puede figurar un elemento. De hecho, las encuestas de opinión (también llamadas rankings participativos, dado que se conforman con las votaciones de los usuarios) se han convertido en una de las partes más destacadas de esta Classora inicial. Sin embargo, hay mucha más información subyacente: el hecho de cruzar cada unidad de conocimiento con estos informes y encuestas te permitirá obtener en muchos casos una visión totalmente inédita, contemplando de un vistazo la posición que ocupa en cada informe e incluso trazando su evolución en el tiempo. Por ejemplo, te invitamos a que observes toda la información que Classora dispone ya sobre un país como España.

Lo bueno es que, además, Classora Knowledge Base te permite analizar en profundidad toda esta información, realizando gráficas comparativas y varios tipos de estudios customizados.

Para que Classora sea posible, nuestro equipo está teniendo que enfrentarse a varios problemas técnicos independientes, entre los que nos gustaría destacar especialmente dos de ellos:

Carga, integración y actualización automática de datos (ETL): Classora extrae información desde fuentes totalmente heterogéneas, partiendo tanto de esquemas estructurados como no estructurados, integrándolas y añadiéndoles metadatos explicativos. El desarrollo de estos robots de carga ha supuesto y supone a día de hoy uno de nuestros mayores esfuerzos tecnológicos.

Comprensión de la consulta del usuario: Es otro de nuestros grandes retos. Estamos dando los primeros pasos mediante la definición de un lenguaje semiformal de consulta, denominado CQL (Classora Query Language), que permite realizar preguntas sofisticadas al centro de datos, actuando (en un contexto reducido y con una gramática controlada) como base para resolver el difícil problema de la comprensión del lenguaje natural. No obstante, por el momento es más intuitivo recurrir a nuestro asistente para la creación de informes.

En resumen, Classora intenta organizar la información de una nueva forma en Internet. Basándose en técnicas de Business Intelligence y en el concepto de Web Semántica, Classora sirve ya para crear, compartir y analizar todo tipo de informes y listas, pero también para visualizar las fichas de todas las personas y los elementos que figuran en ellas.

Somos conscientes de que nos queda mucho por mejorar. Pero esperamos que Classora te guste y que pueda ayudarte de alguna manera. Esa sería nuestra mejor recompensa.

13 Responses dejar uno →
  1. Rubén permalink
    diciembre 30, 2010

    ¡Mucha suerte, chicos!

    Hacen falta proyectos como éste en España, iniciativas que se salgan un poco de lo normal y que aporten valor. Independientemente de que Classora salga bien o mal, ideas como la vuestra son las que hacen avanzar a la humanidad.

    Así que nada, a armarse de fuerza y de valor y a completar vuestra lucha para conseguir obtener una buena respuesta de los usuarios. Según mi experiencia, lo más difícil aún está por llegar, pero seguro que lo váis a hacer bien.

  2. Raúl permalink
    diciembre 30, 2010

    Bueno, la verdad es que se ve claramente que el proyecto tiene mucho trabajo por detrás. Hay webs que se esconden tras un diseño bonito y que al final acaban teniendo poca información o contenidos muy superficiales. Por lo que veo classora va más allá: no en vano es la primera base de conocimiento para internet en castellano… espero que tenga buena acogida por parte de este imprevisible mundo de internautas… ¡¡mucha suerte!! 🙂

  3. Alejandro Porto permalink
    diciembre 31, 2010

    Cuando vi vuestro reportaje en la revista R me pareció un objetivo muy ambicioso, casi imposible de conseguir: reunir todo el conocimiento humano disponible en Internet. Daba la impresión de que Classora iba a competir con Google.

    Después de haber visto el proyecto me he quedado más tranquilo, realmente tenéis razón en lo que decís (entiendo que es difícil de expresar) y no lo veo tan utópico. Simplemente podéis incorporar con vuestros robots la información que hay en otras webs públicas, enriquecerla con los datos que ya tenéis (así la montaña de información crece más y más y mas…), y luego mostrarla de muchas maneras diferentes, con gráficas, mapas y esas cosas.

    La verdad es que es un concepto difícil de entender hasta que no ves ejemplos concretos. En ese sentido, para mi ha sido muy aclaratorio ver la información que guardáis sobre una empresa que cotiza en bolsa, como el Banco Santander. Eso sí, una vez que lo entiendes y sabes hasta donde puede llegar Classora, lo que te preguntas es… ¿cómo no se le habrá ocurrido antes a nadie? Así que, bajo mi punto de vista, la idea es buena, pero para consolidaros como un buen equipo debéis llevar su desarrollo al éxito.

  4. Ana María González permalink
    enero 2, 2011

    Impresionante proyecto, sí señor. Yo he alucinado con la información que tenéis sobre mi pueblo (Langreo). Aparte de los rankings, sabéis hasta el nº de viviendas y de edificios. Lo único que os falta es añadir más información. Por ejemplo, he buscado Belén Esteban y no sale casi ningún dato ¡¡con la presencia que tiene esa mujer en los medios!!. Supongo que es cuestión de que el proyecto vaya rodando.

    Lo que sí se puede percibir desde ya mismo es la potencia de la idea. Si sois capaces de «engordarlo» con mucha más información, creo que Classora va a ser una referencia de consulta para mucha gente. Os felicito.

  5. Toni permalink
    enero 3, 2011

    Absolutamente prometedor…

  6. enero 3, 2011

    Rubén, Raúl, Alejandro, Ana, Toni… muchas gracias por vuestros comentarios.

    Ruben: ¿lo difícil aún está por llegar? ¡¡pues qué complicado es todo!! 🙂

    Raúl: sí, hemos trabajado mucho en el proyecto… quizá en un primer vistazo no se note, pero Classora puede ofrecer millones de páginas con información útil…

    Alejandro: efectivamente, siempre nos hemos encontrado el problema de que es muy difícil transmitir el concepto de Classora, sobre todo desde el punto de vista teórico. Una vez que la gente ve la aplicación, lo que puede hacer y lo que se persigue, es más fácil de entender…

    Ana: la información que hay disponible en Classora está supeditada a que exista una fuente de datos pública que la contenga. Después, nosotros «apuntamos» los robots a cada fuente y tratamos de extraer e integrar lo que podamos. Seguro que a Belén Esteban pronto le tocará el turno 🙂

    Toni: ¡gracias! 😉

  7. Ismael permalink
    febrero 3, 2011

    Me parece un excelente trabajo!

    Pero, para que reinvetar de nuevo la rueda con CQL? Habeis considerado exponer la informacion que teneis como Linked Data, de forma que los usuarios tienen algo mas maduro como SPARLQL para hacer sus propias consultas, mash-ups, etc.

    • febrero 8, 2011

      Hola Ismael, muchas gracias por tu apoyo.

      En cuanto al CQL, decirte simplemente que se trata de un tema de simplificación, ya que hemos creado un lenguaje lo más adaptado posible a nuestro modelo de datos. El objetivo no ha sido descartar estándares, ni nadar contracorriente, sino definir una sintaxis interna muy básica -totalmente ajustada al modelo- que pueda servir de API para conectar la base de conocimiento con cualquier otro lenguaje (SQL, SPARLQL, MDX o incluso aproximaciones al lenguaje natural). Puede verse como una capa de abstracción más, que facilita la integración con otras plataformas.

  8. febrero 6, 2011

    ¡Demasiadas sensaciones para un comentario en un post!
    En primer lugar mi/nuestra más sincera felicitación. El proyecto es magnífico y la ilusión que se destila es contagiosa.
    Muchos ánimos para seguir. Estáis en un camino con un enorme futuro y un enorme presente, aunque como he leído en otra entrada y nosotros también lo estemos experimentando, resulta muy difícil avanzar y convencer…
    España, ¿por qué no? este es un mundo global y habrá que aprovechar por una vez sus ventajas y no sufrir permanentemente sus inconvenientes.
    Los resultados son alentadores. Uno no sabe cuánto hay de manual en lo que mostráis y cuanto de automático, pero la cantidad de datos e información disponible es enorme.
    Nosotros tenemos un objetivo tan ambicioso o más que el vuestro y complementario. Nosotros andamos resolviendo «el difícil problema de la comprensión del lenguaje natural» y sabemos como. Hemos empezado por el español y la solución se podrá aplicar a el resto de lenguas. La idea es usarlo para crear una base de conocimiento de la información escrita que existe en el mundo (internet+libros) de manera que el sistema pueda responder a preguntas o crear informes como los vuestros, pero con toda la información desestructurada que anda por ahí circulando. Así que si sumamos la información desestructurada+estructurada … tendremos todo… interesante ¿no?
    Además lo bueno es que nunca seremos competencia sino complemento…
    Lo dicho mucha suerte, nos veremos a lo largo del camino.
    Un abrazo molinero

    Eduardo

    • febrero 8, 2011

      Hola Eduardo,

      Como no puede ser menos, muchísimas gracias por tu amable comentario y, sobre todo, por la sensación de optimismo con la que nos has dejado al finalizar de leerlo.
      La verdad es que desconocíamos vuestra iniciativa (Molino de Ideas, con sus distintos proyectos). Pero tras navegar un poco, es fácil reconocer que vuestro trabajo es simplemente impresionante. Mis conocimientos sobre interpretación de lenguaje natural son más superficiales, ya que estamos centrados en el tema de ETL y estructuración, pero son suficientes para valorar el mérito tremendo que tiene enfrentarse a un problema como ése y obtener unos grandes resultados. Por todo ello, enhorabuena.
      Como tú dices, tenemos proyectos que son completamente complementarios (cada día vemos como los usuarios hacen consultas fallidas a Classora debido a lo estricto de nuestro lenguaje interno). Si quieres, en un privado podemos ver si existe alguna manera de colaborar.
      Mucho ánimo con vuestro proyecto, sin duda merece la pena.
      Un abrazo,
      Iván

      • febrero 8, 2011

        Gracias por los ánimos y el buen rollo. El mundo es (n-v)uestro!

        Estamos en contacto.

        Eduardo

Trackbacks and Pingbacks

  1. Classora, una gran idea y una fantástica ejecución Loogic.com
  2. classora – base de conocimiento orientada al análisis de datos

Dejar una respuesta

Note: You can use basic XHTML in your comments. Your email address will never be published.

Subscribe to this comment feed via RSS