Classora ha parseado y estructurado la información del BORME

2011 octubre 17
por classora

Como ya sabéis, en Classora hemos desarrollado una tecnología que nos permite procesar, de manera semiautomática, distintas fuentes de datos públicas con suma rapidez y facilidad. Pues bien, en nuestra última incursión en datos estatales hemos estructurado una gran parte de la información disponible en el BORME (Boletín Oficial del Registro Mercantil).

El BORME es el documento público en el que se recopila información relacionada con la actividad mercantil de todas las empresas españolas. Entre sus entradas destacan depósitos de cuentas, revocaciones o nombramientos de administradores, modificaciones estatutarias, alteraciones en el capital social, cambios de domicilio social, fusiones y adquisiciones… etc.

El robot encargado de descargar, interpretar y estructurar la información del BORME constituye un buen ejemplo de las capacidades de nuestra tecnología. Esto se debe a que los boletines oficiales son fuentes que presentan información no estructurada (en muchas ocasiones, texto escrito a mano, con diferencias gramaticales y alguna que otra falta de ortografía), en diferentes formatos (hay secciones disponibles en HTML, otras en PDF) y sin integración previa (la misma empresa puede estar escrita de varias maneras diferentes, por no mencionar las innumerables formas de abreviar los regímenes jurídicos).

Logos de Classora y el BORME

El resultado de este proceso es un conjunto de más de 1.500.000 empresas parseadas que se irán incorporando paulatinamente a Classora como unidades de conocimiento. En este caso, además de una serie de rankings e informes predefinidos, Classora permitirá visualizar para cada empresa las entradas publicadas en el BORME en los últimos tres años, así como datos telefónicos y de contacto fruto de otro rastreo automático e independiente sobre la web.

Estas capacidades del motor ETL de Classora ya se habían puesto de manifiesto en otras ocasiones, ya que Classora ofrece un servicio orientado al sector bancario para detectar automáticamente situaciones concursales publicadas en el BOE (Boletín Oficial del Estado).

Con el BORME ya son más de 100 las fuentes que revisan periódicamente los robots de Classora para tratar de mantener actualizada la información de la plataforma. Además, con más de 2 millones de unidades de conocimiento, Classora pasa a manejar un número superior al de artículos de Wikipedia en español. Si bien los conceptos «unidad de conocimiento» y «artículo de Wikipedia» no son directamente comparables, esta cifra representa un buen indicador del volumen de datos actual de Classora. Así que ya sabéis, si en vuestra empresa necesitáis ayuda para automatizar la extracción y la interpretación de datos desde una o varias fuentes, y/o la actualización periódica de las mismas, quizás podamos ayudaros. Contad con nuestra experiencia y nuestra tecnología para afrontar el proyecto de forma ágil y con garantías.

5 Responses dejar uno →
  1. ebaste permalink
    octubre 17, 2011

    ¡Os felicito! Desde el Molino estábamos dándole vueltas a hacer algo parecido y me alegro de que hayáis sido vosotros.

    Saludos molineros y de nuevo enhorabuena!

    Eduardo

  2. octubre 17, 2011

    Muchas gracias Eduardo. Ya sabes que si en algo podemos ayudaros no tenéis más que avisarnos. Un fuerte abrazo y mucha suerte también para vosotros!

    Iván

    • ebaste permalink
      octubre 17, 2011

      Me da que acabaremos haciendo bastantes cosas juntos… 😉

      cuando tengamos las cosas más claritas por aquí nos ponemos en contacto. Seguro que nos podéis echar una mano en cosas y podemos colaborar en proyectos conjuntos.

      El CDTI nos va a dar bastante vidilla!

      • octubre 17, 2011

        Genial, pues quedamos a la espera. Creo que pueden surgir sinergias muy interesantes 🙂 Por cierto, enhorabuena por lo del CDTI.

        • ebaste permalink
          octubre 17, 2011

          Gracias, creo que es un triunfo de TODOS y espero que todos lo podamos aprovechar! 😉 A ver si firmamos y nos ponemos a ello.

Leave a Reply

Note: You can use basic XHTML in your comments. Your email address will never be published.

Subscribe to this comment feed via RSS