Proyecto de Lenguaje Natural con la Universidad de La Coruña para acceder a Classora Knowledge Base

2014 marzo 30
por classora

Classora Knowledge Base es una base de conocimiento creada por Classora Technologies que agrega e integra la información volcada en diversas fuentes públicas de Internet. La base de conocimiento dispone de un API comercial para enriquecimiento semántico, y de una web abierta en la que es posible consultar de forma libre parte de la información recopilada.

Para la consulta de los datos contenidos en la base de conocimiento es necesario disponer de herramientas que guíen al usuario y faciliten el acceso a toda la información disponible. En este sentido, Classora Technologies ha desarrollado un lenguaje semiformal muy básico, denominado Classora Query Languaje (CQL), que actúa como base para la comprensión de los requisitos del usuario. En la aproximación inicial de CQL, este lenguaje permitía realizar dos tipos de consulta:

Obtener atributos de una unidad de conocimiento:

facturación, microsoft 
fecha de nacimiento, barack obama

Obtener unidades de conocimiento que satisfacen una determinada condición:

edificio*, ubicación = estados unidos, altura < 300 metros

Sin embargo, un lenguaje formal de consulta no resulta intuitivo ni práctico para usuarios inexpertos, acostumbrados a formular la consulta en su propio idioma o apoyándose solo en palabras clave (keywords) debido al efecto Google:

«Edificios construídos en USA antes de 1.930 que midan más de 300 metros de altura»

Colaboración con la Universidad de La Coruña

Para abordar el problema, y debido a la cantidad de recursos necesarios y a la especialización requerida para obtener resultados de calidad, se planteó una colaboración entre Classora y el Grupo de Lengua y Sociedad de la Información (LyS) de la Universidade da Coruña.

Grupo LyS - Universidad de A Coruña

El Grupo LyS está formado por profesores e investigadores de las áreas de Lingüística General y de Ciencias de la Computación e Inteligencia Artificial. En 2012 este grupo fue sometido a una evaluación externa por parte de la Agencia Nacional de Evaluación y Prospectiva (ANEP) en la que obtuvo una calificación cualitativa de A: Excelente, calidad comparable a nivel internacional en su área científica.

Además, un miembro este grupo, Jesús Vilares, involucrado directamente en el proyecto con Classora, forma parte de la junta directiva de la Sociedad Española de Recuperación de Información (SERI). La SERI se encuentra organizando en estos momentos su conferencia anual (Spanish Conference on Information Retrieval) que en esta edición se celebrará precisamente en nuestra ciudad, La Coruña, dentro de unas semanas.

Ask Classora!

Fruto de esta colaboración universidad-empresa se ha desarrollado un prototipo de Interfaz de Lenguaje Natural (ILN) para Classora Knowledge Base al que se ha denominado Ask Classora! El objetivo de este sistema no es otro acceder a la base de conocimiento permitiendo expresar las consultas en español, sirviendo a modo de traductor entre el lenguaje natural y el lenguaje formal subyacente, en este caso CQL.

Esquema general del proceso

Por ejemplo, para encontrar la respuesta a la pregunta ¿Qué ocupación tiene Fernando Alonso?, un usuario puede interactuar con el sistema a través de la interfaz web.

Una vez introducida la consulta, y desde un punto de vista general, ocurre lo siguiente:

  1. La pregunta es enviada desde la interfaz a nuestro sistema traductor, que tratará de interpretarla y traducirla al lenguaje formal de consulta. En caso de no poder completar este proceso de forma automática, el sistema pedirá ayuda al usuario a través de diálogos de desambiguación y clarificación de términos. Los resultados de esta interacción servirán además para el aprendizaje del sistema, lo que permite mejorar paulatinamente los resultados y dotarlo de un mayor grado de autonomía para futuros casos similares.
  2. La base de conocimiento es interrogada empleando esta representación formal de la pregunta original en lenguaje natural.
  3. Antes de mostrar los resultados de la consulta, se añade a estos información extra de posible interés para el usuario: consultas relacionadas y una breve descripción del proceso de interpretación seguido por el traductor.
  4. Finalmente, toda esta información es presentada al usuario a través de la interfaz web.

Pantalla inicial de Ask Classora! aún no publicada

Un prototipo de este sistema ha sido probado en un entorno cerrado con resultados muy prometedores, por lo que esperamos poder lanzar una beta pública próximamente.

Más información

Como en otras ocasiones, si te interesa conocer más información sobre este tema no dudes en contactar con nosotros para que te enviemos documentación adicional. Cuenta con Classora Technologies para estar informado sobre bases de conocimiento y recuperación de información procedente de fuentes públicas a través de NLP.

No comments yet

Dejar una respuesta

Note: You can use basic XHTML in your comments. Your email address will never be published.

Subscribe to this comment feed via RSS