[Oferta]

De interés para:
Empresas que ofrezcan motores de búsqueda avanzados en grandes bases de datos de documentos textuales, tales como boletines oficiales, registros mercantiles. En general, de interés para organismos con bases de datos y fondos documentales potentes con necesidad de gestión.

Empresas de gestión documental.

Resumen:
La ULPGC ha desarrollado una tecnología relacionada con motores de búsqueda textual con inteligencia artificial.

En las últimas décadas se ha ido implementando la digitalización y el almacenamiento virtual de materiales como artículos y documentos en repositorios y bases de datos. Este gran volumen de información digital ha creado la necesidad de desarrollar herramientas de búsqueda que permitan encontrar la información de manera precisa y rápida. Aunque en la actualidad existen multitud de motores de búsqueda disponibles, la gran mayoría están limitados a búsquedas rígidas y no disponen de funcionalidades suficientes que permitan dar libertad al usuario. Con el objetivo de ofrecer más posibilidades a los usuarios y extraer un mayor valor de las bases de datos documentales, investigadores del Instituto Universitario de Análisis y Aplicaciones Textuales (IATEXT) perteneciente a la Universidad de las Palmas de Gran Canaria (ULPGC) han desarrollado un motor de búsqueda capaz de procesar corpus de documentos digitalizados para realizar búsquedas textuales partiendo de frases o palabras y empleando diversos filtros.

Los investigadores han desarrollado un motor de búsqueda que actúa sobre un conjunto de documentos (denominado corpus), el cual se procesa para entrenar al motor para que puede realizar, posteriormente, las búsquedas y la contextualización de las respuestas. De este modo, se crean bases de datos de documentos digitales sobre las cuales actúa el motor desarrollado.

El software emplea un servicio de lematización que también ha sido desarrollado por los investigadores, en el que cada término único representa un lema. Su lexicón cuenta con más de 4 millones de palabras distintas y el servicio de lematización emplea este lexicón para reconocer con exactitud las palabras en un texto en español. Además, el servicio cuenta con dos algoritmos adicionales: uno de ellos es capaz de detectar hasta tres pronombres enclíticos y el otro puede detectar prefijos en cualquiera de las palabras incluidas en el lexicón.

Asimismo, también se han implementado otras funcionalidades que emplean la inteligencia lingüística y que incrementan el potencial del software desarrollado: búsqueda por lemas, por categoría gramatical, con comodines y con distancia entre palabras; así como filtros de contextualización propios de cada corpus documental. Además, es posible adaptar estas funcionalidades a las necesidades de cada cliente.

Enlace.

Chatear
Agente IA
+ Info
OTC: Oficinas de Transferencia de Conocimiento
Información básica sobre cookies

Bienvenida/o a la información básica sobre las cookies de la página web responsabilidad de la entidad: Oficina de transferencia de Resultados de investigación de la ULPGC. Una cookie o galleta informática es un pequeño archivo de información que se guarda en tu ordenador, “smartphone” o tableta cada vez que visitas nuestra página web. Algunas cookies son nuestras y otras pertenecen a empresas externas que prestan servicios para nuestra página web. Las cookies pueden ser de varios tipos: las cookies técnicas son necesarias para que nuestra página web pueda funcionar, no necesitan de tu autorización y son las únicas que tenemos activadas por defecto. El resto de cookies sirven para mejorar nuestra página, para personalizarla en base a tus preferencias, o para poder mostrarte publicidad ajustada a tus búsquedas, gustos e intereses personales. Puedes aceptar todas estas cookies pulsando el botón ACEPTAR TODO o configurarlas desde la sección "Configurar Cookies". Si quieres más información, consulta la POLÍTICA DE COOKIES de nuestra página web.