9 Noviembre 2022 🍄
- Los buscadores ofrecen respuestas a preguntas. Explotan grafos de conocimiento para dar datos rápidamente
- La recuperación de información es el estudio y desarrollo de sistemas automatizados para que una persona pueda saber si hay información que satisfaga sus necesidades. Dicha información ha de estar ordenada.
- Documento: cualquier texto que seamos capaces de escribir
- Colección: conjunto de documentos que esperamos que satisfagan una necesidad de información
- Búsqueda ad hoc: la persona tiene en mente una necesidad específica y formula una consulta personalizada que será ordenada según su relevancia por el sistema de recuperación de información
- Consulta: expresión que una persona construye para formular su necesidad de información
Modelo conceptual de Recuperación de información
RI y SGBD difieren en:
- los elementos que almacenan
- las consultas que aceptan
- la forma en que hacen el matching entre elementos y consultas
- los resultados que retornan
RI
- Almacenan textos escritos en lenguaje natural con poca o ninguna estructura y cuya semántica es totalmente ajena al sistema
- texto libre
- retornan resultados aproximados
- retornan resultados ordenados SGBD
- Datos muy estructurados con distintos campos con una semántica bien definida
- lenguajes artificiales
- retornan coincidencias exactas
- retornan todos los ítems que hacen match con una consulta concreta y no necesitan estar ordenados
Procesamiento de documentos
- tokenización
- se van a eliminar las palabras vacías
17 Noviembre 2022 🦾
Normalización
- Se refiere a aquellos procesos que persiguen mejorar el matching de términos aunque no sean la misma secuencia exacta de caracteres → hola/hi/chao
- Al proceso de convertir todo a minúsculas se le conoce como case-folding