9 Noviembre 2022 🍄

  • Los buscadores ofrecen respuestas a preguntas. Explotan grafos de conocimiento para dar datos rápidamente
  • La recuperación de información es el estudio y desarrollo de sistemas automatizados para que una persona pueda saber si hay información que satisfaga sus necesidades. Dicha información ha de estar ordenada.
  • Documento: cualquier texto que seamos capaces de escribir
  • Colección: conjunto de documentos que esperamos que satisfagan una necesidad de información
  • Búsqueda ad hoc: la persona tiene en mente una necesidad específica y formula una consulta personalizada que será ordenada según su relevancia por el sistema de recuperación de información
  • Consulta: expresión que una persona construye para formular su necesidad de información

Modelo conceptual de Recuperación de información

RI y SGBD difieren en:

  • los elementos que almacenan
  • las consultas que aceptan
  • la forma en que hacen el matching entre elementos y consultas
  • los resultados que retornan

RI

  • Almacenan textos escritos en lenguaje natural con poca o ninguna estructura y cuya semántica es totalmente ajena al sistema
  • texto libre
  • retornan resultados aproximados
  • retornan resultados ordenados SGBD
  • Datos muy estructurados con distintos campos con una semántica bien definida
  • lenguajes artificiales
  • retornan coincidencias exactas
  • retornan todos los ítems que hacen match con una consulta concreta y no necesitan estar ordenados

Procesamiento de documentos

  • tokenización
  • se van a eliminar las palabras vacías

17 Noviembre 2022 🦾

Normalización

  • Se refiere a aquellos procesos que persiguen mejorar el matching de términos aunque no sean la misma secuencia exacta de caracteres hola/hi/chao
  • Al proceso de convertir todo a minúsculas se le conoce como case-folding