Indexacion Probabilistica con ejemplos que tengan relación: con los documentos en un archivo, con libros y correos
>> martes, 21 de octubre de 2025
Indexacion Probabilistica con ejemplos que tengan relación con los documentos en un archivo
Por: Lic. Carmen Marin
Con ayuda de IA de Google
Conceptos clave
- Relevancia: No es una decisión binaria (relevante/no relevante), sino un cálculo de probabilidad. Se considera que los documentos que tienen una alta probabilidad de ser relevantes deben ser presentados primero al usuario.
- Modelo de Independencia Binaria (MIB): Es uno de los modelos probabilísticos más sencillos y conocidos. Supone que los términos en una consulta son eventos independientes. Estima la probabilidad de que un documento sea relevante para una consulta basándose en la distribución de los términos tanto en los documentos relevantes como en los no relevantes.
- Función de ranqueo: Es una fórmula matemática que ordena los documentos en función de su probabilidad de ser relevantes. Los resultados se presentan al usuario en orden descendente de esta probabilidad.
Ejemplo sencillo en un archivo de documentos
Imaginemos un archivo digital con una colección de documentos sobre temas de ecología y medio ambiente.
Consulta del usuario: "agua limpia para el consumo"
Colección de documentos:
Documento 2: "Proyecto de potabilización de agua para la ciudad".
Documento 3: "Propuesta para el tratamiento del agua residual y su impacto ambiental".
Documento 4: "Guía para la agricultura sostenible y el uso eficiente del agua".
Indexación probabilística paso a paso:
Cálculo de la probabilidad: El sistema calcula la probabilidad de que cada documento sea relevante para la consulta.
- En este caso, el sistema podría tener información previa (quizás basada en datos de usuarios anteriores) que indique que:El término "agua" aparece con frecuencia en muchos documentos, tanto relevantes como no relevantes, por lo que su peso es moderado.
- El término "consumo" es menos común, por lo que su presencia en un documento lo hace más relevante para esta consulta.
- El término "limpia" también es importante y contribuye a la relevancia.
- Documento 1: Tiene "agua" y "calidad", que se relaciona con "limpia". Tendría un peso alto.
- Documento 2: Tiene "agua" y "potabilización", que está muy relacionado con "agua limpia para el consumo". Su peso sería el más alto.
- Documento 3: Tiene "agua" y "tratamiento", pero se enfoca en "residual", que es lo opuesto a "limpia". Su peso sería bajo o incluso negativo.
- Documento 4: Tiene "agua", pero en el contexto de "agricultura", no de "consumo humano". Su peso sería bajo.
Resultado del ranqueo (simplificado):
Documento 1 (probabilidad media-alta de ser relevante).
Documento 4 (baja probabilidad de ser relevante).
Documento 3 (muy baja probabilidad de ser relevante).
Este enfoque probabilístico permite que el sistema de archivo no solo recupere documentos que contengan las palabras exactas, sino que también priorice los que tienen más probabilidades de satisfacer la necesidad real de información del usuario, incluso si no tienen una coincidencia perfecta de términos.
Ejemplo sencillo con libros
Imaginemos una biblioteca con una colección de libros sobre diferentes temas y una persona que busca "libros de fantasía".
Indexación tradicional (binaria)Proceso: El sistema buscaría todos los libros que contengan la palabra "fantasía".
Resultado:
- Documento A: "El dragón y la espada de fantasía". (Sí, lo encuentra).
- Documento B: "Historia de la fantasía en la literatura española". (Sí, lo encuentra).
- Documento C: "Guía de juegos de rol de fantasía". (Sí, lo encuentra).
Indexación probabilísticaProceso: El sistema evalúa la probabilidad de que cada documento sea relevante, asignando un peso a cada término. Considera qué tan a menudo la palabra "fantasía" aparece en otros documentos que los usuarios han calificado previamente como "relevantes" para el tema de fantasía, frente a su aparición en documentos "irrelevantes".
Resultados (ponderados):
- Documento A: "El dragón y la espada de fantasía". El sistema le asigna una alta probabilidad de ser relevante (0.95), ya que las palabras "dragón" y "espada" suelen aparecer en libros de fantasía populares.
- Documento B: "Historia de la fantasía en la literatura española". Le asigna una probabilidad media (0.50). Aunque la palabra clave está, el contexto ("historia", "literatura") sugiere que podría no ser una novela, sino un texto académico.
- Documento C: "Guía de juegos de rol de fantasía". Le asigna una probabilidad baja (0.20). A pesar de contener "fantasía", las palabras "juegos de rol" indican que es un tipo de documento diferente, menos probable que sea lo que el usuario busca.
Ejemplo con correos electrónicos y spam
Otro ejemplo simple es un filtro de spam.
Indexación tradicional (por palabras clave)Proceso: Un filtro simple busca palabras como "oferta", "gratis" o "premio".
Resultado:
- Correo 1: "¡Increíble oferta en vuelos a Cancún!" → Marca como spam.
- Correo 2: "Aquí tienes la oferta del presupuesto para el proyecto." → Marca como spam (falso positivo).
Indexación probabilística (filtro bayesiano)Proceso: El filtro aprende de los correos que el usuario marca como spam o no. Analiza la frecuencia con la que ciertas palabras aparecen en correos spam y no spam.
Resultados (aprendizaje):El sistema aprende que:
- La palabra "oferta" tiene una probabilidad del 80% de aparecer en spam.
- La palabra "vuelos" tiene una probabilidad del 90% de aparecer en spam.
- La palabra "presupuesto" tiene una probabilidad del 5% de aparecer en spam.
- Correo 3: "Consigue ahora esta oferta de viaje con vuelos a un precio increíble". El sistema combinaría las probabilidades de las palabras para concluir que este correo tiene una probabilidad muy alta (cercana a 1) de ser spam.
- Correo 4: "Adjunto la oferta del presupuesto para el proyecto." El sistema combina las probabilidades. Aunque "oferta" tiene una alta probabilidad, la presencia de "presupuesto" la contrarresta, lo que resulta en una probabilidad baja (cercana a 0) de ser spam.

