Alucinación

La alucinación es un fenómeno en el que un modelo de lenguaje grande (LLM) genera texto que es fluido y seguro, pero factualmente incorrecto, inventado o no respaldado por ningún material de origen. El término traza una analogía con los errores de percepción humana, aunque en los LLM surge de la compleción de patrones estadísticos en lugar de una disfunción sensorial.

Las características clave de la alucinación incluyen:

Fabricación Confiada: Las salidas alucinatorias a menudo se leen como autorizadas y bien estructuradas, lo que las hace difíciles de detectar para los no expertos. El modelo presenta hechos, citas o estadísticas inventadas con la misma fluidez que la información precisa.
Tipos de Alucinación: Las alucinaciones intrínsecas contradicen el material de origen proporcionado, mientras que las alucinaciones extrínsecas introducen afirmaciones que no pueden verificarse en ningún contexto dado. Ambas son problemáticas en los sistemas de producción.
Causas Raíz: Las alucinaciones provienen del objetivo de entrenamiento del modelo de predecir los próximos tokens probables en lugar de verificar la verdad. Las lagunas en los datos de entrenamiento, los sesgos distribucionales y las indicaciones ambiguas aumentan las tasas de alucinación.
Estrategias de Mitigación: Los enfoques comunes incluyen la generación aumentada por recuperación (RAG) para fundamentar las respuestas en documentos reales, el prompting de cadena de pensamiento, la calibración de confianza y los requisitos de citación que obligan al modelo a referenciar fuentes.
Desafío de Evaluación: La detección de alucinaciones a escala sigue siendo un problema de investigación abierto. Existen herramientas de detección automatizadas, pero son imperfectas, a menudo requiriendo revisión humana para aplicaciones de alto riesgo.

Alucinación

Definición