Janela de Contexto

Uma janela de contexto é o número máximo de tokens que um grande modelo de linguagem (LLM) pode processar em uma única interação, englobando tanto o prompt de entrada quanto a saída gerada. Ela representa a memória de trabalho do modelo, determinando quanta informação ele pode considerar de uma vez ao gerar uma resposta.

As principais características das janelas de contexto incluem:

Medição Baseada em Tokens: As janelas de contexto são medidas em tokens, não em palavras. Um token é tipicamente um fragmento de palavra, uma marca de pontuação ou uma palavra comum. O texto em inglês tem uma média de aproximadamente 1,3 tokens por palavra.
Orçamento Compartilhado: A janela de contexto é compartilhada entre a entrada e a saída. Um modelo com uma janela de 200 mil tokens que recebe um prompt de 150 mil tokens pode gerar no máximo 50 mil tokens como resposta.
Expansão Rápida: As janelas de contexto cresceram dramaticamente, de 4 mil tokens do GPT-3 em 2020 para modelos como Claude e Gemini, que suportam 200 mil ou mais tokens até 2025, permitindo o processamento de bases de código inteiras ou livros.
Compensações da Atenção: Embora janelas maiores permitam mais contexto, os modelos podem prestar atenção de forma menos confiável às informações no meio de contextos muito longos, um fenômeno conhecido como problema de "perdido no meio" (lost in the middle).
Implicações de Custo: Janelas de contexto maiores aumentam os custos de inferência, já que o processamento escala com o número de tokens. Isso torna a gestão eficiente do contexto uma preocupação de engenharia fundamental.

Janela de Contexto

Definição