Geração aumentada por recuperação (RAG)

Technology Radar

Atualizado em : Oct 23, 2024

NÃO ENTROU NA EDIÇÃO ATUAL

Este blip não está na edição atual do Radar. Se esteve em uma das últimas edições, é provável que ainda seja relevante. Se o blip for mais antigo, pode não ser mais relevante e nossa avaliação pode ser diferente hoje. Infelizmente, não conseguimos revisar continuamente todos os blips de edições anteriores do Radar. Saiba mais

Oct 2024

Adote

Geração aumentada por recuperação (RAG) é o padrão preferido por nossas equipes para melhorar a qualidade das respostas geradas por um modelo de linguagem de grande porte (LLM). Nós a usamos com sucesso em muitos projetos, incluindo a plataforma Jugalbandi AI. Com RAG, informações sobre documentos relevantes e confiáveis são armazenadas em um banco de dados. Para um determinado prompt, o banco de dados é consultado, documentos relevantes são recuperados, e o prompt é aumentado com o conteúdo dos documentos, fornecendo assim um contexto mais rico ao LLM. Isso resulta em uma saída de maior qualidade e alucinações drasticamente reduzidas. A janela de contexto — que determina o tamanho máximo da entrada do LLM — cresceu significativamente com os modelos mais recentes, mas selecionar os documentos mais relevantes ainda é uma etapa crucial. Nossa experiência indica que um contexto menor cuidadosamente construído pode produzir melhores resultados do que um contexto amplo e grande. Usar um contexto grande também é mais lento e mais caro. Costumávamos confiar apenas em embeddings armazenados em um banco de dados vetorial para identificar contexto adicional. Agora, estamos vendo reclassificação e busca híbrida: ferramentas de busca como Elasticsearch Relevance Engine, bem como abordagens como GraphRAG que utilizam grafos de conhecimento criados com a ajuda de um LLM. Uma abordagem baseada em grafos funcionou particularmente bem em nosso trabalho de compreensão de bases de código legadas com GenAI.

Apr 2024

Adote

A geração aumentada por recuperação (RAG) é o padrão preferido por nossas equipes para melhorar a qualidade das respostas geradas por um modelo de linguagem de grande porte (LLM). A técnica tem sido utilizada com sucesso em diversos projetos, incluindo a popular plataforma de IA Jugalbandi AI. Com a RAG, informações sobre documentos relevantes e confiáveis - em formatos como HTML e PDF - são armazenadas em bancos de dados que suportam um tipo de dados vetoriais ou pesquisa eficiente de documentos, como pgvector, Qdrant ou Elasticsearch Relevance Engine. Para um comando específico, o banco de dados é consultado para recuperar documentos relevantes, que são então combinados com o prompt para fornecer um contexto mais rico para o LLM. Isso resulta em saídas de alta qualidade e numa grande redução de alucinações (respostas irrelevantes). A janela de contexto - que determina o tamanho máximo da entrada do LLM - é limitada, o que significa que selecionar os documentos mais relevantes é crucial. Melhoramos a relevância do conteúdo que é adicionado ao comando por meio de uma nova classificação. Da mesma forma, os documentos geralmente são grandes demais para calcular um embedding, o que significa que eles devem ser divididos em partes menores. Esse costuma ser um problema complexo, e uma abordagem é fazer com que as partes se sobreponham até certo ponto.

Sep 2023

Experimente

Retrieval-Augmented Generation (RAG) é uma técnica para combinar memória paramétrica e não paramétrica pré-treinada para geração de linguagem. Ela permite que você aumente o conhecimento existente de LLMs pré-treinados com conhecimento privado e contextual do seu domínio ou setor. Com RAG, você primeiro recupera um conjunto de documentos relevantes da memória não paramétrica (geralmente por meio de uma busca de similaridade a partir de um datastore vetorial) e, em seguida, usa a memória paramétrica dos LLMs para gerar uma saída que seja consistente com os documentos recuperados. Nós achamos que RAG é uma técnica eficaz para uma variedade de tarefas de processamento de linguagem natural (PLN) que requerem conhecimento profundo, incluindo respostas a perguntas, resumo e geração de histórias.

Publicado : Sep 27, 2023