Organizações geram e interagem com grandes quantidades de informações dispersas em várias plataformas e formatos. Extrair insights valiosos desse cenário complexo requer geralmente a capacidade de conectar dados díspares, um processo conhecido como Multi-Hop Reasoning (Raciocínio Multi-Hop), um processo cognitivo em IA aonde as informações são coletadas e sintetizadas em contextos ou repositórios de conhecimento. Envolve conectar várias etapas de inferência para chegar a uma resposta abrangente, permitindo melhor compreensão e resolução de problemas.
A necessidade do raciocínio multi-hop em dados de negócios surge da natureza intrincada e interconectada das informações organizacionais. Por exemplo, gerar uma previsão de vendas abrangente pode exigir a combinação de dados históricos de vendas, relatórios de pesquisa de mercado, logística da cadeia de suprimentos e indicadores econômicos. Essa complexidade exige sistemas capazes de navegar em vários pontos de dados e sintetizá-los em insights coerentes.
O raciocínio multi-hop é essencial, portanto, para processar e analisar dados de negócios, geralmente complexos e espalhados por várias fontes, com eficácia.
O problema? Responder perguntas multi-hop é um subcampo desafiador para os LLMs. Experimentos recentes com LLMs de última geração revelaram lacunas em sua capacidade de lidar com tarefas complexas de raciocínio multi-hop. “Sem mecanismos de recuperação eficazes, os LLMs têm capacidade limitada de responder a perguntas multi-hop complexas, alcançando apenas cerca de 40% de precisão em avaliações de etapa única”, explica Matheus Ferreira, sócio da 7D Analytics.
Técnicas de geração aumentada de recuperação (RAG) tornaram-se uma abordagem poderosa ao alavancar os pontos fortes dos sistemas de recuperação e as capacidades generativas dos LLMs. Essas técnicas são particularmente eficazes para tarefas que exigem raciocínio multi-hop, fundamentação factual e síntese de informações de diversos domínios de conhecimento.
No entanto, a avaliação dos sistemas RAG continua fragmentada e insuficiente, uma vez que os benchmarks existentes normalmente avaliam componentes como recuperação, correção factual e raciocínio de forma isolada. “Esta abordagem fragmentada não consegue capturar o desempenho holístico desses sistemas em aplicações reais”, explica Matheus.
Para preencher essa lacuna, pesquisadores do Google lançaram uma estrutura de avaliação — o FRAMES (Factuality, Retrieval, And reasoning MEasurement Set), projetada para testar as três capacidades principais dos LLMs em aplicações de negócio — recuperação de fatos, raciocínio em múltiplas restrições e síntese precisa de informações em respostas coerentes.
“Ao simular consultas realistas de vários documentos, o FRAMES fornece uma imagem mais clara das capacidades e limitações atuais dos LLMs em aplicações de negócio, ressaltando a importância de aprimorarmos ainda mais os mecanismos de recuperação e as capacidades de raciocínio desses modelos para melhorar seu desempenho geral”, afirma Matheus.
Entre outras coisas, o FRAMES incorpora consultas multi-hop complexas que exigem que os modelos recuperem e integrem informações de várias fontes.
E inclui tarefas que avaliam a síntese de informações em respostas coerentes e contextualmente precisas, garantindo que os sistemas RAG sejam avaliados em sua capacidade de desempenho em cenários realistas e multifacetados, ideais para aplicação dos LLMs em aplicações de negócio. O que o torna um benchmark mais rigoroso e abrangente, bem adequado para orientar o desenvolvimento de sistemas RAG de próxima geração.
Os próprios pesquisadores do Google reconhecem, no entanto, que o desenvolvimento de estratégias de recuperação mais sofisticadas continuará sendo essencial para a aplicação de LLMs na resolução de problemas de negócio complexos. O que inclui explorar recuperadores densos treinados diretamente na tarefa de recuperação multi-hop, como aqueles baseados em arquiteturas ColBERT ou SimCSE.
Da mesma forma, melhorar as capacidades de raciocínio dos LLMs continuará sendo necessário. Assim como expandir o conjunto de dados FRAMES para inclusão de perguntas mais diversas e específicas do domínio e incorporar elementos mais dinâmicos, como recuperação de informações em tempo real, também ajudarão a aumentar sua utilidade como referência para sistemas RAG mais avançados.