INTELIGÊNCIA ARTIFICIAL

A IA matará a Web?

O que está em jogo quando o excesso de conteúdo sintético se encontra com os LLMOs, mecanismos de otimização de conteúdos para busca alimentada IA?

Por Cristina De Luca 28/04/2024

A Internet está ficando lotada de conteúdo sintético (e não verdadeiro) fabricado por plataformas de IA Generativa, e isso pode representar o risco alarmante da IA matar a Web aberta, como a conhecemos, transformando-a em um poço de conteúdo intencionalmente criado para manipular percepções e desejos. Às vésperas do início da NETMundial+10 convém entrar nesse assunto.

Publicações respeitadas proclamam a morte da Web há mais de uma década. O principal argumento é que o conteúdo orgânico, criado pelo homem, que alimentou o início da Web nas décadas de 1990 e 2000, foi usurpado por conteúdo criado artificialmente, que agora domina o que as pessoas veem online.

Essa ideia começou na década de 2010, à medida que os bots se tornavam cada vez mais predominantes nas plataformas de mídia social. Mas um bot da velha escola nunca teve a capacidade tecnológica de gerar imagens, vídeos, sites e artigos de notícias totalmente fabricados. Agora, a IA sim.

CADASTRE-SE GRÁTIS PARA ACESSAR 5 CONTEÚDOS MENSAIS

Já recebe a newsletter? Ative seu acesso

E outro argumento sobre a morte da Internet começou a ganhar força na última semana, após a publicação de um artigo assinado por Judith Donath e Bruce Schneier no The Atlantic. Eles argumentam que os LLMs acabarão com a web aberta ao substituir o SEO — a prática de otimizar resultados de pesquisa para direcionar o tráfego da web — pela “Large Language Model Optimization” ou LLMO, a serviço da “indústria de manipulação de material gerado por IA para atender aos interesses dos clientes”. Em geral, políticos, empresas e praticamente todas as outras pessoas com interesse em controlar o ecossistema da informação.

A indústria de LLMO poluirá o mundo emergente de ChatGPT, Google Gemini e Microsoft Copilot. Os criadores se cansarão de ver seu trabalho transformado em alimento para máquinas automáticas de otimização de LLM. Como resultado, a web aberta morrerá.

É um argumento mais convincente, na opinião de John Batelle, principalmente se os LLMs forem impulsionados por um modelo de publicidade semelhante ao que construiu a busca e a atual encarnação da Web. O que ele duvida que possa acontecer. Por precaução, melhor entender o tal LLMO.

Para início de conversa, os termos LLMO, GEO (Generative Engine Optimization) e AIO (AI Optimization ou Artificial Intelligence Optimization) descrevem a mesma coisa: um conjunto de atividades que um webmaster pode realizar para influenciar o resultado de sistemas de experiência generativa baseados em LLMs. Na prática, pressupõe que se pudermos injetar 1 milhão de artigos nos dados de treinamento que mencionem Adidas no contexto de “tênis de corrida” e outro 1 milhão de artigos que mencionem Nike no contexto de “má qualidade”, um LLM seria induzido a associar a Adidas com tênis de corrida e Nike com má qualidade.

Práticas de LLMO

Uma nova geração de “search engines” alimentados por IA, como o ChatGPT, poderia facilitar a localização de informações, simplesmente dando-nos as respostas às nossas perguntas, em vez de nos forçar a percorrer páginas de links. O problema é que os grandes modelos de linguagem por trás desses mecanismos são treinados em conjuntos de dados construídos pela busca de texto na Internet. E a web está se enchendo de conteúdo de qualidade duvidosa gerado por IA.

O LLMO faz parte dessa lógica. E pode envolver as seguintes técnicas:

fornecer informações diretamente aos criadores do ChatGPT: isso seria extremamente difícil, pois a OpenAI não divulgou a fonte de seus dados de treinamento nem como eles pesam esses dados.

ajuste fino do ChatGPT ou do LLM por trás dele: isso ainda é um desafio, mas é possível por meio de APIs ou se você tiver conhecimento e recursos de GPU suficientes para ajustar um LLM por conta própria.

in-context learning, fornecendo apenas alguns exemplos como avisos contextuais predefinidos. Essa é a maneira mais viável e fácil em comparação com as outras duas.

Para influenciar as respostas dadas pelos LLMs, a marca (ou site) precisa ser mencionada em um contexto positivo e em relação às palavras-chave/tópicos alvo em sites confiáveis. Esse conceito é chamado de coocorrências — porque a marca ocorre com o termo ao qual você deseja que ela seja associada.

Existem três tipos de sites onde especialistas em LLMO procuram segmentar conteúdo:

Sites grandes e moderados ativamente, como Wikipedia, Reddit ou Quora, que apresentam o UGC (conteúdo gerado pelo usuário) mais valioso sobre qualquer tópico.
Sites estilo banco de dados como Crunchbase, Yelp ou IMDB.
Grandes sites editoriais como os de jornais e revistas.

Um bom ponto de partida são os mais de 63 mil sites atualmente citados como fontes para o Google Knowledge Graph.

Consequências…

Até 2026, o volume de buscas em sites de pesquisa cairá 25%, substituído por chatbots como o ChatGPT. E as implicações dessa mudança podem ser grandes. Estudos sugerem que o nosso modelo eliminará qualquer necessidade de as pessoas clicarem nos sites onde hoje encontramos as respostas para nossas buscas. Sem tráfego, o modelo de negócio de muitos editores — de fornecimento de informações úteis e geradas por seres humanos na Web — pode entrar em colapso.

Não por acaso, em dezembro o New York Times processou a Microsoft e a OpenAI por suposta violação de direitos autorais para treinamento de modelos por trás da nova busca do Bing. A disputa não é só por direitos autorais. Na sua queixa, o Times afirma que estas ferramentas de IA desviam o tráfego que de outra forma iria para as propriedades web do Times, privando a empresa de receitas de publicidade, licenciamento e assinaturas.

Atualmente, desenvolvedores de LLMs estão explorando acordos únicos de desenvolvimento de negócios com editores – OpenAI com Axel Springer, Google com Reddit, Apple se apresentando como o mocinho pela publicidade positiva. Essa tendência atual de assinatura de LLMs é um bom presságio para o futuro da Web, segundo John Battelle. Sites de alta qualidade serão cada vez mais procurados e as plataformas terão que descobrir como recompensá-los, compartilhando os fluxos de receitas de assinatura com os editores que fornecem matéria-prima confiável. “Plataformas como Google e Meta não farão isso pela bondade de seus corações – elas serão forçadas pela necessidade de competir pela fidelidade, uso e dinheiro do consumidor”, diz.

Ainda não está claro o que está do outro lado da atual transição pela qual a web está passando. Muito depende da rapidez com que as pessoas mudam para a pesquisa baseada em IA, de quão melhores serão os futuros modelos de linguagem e de quais empresas dominarão a IA. Google, Microsoft, OpenAI, Meta e algumas outras gigantes da publicidade digital estariam motivadas a encorajar o florescimento da indústria de LLMO? Novos gigantes estão por surgir? A internet caótica e quase infinita (mesmo que altamente imperfeita) que temos hoje poderia tornar-se menor, mais homogênea, concentrada e sintética? Ao utilizar ferramentas de ponta, como gráficos de conhecimento, a integração de IA e blockchain pode servir como base para a Web3 baseada em dados confiáveis? Tudo isso está na mesa…

Alguns novos jogadores, como Perplexity AI, estão tentando aproveitar essa onda sem virar tudo de cabeça para baixo. Eles compartilham todas as fontes de informações e links para que você possa se aprofundar e ir além da resposta da IA. Eles também querem ganhar dinheiro com publicidade.

Ao certo, sabemos apenas que, para chegar na nova web, precisaremos resolver problemas mais básicos com LLMs, como sua opacidade. “Será impossível determinar o valor de um site se ninguém entender como o LLM cria valor a partir dele”, argumenta Battelle.

A IA matará a Web?

O que está em jogo quando o excesso de conteúdo sintético se encontra com os LLMOs, mecanismos de otimização de conteúdos para busca alimentada IA?

Práticas de LLMO

Consequências…

Matérias relacionadas

Inteligência Artificial

A monetização via anúncios chegou às buscas de IA

Inteligência Artificial

A corrida da IA é vencida (ou perdida) na camada de dados

Inteligência Artificial

O fim da fricção: a ascensão das empresas superfluidas e o futuro h...

Inteligência Artificial

Inovação aberta no Brasil: país entra em fase de transformação es...

Inteligência Artificial

Por que muitos pilotos de IA não entregam valor ?

Inteligência Artificial

Quatro tensões redesenham a gestão na era da IA Agêntica

THE SHIFT

A IA matará a Web?

O que está em jogo quando o excesso de conteúdo sintético se encontra com os LLMOs, mecanismos de otimização de conteúdos para busca alimentada IA?

Práticas de LLMO

Consequências…

Matérias relacionadas

Inteligência Artificial

A monetização via anúncios chegou às buscas de IA

Inteligência Artificial

A corrida da IA é vencida (ou perdida) na camada de dados

Inteligência Artificial

O fim da fricção: a ascensão das empresas superfluidas e o futuro h...

Inteligência Artificial

Inovação aberta no Brasil: país entra em fase de transformação es...

Inteligência Artificial

Por que muitos pilotos de IA não entregam valor ?

Inteligência Artificial

Quatro tensões redesenham a gestão na era da IA Agêntica

THE SHIFT

Renove sua assinatura no plano anual e ganhe uma camiseta exclusiva da The Shift!

Sua assinatura está expirada

Renove sua assinatura no plano anual e
ganhe uma camiseta exclusiva da The Shift!