s
INTELIGÊNCIA ARTIFICIAL

Por uma IA que trabalhe melhor com o português

Centro de Inteligência Artificial da USP, em parceria com a Fapesp e a IBM, se prepara para liberar três conjuntos de dados open source para treinamento de modelos NLP no nosso idioma

As máquinas estão cada vez melhores em entender a complexidade da linguagem humana. Cada vez que alguém treina um modelo, estamos um passo mais perto de integrar nossas máquinas com mais eficiência em nossas vidas. Acontece que a maioria dos modelos e dos conjuntos de dados usados para treiná-los estão em inglês. Treinar um modelo em português, por exemplo, tem desafiado os cientistas de dados. Os  conjuntos de dados existentes são, em sua maioria, proprietários e os poucos abertos, listados no fórum do AI Lab, versam sobre domínios específicos como saúde e gestão do pessoal e projetos.

Foi tentando resolver esse problema que, no seu primeiro ano, completados este mês, o Centro de Inteligência Artificial (C4AI), parceria entre IBM, USP e Fapesp, investiu na construção de três conjuntos de dados a partir de pesquisas concentradas tanto na modalidade escrita, quanto falada do português.

  • Um deles, batizado de Carolina é composto pelo maior conjunto de dados sintáticos disponível no Brasil, contendo notícias, blogs, tuites, textos jurídicos, teses, interações e comentários de consumidores publicados na internet, e por aí vai, sempre que tornados públicos. Os dados seguem todas as normas de controle de privacidade da LGPD.
  • O outro, chamado CORAA, contém mais de 600 horas de gravações da língua portuguesa, de diversas regiões do Brasil, provenientes de quatro conjunto de dados pré-existentes, mas agora auditadas pelos alunos da universidade. A multidiversidade do conteúdo disponibilizado oferece, por exemplo, maior diversidade regional na criação de futuros aplicativos de conversação, respeitando sotaques, culturas e costumes locais. O objetivo é chegar a 1200 horas de gravações na próxima versão.
  • E o terceiro, o feto Carolina, contém informações sobre mais de 120 bilhões de palavras e termos em português, que estão sendo anotados e etiquetados por tipologia e origem, oferecendo um amplo leque de detalhes sobre sintaxe, semântica, morfologia.

"Vemos essas iniciativas como estruturantes para o mercado, uma vez que os data sets poderão ser usados livremente tanto por acadêmicos quanto por empresas", comenta Claudio Pinhanez, gerente de pesquisa em Inteligência Conversacional do IBM Research Brasil e vice-diretor do C4AI.

Este é um conteúdo exclusivo para assinantes.

Cadastre-se grátis para ler agora
e acesse 5 conteúdos por mês.

É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.

Quem controla os agentes de IA?

Inteligência Artificial

Quem controla os agentes de IA?

Relatórios da Cisco e análises da McKinsey indicam que empresas estão concedendo autonomia operacional a sistemas de IA antes de estabelecer mecanismos confiáveis de controle.

Cortar equipes de cibersegurança sai caro: o novo risco está na falta de skills, não de vagas

Inteligência Artificial

Cortar equipes de cibersegurança sai caro: o novo risco está na falt...

Mesmo com milhares de vagas abertas, empresas seguem congelando contratações, reduzindo orçamento e operando com lacunas críticas de habilidades. O resultado é um ambiente mais vulnerável justamente quando a IA amplia a superfície de...

Um modelo só não é suficiente: a IA composta como nova arquitetura empresarial

Inteligência Artificial

Um modelo só não é suficiente: a IA composta como nova arquitetura...

O avanço da Inteligência Artificial começa a migrar da escala dos modelos para arquiteturas que combinam múltiplas formas de inteligência computacional.

Nova geração de apps de IA Generativa começa a tomar forma

Inteligência Artificial

Nova geração de apps de IA Generativa começa a tomar forma

O avanço dos agentes, a memória persistente e a integração entre aplicativos estão gerando novas arquiteturas de software e redefinindo a competição no mercado pessoal de GenAI.

IA Aplicada, fintechs e deeptech: o que deve guiar o próximo ciclo de VC na América Latina

Inteligência Artificial

IA Aplicada, fintechs e deeptech: o que deve guiar o próximo ciclo de...

Apesar da escassez de exits e da instabilidade política, quase metade dos investidores planeja ampliar aportes. O foco agora está na digitalização de setores tradicionais da economia

IA Agêntica pode ampliar em até 70% a capacidade operacional dos bancos

Inteligência Artificial

IA Agêntica pode ampliar em até 70% a capacidade operacional dos ban...

Estudos mostram que agentes de IA podem automatizar crédito, compliance e análise financeira, mas o setor ainda enfrenta barreiras para escalar a tecnologia