s
INTELIGÊNCIA ARTIFICIAL

Por uma IA que trabalhe melhor com o português

Centro de Inteligência Artificial da USP, em parceria com a Fapesp e a IBM, se prepara para liberar três conjuntos de dados open source para treinamento de modelos NLP no nosso idioma

As máquinas estão cada vez melhores em entender a complexidade da linguagem humana. Cada vez que alguém treina um modelo, estamos um passo mais perto de integrar nossas máquinas com mais eficiência em nossas vidas. Acontece que a maioria dos modelos e dos conjuntos de dados usados para treiná-los estão em inglês. Treinar um modelo em português, por exemplo, tem desafiado os cientistas de dados. Os  conjuntos de dados existentes são, em sua maioria, proprietários e os poucos abertos, listados no fórum do AI Lab, versam sobre domínios específicos como saúde e gestão do pessoal e projetos.

Foi tentando resolver esse problema que, no seu primeiro ano, completados este mês, o Centro de Inteligência Artificial (C4AI), parceria entre IBM, USP e Fapesp, investiu na construção de três conjuntos de dados a partir de pesquisas concentradas tanto na modalidade escrita, quanto falada do português.

  • Um deles, batizado de Carolina é composto pelo maior conjunto de dados sintáticos disponível no Brasil, contendo notícias, blogs, tuites, textos jurídicos, teses, interações e comentários de consumidores publicados na internet, e por aí vai, sempre que tornados públicos. Os dados seguem todas as normas de controle de privacidade da LGPD.
  • O outro, chamado CORAA, contém mais de 600 horas de gravações da língua portuguesa, de diversas regiões do Brasil, provenientes de quatro conjunto de dados pré-existentes, mas agora auditadas pelos alunos da universidade. A multidiversidade do conteúdo disponibilizado oferece, por exemplo, maior diversidade regional na criação de futuros aplicativos de conversação, respeitando sotaques, culturas e costumes locais. O objetivo é chegar a 1200 horas de gravações na próxima versão.
  • E o terceiro, o feto Carolina, contém informações sobre mais de 120 bilhões de palavras e termos em português, que estão sendo anotados e etiquetados por tipologia e origem, oferecendo um amplo leque de detalhes sobre sintaxe, semântica, morfologia.

"Vemos essas iniciativas como estruturantes para o mercado, uma vez que os data sets poderão ser usados livremente tanto por acadêmicos quanto por empresas", comenta Claudio Pinhanez, gerente de pesquisa em Inteligência Conversacional do IBM Research Brasil e vice-diretor do C4AI.

Este é um conteúdo exclusivo para assinantes.

Cadastre-se grátis para ler agora
e acesse 5 conteúdos por mês.

É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.

Voz de IA, o próximo passo

Inteligência Artificial

Voz de IA, o próximo passo

A interface de bate-papo foi só o começo. A IA de Voz em tempo real está prestes a mudar tudo sobre como interagimos com computadores.

Estamos atingindo os limites de escala da IA?

Inteligência Artificial

Estamos atingindo os limites de escala da IA?

Modelos gigantescos já não estão entregando mais os melhores resultados. Talvez o próximo avanço em LLMs não venha do dimensionamento por força bruta. E isso pode ser bom.

Multiagentes de IA, um mundo de oportunidades

Inteligência Artificial

Multiagentes de IA, um mundo de oportunidades

Chegou a hora de dar boas-vindas aos ecossistemas que permitem que agentes autônomos de Inteligência Artificial se encontrem, colaborem, interajam e realizem transações de forma segura, eficiente e confiável. 

Buscas de IA disruptam o acesso e controle de informações

Inteligência Artificial

Buscas de IA disruptam o acesso e controle de informações

Entenda os pontos fortes e fracos dos principais competidores e por que essa briga envolve mais do que uma mera disputa por participação de mercado.

IA Generativa: Investimentos abrem nova era para as empresas

Inteligência Artificial

IA Generativa: Investimentos abrem nova era para as empresas

Com uma previsão de crescimento de 14% em gastos com software de IA até 2024, a integração da IA Generativa está mudando a forma como as empresas operam e competem no mercado

ROI da IA está baixo e em queda

Inteligência Artificial

ROI da IA está baixo e em queda

Só 4% das empresas estão obtendo valor, diz estudo. O resto está queimando dinheiro e descobrindo que FOMO é uma estratégia cara.