INTELIGÊNCIA ARTIFICIAL

Por uma IA que trabalhe melhor com o português

Centro de Inteligência Artificial da USP, em parceria com a Fapesp e a IBM, se prepara para liberar três conjuntos de dados open source para treinamento de modelos NLP no nosso idioma

Por Cristina De Luca 29/09/2021

As máquinas estão cada vez melhores em entender a complexidade da linguagem humana. Cada vez que alguém treina um modelo, estamos um passo mais perto de integrar nossas máquinas com mais eficiência em nossas vidas. Acontece que a maioria dos modelos e dos conjuntos de dados usados para treiná-los estão em inglês. Treinar um modelo em português, por exemplo, tem desafiado os cientistas de dados. Os conjuntos de dados existentes são, em sua maioria, proprietários e os poucos abertos, listados no fórum do AI Lab, versam sobre domínios específicos como saúde e gestão do pessoal e projetos.

Foi tentando resolver esse problema que, no seu primeiro ano, completados este mês, o Centro de Inteligência Artificial (C4AI), parceria entre IBM, USP e Fapesp, investiu na construção de três conjuntos de dados a partir de pesquisas concentradas tanto na modalidade escrita, quanto falada do português.

Um deles, batizado de Carolina é composto pelo maior conjunto de dados sintáticos disponível no Brasil, contendo notícias, blogs, tuites, textos jurídicos, teses, interações e comentários de consumidores publicados na internet, e por aí vai, sempre que tornados públicos. Os dados seguem todas as normas de controle de privacidade da LGPD.

O outro, chamado CORAA, contém mais de 600 horas de gravações da língua portuguesa, de diversas regiões do Brasil, provenientes de quatro conjunto de dados pré-existentes, mas agora auditadas pelos alunos da universidade. A multidiversidade do conteúdo disponibilizado oferece, por exemplo, maior diversidade regional na criação de futuros aplicativos de conversação, respeitando sotaques, culturas e costumes locais. O objetivo é chegar a 1200 horas de gravações na próxima versão.

E o terceiro, o feto Carolina, contém informações sobre mais de 120 bilhões de palavras e termos em português, que estão sendo anotados e etiquetados por tipologia e origem, oferecendo um amplo leque de detalhes sobre sintaxe, semântica, morfologia.

"Vemos essas iniciativas como estruturantes para o mercado, uma vez que os data sets poderão ser usados livremente tanto por acadêmicos quanto por empresas", comenta Claudio Pinhanez, gerente de pesquisa em Inteligência Conversacional do IBM Research Brasil e vice-diretor do C4AI.

Este é um conteúdo exclusivo para assinantes.

Cadastre-se grátis para ler agora
e acesse 5 conteúdos por mês.

CADASTRAR

É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.

Por uma IA que trabalhe melhor com o português

Centro de Inteligência Artificial da USP, em parceria com a Fapesp e a IBM, se prepara para liberar três conjuntos de dados open source para treinamento de modelos NLP no nosso idioma

Matérias relacionadas

Inteligência Artificial

IA Agêntica depende mais de gente que de código

Inteligência Artificial

Quem define as regras quando agentes se coordenam?

Inteligência Artificial

Capital cerebral: o limite invisível do crescimento na era da IA

Inteligência Artificial

A IA entrou no orçamento. Falta entrar no modelo de negócio

Inteligência Artificial

A IA sai do chat e entra no caixa

Inteligência Artificial

Paradoxo latino: IA cresce, impacto não

THE SHIFT

Por uma IA que trabalhe melhor com o português

Centro de Inteligência Artificial da USP, em parceria com a Fapesp e a IBM, se prepara para liberar três conjuntos de dados open source para treinamento de modelos NLP no nosso idioma

Matérias relacionadas

Inteligência Artificial

IA Agêntica depende mais de gente que de código

Inteligência Artificial

Quem define as regras quando agentes se coordenam?

Inteligência Artificial

Capital cerebral: o limite invisível do crescimento na era da IA

Inteligência Artificial

A IA entrou no orçamento. Falta entrar no modelo de negócio

Inteligência Artificial

A IA sai do chat e entra no caixa

Inteligência Artificial

Paradoxo latino: IA cresce, impacto não

THE SHIFT

Renove sua assinatura no plano anual e ganhe uma camiseta exclusiva da The Shift!

Sua assinatura está expirada

A IA entrou no orçamento. Falta entrar no modelo de negócio 

Renove sua assinatura no plano anual e
ganhe uma camiseta exclusiva da The Shift!