s
INTELIGÊNCIA ARTIFICIAL

Por uma IA que trabalhe melhor com o português

Centro de Inteligência Artificial da USP, em parceria com a Fapesp e a IBM, se prepara para liberar três conjuntos de dados open source para treinamento de modelos NLP no nosso idioma

As máquinas estão cada vez melhores em entender a complexidade da linguagem humana. Cada vez que alguém treina um modelo, estamos um passo mais perto de integrar nossas máquinas com mais eficiência em nossas vidas. Acontece que a maioria dos modelos e dos conjuntos de dados usados para treiná-los estão em inglês. Treinar um modelo em português, por exemplo, tem desafiado os cientistas de dados. Os  conjuntos de dados existentes são, em sua maioria, proprietários e os poucos abertos, listados no fórum do AI Lab, versam sobre domínios específicos como saúde e gestão do pessoal e projetos.

Foi tentando resolver esse problema que, no seu primeiro ano, completados este mês, o Centro de Inteligência Artificial (C4AI), parceria entre IBM, USP e Fapesp, investiu na construção de três conjuntos de dados a partir de pesquisas concentradas tanto na modalidade escrita, quanto falada do português.

  • Um deles, batizado de Carolina é composto pelo maior conjunto de dados sintáticos disponível no Brasil, contendo notícias, blogs, tuites, textos jurídicos, teses, interações e comentários de consumidores publicados na internet, e por aí vai, sempre que tornados públicos. Os dados seguem todas as normas de controle de privacidade da LGPD.
  • O outro, chamado CORAA, contém mais de 600 horas de gravações da língua portuguesa, de diversas regiões do Brasil, provenientes de quatro conjunto de dados pré-existentes, mas agora auditadas pelos alunos da universidade. A multidiversidade do conteúdo disponibilizado oferece, por exemplo, maior diversidade regional na criação de futuros aplicativos de conversação, respeitando sotaques, culturas e costumes locais. O objetivo é chegar a 1200 horas de gravações na próxima versão.
  • E o terceiro, o feto Carolina, contém informações sobre mais de 120 bilhões de palavras e termos em português, que estão sendo anotados e etiquetados por tipologia e origem, oferecendo um amplo leque de detalhes sobre sintaxe, semântica, morfologia.

"Vemos essas iniciativas como estruturantes para o mercado, uma vez que os data sets poderão ser usados livremente tanto por acadêmicos quanto por empresas", comenta Claudio Pinhanez, gerente de pesquisa em Inteligência Conversacional do IBM Research Brasil e vice-diretor do C4AI.

Este é um conteúdo exclusivo para assinantes.

Cadastre-se grátis para ler agora
e acesse 5 conteúdos por mês.

É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.

Co-Inteligência: o que é e como colaborar com a IA Generativa

Inteligência Artificial

Co-Inteligência: o que é e como colaborar com a IA Generativa

A Co-Inteligência gira em torno da colaboração entre a Inteligência Artificial e humanos, aproveitando os pontos fortes de cada um. Entenda

Inteligência Artificial: Foque no desempenho humano

Inteligência Artificial

Inteligência Artificial: Foque no desempenho humano

Uma nova pesquisa mostra que é preciso valorizar as habilidades exclusivas dos seres humanos para progredir no uso das tecnologias.

Inteligência Artificial: 10 tendências quentes para 2030

Inteligência Artificial

Inteligência Artificial: 10 tendências quentes para 2030

A nova pesquisa produzida pelo Ericsson ConsumerLab convidou 6.500 usuários pioneiros de IA para avaliar e identificar quais serão as principais tendências para a próxima década.

IA Responsável? Só no papel...

Inteligência Artificial

IA Responsável? Só no papel...

Recente pesquisa mostrou que as empresas de tecnologia não estão tomando as medidas apropriadas em relação ao uso de IA Responsável

IA e gestão da inovação se encontram

Inteligência Artificial

IA e gestão da inovação se encontram

A inovação na IA não é apenas a adoção de novas tecnologias. Ela precisa estar integrada à estrutura da criatividade e do crescimento organizacional.

Dados: o alto custo do GPT-4o

Inteligência Artificial

Dados: o alto custo do GPT-4o

Considerando que o ChatGPT está cada vez mais integrado em tecnologias como a da Apple é preciso entender o que estamos "trocando" no momento que usamos a aplicação gratuitamente.