s
INTELIGÊNCIA ARTIFICIAL

Por uma IA que trabalhe melhor com o português

Centro de Inteligência Artificial da USP, em parceria com a Fapesp e a IBM, se prepara para liberar três conjuntos de dados open source para treinamento de modelos NLP no nosso idioma

As máquinas estão cada vez melhores em entender a complexidade da linguagem humana. Cada vez que alguém treina um modelo, estamos um passo mais perto de integrar nossas máquinas com mais eficiência em nossas vidas. Acontece que a maioria dos modelos e dos conjuntos de dados usados para treiná-los estão em inglês. Treinar um modelo em português, por exemplo, tem desafiado os cientistas de dados. Os  conjuntos de dados existentes são, em sua maioria, proprietários e os poucos abertos, listados no fórum do AI Lab, versam sobre domínios específicos como saúde e gestão do pessoal e projetos.

Foi tentando resolver esse problema que, no seu primeiro ano, completados este mês, o Centro de Inteligência Artificial (C4AI), parceria entre IBM, USP e Fapesp, investiu na construção de três conjuntos de dados a partir de pesquisas concentradas tanto na modalidade escrita, quanto falada do português.

  • Um deles, batizado de Carolina é composto pelo maior conjunto de dados sintáticos disponível no Brasil, contendo notícias, blogs, tuites, textos jurídicos, teses, interações e comentários de consumidores publicados na internet, e por aí vai, sempre que tornados públicos. Os dados seguem todas as normas de controle de privacidade da LGPD.
  • O outro, chamado CORAA, contém mais de 600 horas de gravações da língua portuguesa, de diversas regiões do Brasil, provenientes de quatro conjunto de dados pré-existentes, mas agora auditadas pelos alunos da universidade. A multidiversidade do conteúdo disponibilizado oferece, por exemplo, maior diversidade regional na criação de futuros aplicativos de conversação, respeitando sotaques, culturas e costumes locais. O objetivo é chegar a 1200 horas de gravações na próxima versão.
  • E o terceiro, o feto Carolina, contém informações sobre mais de 120 bilhões de palavras e termos em português, que estão sendo anotados e etiquetados por tipologia e origem, oferecendo um amplo leque de detalhes sobre sintaxe, semântica, morfologia.

"Vemos essas iniciativas como estruturantes para o mercado, uma vez que os data sets poderão ser usados livremente tanto por acadêmicos quanto por empresas", comenta Claudio Pinhanez, gerente de pesquisa em Inteligência Conversacional do IBM Research Brasil e vice-diretor do C4AI.

Este é um conteúdo exclusivo para assinantes.

Cadastre-se grátis e tenha acesso a 5 conteúdos por mês.

É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.

Seus dados estão prontos para a IA?

Inteligência Artificial

Seus dados estão prontos para a IA?

A pressão está aumentando para que as empresas criem arquiteturas de dados que alimentem totalmente as transformações impulsionadas pela inteligência artificial

O negócio do BizOps? Alinhar estratégia e execução orientado por dados

Inteligência Artificial

O negócio do BizOps? Alinhar estratégia e execução orientado por d...

A função não existe sem fluência de dados, para melhorar a tomada de decisão e otimizar processos

Confirmado: a adoção da IA disparou em 2021

Inteligência Artificial

Confirmado: a adoção da IA disparou em 2021

Mas a escassez de talentos e a governança ainda são grandes obstáculos para a obtenção de valor

Então, a IA pensa ou não pensa?  É senciente ou apenas mimética?

Inteligência Artificial

Então, a IA pensa ou não pensa? É senciente ou apenas mimética?

O debate sobre a possibilidade de existência de uma IA com algum grau de consciência esquentou, diante do psicodrama tecnológico do engenheiro do Google em suas interações com o LaMDA

Sete tendências emergentes de IA para ficar de olho em 2022

Inteligência Artificial

Sete tendências emergentes de IA para ficar de olho em 2022

Analistas da CB Insights apontam novas tendências – bem como novas soluções para velhos problemas — relevantes para consumidores e empresa em diversos setores

A análise de dados em tempo real é vital hoje

Inteligência Artificial

A análise de dados em tempo real é vital hoje

Seus benefícios comerciais, independentemente do setor, continuarão a impulsionar a adoção