s
INTELIGÊNCIA ARTIFICIAL

Por uma IA que trabalhe melhor com o português

Centro de Inteligência Artificial da USP, em parceria com a Fapesp e a IBM, se prepara para liberar três conjuntos de dados open source para treinamento de modelos NLP no nosso idioma

As máquinas estão cada vez melhores em entender a complexidade da linguagem humana. Cada vez que alguém treina um modelo, estamos um passo mais perto de integrar nossas máquinas com mais eficiência em nossas vidas. Acontece que a maioria dos modelos e dos conjuntos de dados usados para treiná-los estão em inglês. Treinar um modelo em português, por exemplo, tem desafiado os cientistas de dados. Os  conjuntos de dados existentes são, em sua maioria, proprietários e os poucos abertos, listados no fórum do AI Lab, versam sobre domínios específicos como saúde e gestão do pessoal e projetos.

Foi tentando resolver esse problema que, no seu primeiro ano, completados este mês, o Centro de Inteligência Artificial (C4AI), parceria entre IBM, USP e Fapesp, investiu na construção de três conjuntos de dados a partir de pesquisas concentradas tanto na modalidade escrita, quanto falada do português.

  • Um deles, batizado de Carolina é composto pelo maior conjunto de dados sintáticos disponível no Brasil, contendo notícias, blogs, tuites, textos jurídicos, teses, interações e comentários de consumidores publicados na internet, e por aí vai, sempre que tornados públicos. Os dados seguem todas as normas de controle de privacidade da LGPD.
  • O outro, chamado CORAA, contém mais de 600 horas de gravações da língua portuguesa, de diversas regiões do Brasil, provenientes de quatro conjunto de dados pré-existentes, mas agora auditadas pelos alunos da universidade. A multidiversidade do conteúdo disponibilizado oferece, por exemplo, maior diversidade regional na criação de futuros aplicativos de conversação, respeitando sotaques, culturas e costumes locais. O objetivo é chegar a 1200 horas de gravações na próxima versão.
  • E o terceiro, o feto Carolina, contém informações sobre mais de 120 bilhões de palavras e termos em português, que estão sendo anotados e etiquetados por tipologia e origem, oferecendo um amplo leque de detalhes sobre sintaxe, semântica, morfologia.

"Vemos essas iniciativas como estruturantes para o mercado, uma vez que os data sets poderão ser usados livremente tanto por acadêmicos quanto por empresas", comenta Claudio Pinhanez, gerente de pesquisa em Inteligência Conversacional do IBM Research Brasil e vice-diretor do C4AI.

Conteúdo exclusivo para membros da The Shift

Aproveite a promoção e assine

Virtual influencers encontram o metaverso

Inteligência Artificial

Virtual influencers encontram o metaverso

Também nos ambientes 3D, os influenciadores virtuais podem humanizar toda a identidade de uma marca e se tornar a representação mais pessoal dos valores de uma empresa

Quão justa é a IA do seu RH?

Inteligência Artificial

Quão justa é a IA do seu RH?

A expansão da inteligência artificial nas tarefas de recursos humanos vem aumentando a preocupação com vieses de algoritmos e desencadeando uma série de iniciativas para combatê-los

Cuidado! Você pode estar subestimando o trabalho com os dados

Inteligência Artificial

Cuidado! Você pode estar subestimando o trabalho com os dados

Paradoxalmente, a gestão de dados é o lado mais subvalorizado da IA hoje. O glamour está todo nos modelos. Muitas empresas esquecem que, sem dados de qualidade, não há modelo que funcione.

IA Neuro-Simbólica: chegamos à terceira onda da Inteligência Artificial

Inteligência Artificial

IA Neuro-Simbólica: chegamos à terceira onda da Inteligência Artifi...

A promessa é a de transcender os limites do Deep Learning e da IA Simbólica, aprendendo com conjuntos de dados de treinamento bem menores, tornando a aquisição de dados muito mais fácil

A Black Friday é a hora de colher os frutos das estratégias de IA

Inteligência Artificial

A Black Friday é a hora de colher os frutos das estratégias de IA

A inteligência artificial ajuda a oferecer uma melhor experiência para o consumidor por permitir que a marca conheça a fundo o cliente. Assim, as empresas se destacam da concorrência na Black Friday.

Por Marina Hortélio
Cuidado com termos como

Inteligência Artificial

Cuidado com termos como "IA para Todos"

Para a sociedade civil, existe um receio de que as Big Techs controlem a Inteligência Artificial