s
INTELIGÊNCIA ARTIFICIAL

Por uma IA que trabalhe melhor com o português

Centro de Inteligência Artificial da USP, em parceria com a Fapesp e a IBM, se prepara para liberar três conjuntos de dados open source para treinamento de modelos NLP no nosso idioma

As máquinas estão cada vez melhores em entender a complexidade da linguagem humana. Cada vez que alguém treina um modelo, estamos um passo mais perto de integrar nossas máquinas com mais eficiência em nossas vidas. Acontece que a maioria dos modelos e dos conjuntos de dados usados para treiná-los estão em inglês. Treinar um modelo em português, por exemplo, tem desafiado os cientistas de dados. Os  conjuntos de dados existentes são, em sua maioria, proprietários e os poucos abertos, listados no fórum do AI Lab, versam sobre domínios específicos como saúde e gestão do pessoal e projetos.

Foi tentando resolver esse problema que, no seu primeiro ano, completados este mês, o Centro de Inteligência Artificial (C4AI), parceria entre IBM, USP e Fapesp, investiu na construção de três conjuntos de dados a partir de pesquisas concentradas tanto na modalidade escrita, quanto falada do português.

  • Um deles, batizado de Carolina é composto pelo maior conjunto de dados sintáticos disponível no Brasil, contendo notícias, blogs, tuites, textos jurídicos, teses, interações e comentários de consumidores publicados na internet, e por aí vai, sempre que tornados públicos. Os dados seguem todas as normas de controle de privacidade da LGPD.
  • O outro, chamado CORAA, contém mais de 600 horas de gravações da língua portuguesa, de diversas regiões do Brasil, provenientes de quatro conjunto de dados pré-existentes, mas agora auditadas pelos alunos da universidade. A multidiversidade do conteúdo disponibilizado oferece, por exemplo, maior diversidade regional na criação de futuros aplicativos de conversação, respeitando sotaques, culturas e costumes locais. O objetivo é chegar a 1200 horas de gravações na próxima versão.
  • E o terceiro, o feto Carolina, contém informações sobre mais de 120 bilhões de palavras e termos em português, que estão sendo anotados e etiquetados por tipologia e origem, oferecendo um amplo leque de detalhes sobre sintaxe, semântica, morfologia.

"Vemos essas iniciativas como estruturantes para o mercado, uma vez que os data sets poderão ser usados livremente tanto por acadêmicos quanto por empresas", comenta Claudio Pinhanez, gerente de pesquisa em Inteligência Conversacional do IBM Research Brasil e vice-diretor do C4AI.

Este é um conteúdo exclusivo para assinantes.

Cadastre-se grátis para ler agora
e acesse 5 conteúdos por mês.

É assinante ou já tem senha? Faça login. Já recebe a newsletter? Ative seu acesso.

A IA produtiva precisa ser confiável

Inteligência Artificial

A IA produtiva precisa ser confiável

Durante o evento SAS Innovate 2024, a fornecedora mostrou soluções para auxiliar clientes a aproveitar os benefícios da tecnologia com segurança.

AI Index 2024 impressiona

Inteligência Artificial

AI Index 2024 impressiona

Mostra um avanço significativo da IA, conduzido principalmente pela iniciativa privada. Mas a corrida tem seus efeitos colaterais. Faltam avaliações robustas e padronizadas para a IA Responsável. Além disso, a IA vence os humanos em al...

A desilusão da IA Generativa

Inteligência Artificial

A desilusão da IA Generativa

Muitos heavy users exigirão além do que a tecnologia pode entregar, e as próprias corporações, sem políticas de inovação nem dados estruturados, deixarão de aproveitar a promessa de eficiência

Por Yuri Gitahy *
Poderes e limitações dos robôs

Inteligência Artificial

Poderes e limitações dos robôs

Daniela Rus, roboticista e diretora do MIT CSAIL em parceria com Gregory Mone mostram como a robótica pode auxiliar a humanidade no futuro em um novo livro.

E a IA dominou a pista

Inteligência Artificial

E a IA dominou a pista

O relatório anual Enterprise Tech 30, que publica a lista das startups de tecnologia corporativa mais promissoras, na visão dos grandes VCs, mostra startups de IA ocupando espaços do SaaS.

Bolha de IA Generativa? Talvez não...

Inteligência Artificial

Bolha de IA Generativa? Talvez não...

"Momento desânimo" na comunidade de IA. A constatação de que os bilhões de dólares investidos não vão retornar tão rápido, faz nascer a ideia de uma bolha de IA Generativa. Mas...