O estudo de como os organismos aprendem com a experiência, para antecipar corretamente as recompensas, tem sido um campo de pesquisa produtivo há mais de um século, desde o trabalho psicológico de Ivan Pavlov. Em 1951, Marvin Minsky, então estudante de Harvard, criou um computador que poderia aprender continuamente através de reforços semelhantes para resolver um labirinto virtual.
Esta semana, em um artigo publicado na Nature, a DeepMind, subsidiária de IA da Alphabet, usou lições do Aprendizado por Reforço para propor uma nova teoria sobre os mecanismos de recompensa em nosso cérebro. Ao otimizar os algoritmos de Reinforcement Learning, os pesquisadores descobriram detalhes sobre como a dopamina ajuda o cérebro a aprender.
Embora empiricamente os pesquisadores de IA já soubessem que o Aprendizado de Reforço Distributivo é extremamente poderoso quando combinado com as Deep Neural Networks, os novos dados o validam como um caminho potencial para a IA que aprende de maneira mais semelhante ao cérebro humano.
“Quando somos capazes de demonstrar que o cérebro emprega algoritmos como os que estamos usando em nosso trabalho de IA, isso reforça nossa confiança de que esses algoritmos serão úteis a longo prazo – que eles se adaptarão bem a problemas complexos do mundo real, e vão interagir bem com outros processos computacionais. Existe um tipo de validação envolvida nesse processo: se o cérebro está fazendo isso, provavelmente é uma boa ideia”, disse o autor sênior Dr. Matt Botvinick, diretor de pesquisa em neurociência da DeepMind.
Um ingrediente-chave é que o aprendizado sobre a distribuição de recompensas fornece à Rede Neural um sinal mais poderoso para reagir de maneira robusta às mudanças no ambiente ou às mudanças nas regras.
- A aplicação prática dos algoritmos de Reinforcement Learning foi o tema da conversa entre Roger Magoulas, diretor da O’Reilly Media e Edward Jezierski, gerente do programa de aprendizado por reforço da Microsoft. Você saberia dizer como é possível reunir criatividade e curiosidade em um sistema de aprendizado? Vale ouvir a explicação.