Do Deep Blue ao AlphaZero

Publicado a

“Go” (em chinês, wéiqí) é um jogo de tabuleiro para dois jogadores, inventado na China há mais de 2500 anos, cujo objetivo é cercar mais territórios do que o oponente. Existe ampla literatura técnica e material de estudo sobre este jogo de estratégia que tem 20-45 milhões de jogadores, a maioria dos quais vivendo na China, Japão e Coreia. 

Em 1997, a inteligência artificial (AI) / “supercomputador” Deep Blue da IBM conseguiu derrotar o campeão mundial de xadrez, G. Kasparov. Porém, apenas quando a empresa DeepMind desenvolveu a AI AlphaGo tal foi possível no Go, o último bastião da superioridade humana em jogos de estratégia. O AlphaGo original utilizava uma combinação de técnicas de aprendizagem supervisionada e aprendizagem por reforço; foi treinado com milhões de partidas de Go jogadas por humanos e, em seguida, refinou as suas habilidades jogando contra si mesmo. Essa abordagem permitiu ao AlphaGo desenvolver estratégias inovadoras, surpreendendo até mesmo os maiores especialistas humanos. Uma versão de 2015 foi a primeira AI a derrotar (5-0) o campeão europeu de Go – Lee Hui – seguida por uma versão de 2016 que derrotou (4-1) Lee Sedol, um dos melhores jogadores de Go do mundo (18x campeão do mundo e nível 9-dan profissional, o mais elevado). No Future of Go Summit 2017, a versão Master do AlphaGo derrotou Ke Jie, o jogador número um do mundo à época, numa partida de três jogos.  

Em 2017, a DeepMind lançou o AlphaGo Zero. Ao invés do AlphaGo, o AlphaGo Zero não foi treinado com partidas de Go jogadas por humanos; em vez disso, ele aprendeu a jogar Go do zero, usando apenas as regras do jogo e jogando milhões de partidas contra si mesmo, com base no conhecimento previamente adquirido por aprendizagem de máquina, especificamente através de uma rede neural artificial. Essa abordagem permitiu ao AlphaGo Zero desenvolver estratégias completamente novas e superar o AlphaGo com apenas 40 dias de treino; num ambiente de laboratório na DeepMind, em Londres, o AlphaGo Zero derrotou de forma esmagadora (100 a 0) o AlphaGo Master. Ainda em 2017, AlphaZero, o seu sucessor, utilizando uma abordagem semelhante a AlphaGo Zero, tornou-se o melhor jogador do mundo de Go (e de xadrez). Após 34 horas de autoaprendizagem de Go, AlphaZero jogou contra o AlphaGo Zero, tendo ganho 60 jogos e perdido 40. A estratégia, o desempenho sobre-humano e alguns movimentos em momentos decisivos destas partidas foram classificados por especialistas humanos como alienígenas. 

A evolução do AlphaGo original até ao AlphaZero demonstra que os sistemas de AI podem aprender e melhorar de forma autónoma, sem necessidade de dados humanos para guiá-los e mostra que os sistemas de aprendizagem de máquina são mais poderosos e eficazes quando completamente autónomos e livres das restrições dos dados humanos. O AlphaZero foi em 2017… 

Consultor financeiro e business developer www.linkedin.com/in/jorgecostaoliveira

Diário de Notícias
www.dn.pt