Metodologia criada por aluna da Nova IMS ajuda a fazer do futuro algo menos incerto

Tese de mestrado de Carolina Vasconcelos vem aperfeiçoar uma das mais famosas ferramentas de previsão, utilizada nas páginas da Google e em diversas áreas da sociedade. Inovação valeu-lhe o prémio Young Research Award.

Publicado a:

26 Mai 2022, 05:00

Atualizado a:

26 Mai 2022, 05:00

De acordo com uma simples teoria das probabilidades, as hipóteses de o leitor encontrar hoje no Diário de Notícias um texto sobre Cadeias de Markov seriam ínfimas. Bem próximas de zero. Mesmo recorrendo ao princípio fundamental de uma Cadeia de Markov - um modelo matemático aplicado para a previsão de um estado futuro, tendo por base apenas o estado atual -, nada no jornal de ontem faria prever que este texto pudesse ser hoje publicado. Mas se à equação juntássemos algum contexto, como o facto de uma aluna ter arrecadado um prémio com uma tese de mestrado sobre o tema, de essa tese trazer um rasgo de inovação a uma área fundamental para tantos setores da sociedade, ou de este ser um jornal com atenção dedicada à ciência e investigação, então o leitor já poderia calcular que o texto seria, até, algo bem provável.

De uma forma bastante simplista, a entrada resume em parte as inovações apresentadas por Carolina Vasconcelos, aluna da Nova IMS (escola de Gestão de Informação da Universidade Nova), na dissertação de mestrado que lhe valeu um prémio Young Research Award do REM/ISEG - Economia.

O que Carolina desenvolveu foi uma nova metodologia estatística, aplicada às chamadas Cadeias de Markov, que vem refinar modelos de previsão e será útil para algo tão diverso quanto prever a evolução de uma pandemia, projetar retornos de investimentos em Bolsa ou antever comportamentos de consumidores. Ou seja, em todas as situações em que é importante tomarmos decisões baseadas em algum nível de certeza sobre o que poderá ocorrer, como simplesmente uma previsão meteorológica que nos ajuda a escolher a roupa para o dia seguinte.

Mas o que é, afinal, uma Cadeia de Markov? "Há um célebre aforismo que diz que basicamente tudo é um processo de Markov", responde Bruno Damásio, professor de Estatística e Econometria na Nova IMS, que orientou a tese de Carolina Vasconcelos e também ele se tem dedicado ao tema desde o mestrado e doutoramento. "De uma forma muito simples e intuitiva, é um processo que me permite estudar a probabilidade de eu ter um determinado fenómeno, tendo em conta o fenómeno que tenho hoje, sem precisar de dados passados", explica. Voltando ao exemplo da meteorologia, "se agora está sol, qual a probabilidade de continuar a estar bom tempo e qual a probabilidade de começar a chover?" É a isso que a Cadeia de Markov responde, "modelando a estrutura probabilista completa de uma variável e elaborando uma matriz de probabilidades de transição entre um estado e outro", acrescenta o professor.

Um dos exemplos mais presentes no nosso quotidiano da aplicação de Cadeias de Markov é "o algoritmo que regula o motor de busca da Google, o PageRank", segundo o qual a importância de uma página depende essencialmente da importância dos sites que possuem algum link para ela.

Aquela que é hoje uma das mais usadas ferramentas no campo das teorias das probabilidades começou com uma improvável ligação entre matemática e poesia para resolver um diferendo entre egos matemáticos na polarizada sociedade russa do início de século XX. Para responder ao "rival" Pavel Nekrasov, que advogava uma espécie de livre-arbítrio aplicado às probabilidades, Alexei Markov quis provar uma ideia de interdependência nas probabilidades, com a noção de que o que acontece a seguir está de alguma forma dependente do que acontece agora.

Para isso, passou horas a estudar um texto de um clássico romance russo escrito em verso, Eugene Onegin, de Alexander Pushkin, procurando padrões de sequências entre vogais e consoantes. A 23 de janeiro de 1913, Markov resumiu as suas descobertas num discurso à Academia Imperial de Ciências, em São Petersburgo, numa análise que em nada alterou a interpretação literária do poema, mas que abriu uma nova direção no campo das teorias de probabilidades.

Eliminou toda a pontuação e espaços em branco, colocando os carateres numa sequência longa e ininterrupta, e veriﬁcou que uma vogal era seguida por uma consoante em 87% das vezes, enquanto uma consoante era seguida por uma vogal 66% das vezes. Contou ainda 1104 pares de vogais e 3827 pares de consoantes; os 15 069 pares restantes consistiam de uma vogal e uma consoante, numa ordem ou noutra. Isso serviu a Markov para demonstrar que as probabilidades não eram aleatórias, mas sim dependentes da letra anterior.

Mais de 100 anos depois, e com as Cadeias de Markov estabelecidas como uma das mais poderosas ferramentas de modelação do mundo real, Carolina Vasconcelos desenvolveu na sua tese de mestrado uma nova metodologia estatística para refinar o processo. "Propõe uma nova generalização do modelo de Cadeias de Markov Multivariadas que permite também introduzir variáveis exógenas ao processo e considerar o seu efeito sobre as probabilidades de transição entre estados", explica. Ou seja, incorporar uma ou mais variáveis exteriores ao universo do objeto de estudo, mas que o podem condicionar (como ilustrado na entrada do texto).

Para testar, fez uma aplicação para modelar o retorno previsto no mercado de ações em diferentes contextos de taxas de juro. "Modelámos os retornos de mercado quando as taxas de juro tinham um valor máximo e um valor mínimo. E assim conseguimos ver as diferenças nas probabilidades em ambientes diferentes, numa economia em expansão ou numa economia em recessão", refere.

A metodologia, garante o professor, "é aplicável a várias situações". A escolha das variáveis exógenas depende "do investigador e do problema que tem à sua frente para analisar". "Ignorar o efeito de variáveis exógenas significa que não detetaríamos as mudanças das probabilidades de acordo com aos valores das co-variáveis. Nesse cenário, ter-se-ia uma visão limitada do processo estudado. Assim, esta abordagem permite entender como uma variável específica influencia um processo específico", acrescenta a aluna, que também introduziu "inferência estatística sobre os parâmetros" (atribuir um valor estatístico e um grau de incerteza a cada probabilidade) e, no final, deixou outro contributo, que foi "o desenvolvimento e implementação destas metodologias num software open source, o R", muito utilizado na estatística. "Toda a gente pode ver o código por detrás das funções e pode utilizar aquilo que desenvolvemos de forma gratuita, sem licenciamento", adianta Carolina, revelando que "já foram feitos mais de 1100 downloads" do package que desenvolveram, GenMarkov.

As possíveis aplicações são, como já vimos "muito transversais" e contribuirão para que o futuro seja um "lugar" cada vez menos rodeado de incertezas, algo com que nem sequer Alexei Markov terá sonhado quando andou a contar vogais e consoantes no poema de Pushkin.

rui.frias@dn.pt

Sociedade