Fisicamente, são as máquinas instaladas no Centro de Supercomputação de Barcelona, o MareNostrum 5, que fazem o (enorme) trabalho de processamento para que as máquinas possam “aprender” as 24 línguas europeias - português incluído, claro -, mais os 11 idiomas adicionais que os programadores e linguistas consideraram relevantes para treinar o Grande Modelo de Linguagem (LLM, na sigla inglesa)..Em termos de conhecimento, o projeto conta com especialistas de vários países europeus, mas na primeira linha com a empresa portuguesa especializada em linguagem, machine learning e Inteligência Artificial Unbabel, em consórcio com o Instituto Superior Técnico e o Instituto de Comunicações. André Martins, vice-presidente de IA e de Investigação na Unbabel, e professor no Técnico, faz a ponte entre estas instituições e tem estado envolvido em cada etapa do processo de desenvolvimento..“O grande objetivo deste projeto é desenvolver modelos de linguagem que possam ser usados para tradução, para sinalização. Criámos um modelo que suporta línguas europeias”, conta André Martins ao DN. “Obtivemos [no centro de computação] uma alocação de cerca de 2 milhões de horas [de processamento], o que permite ter modelos com dezenas de milhares de milhões de parâmetros que possam ser usados com modelos de linguagem. Lançámos há 3 meses um modelo que tem 1,7 mil milhões de parâmetros e este, agora, tem 9 mil milhões de parâmetros. O objetivo final, que vai ser produzido no princípio do próximo ano, é ter um modelo que tem 22 mil milhões de parâmetros.” .Ou seja, este EuroLLM - cujo consórcio de desenvolvimento conta ainda com a Universidade de Edimburgo, a Universidade Paris-Saclay, a empresa de IA Aveni, a Universidade Sorbonne de Paris, a Naver Labs e a Universidade de Amesterdão - está ainda num “milestone intermédio”. Mas é “um achievement bastante interessante porque, neste momento, é o melhor modelo feito na Europa, dentro desta ordem de grandeza, incluindo empresas europeias, como a Mistral e outras iniciativas que existem na área europeia para construir modelos de linguagem europeus”, diz André Martins..A infraestrutura do Amália.Apresentado com grande pompa pelo primeiro-ministro, Luís Montenegro, na WebSummit deste ano, em Lisboa, o “Grande Modelo de Linguagem em português de Portugal” - que depois, veio a saber-se, será batizado Amália - terá alicerces no EuroLLM..“Sim, isso é mais uma certeza do que outra coisa”, diz o especialista ao DN. “Embora haja naturalmente ainda muito trabalho que é preciso fazer. O que temos aqui é uma base para afinar o modelo. Para ser bom em português e funcionar bem no contexto em que tem de funcionar, vai ser mais computação adicional e bastante mais trabalho, mas este é o ponto de onde vamos começar.”.Um ponto que tem, até, a vantagem de ser mais económico, segundo as contas de André Martins: “Pelas estimativas que nós conseguimos fazer... Se convertermos quanto é que custam 2 milhões de [horas de processamento] em preços de cloud [na nuvem], se estivéssemos a usar a AWS [da Amazon] ou outro sistema semelhante, seria uma coisa que andaria à volta de 5 milhões de euros. Ora, para todo o projeto, que vai culminar neste modelo de 22 mil milhões de parâmetros, até agora usámos talvez 2 milhões ou qualquer coisa desse género...”.Além disso, o próprio facto de ser um sistema multilingue, apesar de oferecer desafios técnicos que, à partida, um LLM “nascido” a falar, por exemplo, inglês não tem, acaba por ter vantagens no fim da linha, também elas económicas. “A forma como o pricing [dos modelos norte-americanos] funciona não é bem por palavra, mas por token, que é uma subpalavra. E por serem muito centrados no inglês acabam por ter custos mais elevados nas outras línguas, porque os dados que são usados sub-representam os outros idiomas. Portanto, se alguém quiser vir a usar algum produto derivado do nosso LLM a nível comercial, isso irá traduzir-se em preços que poderão ser mais atrativos para línguas que não sejam em inglês”, afirma André Martins..Com financiamento europeu pelo programa Horizonte Europa e outras fontes públicas e privadas, o EuroLLM, sendo um projeto totalmente open source, apresenta-se, assim, ao mundo como uma fonte de dados utilizável por todos os que têm interesse em desenvolver tecnologia de IA de linguagem, preservando a cultura europeia. Além disso, ajuda a mostrar como “nós temos muito talento”, nas palavras de André Martins. “Às vezes achamos que Portugal não tem hipótese, que deve limitar-se a adotar as práticas que são decididas na Europa e não está envolvida em certas decisões. Mas projetos como este mostram que nós temos essa capacidade.”