Quem nos engana, a IA ou as nossas expectativas?
Já viu a “nova” ilusão de ótica da lata de Coca-Cola que vemos encarnada, mas a foto, na realidade, não contém um único píxel nesses tons? A criação do psicólogo japonês e especialista neste tipo de imagens Akiyoshi Kitaoka tornou-se rapidamente viral - só não bateu (ainda) o fenómeno que foi: “O vestido é dourado e branco ou azul e preto?” Lembra-se? É mais um exemplo, de entre centenas, de como os nossos sentidos são falíveis e manipuláveis.
Algo que levou Dimitris Papailiopoulos, engenheiro informático, professor associado da Universidade de Wisconsin-Madison, a questionar-se: Será que os atuais grandes modelos de IA generativa conseguem analisar estas imagens de uma forma mais correta?
No que toca à “acuidade visual”, tanto o ChatGPT-4, da OpenAI/Microsoft, quanto a mais recente versão do Gemini, da Google, na maioria das vezes são tão “enganados” quanto os seres humanos. Veem a lata encarnada; ou acham normais imagens impossíveis como o Triângulo de Penrose (objeto tridimensional que é possível desenhar, mas não pode existir na vida real, pois os lados não “encaixam”. Ou então a IA responde em “alucinação” - dá uma resposta sem nexo.
À publicação norte-americana, Papailiopoulos avisa que este não é um estudo científico, apenas um conjunto de observações que, tal como acontece habitualmente em ciência, levanta mais (e interessantes) questões sobre o funcionamento “visual” da IA.
Talvez esta tenha aprendido a interpretar a cor pelo contexto e não tecnicamente? - é a hipótese que avança.
Na mesma publicação, outro especialista, Blake Richards, professor de Ciências de Computação e Neurociências da Universidade McGill, concorda. Se a IA foi “ensinada” através de exemplos de contextualização - i.e., se aprendeu que olhamos para as cores (e formas, acrescento) pelos seus contextos, então irá sempre aplicar estes critérios em todos os exemplos que lhe mostremos.
Lembro eu: os grandes sistemas de IA generativa que usamos são baseados em modelos de linguagem - Large Language Models (LLM) - e não processos lógicos de análise e razão. Não devemos, por isso, esperar resultados objetivos e analíticos.
Regressemos ao exemplo da imagem da lata de Coca-Cola “encarnada” sem esta cor. Fizesse a máquina uma análise 100% objetiva, píxel a píxel, de cada foto que lhe é apresentada, nunca faria esta interpretação. Mas não haveria capacidade computacional no mundo para processar tantos dados!
A solução dos LLM é fazer análise estatística contextual entre as respostas mais dadas e encontrar aquelas que parecem satisfazer melhor - com resultados que são, a grande maioria das vezes, incríveis.
A IA “vê” a lata encarnada porque foi educada para, naquele contexto, dizer que é uma lata daquela cor. Isto não quer dizer que faça a mínima ideia, sequer, do que seja encarnado - não lhe pediram para fazer uma análise espectroscópica da cor, e a relação entre as duas coisas é algo que, se surgir, será só por necessidade. Afinal, as respostas da IA são geradas sempre por conveniência da tarefa do momento, nunca por algum processo de criatividade intrínseca.
Convém mesmo ter em mente este tipo de limitações quando lidamos com estes sistemas. O que fazem é fabuloso, mas (de uma forma até contraintuitiva) por serem baseados em linguagem e não em processos verdadeiramente lógicos, são menos exatos do que aquilo que esperaríamos de um computador - neste contexto, metaforicamente, “de um conjunto de fórmulas numa enorme folha Excel”.
Por isso, cada coisa que “sai” da IA generativa deve ser lida com alguma cautela.
Uma das melhores funcionalidades que o navegador Edge, da Microsoft, tem atualmente é a possibilidade de pedir ao Copilot (o assistente de IA com o ChatGPT-4) para fazer o resumo de qualquer página online. Funciona em qualquer língua e até de uma língua para outra (português inclusive).
Na última semana, pedi-lhe para resumir um extenso artigo da revista Time sobre as transformações económicas na Argentina que estão a ocorrer sob a Administração do presidente da direita radical Javier Milei. O Copilot fez uma síntese certinha exceto... quando escreveu que as medidas do novo líder argentino tinham “aumentado a inflação galopante e a pobreza”.
Era “só” o oposto do que estava escrito no artigo (que li antes na íntegra), onde se dizia, claramente, que a vitória de Milei se devia também ao desespero da população perante uma inflação galopante e a uma pobreza endémica, e o seu desafio era mudar este cenário. Aparentemente, nem o ChatGPT consegue ficar imune ao ambiente presente na sociedade de que tudo o que vem da chamada “extrema-direita” tem de trazer pobreza, independentemente dos factos apresentados.
Na mesma linha reporta o professor de IA Toby Walsh, da Universidade de Sydney, acerca das respostas da Google geradas por IA que esta empresa decidiu usar em substituição dos tradicionais links para páginas e de que aqui falei na semana passada.
Os erros começam a amontoar-se, como os mais pessimistas (realistas?) temiam. Walsh refere respostas como “os astronautas terem encontrado gatos na Lua”; “deve-se comer pelo menos uma pedra por dia, pois as pedras são ótimas fontes de minerais”; ou “a cola é ótima para pôr na pizza”.
O que raio está o Gemini a fazer? Apenas a refletir alguns dos disparates que encontra na internet e que, estatisticamente, lhe aparecem “bem classificados”.
A Google claro, vai corrigir (com seres humanos) estes erros rapidamente. Mas tudo isto são excelentes exemplos de como os LLM não têm noção do que estão a dizer - ou a ver.
Na realidade, estes sistemas respondem-nos aquilo que acham que queremos ouvir e ficam à espera dos elogios. Quando falham, pedem desculpa e dizem que “vão fazer melhor”. E sim, ajudam muito nas tarefas do dia a dia, mas estão - e estarão - longe de serem máquinas inteligentes ou, sequer, capazes de decidir ou criar por nós.
Editor do Diário de Notícias