Imagine o leitor que, a dada altura, por uma questão estratégica de saúde pública, o Estado português decidia fazer um teste de HIV a todos os cidadãos. Uma espécie de rastreio nacional. É claro que a ideia seria polémica por inúmeras razões. As implicações éticas e sociais seriam mais do que muitas. O teor «paternalista» de uma decisão deste tipo também seria muito pouco consensual. Os efeitos negativos de tal decisão seriam, muito provavelmente, em muito maior número do que os efeitos positivos. No entanto, esqueçamos por um momento toda a discussão desse tipo e abordemos as implicações matemáticas associadas a políticas deste género. Essas questões matemáticas são o tema central deste texto.

Comecemos por sublinhar alguns números relacionados com um teste de HIV (e com muitos outros testes médicos). Probabilisticamente falando, analisemos os chamados falsos positivos e falsos negativos. Um falso positivo é alguém não infectado que, por azar, obtém um resultado positivo, acusando um problema inexistente. Um falso negativo é alguém infectado que, por azar, obtém um resultado negativo, não acusando o problema que existe. As probabilidades associadas a falsos positivos/falsos negativos costumam constar no papelinho que acompanha o teste médico, para que quem o faz tenho conhecimento sobre as margens de erro. No caso do HIV, essas probabilidades podem apresentar a seguinte ordem de grandeza (utilizámos alguns arredondamentos para facilitar contas):

Probabilidade (Resultado positivo se a pessoa não estiver infectada) = 3/200 (1,5%)
Probabilidade (Resultado negativo se a pessoa estiver infectada) = 1/200 (0,5%)

Olhando para estes números, o teste parece bastante fiável. E realmente é.

Imagine o leitor que era um dos cidadãos portugueses, alvo do hipotético teste imposto pelo Estado. E, numa bela manhã (não muito bela…), lhe telefonavam para casa dizendo que o resultado do teste tinha sido positivo. Mesmo se tivesse a certeza de que não tinha tido comportamentos de risco, ficava ou não ficava em pânico? E, depois de ler as probabilidades no panfleto informativo, ficava ou não aterrorizado?

Para melhor percebermos a matemática subjacente a situações deste tipo, temos de abordar um importante teorema primeiramente formulado pelo pastor presbiteriano e matemático inglês Thomas Bayes (1702–1761).

Esse teorema, conhecido por Teorema de Bayes, aparece descrito na sua obra póstuma An Essay towards solving a Problem in the Doctrine of Chances (1763) e consiste no tratamento de uma pergunta inversa. Para que melhor se entenda a lógica dessa questão inversa, voltemos ao exemplo do teste do HIV. Nós sabemos que a probabilidade de um resultado ser positivo se a pessoa não estiver infectada é apenas 1,5%. No entanto, a pergunta importante para a pessoa que recebe o resultado positivo é a inversa:

Qual é a probabilidade de uma pessoa não estar infectada sabendo que o resultado do teste foi positivo?

O que a pessoa sabe é a positividade do seu resultado e não a informação sobre a sua saúde. É exactamente nessa medida que se trata da pergunta inversa; a informação que é conhecida é exactamente a contrária da que baseia a probabilidade que consta no panfleto informativo.

Observando a informação relativa a 1,5%, pode pensar-se erroneamente que uma pessoa que recebe um resultado positivo está infectada com 98,5% de certeza. O Teorema de Bayes esclarece exactamente o porquê dessa conclusão ser errónea e aponta o caminho para a boa conclusão.

Tal como muitos outros conceitos matemáticos, o Teorema de Bayes pode ser magnificamente ilustrado com peças de lego. Isso foi feito por Will Kirt (Universidade de Nevada) no seu blog probabilístico Count Bayesie. Imagine uma zona pintada com duas cores (verde e vermelho) e considere que dois terços da zona estão pintados de verde e o restante terço de vermelho (vid. infra Figura 1).

Contando as «bolinhas de lego», e assumindo que se aponta ao acaso para uma bolinha, podemos resumir a informação probabilística da seguinte forma:

Probabilidade de a bola ser verde = P(Verde) = 40/60 = 2/3
Probabilidade de a bola ser vermelha = P(Vermelho) = 20/60 = 1/3

Imagine agora uma peça amarela a invadir ambas as zonas (Figura 2). No caso exposto, a região amarela corresponde a 6/60 (6 bolinhas em cima das sessenta que constituem a zona total), ou seja,

Probabilidade de Amarelo = P(Amarelo) = 6/60 = 1/10

Em Teoria das Probabilidades, bem como na vida real, tudo muda quando mudamos de universo. A alma das probabilidades é a informação: é vital saber exactamente o universo em que nos movemos. Isso leva ao conceito de probabilidade condicional. Qual é a probabilidade de amarelo se considerarmos apenas a zona vermelha? Ou, qual é a probabilidade de amarelo se considerarmos apenas a zona verde? O lego é bom porque se separa. A Figura 3 é auto‑explicativa.

P(Amarelo se o universo for apenas a zona verde) = 2/40 = 1/20
P(Amarelo se o universo for apenas a zona vermelha) = 4/20 = 1/5

É claro que se somarmos P(Amarelo se verde) x P(Verde) + P(Amarelo se vermelho) x P(Vermelho) obtemos novamente a P(Amarelo) = 6/60 = 1/10. Até aqui tudo bem, mas imagine o leitor que deseja saber a probabilidade de estar numa zona vermelha sabendo que o universo a considerar é o tapado pela peça amarela P(Vermelho se amarelo).

É sobre esta questão simples que incide o Teorema de Bayes. Antes de mais nada, convém frisar que P(Amarelo se vermelho) *não é o mesmo que P(Vermelho se amarelo). Na primeira, o universo em causa é a peça vermelha; na segunda, o universo em causa é a peça amarela. Por isso, para respondermos à questão temos de concentrar a nossa atenção na zona amarela, como se mostra na Figura 4.

O universo são as seis bolinhas respeitantes à zona amarela (Figura 4a). Dessas seis bolinhas, quatro estão na zona vermelha (parte direita da Figura 4b). Sendo assim,

P(Vermelho se amarelo) = 4/6 = 2/3

Repare-se que nós sabíamos que P(Amarelo se vermelho) era igual a 4/20, ou seja, 1/5. Como a P(Vermelho) = 20/60, 1/5 x 20/60, que resulta em 4/60, constitui a zona amarela que está sobre a região vermelha (quinta parte da parcela vermelha, quatro dos sessenta quadradinhos). Por outro lado, P(Amarelo se verde) x P(Verde) + P(Amarelo se vermelho) x P(Vermelho) = 6/60 corresponde à zona amarela na sua globalidade (seis dos sessenta quadrados). A probabilidade pretendida pode ser calculada através de

P(Vermelho se amarelo) = (4/60) / (6/60)

Este cálculo representa o rácio entre a zona amarela sobre a vermelha e a zona amarela total. É isto o Teorema de Bayes, concentrar a atenção exclusivamente na zona amarela.

Voltemos ao exemplo do HIV. Arredondando números para simplificar, consideremos em Portugal a existência de 10.500.000 pessoas não infectadas e 70.000 pessoas infectadas (não andará longe da verdade). Considerando este arredondamento, por cada 151 pessoas, 1 pessoa estará infectada. Considerando um rectângulo de lego com dimensões 200x151 (cada bolinha designa 350 portugueses), apenas a última coluna diz respeito a pessoas infectadas (Figura 5, verde significa «não infectado», vermelho significa «infectado»).

Considere-se agora uma zona amarela, respeitante às pessoas assustadas que recebem resultados positivos (Figura 6). Usando os números já mencionados, 199 das bolinhas vermelhas têm de ser sobrepostas com a cor amarela, uma vez que 199 das 200 bolinhas infectadas recebem resultados positivos. Por outro lado, 450 das 30 000 bolinhas verdes têm de ser sobrepostas com a cor amarela (1,5% de falsos positivos).

Quando um cidadão recebe um resultado positivo, para determinar a probabilidade de estar infectado, ele tem de pensar apenas no universo das pessoas que receberam resultados positivos. No esquema com lego, ele tem de olhar exclusivamente para a zona amarela, correspondente ao universo dos positivos (Figura 7).

A zona amarela tem 450+199 bolinhas, ou seja, 649 bolinhas respeitantes a positivos. Dessas 649 bolinhas, há 199 infectadas e 450 não infectadas. Sendo assim, a probabilidade de um positivo não estar infectado ainda é 450/649, praticamente 70%! Ou seja, mesmo recebendo um resultado positivo, a pessoa ainda tem 70% de chances de não estar infectado. Muito contra‑intuitivo, mas um facto matemático absolutamente verdadeiro. Este falso paradoxo acontece porque há muito mais pessoas não infectadas do que infectadas. Sendo assim, mesmo só havendo 1,5% de pessoas não infectadas a acusar positivo, esse conjunto de pessoas é razoavelmente grande no contexto dos positivos. Ao contrário, mesmo havendo 99,5% de pessoas infectadas a acusar positivo, por haver muito menos pessoas infectadas do que não infectadas, o conjunto não se revela assim tão grande no contexto dos positivos.

A hipotética medida de saúde pública, além das implicações éticas, políticas e sociais, também seria bastante errada do ponto de vista estritamente matemático. Estaria condenada a lançar preocupações totalmente desnecessárias.

No seu livro The Joy of X, o matemático americano Steven Strogatz (Universidade de Cornell) relata que vinte e quatro médicos alemães, ao serem questionados sobre a interpretação a dar quanto a um resultado positivo num teste médico, oscilaram as suas estimativas entre 1% e 90%! Oito pensaram que a probabilidade de manifestação de doença era 10% ou menos, outros oito disseram 90% e os restantes entre 50% e 80%. A resposta correcta, obtida através do Teorema de Bayes era 9%!

É claro que, na vida real, as pessoas vão aos médicos quando apresentam sintomas, o que influencia o que acabámos de analisar a alma das probabilidades é a informação e os sintomas trazem informação relevante. Além disso, quando recebem resultados positivos, muitas vezes, os médicos realizam novos testes para despistarem conclusões erróneas. Sendo assim, mesmo que manifestem desconhecimento quanto à matemática envolvida, os médicos têm procedimentos pragmáticos para lidarem com as suas dúvidas. No caso de um rastreio, testando todas as pessoas uma única vez, isso pode não se passar assim. Mesmo com boas intenções, uma medida preventiva desse género lança facilmente o caos. E esse caos explica-se através da matemática.