Como a ciência de dados mudou o jogo

Um excelente filme que mostra como a ciência de dados pode ser útil aos esportes é o Moneyball- O Homem que Mudou o jogo, estrelado por Brad Pitt e Jonah Hill. O filme conta a história de Billy Beane (Pitt), gerente do Oakland Athletics, time de beisebol americano, com a tarefa de montar uma equipe competitiva com um orçamento pequeno. Neste empreendimento, ele conhece Peter Brand (Hill), um economista formado pela Universidade Yale, que usa estatística e conhecimento de computação, analisando dados e produzindo insights para os negócios do time, neste caso, a montagem do elenco com jogadores desvalorizados no mercado, mas que possuíam as habilidades necessárias para se pontuar no jogo e obter uma boa performance.

Para implantar esta nova metodologia de seleção de atletas, Beane enfrenta uma série de desafios como a desconfiança de olheiros que preferem embasar suas escolhas na intuição, no feeling para o negócio, do que em dados e análise científica, dos treinadores, que não confiavam nas habilidades dos jogadores contratados para formar o elenco, bem como os resultados iniciais da equipe, nada satisfatórios. No entanto, com o decorrer da temporada, os resultados obtidos pela equipe foram surpreendentes, quebrando o recorde de vinte vitórias consecutivas. Embora não tenha conquistado o título naquela temporada, a metodologia adotada por Beane levou a uma mudança de paradigma no esporte. Para ilustrar, vale dizer que o Red Sox venceu a série mundial no ano seguinte adotando a metodologia de Beane e Brand.

O trabalho desenvolvido por Peter Brand e implantada pelo Oakland Athletics era uma versão seminal do que hoje conhecemos como ciência de dados. Embora a estatística já fosse usada há décadas nos esportes, a forma como Brand fez uso dela foi original, o que nos leva a, de fato, classificá-la como ciência de dados. Enquanto a estatística formula um problema e coleta dados através de pequenas amostras com o objetivo de compreender o comportamento do todo, a ciência de dados faz uso de grandes volumes de dados para a realização de suas análises, aliando conhecimentos de matemática e estatística com ciência da computação com o objetivo de solucionar problemas de negócios.

A Ciência de Dados surge no início dos anos 2000, quando a bolha da internet permitiu a produção abundante de dados proveniente das interações de usuários com sites como os de compras e redes sociais. Na época, ainda não haviam ferramentas computacionais capazes de avaliar grandes volumes de dados. Com o avanço da tecnologia, foi possível o desenvolvimento de equipamentos robustos o suficiente para a realização de análises precisas, extraindo de dados brutos, informações capazes de orientar a tomada de decisão. Esta revolução tecnológica levou a um crescimento exponencial na procura pelo cientista de dados, o profissional capaz de efetuar esta análise e produzir conhecimento de negócios. Hoje, a ciência de dados já é amplamente usada para orientar gestores em diversas áreas de negócios. Era de se esperar, então, que os esportes também embarcassem nessa onda, utilizando as diversas técnicas da ciência de dados para aprimorar suas atividades.

Uma das ferramentas utilizadas pelo cientista de dados é o aprendizado de máquina, machine learning (ML), que, basicamente, consiste na capacidade de computadores aprenderem sem que sejam explicitamente programados para isso. Existem três formas de como as máquinas podem aprender. Uma delas é o aprendizado supervisionado, onde é fornecido um conjunto de dados históricos com informações de entrada (fatos ou características) e saídas (resultados). Os dados são observados por meio de algoritmos capazes de extrair regras que expliquem a dinâmica do sistema em consideração. A outra forma que o computador usa para aprender é de forma não supervisionada. Neste caso, são fornecidos dados de entrada, mas que não possuem resultados a eles associados. A tarefa do algoritmo é descobrir padrões nestes dados. Por último, existe o aprendizado por reforço, em que o computador interage com um ambiente dinâmico, e que são fornecidas punições ou premiações pelo desempenho na busca por determinado objetivo. Como exemplo, podemos citar um jogo de xadrez entre um humano e uma máquina, em que o último aprende da interação com o primeiro.

Os diversos algoritmos de machine learning têm sido usados cada vez de forma mais frequente por scouts de equipes esportivas com o objetivo de aprimorar a sua competitividade. Por exemplo, um dos problemas que contribuem de forma mais significativa para redução do nível de atuação de uma equipe esportiva, em especial em esportes de contato como o futebol, é o índice de lesões em seus jogadores. Sendo assim, a criação de um modelo que permitisse a prevenção de lesões com um nível elevado de acurácia seria algo muito bem recebido por treinadores e gerentes dessas equipes. E, de fato, isso vem sendo amplamente investigado.

Com a abundância de dados disponíveis hoje em dia, tanto por meio dos departamentos médicos como por meio de sites especializados, é possível testar diversos parâmetros, selecionando aqueles que serão mais efetivos para a elaboração de um modelo de previsão. Alguns exemplos de dados disponíveis para a elaboração de modelos de machine learning são níveis de resistência muscular, deficiência de flexibilidade, fraqueza e aquecimento inadequado. Podemos acrescentar, ainda, o número total de partidas disputadas por um jogador, o número de partidas consecutivas, o tempo médio em campo por partida, distância percorrida em cada jogo, idade, número de choques com outros jogadores e, principalmente, se o jogador saiu de campo lesionado.

Estes dados coletados são fornecidos para o computador, divididos em dois conjuntos, treino e teste. O primeiro conjunto de dados é utilizado para treinar o algoritmo e construir o modelo. O algoritmo avalia os diversos parâmetros de entrada e saída, encontrando a relação entre estes parâmetros e o resultado que se deseja prever. Após isso, com o modelo já construído, é fornecido ao computador o segundo conjunto com dados ainda desconhecidos com o objetivo de avaliar o nível de acurácia do modelo desenvolvido pela máquina. Por meio do conhecimento produzido através da análise dos dados, as comissões técnicas são capazes de desenvolver treinamentos mais eficientes a fim de aperfeiçoar a condição física e técnica dos jogadores e, ao mesmo tempo, prevenir o aparecimento de lesões. Isso pode ser obtido por meio de ajustes nas cargas de treinos, tanto em nível de equipe quanto em nível individual.

Os algoritmos de machine learning permitem que características de jogadores ainda em fase de formação como velocidade em tiros curtos, velocidade em tiros longos, resistência, explosão muscular, peso e altura sejam analisadas com o objetivo de fornecer uma classificação quanto a posição ideal a ser escalado cada jogador. Com essas informações, treinadores da base podem desenvolver treinamentos mais específicos para os jogadores, contribuindo para melhor desenvolver suas habilidades.

No entanto, a ciência de dados pode ser aplicada aos esportes, não apenas para contribuir para o desempenho em campo, mas também para dar o suporte para gestores escolherem atletas capazes de apresentar resultados satisfatórios. Com base em dados de aptidões físicas e psicológicas de atletas, pode-se criar modelos capazes de prever o seu desempenho e, assim, atribuir um valor de investimento compatível com este desempenho previsto.

Chama a atenção que até os nossos dias, as ciências de dados sejam ainda tão negligenciadas por dirigentes do futebol brasileiro em suas tomadas de decisão. Cito como exemplo a contratação, pelo Palmeiras, do atacante Borja em 2016 que, na época, assumiu o posto de terceira contratação mais cara de nosso futebol e a mais cara do Palmeiras. O critério para a decisão de tão vultuoso empreendimento foi tão somente o seu desempenho na Libertadores daquele ano. Não havia em seu histórico nada que justificasse um investimento tão elevado. Pode-se ainda citar o exemplo do jogador Neymar, contratação mais cara da história do futebol mundial, cerca de 220 milhões de euros. Embora o talento de Neymar seja inegável, o altíssimo investimento não foi justificado pelas suas atuações. Ele não apenas jogou menos partidas do que o esperado, como ainda provocou desavenças com companheiros de equipe.

No entanto, vale destacar que a ciência de dados é uma área do conhecimento ainda bastante jovem quando comparadas com outras áreas, como a estatística propriamente dita. Sua popularização ocorreu nos últimos dez anos. Muitas organizações ainda não conhecem plenamente como trabalha o cientista de dados e como ele pode contribuir significativamente para seus negócios. Portanto, podemos esperar que, nos anos à frente, cada vez mais, possamos ver a atuação deste profissional contribuindo com suas habilidades para o desenvolvimento dos esportes. É de se esperar que sejam desenvolvidas ferramentas cada vez mais eficientes em desvendar padrões ocultos nos dados e capazes de analisar volumes maiores e de forma mais ágil. Isso permitirá a criação de modelos de maior acurácia. Isso irá revolucionar a forma como se faz negócios nos esportes, como se elaboram estratégias de treinamentos, como escalar jogadores em posições adequadas com seu perfil físico e psicológico. As equipes que não forem capazes de perceber essa tendência, certamente ficarão para trás.