Base de dados com 282 milhões de tweets marca estudo sobre eleições brasileiras
- publicabcp
- 26 de mar.
- 4 min de leitura
Atualizado: 8 de abr.

O estudo The Interfaces Twitter Elections Dataset: Construction process and characteristics of big social data during the 2022 presidential elections in Brazil, publicado na revista PLOS One pelo grupo INTERFACES – Núcleo de Estudos Sociopolíticos dos Algoritmos e da Inteligência Artificial (UFSCar), documenta a criação de um extenso banco de dados sobre interações no Twitter (atualmente X) durante o processo eleitoral brasileiro de 2022.
A autoria do artigo é de Sylvia Iasulaitis, líder do grupo INTERFACES, em coautoria com Alan Demétrius Baria Valejo, Bruno Cardoso Greco, Vinicius Gonçalves Perillo, Guilherme Henrique Messias e Isabella Vicari. A equipe multidisciplinar é formada por pesquisadores das áreas de Ciência Política, Ciência da Computação e Ciência da Informação, e contou com o apoio da FAPESP no âmbito do projeto “Análise de grandes volumes de dados políticos e redes complexas”.
A pesquisa abrange desde o período pré-eleitoral até o pós-eleição, incluindo os eventos de 8 de janeiro de 2023, quando manifestantes invadiram os prédios do Executivo, Legislativo e Judiciário em Brasília. O conjunto de dados resultante, nomeado ITED-Br, reúne mais de 282 milhões de tweets e configura-se como um dos maiores acervos de dados políticos do tipo no mundo. De acordo com os editores da revista PLOS One, o dataset é considerado de grande valor para a pesquisa em Ciências Sociais e Políticas Computacionais.
Para garantir a preservação e o uso científico dos dados, o conjunto ITED-Br foi disponibilizado no GitHub do grupo INTERFACES, em conformidade com os termos de uso da plataforma. A base foi publicada em formato “desidratado”, ou seja, contendo apenas os identificadores das postagens e usuários, com dados anonimizados. O processo de “reidratação”, que permite recuperar os conteúdos originais via API do Twitter (X), está descrito na documentação que acompanha o repositório.
O principal objetivo do estudo foi descrever o processo de coleta e organização do conjunto de dados ITED-Br, construído a partir de interações públicas no Twitter sobre os principais candidatos à Presidência da República em 2022. Para isso, foram desenvolvidas estratégias específicas de coleta, combinando consultas por termos, perfis e postagens.
A equipe precisou contornar restrições técnicas impostas pela plataforma, como limites de acesso à API, por meio do desenvolvimento de um algoritmo próprio, denominado token farm. Dessa forma, foi possível gerenciar automaticamente o uso de diferentes chaves de acesso acadêmico, garantindo a continuidade da coleta mesmo diante das limitações impostas pela API.
A coleta de dados durou um ano e envolveu o armazenamento e o processamento de um volume expressivo de informações, o que exigiu o desenvolvimento de soluções específicas para organização, estruturação e análise. A infraestrutura limitada disponível impôs desafios adicionais, que foram superados com o uso de bibliotecas de código aberto e otimizações no ambiente de programação em Python.
Segundo os autores, o trabalho com big social data demanda competências interdisciplinares e articulação entre conhecimento técnico e sociopolítico, condição essencial para extrair valor informacional dos dados coletados.
Entre os principais apontamentos do estudo, os autores destacam que a descontinuidade da API acadêmica do Twitter, anunciada após a aquisição da plataforma por Elon Musk, torna improvável a realização de coletas futuras de mesma escala por instituições de pesquisa. Estima-se que, pelas tarifas atuais, a reprodução da base ITED-Br custaria mais de 1,5 milhão de reais, o que reforça seu valor científico e histórico.
A pesquisa também chama atenção para os limites do acesso público a dados digitais: embora as interações no Twitter sejam tecnicamente públicas, transformá-las em informação útil requer conhecimento especializado e infraestrutura compatível.
Perfil dos Autores
Sylvia Iasulaitis é professora doutora da Universidade Federal de São Carlos. Docente permanente dos Programas de Pós-Graduação em Ciência, Tecnologia e Sociedade e de Ciência da Informação. É coordenadora do curso de Ciências Sociais. Lidera o Interfaces - Núcleo de Estudos Sociopolíticos dos Algoritmos e da Inteligência Artificial, certificado pelo CNPq. Doutora em Ciência Política (UFSCar). Atua nas áreas de Ciência Social Computacional e Ciência de Dados Sociais.
Alan Demétrius Baria Valejo é professor adjunto e pesquisador do Departamento de Computação da Universidade Federal de São Carlos (DC-UFSCar). Graduou-se em Bacharelado em informática pelo ICMC-USP em 2012. Obteve o título de Mestre e Doutor em Ciência da Computação e Matemática Computacional pelo ICMC-USP em 2014 e 2019, respectivamente. Em 2020, realizou Pós-Doutorado na Universidade de São Paulo (FFCLRP-USP) pela FAPESP.
Bruno Cardoso Greco atua na área de Ciência da Informação e da Computação, com ênfase em Engenharia de Software e Teoria da Informação. Integrante do Interfaces - Núcleo de Estudos Sociopolíticos dos Algoritmos e da Inteligência Artificial, certificado pelo CNPq.
Vinicius Gonçalves Perillo é graduando em Ciência da Computação pela Universidade Federal de São Carlos (UFSCar). Formação com ênfase em Aprendizado de Máquina e Ciência de Dados. Atua como pesquisador no Núcleo de Pesquisa INTERFACES.
Guilherme Henrique Messias é graduando em Ciência da Computação pela Universidade Federal de São Carlos (UFSCar).
Isabella Vicari é doutoranda em Ciência Política na Universidade Federal de São Carlos (UFSCar), Mestra em Ciência, Tecnologia e Sociedade (2024) e Bacharel em Ciências Sociais (2021) também pela UFSCar, com dupla ênfase nas áreas de Ciência Política e Sociologia.
FICHA TÉCNICA
Título: The Interfaces Twitter Elections Dataset: Construction process and characteristics of big social data during the 2022 presidential elections in Brazil
Autores: Sylvia Iasulaitis, Alan Demétrius Baria Valejo, Bruno Cardoso Greco, Vinicius Gonçalves Perillo, Guilherme Henrique Messias, Isabella Vicari, Grupo INTERFACES Ano de Lançamento: 2025
Disponível em: PLOS One, vol. 20, n. 2
Base de dados ITED-Br disponível em: GitHub