Repositório contendo conjunto de dados utilizados para treino e teste dos algoritmos de machine learning: Naive Bayes, SVM e Decision Three. Esse projeto faz parte do estudo realizado para o meu trabalho de conclusâo de curso de Ciências da Computação na Universidade Tiradentes (UNIT).
Foi realizado um estudo em que foram coletadas mensagens do Twitter entre as 13:00 e 00:00 do dia 8 de janeiro de 2023. Esses dados foram utilizados para criar um subconjunto de treinamento e teste, a fim de classificar os textos, enquanto o restante foi utilizado para realizar uma análise geral de sentimentos e polaridade. Em breve, será possível acessar o meu texto contendo os resultados da análise realizada.
Analisar a reação da população à manifestação, identificando de forma imparcial seus principais sentimentos e opiniões para compreender seu impacto político e social, e contribuir fornecendo informações adicionais sobre o evento.
Para alcançar o objetivo geral, delineiam-se os seguintes objetivos específicos compreendidos nesse projeto:
- Elaborar uma pipeline de coleta e análise com um conjunto representativo de tweets relacionados ao ocorrido, usando ferramentas de mineração de dados e análise de texto;
- Identificar os temas mais frequentes e relevantes nos tweets, como reivindicações políticas, sociais ou econômicas, apoio ou não as ações feitas, etc;
- Classificar os tweets de acordo com o sentimento expresso pelos usuários, por exemplo, positivo, negativo ou neutro, para entender a polarização das opiniões e as percepções sobre a tentativa de golpe;
- Identificar os usuários mais influentes na discussão sobre a revolta com grafos,gráficos, etc, avaliando o número de seguidores, retweets e respostas recebidas;
- Identificar o papel das redes sociais na organização e mobilização da tentativa, avaliando a proporção de tweets que mencionam hashtags específicas, como #ForaBolsonaro, #grevegeral, etc;
|- scripts
|- botometer
|- analyser.py
|- config.ini
|- main.py
|- utils
|- random.py
|- LICENSE
|- README.md
|- Sentiment_analysis.ipynb
|- search_archive.py
|- utils_convert.py
- aa: identificador
- bb: identificador
- cc: identificador
- dd: identificador
- ee: identificador
- ff: identificador
- gg: identificador
- hh: identificador