Repositório contém dois arquivos referente a dois projetos realisados em cima do mesmo conjunto de dados: "Portuguese Tweets for Sentiment Analysis". A ideia foi explorar o problema considerando 2 e 3 classes.
Em ambos os projetos, as etapas foram as seguintes:
- Pré-processamento dos dados
- Visualização dos dados
- Limpeza dos dados
- Tokenização
- Extração de features. Dois métodos foram testados:
- BOW (bag of words)
- TF-IDF (term frequency-inverse document frequency)
- Fit dos modelos
- Regressão Logística
- Naive Bayes
Nesse contexto, consideramos os tweets como pertencentes a uma das duas classes: "Positivo" ou "Negativo", com relação ao sentimento expresso pelo tweet.
Já nessa abordagem, consideramos uma terceira classe. Logo, um tweet pode ser "Positivo", "Negativo", ou "Neutro.