Regressão
Esse é projeto 4 do curso ciência de dados impressionador, nele fomos apresentados a uma base de dados do scikit learn de casas na califórnia onde tinhamos que com modelos de regressão achar um que melhor prevesse os preços. Github com o projeto
Usamos 4 modelos:
Regressão linear simples - que fizemos um for para fazer a regressão de todas as possiveis duplas de colunas.
Regressão linear multipla - fizemos a regressão usando todas as colunas.
Árvore de regressão - que faz uma regressão baseada em uma árvore de decisão
SVR - que significa suport vector regression em que podemos basicamente pegar os pontos que estão mais no extremo dos dados de duas classes diferentes que estão mais próximos, e usar esses pontos para determinar um hiperplano capaz de separar essas classes
1. Regressão linear múltipla:
mean absolute error -> 0.5296964012919464
mean squared error -> 0.5411287478470685
2. Árvore de regressão
mean absolute error -> 0.4670758255813954
mean squared error -> 0.5285224061284108
3. SVR:
mean absolute error -> 0.8674205743031635
mean squared error -> 1.3525489127697092
O mean absolute error, utiliza de valores absolutos, então caso tenha um outlier ele não é tão penalizado ja no mean squared error como é elevado ao quadrado, se houver a presença de outliers ele será muito mais discrepante.
Como pudemos ver nesse caso o modelo que melhor previu foi a árvore de decisão, porem o modelo de regressão multipla apresentou uma menor diferença entre os erros, o que nos leva a conclusão até vendo pelo gráfico formado que apresenta menos outliers.
Comentários
Postar um comentário