Regressão

Esse é  projeto 4 do curso ciência de dados impressionador, nele fomos apresentados a uma base de dados do scikit learn de casas na califórnia onde tinhamos que com modelos de regressão achar um que melhor prevesse os preços. Github com o projeto

Usamos 4 modelos:
Regressão linear simples - que fizemos um for para fazer a regressão de todas as possiveis duplas de colunas.
Regressão linear multipla - fizemos a regressão usando todas as colunas.
Árvore de regressão - que faz uma regressão baseada em uma árvore de decisão
SVR - que significa suport vector regression  em que podemos basicamente pegar os pontos que estão mais no extremo dos dados de duas classes diferentes que estão mais próximos, e usar esses pontos para determinar um hiperplano capaz de separar essas classes


                                   1                                              2                                                 3

1. Regressão linear múltipla:
mean absolute error -> 0.5296964012919464
mean squared error -> 0.5411287478470685

2. Árvore de regressão
mean absolute error -> 0.4670758255813954
mean squared error -> 0.5285224061284108

3. SVR:
mean absolute error -> 0.8674205743031635
mean squared error -> 1.3525489127697092

O mean absolute error, utiliza de valores absolutos, então caso tenha um outlier ele não é tão penalizado ja no mean squared error como é elevado ao quadrado, se houver a presença de outliers ele será muito mais discrepante.

Como pudemos ver nesse caso o modelo que melhor previu foi a árvore de decisão, porem o modelo de regressão multipla apresentou uma menor diferença entre os erros, o que nos leva a conclusão até vendo pelo gráfico formado que apresenta menos outliers.

Comentários

Postagens mais visitadas deste blog

Projeto Apresentação executiva

Primeiro Post