Cuando me encontré con ANOVA, el instructor habló sobre DF (error), SS (error), etc. ¿Qué indican estos términos de error?

Imagine que tiene una variable dependiente y que se distribuye con alguna variación. Digamos también que hay dos variables independientes x1 y x2 que explican la variable dependiente y. Entonces, la variación total en y se puede dividir en la variación que se explica por las variables independientes (la suma de regresión de los cuadrados (Regresión)) y la variación residual (la variación que no se explica por ninguna de las variables independientes, o la suma de cuadrados de error (Error) en su notación). Cuando haya dicho n número de observaciones emparejadas {y, x1, x2} y ajuste una regresión lineal de y en x1 y x2, estimará 3 parámetros; El coeficiente para cada una de las dos variables explicativas y el término constante. El grado de libertad residual / error, lo que su instructor denota como df (Error), es el número de unidades en el cálculo de una estadística (en el caso de ANOVA es la estadística F) que pueden variar libremente. Entonces, para los grados de libertad del denominador en el estadístico F esto será n-3 (df (Error)), para los grados de libertad del numerador será 2 (df (Regresión), que simplemente es el número de coeficientes estimado excluyendo la constante).

He tratado de evitar el uso de mucha notación matemática y espero que puedas comprender el concepto sin él.