Análise
- Na análise descriptiva utilízanse procedementos numéricos para describir e analizar os datos.
- A distribución conxunta dunha variable bidimensional (X, Y) proporciona a probabilidade de que X tome un valor específico x e Y tome un valor específico y de forma simultánea.
- As distribucións marxinais son as distribucións de probabilidade individuais de cada variable, obtidas a partir da distribución conxunta.
Medidas de centralización e dispersión marxinais
Chámanse medidas de centralización e dispersión marxinais ás medidas de centralización e dispersión individuais de cada variable, X e Y, obtidas a partir da distribución conxunta.
Centrarémonos na media, varianza e desviación típica.
Media
A media é o promedio aritmético dun conxunto de puntuacións.
Varianza
A varianza mide a dispersión dun conxunto de datos. Defínese matematicamente como a media das diferenzas ao cadrado con respecto á media.
Desviación típica
É a raiz cadrada da varianza. Tamén reflicte a variabilidade dunha distribución, como a varianza, pero a desviación típica exprésase nas mesmas unidades que os valores orixinais.
Regresión e correlación
A dependencia estatística entre dúas variables aleatorias bidimensionais X e Y implica que os valores que toma unha variable dependen dos valores que toma a outra variable.
O estudio da relación que existe entre as dúas variables X e Y, pode facerse:
- Gráficamente, mediante o diagrama de dispersión, como se viu no apartado anterior.
- A través de medidas numéricas tales como a covarianza ou o coeficiente de correlación.
En caso de haber relación entre elas, utilízanse as rectas de regresión para poder "predicir" valores dunha a partir da outra.
Covarianza
É unha medida da asociación lineal existente entre dúas variables. Resume a información contida no diagrama de dispersión. Presenta a seguinte expresión:
Desenvolvendo a expresión anterior obtense:
Coeficiente de correlación
É unha medida do grao de asociación lineal existente entre dúas variables, pero a diferencia da covarianza, non depende das unidades de medida. Defínese como:
Interpretación
- O seu signo indica se a asociación é positiva ou negativa, e vale 0 cando hai ausencia de asociación lineal.
- −1 ≤
≤ 1.- Valores próximos a -1 indican forte asociación lineal negativa
- Valores próximos a 1 indican forte asociación lineal positiva
- Valores próximos a 0 indican ausencia de asociación lineal (pero pode existir outro tipo de asociación, por exemplo exponencial, cuadrática etc.)/ etc.)
- Non se debe interpretar o coeficiente sen ver previamente o diagrama de dispersión (podería por exemplo haber algún dato atípico)
Rectas de regresión
A recta de regresión de Y sobre X proporciona os valores aproximados de Y coñecidos os de X, e ten por ecuación:
A recta de regresión de X sobre Y proporciona os valores aproximados de X coñecidos os de Y, e ten por ecuación: