Análise
- Na análise descriptiva utilízanse procedementos numéricos para describir e analizar os datos.
- A distribución conxunta dunha variable bidimensional (X, Y) proporciona a probabilidade de que X tome un valor específico x e Y tome un valor específico y de forma simultánea.
- As distribucións marxinais son as distribucións de probabilidade individuais de cada variable, obtidas a partir da distribución conxunta.
Medidas de centralización e dispersión marxinais
Chámanse medidas de centralización e dispersión marxinais ás medidas de centralización e dispersión individuais de cada variable, X e Y, obtidas a partir da distribución conxunta.
Centrarémonos na media, varianza e desviación típica.
Media
A media é o promedio aritmético dun conxunto de puntuacións.
\[ \bar x=\frac {x_1+x_2+...+x_p}{p} \]
\[ \bar y=\frac {y_1+y_2+...+y_k}{k} \]
Varianza
A varianza mide a dispersión dun conxunto de datos. Defínese matematicamente como a media das diferenzas ao cadrado con respecto á media.
\[σ_{x}^{2}=\frac{Σ(x_i - \overline x)^2}{p}\]
\[σ_{y}^{2}=\frac{Σ(y_j - \overline y)^2}{k}\]
Desviación típica
É a raiz cadrada da varianza. Tamén reflicte a variabilidade dunha distribución, como a varianza, pero a desviación típica exprésase nas mesmas unidades que os valores orixinais.
\[σ_x=\sqrt{σ_{x}^{2}}\]
\[σ_y=\sqrt{σ_{y}^{2}}\]
Regresión e correlación
A dependencia estatística entre dúas variables aleatorias bidimensionais X e Y implica que os valores que toma unha variable dependen dos valores que toma a outra variable.
O estudio da relación que existe entre as dúas variables X e Y, pode facerse:
- Gráficamente, mediante o diagrama de dispersión, como se viu no apartado anterior.
- A través de medidas numéricas tales como a covarianza ou o coeficiente de correlación.
En caso de haber relación entre elas, utilízanse as rectas de regresión para poder "predicir" valores dunha a partir da outra.
Covarianza
É unha medida da asociación lineal existente entre dúas variables. Resume a información contida no diagrama de dispersión. Presenta a seguinte expresión:
\[σ_{x, y}=\frac{ \sum_{i=1}^{p} \sum_{j=1}^{k}(x_i - \overline x)(y_j - \overline y)n_{i, j} }{N}\]
Desenvolvendo a expresión anterior obtense:
\[σ_{x, y}=\frac{\sum_{i=1}^{p} \sum_{j=1}^{k}x_i \cdot y_j \cdot n_{i, j}}{N} - \overline {x} \cdot \overline {y}\]
Coeficiente de correlación
É unha medida do grao de asociación lineal existente entre dúas variables, pero a diferencia da covarianza, non depende das unidades de medida. Defínese como:
\[\rho_{x, y} = \frac {σ_{x, y}}{σ_x \cdot σ_y}\]
Interpretación
- O seu signo indica se a asociación é positiva ou negativa, e vale 0 cando hai ausencia de asociación lineal.
- −1 ≤ \(\rho_{x, y}\) ≤ 1.
- Valores próximos a -1 indican forte asociación lineal negativa
- Valores próximos a 1 indican forte asociación lineal positiva
- Valores próximos a 0 indican ausencia de asociación lineal (pero pode existir outro tipo de asociación, por exemplo exponencial, cuadrática etc.)/ etc.)
- Non se debe interpretar o coeficiente sen ver previamente o diagrama de dispersión (podería por exemplo haber algún dato atípico)
Rectas de regresión
A recta de regresión de Y sobre X proporciona os valores aproximados de Y coñecidos os de X, e ten por ecuación:
\[r_{y_{x}}:y-\overline {y}=\frac{σ_{xy}}{σ_{x}^2}(x-\overline {x})\]
A recta de regresión de X sobre Y proporciona os valores aproximados de X coñecidos os de Y, e ten por ecuación:
\[r_{x_{y}}:x-\overline {x}=\frac{σ_{xy}}{σ_{y}^2}(y-\overline {y})\]