40pt

FACULTAT DE CIÈNCIES ECONÒMIQUES I EMPRESARIALS U.P.F.

ESTADÍSTICA Curs 1998-99, segon trimestre

Práctica en el aula informática 4: Tablas de contingencia. Regresión lineal simple.

Objetivos de la práctica:
 
Conviene recordar:
 



PRÁCTICA

Sigue las siguientes indicaciones y anota tus resultados en la hoja adjunta.

Vamos a trabajar con el fichero de datos pricecar.mtw (extraído de Frees, E.W.(1996) Data Analysis Using Regression Models. The business perspective, Prentice Hall). Son datos correspondientes a una muestra de 62 compradores de coches, para cada uno de los cuales se midieron siete variables:

lp10cm Sexo Sexo del comprador: 1 si hombre, 0 si mujer.
Renta Renta anual del comprador (en millones de pesetas).
Edad Edad del comprador.
Est.Civ. Estado civil del comprador: 1 si casado, 0 en otro caso.
Hijos Número de hijos del comprador.
Est.Univ. Nivel educativo del comprador: 1 si tiene estudios universitarios, 0 en caso contrario.
Precio Precio de compra del coche (en millones de pesetas).

  1. Abre el fichero de datos que está en el directorio
    I:estadistica

  2. Contrastes de independencia en tablas de contingencia.
    Consideraremos dos de las variables cualitativas del fichero pricecar: la variable binaria que indica si el comprador tiene estudios universitarios y la variable que mide el número de hijos del comprador. Construiremos la tabla de contingencia de estas variables y calcularemos el estadístico c2 para contrastar la hipótesis nula de independencia entre Est.Univ e Hijos.
    Stat ® Tables ® Cross Tabulation

    Variables: Hijos 'Est.Univ'

    Above and std. residual

    De esta manera MINITAB escribe una tabla que contiene en cada celda los valores
    Oij,   Eij y Oij-Eij
      ć
    Ö

    Eij
     
    .
    La última cantidad es lo que el programa llama Residuo estandarizado y tiene una distribución aproximadamente normal estándar si la hipótesis nula de independencia es cierta. Estos valores sirven para identificar en qué celdas hay mayores discrepancias entre Oij y Eij.

    ?`Cuál es el valor del estadístico c2? ?`Cuántos grados de libertad tiene? ?`Cuál es el punto crítico del test? ?`Cuál es el p-valor del test? ?`Consideras que es independiente el número de hijos del nivel de estudios?

  3. Repite el apartado anterior para 'Hijos' y 'Sexo'. Hazlo después con 'Hijos' y 'Est.Civ.'. ?`Te parecen lógicos los resultados obtenidos? ?`Por qué?

  4. Modelo de regresión lineal simple.

    Estudiaremos la regresión de 'Precio' frente a 'Renta'. Comenzaremos por hacer un gráfico de dispersión de las dos variables. ?`Crees que hay relación lineal entre las variables? ?`Cuántos compradores hay con renta mayor que la del comprador que compró el coche más caro?

  5. Haz ahora el análisis de regresión de 'Precio' frente a 'Renta'.
    Stat ® Regression ® Regression

    Response: Precio, Predictors: Renta

    Storage... Fits, Residuals.

    De esta manera los valores ajustados de y (los [^y]i) y los residuos del modelo ([^e]i = yi - [^y]i) se grabarán en dos columnas contiguas a los datos originales.

    Observa el listado de los casos (xi,Yi) que llaman la atención bien porque quedan muy lejos de la recta ajustada (señalados con una R) o bien porque su abscisa xi está muy lejos de la media [`x] (marcados con una X).

    En promedio, ?`cuánto gastarán en la compra de un coche los trabajadores que ganan 5 millones al año?

  6. Escribe el valor de los estimadores de a y b, así como los valores de sus errores estándares. Da intervalos de confianza 95% para a y b.

  7. ?`Qué porcentaje de la variabilidad total del precio del coche comprado se explica conociendo la renta de los compradores?

  8. Para hacer un gráfico de la recta de regresión ajustada usa la opción
    Stat ® Regression ® Fitted line plot
    Indica si los casos que que corresponden a los cuatro compradores con rentas más bajas están por debajo o por encima de la recta de regresión.

  9. Análisis de los residuos.

    Usa la opción

    Stat ® Regression ® residual plots
    para verificar que los residuos son aproximadamente normales, que no hay ninguno extremadamente alto y que están incorrelados con los valores ajustados. ?`Crees que los gráficos confirman estas tres cosas?

    Haz después el gráfico de los residuos frente a la variable regresora. Se parece el gráfico (xi,[^e]i) al gráfico ([^y]i[^e]i)? ?`Por qué?

  10. Si hubiéramos expresado las variables Precio y Renta en pesetas, żcuáles serían los valores de los estimadores de los coeficientes de la recta de regresión?

  11. Un ejemplo clásico.

    Los datos del fichero anscombe.mtw (abre ese fichero) constituyen un ejemplo clásico en regresión simple (ver, por ejemplo, Peña 1995, página 263, de donde hemos extraído los datos).

    Comprueba que las cuatro regresiones

    y(a) sobre x(a,b,c),
    y(b) sobre x(a,b,c),
    y(c) sobre x(a,b,c),
    y(d) sobre x(d),
    dan lugar a la misma recta (aproximadamente), que el valor del coeficiente de determinación R2 es similar en los cuatro casos y que el valor del estadístico t del contraste de H0:b = 0 es también muy similar en los cuatro casos. Escribe el valor común de [^(a)], [^(b)], R2 y t.

  12. Haz ahora los gráficos de las cuatro nubes de puntos junto con la recta de regresión ajustada, usando la opción
    Stat ® Regression ® Fitted line plot
    Indica para cada conjunto de datos si crees el modelo de regresión es apropiado y, si no es ese el caso, indica por qué no lo crees así.

Hoja de resultados

|c|l| Respuesta

2    
3
4
5
6
7
8
9 a
9 b
10
11
12


File translated from TEX by TTH, version 1.67.