domingo, 6 de diciembre de 2009

Regresión y correlación

Las técnicas de regresión y correlación cuantifican la asociación estadística entre dos o más variables. La regresión lineal simple expresa la relación entre una variable dependiente Y y una variable independiente X, en términos de la pendiente y la intersección de la línea que mejor se ajuste a las variables.

La correlación simple expresa el grado o la cercanía de la relación entre las dos variables en términos de un coeficiente de correlación que proporciona una medida indirecta de la variabilidad de los puntos alrededor de la mejor línea de ajuste- Ni la regresión ni la correlación dan pruebas de relaciones causa – efecto.

Regresión: El modelo de regresión lineal simple toma la forma

Y = a + bx,
donde
y = variable dependiente
x = variable independiente.
Los valores de la pendiente b y la intersección a se obtienen usando las ecuaciones normales escritas en la forma conveniente.
Correlación

El coeficiente de correlación lineal simple r es un número entre -1 y 1 que indica qué tan bien describe la ecuación lineal la relación entre las dos variables. Como se muestra en la siguiente figura, r se designa como positiva si Y se incrementa cuando lo hace X, y negativa si Y decrece al incrementarse X. Una r de cero indica una ausencia de relación entre las dos variables.
El coeficiente de correlación r es la raíz cuadrada del coeficiente de determinación:

Ejemplo

El gerente general de una planta de producción de materiales de construcción considera que la demanda de embarques de aglomerado puede estar relacionado con el número de permisos de construcción emitidos en el municipio durante el trimestre anterior.

El gerente ha recolectado los datos que se muestran en la tabla.

Si se pide determinar una estimación de los embarques cuando el número de permisos de construcción es 30.

En el siguiente diagrama de dispersión se puede ver que los datos no son perfectamente lineales; sin embargo, se puede hacer un enfoque lineal sobre este periodo corto.

Si se pide determinar una estimación de los embarques cuando el número de permisos de construcción es 30.

En el siguiente diagrama de dispersión se puede ver que los datos no son perfectamente lineales; sin embargo, se puede hacer un enfoque lineal sobre este periodo corto.


Se realizan los cálculos como se muestra en la siguiente tabla







martes, 3 de noviembre de 2009

GRÁFICO DE LOS ALUMNOS APROBADOS Y REPROBADOS EN EL PRIMER PARCIAL AGOSTO-OCTUBRE 2009, DE GRUPOS DE 5 SEMESTRE EN LA MATERIA DE PROBABILIDAD Y ESTADISTICA DEL CBTIS 13
COMPARACION EN RELACIÓN A TODOS LOS GRUPOS

COMPARACIÓN INDIVIDUALIZADA DE CADA GRUPO







viernes, 30 de octubre de 2009

MEDIDAS DE TENDENCIA CENTRAL



MEDIA


¿Qué es?

La media, de un conjunto finito de números, es igual a la suma de todos sus valores dividida entre el número de sumandos. Se puede hallar la media para variables cuantitativas.



¿Con qué otros nombres se le conoce?


· Media aritmética.
· Centro de gravedad.

· Promedio
· Media muestral (Cuando el conjunto es una muestra aleatoria
)



¿Para qué nos sirve?

Por ejemplo, si en una habitación hay tres personas, la media de dinero que tienen en sus bolsillos sería el resultado de tomar todo el dinero de los tres y dividirlo a partes iguales entre cada uno de ellos. Es decir, la media es una forma de resumir la información de una distribución (dinero en el bolsillo) suponiendo que cada observación (persona) tendría la misma cantidad de la variable.



¿Cuál es la fórmula para calcularla?




Ejemplo:



En matemáticas, Eric tiene las siguientes notas: 4, 7, 7, 2, 5, 3
n = 6 (número total de datos )
X = ( 4 + 7 + 7 + 2 + 5 + 3 )/ 6 = 28/6 = 4,8

La media aritmética de las notas de esa asignatura es 4,8. Este número representa el promedio.



Propiedades de la media aritmética

1. La suma de las desviaciones de todas las puntuaciones de una distribución respecto a la media de la misma igual a cero.

2. La media aritmética de los cuadrados de las desviaciones de los valores de la variable con respecto a un número cualquiera se hace mínima cuando dicho número coincide con la media aritmética.
3. Si a todos los valores de la variable se les suma un mismo número, la media aritmética queda aumentada en dicho número.
4 .Si todos los valores de la variable se multiplican por un mismo número la media aritmética queda multiplicada por dicho número.

Ventajas


  • Es la medida de tendencia central más usada.
  • Emplea en su cálculo toda la información disponible.
  • Se expresa en las mismas unidades que la variable en estudio.
  • El promedio se estable en el muestreo.
  • Es una valor único.
  • Es sensible a cualquier cambio en los datos (puede ser usado como un detector de variaciones en los datos).
  • Se emplea a menudo en cálculos estadísticos posteriores.
  • Es útil para llevar a cabo procedimientos estadísticos como la comparación de medias de varios conjuntos de datos.
  • Presenta rigor matemático.
  • En la gráfica de frecuencia representa el centro de gravedad.
Desventajas


  • Es sensible a los valores extremos.
  • No es recomendable emplearla en distribuciones muy asimétricas.
  • Si se emplean variables discretas o cuasi-cualitativas, la media aritmética puede no pertenecer al conjunto de valores de la variable.
  • Si el conjunto de datos es muy grande puede ser tedioso su cálculo manual.
  • No se puede calcular para datos cualitativos.
  • No se puede calcular para datos que tengan clases de extremo abierto, tanto superior como inferior.


MEDIANA



¿Qué es?

Mediana (Me): Valor que divide una serie de datos en dos partes iguales. La cantidad de datos que queda por debajo y por arriba de la mediana son iguales. Se puede hallar la mediana para variables cuantitativas, en las escalas de medición: ordinal, intervalar y absoluta.


¿Cómo calcularla?


1. Ordenamos los datos de menor a mayor.
2. Si la serie tiene un número impar de medidas la mediana es la puntuación central de la misma.

2, 3, 4, 4, 5, 5, 5, 6, 6 Me= 5

3 .Si la serie tiene un número par de puntuaciones la mediana es la media entre las dos puntuaciones centrales.

7, 8, 9, 10, 11, 12 Me= 9.5


Queda resumida en las siguientes fórmulas:

Si n (número de observaciones) es impar:


Si n es par:

Propiedades

  • La mediana está comprendida entre el valor mínimo y el valor máximo de los datos.
  • La mediana puede no coincidir con ninguno de los valores de los datos.
  • La mediana no contempla todos los valores de los datos.
  • La mediana es invariante si se disminuye una observación inferior a ella o si se aumenta una superior.
  • No es una operación interna en el conjunto numérico empleado, ya que pueden obtenerse valores en otro sistema numérico diferente al dado.
  • Conserva los cambios de origen y de escala.
  • No tiene elemento neutro ni elemento simétrico.
  • No tiene la propiedad asociativa (Por ejemplo: Me (1, 2, 3) = 2 ; Me ((1,2), 3) = 2'25)
  • Es conmutativa.
  • Es una medida de tendencia central, aunque puede no coincidir con el centro del recorrido.
  • La mediana es un representante o valor típico de un colectivo.
  • Es un estadístico resistente.
  • Si la distribución es asimétrica a la derecha el orden en que aparecen es moda-mediana media, y si es asimétrica a la izquierda el orden es media-mediana-moda (para distribuciones unimodales).
  • Si la distribución es asimétrica es preferible la mediana a la media como medida de tendencia central.
  • Existe mediana en distribuciones en las que los datos son ordinales.
  • Es preferible la mediana en distribuciones con datos agrupados en intervalos en los que al menos uno es abierto.

Ventajas:

  • Fácil de calcular si el número de observaciones no es muy grande.
  • No se ve influenciada por valores extremos, ya que solo influyen los valores centrales.
  • Fácil de entender.
  • Se puede calcular para cualquier tipos de datos cuantitativos, incluso los datos con clase de extremo abierto.
  • Es la medida de tendencia central más representativa en el caso de variables que solo admiten la escala ordinal.

Desventajas

  • No utiliza en su “cálculo” toda la información disponible.
  • No pondera cada valor por el número de veces que se ha repetido.
  • Hay que ordenar los datos antes de determinarla.

MODA


¿Qué es?

La moda es el valor que tiene mayor frecuencia absoluta. Se representa por Mo.
Se puede hallar la moda para variables cualitativas y cuantitativas, en todas las escalas de medicion: nominal, ordinal, intervalar y absoluta.

¿Cómo calcularla?

Hallar la moda de la distribución:


2, 3, 3, 4, 4, 4, 5, 5 Mo= 4

Si en un grupo hay dos o varias puntuaciones con la misma frecuencia y esa frecuencia es la máxima, la distribución es bimodal (2 modas) o multimodal, es decir, tiene varias modas.

1, 1, 1, 4, 4, 5, 5, 5, 7, 8, 9, 9, 9 Mo= 1, 5, 9

Cuando todas las puntuaciones de un grupo tienen la misma frecuencia, no hay moda.

2, 2, 3, 3, 6, 6, 9, 9

Si dos puntuaciones adyacentes tienen la frecuencia máxima, la moda es el promedio de las dos puntuaciones adyacentes.

0, 1, 3, 3, 5, 5, 7, 8 Mo = (3+5)/2=4

Propiedades

  • No es necesariamente única (puede haber varias modas)
  • Se puede calcular con datos en escala nominal
  • En su cálculo no intervienen todos los elementos

Ventajas

  • No requiere cálculos.
  • Puede usarse para datos tanto cuantitativos como cualitativos.
  • Fácil de interpretar.
  • No se ve influenciada por valores extremos.
  • Se puede calcular en clases de extremo abierto.

Desventajas

  • Para conjuntos pequeños de datos su valor no tiene casi utilidad, si es que de hecho existe. Solo tiene significado en el caso de una gran cantidad de datos.
  • No utiliza toda la información disponible.
  • No siempre existe, si los datos no se repiten.
  • En ocasiones, el azar hace que una sola observación no represente el valor más frecuente del conjunto de datos.
  • Difícil de interpretar si los datos tiene 3 o más modas.

¿Pero cuál es la relación entre la media, la mediana y la moda?

En distribuciones totalmente simétricas, la media, la mediana y la moda coinciden, localizándose en un mismo valor. En cambio, en distribuciones moderadamente asimétricas, la siguiente relación se mantiene aproximadamente:

Media – Moda = 3(Media – Mediana)

Posiciones relativas de la media, la mediana y la moda para curvas de frecuencias asimétricas a derecha e izquierda respectivamente, para curvas simétricas los tres valores coinciden.