Lunes
02/05/2016
Se sigue
revisando los temas de investigación, además de realizar una pequeña lectura a
los pdf utilizados para la actividad 1.
Miércoles
04/05/2016
ESTADÍSTICA
DESCRIPTIVA
1. RECOPILACIÓN DE DATOS
Los
cuales podemos obtener mediante:
·
Fuentes
bibliográficas
·
Internet
·
Encuesta
Criterios
para realizar una encuesta
·
Tema
·
Problema
·
Objetivos
generales y específicos
·
Justificación
·
Marco
teórico
·
Referencias
bibliográficas (Normas APA)
2. SIMBOLOGÍA
Representación
de términos para poder simplificarlos, deben estar especificados en el documento.
N: tamaño de la población
n: tamaño de la muestra
X: característica de interés
x: valor de la característico
3. DESCRIPCIÓN DEL CONJUNTO DE DATOS
Los datos podemos representarlos
en forma de tablas, gráficos y números, que caracterizan al conjunto de datos
PONER GRAFICO DE TABLA Y CIRCULAR
COMO EJEMPLO
4. TABLA DE FRECUENCIAS
La tabla de frecuencias es donde se tabula con qué frecuencia ocurre un dato o un fenómeno, y se deben seguir los siguientes pasos para realizarla:
La tabla de frecuencias es donde se tabula con qué frecuencia ocurre un dato o un fenómeno, y se deben seguir los siguientes pasos para realizarla:
A.
Identificar
la unidad de medida de los datos
B.
Obtener
el rango de los datos
R= Xmax-Xmin
Esto implica que se deben ordenar los datos ya
sea de mayor a menor o viceversa.
C.
Seleccionar
el número de clase o intervalos (k)
D. Longitud
de la clase
L= n/k
5. REALIZAR EL CONTEO DE DATOS PARA OBTENER LA FRECUENCIA EN CADA CLASE
5. REALIZAR EL CONTEO DE DATOS PARA OBTENER LA FRECUENCIA EN CADA CLASE
Se
debe definir las siguientes variables:
n:
número de datos
k:
número de clases
fi:
frecuencia de la clase
fr:
frecuencia relativa de la clase
Fi:
frecuencia acumulada de la clase
Fr:
frecuencia acumulada relativa de la clase
mi=marca
de la clase, es el valor central de la clase “i”
6. ORGANIZAR LA INFORMACIÓN EN LA TABLA DE FRECUENCIAS
6. ORGANIZAR LA INFORMACIÓN EN LA TABLA DE FRECUENCIAS
Ejercicio:
Obtenga
la tabla de frecuencia para los siguientes 40 datos de una muestra correspondientes al tiempo que se utilizó para atender a las personas en una
estación de servicios.
3,1
|
4,9
|
2,8
|
3,6
|
4,5
|
3,5
|
2,8
|
4,1
|
2,9
|
2,1
|
3,7
|
4,1
|
2,7
|
4,2
|
3,5
|
3,7
|
3,8
|
2,2
|
4,4
|
2,4
|
5,1
|
1,8
|
2,5
|
6,2
|
2,5
|
3,6
|
5,6
|
4,8
|
3,6
|
6,1
|
5,1
|
3,9
|
4,3
|
5,7
|
4,7
|
4,6
|
5,1
|
4,9
|
4,2
|
3,1
|
I.
Unidad
de medida: minutos [min]
Precisión:
1-2 unidades decimales
II. Xmax=
6.2
Xmin=
1.8
R=6.2-1.8
R=4.4 [min]
III.
Número
de la clase
k=6
porque nos encontramos en el siguiente rango n= [40<50]
IV.
Longitud
de la clase
7. REPRESENTACIÓN GRÁFICA
·
HISTOGRAMA DE FRECUENCIAS
DESCRIPCIÓN
El gráfico N°1 representa el histograma de frecuencias de los tiempos en minutos de atención en una estación de servicios.
INTERPRETACIÓN
La mayor frecuencia
esta entre 3 y 5.
Las personas que son
atendidas entre 1.0 y 2.0 min es 1.
·
PARA DATOS CUALITATIVOS
Para datos cualitativos
se utilizan únicamente gráficos de barras y un diagrama circular.
Ejemplo:
En una empresa
financiera los empleados disponen de computadores portátiles de distintas
marcas, que se presentan en el siguiente cuadro:
Variable:
x=marca del computador
(variables cuantitativa)
***DIAGRAMA DE BARRAS
También hay posibilidad de realizar un
gráfico de barras comparativas, que debe tener una leyenda que muestre cada
categoría
·
OJIVA
·
DIAGRAMA DE PUNTOS
Para
datos cuantitativos individuales (no están agrupados en intervalos en
intervalos).
Ejemplo
Un
fabricante de cierto componente electrónico se interesa en determinar el tiempo
de vida (en horas) de estos dispositivos, para lo cual ha tomado una muestra de
12 observaciones.
123-116-120-130-122-110
175-126-125-110-110-120
a)
Realice
el diagrama de punto
X=tiempo
de vida de componentes electrónicos (horas), dato cuantitativo continuo
Precisión:
0 cifras decimales
Se
precisa:
xmax= 175
xmin= 10
R= xmax- xmin
R=165
El diagrama de puntos del grafico representa el tiempo de vida de un componente electrónico en horas.
INTERPRETACIÓN
Se observa que el dato de 175 h es un dato atípico o inusual.
Sin el dato atípico el rango estaría entre 110 y 130 h.
110 horas tiene una frecuencia de tres.
NOTA: Un dato atípico es todo aquel que es muy alto o muy bajo respecto de los demás datos, es decir, es inusual. Puede ser ocasionado por un error en la medición o en la digitación.
·
DIAGRAMA DE TALLO Y HOJAS
Se utiliza cuando la cantidad de datos es pequeña. Permite describir la distribución de frecuencia de los datos agrupados pero sin perder la información individual de los datos.
La longitud de cada fila ayuda a visualizar la frecuencia, en forma parecida a un histograma pero al mismo tiempo se pueden observar individualmente los datos.
Se construye escribiendo verticalmente las primera(s) cifra(s) de los datos (tallo) y escribiendo las restantes cifras horizontalmente (hojas).
Se utiliza cuando la cantidad de datos es pequeña. Permite describir la distribución de frecuencia de los datos agrupados pero sin perder la información individual de los datos.
La longitud de cada fila ayuda a visualizar la frecuencia, en forma parecida a un histograma pero al mismo tiempo se pueden observar individualmente los datos.
Se construye escribiendo verticalmente las primera(s) cifra(s) de los datos (tallo) y escribiendo las restantes cifras horizontalmente (hojas).
Realice un diagrama de tallo y hojas de los siguientes datos.
8,3
|
4,5
|
9,5
|
1,4
|
8,6
|
7,6
|
4,4
|
6,2
|
9,5
|
6,4
|
2,4
|
3,5
|
1,8
|
4,9
|
4,0
|
4,6
|
6,1
|
8,7
|
3,1
|
6,0
|
1,7
|
6,2
|
2,4
|
5,8
|
5,0
|
4,6
|
5,4
|
9,4
|
5,4
|
4,0
|
7,1
|
2,8
|
Xmin= 1.4
Xmax= 9.5
Precisión= una(1) cifra decimal
REALICE UN DIAGRAMA DE TALLO Y HOJAS
DE LOS SIGUIENTES DATOS
97
|
171
|
202
|
178
|
147
|
157
|
205
|
185
|
231
|
304
|
180
|
240
|
325
|
403
|
98
|
343
|
258
|
275
|
300
|
149
|
Xmin= 97
Xmax= 403
Precisión= una(0) cifra decimal
Identifica
las causas principales que producen cierto resultado.
La
ley de breto dice que "cualquier conjunto de eventos que pueden asociarse a un
suceso, solamente unos pocos contribuyenen de forma significativa, mientras que
los otros son secundarios. Generalmente existen 2 o 3 causas significativas.
PROCEDIMIENTO:
1. Categorice los datos por tipo de
problema
2. Determine la frecuencia y ordene
de forma decreciente
3. Represente la frecuencia relativa
con barras
4. Superponga la ojiva de la
frecuencia acumulada
5. Analice las causas más
importantes del problema de estudio
EJEMPLO:
Un
fabricante ha realizado un conteo de los tipos de defectos de sus productos y
ha registrado su frecuencia. Se desea analizar su incidencia en la producción
con un diagrama de Pareto. Los resultados tabulados según lo analizado son:
TIPO
DE DEFECTO
|
FRECUENCIA
(fi)
|
fr(%)
|
Fi
|
Fr
|
A
|
66
|
0,33
|
66
|
0,33
|
B
|
44
|
0,22
|
110
|
0,55
|
C
|
34
|
0,17
|
144
|
0,72
|
D
|
20
|
0,1
|
164
|
0,82
|
E
|
14
|
0,07
|
178
|
0,89
|
F
|
12
|
0,06
|
190
|
0,95
|
G
|
10
|
0,05
|
200
|
1
|
Analisis
Se puede observar que más del 70% de los defectos de producción corresponden a los tipos A,
CÁLCULO DE MEDIDAS
Se puede observar que más del 70% de los defectos de producción corresponden a los tipos A,
B y C. Con esta información, una decisión adecuada sería asignar recursos para solucionar
estos tipos de problemas pues son los que tienen mayor incidencia en la producción.
CÁLCULO DE MEDIDAS
Solo
se utilizan para datos cualitativos, a excepción de la moda.
DE
LOCALIZACIÓN
2. Datos individuales con frecuencia
3. Datos agrupados en intervalos
MEDIANA
1. Datos individuales
La mediana de un conjunto de datos x1, x2, ... , xn es el valor que se encuentra en la posición central de todo el conjunto de datos ordenados en forma creciente.
2. Datos individuales con frecuencia
3. Datos agrupados en intervalos
Donde:
L i-1: Limite inferior de la clase mediana.
N i-1: frecuencia acumulada de la clase inmediatamente anterior a la clase mediana.
fi: Frecuencia absoluta de la clase mediana.
L: Longitud de la clase mediana.
MODA
Es aquel valor de la variable que tiene mayor frecuencia. Un conjunto de datos puede tener mas de una moda.
Nota: Cuando la media. mediana y moda son iguales la distribución se datos se considera ''simétrica''.
DE DISPERSION
1. Datos individuales
VARIANZA
2. Datos individuales con frecuencia
VARIANZA
DESVIACION
3. Datos agrupados en intervalos
VARIANZA
DESVIACION
COEFICIENTE DE VARIACIÓN
DE POSICION
PERCENTILES (Pk)
Los percentiles son cada una de las 99 divisiones que dividen a la distribución de datos en 100 partes iguales.
Para determinar los percentiles se debe:
1.- Hallar
Donde:
n: Tamaño de la muestra.
k: orden del percentil.
t: parte entera de nk/100
r: fracción de nk/100
2.- Si los datos son individuales
NOTA: Los datos deben estar ordenados en forma creciente.
3.- Si los datos son agrupados
Donde:
L k-1: limite inferior de la clase de interés.
N k-1: frecuencia absoluta acumulada del intervalo inmediatamente anterior al intervalo de interés.
fk: frecuencia absoluta del intervalo de interés.
A: Amplitud del intervalo de interés.
OBSERVACION: La mediana (Me) equivale al percentil 50 (P50).
CUARTILES (Qk)
DECILES (Dk)
DIAGRAMA DE CAJA O BIGOTES
Es un dispositivo gráfico que se usa para expresar en forma resumida, algunas medidas
estadísticas de posición:
MUESTRAS BIVARIADAS
Es común tener que estudiar muestras con datos que miden dos características, siendo de interés determinar si hay alguna relación entre ellas. Para visualizar la relación entre las variables de una muestra bivariada, es útil graficar los datos en una representación que se denomina Diagrama de Dispersión.
CORRELACIÓN
Se usa el término correlación para describir la relación entre los datos de muestras bivariadas. Los siguientes gráficos son casos típicos para observar la correlación entre dos variables:
COVARIANZA MUESTRAL
Esta definición permite cuantificar el nivel de correlación lineal que existe entre dos variables. Primero anotamos algunas definiciones conocidas para muestras univariadas:
Sean
X, Y: Variables muestrales
n: Tamaño de la muestra
X, Y : Medias aritméticas de X, Y, respectivamente
Sx^2 , Sy^2 : Varianzas muestrales de X, Y, respectivamente
Sx , Sy : Desviaciones estándar muestrales de X, Y respectivamente
Esta definición permite cuantificar el nivel de correlación lineal que existe entre dos variables. Primero anotamos algunas definiciones conocidas para muestras univariadas:
Sean
X, Y: Variables muestrales
n: Tamaño de la muestra
X, Y : Medias aritméticas de X, Y, respectivamente
Sx^2 , Sy^2 : Varianzas muestrales de X, Y, respectivamente
Sx , Sy : Desviaciones estándar muestrales de X, Y respectivamente
COEFICIENTE DE CORRELACION LINEAL MUESTRAL
Es una definición para cuantificar el grado de correlación lineal entre dos variables en forma adimensional y normalizada.
MATRIZ DE VARIANZAS Y COVARIANZAS
Es una matriz simétrica con la que se pueden representar ordenadamente las varianzas y las covarianzas entre las variables. Para definirla se puede usar la notación:
Es una matriz simétrica con la que se pueden representar ordenadamente las varianzas y las covarianzas entre las variables. Para definirla se puede usar la notación:
MATRIZ DE CORRELACION
Es una representación ordenada de los coeficientes de correlación de cada variable con la otra variable y consigo misma.
No hay comentarios:
Publicar un comentario