miércoles, 11 de septiembre de 2019

BOX PLOT- DIAGRAMA DE CAJA Y BIGOTE


Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría.
Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente.
CONSTRUCCIÓN:
Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran el recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero y tercero (recordemos que el segundo cuartil coincide con la mediana).
Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y máximo de la variable. Las líneas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre dentro de este rango es marcado e identificado individualmente
UTILIDADES:
·         Proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución no es simétrica.
·         Son útiles para ver la presencia de valores atípicos también llamados outliers.
·         Pertenece a las herramientas de la estadística descriptiva. Permite ver como es la dispersión de los puntos con la mediana, los percentiles 25 y 75 y los valores máximos y mínimos.
·         Ponen en una sola dimensión los datos de un histograma, facilitando así el análisis de la información al detectar que el 50% de la población está en los límites de la caja.

¿Cómo crear un gráfico de cajas y bigotes?

Paso 1.
Seleccione los datos, ya sea una sola serie de datos o varias series de datos. (Los datos que se muestran en la siguiente ilustración son una parte de los datos usados para crear el gráfico de ejemplo que se muestra más arriba).




Paso 2.
En Excel, haga clic en Insertar > Insertar gráfico de estadísticas > Cajas y bigotes, tal y como se muestra en la siguiente ilustración.
Importante: En Word, Outlook y PowerPoint, este paso funciona de forma un poco distinta:
·         En la pestaña Insertar, en el grupo Ilustraciones, haga clic en Gráfico.
·         En el cuadro de diálogo Insertar gráfico, en la pestaña Todos los gráficos, haga clic en Cajas y bigotes.


 







Sugerencias: 
·         Use las pestañas Diseño y Formato para personalizar el aspecto del gráfico.
 
 


·         Si no ve estas pestañas, haga clic en cualquier lugar del gráfico de cajas y bigotes para agregar las Herramientas de gráfico a la cinta de opciones.

Cambiar opciones del gráfico de cajas y bigotes

1.      Haga clic con el botón derecho en uno de los cuadros del gráfico para seleccionar ese cuadro y, en el menú contextual, haga clic en Formato de serie de datos.
2.      En el panel Formato de serie de datos, con la opción Opciones de serie seleccionada, realice los cambios que desee.

(La información del gráfico que sigue a la ilustración puede ayudarle a decidirse).

 

Opciones de serie
Descripción
Ancho del rango
Controla el rango entre las distintas categorías.
Mostrar puntos interiores
Muestra los puntos de datos que se encuentran entre la línea inferior y superior del bigote.
Mostrar puntos del contorno
Muestra los puntos del contorno que se encuentran por debajo de la línea inferior o por encima de le línea superior del bigote.
Mostrar marcadores medios
Muestra el marcador medio de la serie seleccionada.
Mostrar línea media
Muestra la línea que conecta las medias de las cajas de la serie seleccionada.
Cálculo del cuartil
Elija un método para calcular la media:
Ambos inclusive mediana    La mediana se incluye en el cálculo si N (el número de valores de los datos) es impar.
Mediana Exclusivo    La mediana es excluido del cálculo si N (el número de valores de los datos) es impar.



EJEMPLO 1:


Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que representan la edad de un colectivo de 20 personas.

                                               36  25  37  24  39  20  36  45  31  31
                                               39  24  29  23  41  40  33  24  34  40

ORDENAR LOS DATOS

Para calcular los parámetros estadístico, lo primero es ordenar la distribución

                20  23  24  24  24  25  29  31  31  33  34  36  36  37  39  39  40  40  41  45

CALCULO DE CUARTILES

Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N = 20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente:

Q1=(24 + 25) / 2 = 24,5

Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la mediana es la media aritmética de dicho valor y el siguiente:

me= Q2 = (33 + 34)/ 2 =33,5

Q3 , el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En nuestro caso, como 3N / 4 = 15, resulta

Q2=(39 + 39) / 2 = 39

DIBUJAR LA CAJA Y LOS BIGOTES


El bigote de la izquierda representa al colectivo de edades ( Xmín, Q1)
La primera parte de la caja a (Q1, Q2),
La segunda parte de la caja a (Q2, Q3)
El bigote de la derecha viene dado por (Q3, Xmáx).

INFORMACIÓN DEL DIAGRAMA

Podemos obtener abundante información de una distribución a partir de estas representaciones. Veamos alguna:

La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades comprendidas entre el 25% y el 50% de la población está más dispersa que entre el 50% y el 75%.

El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el 25% de los más jóvenes están más concentrados que el 25% de los mayores.

El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está comprendido en 14,5 años.



EJEMPLO 2:

En un bosque plantaron veinte (N=20) árboles y, al cabo de unos años, se mide la altura para ver su evolución. Un muy buen método para ver cómo han crecido y comprobar si existen valores extremos es el diagrama de caja. Mediante esta representación gráfica podemos ver si hay árboles que han crecido más o menos de lo habitual.

Se ordenan los datos

Se calculan los tres cuartiles.
A partir del conjunto ordenado calculamos los cuartiles:




Los tres cuartiles son Q1=4,20, Q2=5,50 y Q3=6,42.

Se calculan los límites admisibles inferior y superior (LI y LS) para determinar los valores extremos.



A partir del rango calculamos los límites:



Los valores extremos serán todos los árboles que midan menos de 0,96m o más de 9,59m. Tenemos dos árboles, uno de 0,94m y otro de 10,14m que serán valores extremos. Estos valores los representamos con puntos en el diagrama de caja.

El mínimo es el menor elemento del conjunto que sea mayor o igual al límite inferior. El máximo es el mayor elemento que sea menor o igual al límite superior. En este caso, el mínimo es 2,98 y el máximo 7,13.

Se dibujan los brazos del diagrama de caja. El brazo inferior irá desde el primer cuartil hasta el mínimo (desde el 4,20 a 2,98). El brazo superior abarcará desde el tercer cuartil hasta el máximo (desde el 6,42 hasta el 7,13).

Los dos puntos extremos se representan mediante un punto o círculo.

El diagrama de caja del conjunto de la altura de estos veinte árboles es:



Esta representación proporciona una visión rápida de la distribución, apreciándose una asimetría al no estar Q2 en el centro, en este caso porque hay árboles más altos que la mediana cuya altura está más separada de la mediana que los que tienen una altura inferior a ella, que estan más agrupados. También se puede apreciar la existencia de valores extremos.



INTEGRANTES:
. GARCIA HERRERA Sergio Luis
. MEJIA ARRASCO Camila Cristina
. MONTOYA WOOD Alicia María
. MUÑOZ VELARDE Cindy Milagros
. SANTOS MERCADO Maria Fernanda
. SOTO PRADO Ena Liz Maria

martes, 27 de agosto de 2019

TÉCNICAS E INSTRUMENTOS DE RECOLECCIÓN DE INFORMACIÓN

Trabajo planteado









INTEGRANTES:
-García Herrera Sergio Luis
-Mejia Arrasco Camila Cristina 
-Montoya Wood Alicia María
-Santos Mercado María Fernanda
-Soto Prado Ena Liz María

viernes, 23 de agosto de 2019

VENTAJAS Y DESVENTAJAS DE LOS MUESTREOS


MUESTREOS PROBABILÍSTICOS

1.Muestreo Aleatorio Simple (MAS)
Ventajas:

-Facilidad para armar la muestra.
-Cada miembro tiene igualdad de oportunidad.
-Representatividad de la población.

Desventajas:
-Necesidad de lista completa de la población (actualizada).
-Requiere población muestra finita y conocida.

2.Muestreo Aleatorio Estratificado (MAE)
Ventajas:
-Mayor precisión en comparación con el M. Aleatorio Simple.
-Produce estimaciones para cada estrato.
-Se definen las variables de estratificación.

Desventajas:
-Se ha de conocer la distribución en la población de las variables utilizadas para la estratificación.
-No permite comparaciones entre estratos.

3.Muestreo Aleatorio por Conglomerado (MAC)
Ventajas:
-No necesita listado de la población de muestreo.
-Muy eficiente en poblaciónes dispersas o muy grandes.

Desventajas:
-Mayor error estándar, menor validez de las estimaciones.
-Cálculo complejo del error estándar.

4.Muestreo Aleatorio Sistemático (MASIS)
Ventajas:
-Fácil de aplicar.
-No siempre es necesario tener listado de la población.
-Cuando la población está ordenada, asegura cobertura de unidades de todos los tipos.

Desventajas:
-Si la constante de muestreo está asociada con el evento de interés, las estimaciones obtenidas a partir de la muestra pueden contener sesgo de selección.


MUESTREOS NO PROBABILÍSTICOS

1.Muestreo No Probabilístico por Conveniencia
Ventajas:
-Menos costoso.
-No requiere mucho tiempo.
-Alta tasa de participación.
-Posible generalización a sujetos similares.

Desventajas:
-Los resultados dependen de las características únicas de las muestras.
-Mayor probabilidad de error debido al investigador o la influencia de sujetos.
-Menos representativa de una población específica.
-Difícil generalizar a otros sujetos.

2.Muestreo No Probabilístico por Cuota
Ventajas:
-Rápido y sencillo.
-Fácil de ejecutar en trabajo de campo.
-No precisa el listado de la población.

Desventajas:
-Supone mayor muestreo que los diseños probabilisticos.
-No existe método válido para calcular el error.

3.Muestreo No Probabilístico por Bola de Nieve
Ventajas:
-Proceso barato, simple y rentable.
-Necesita poca planificación y menos mano de obra.
-Permite que el investigador llegue a poblaciones difíciles de probar cuando se utilizan otros tipos de muestreo.

Desventajas:
-Poco control sobre el método.
-La representatividad de la muestra no está garantizada.
-El sesgo de muestreo es también un método de los investigadores cuando se utiliza esta técnica.

4.Muestreo No Probabilístico por Juicio
Ventajas:
-Consume tiempo mínimo de ejecución.
-Permite a los investigadores acercarse directamente a su mercado objetivo.
-Resultados casi en tiempo real.

Desventajas:
-Difícil generalizar a otros sujetos.
-Los resultados dependen de las características únicas de la muestra.
-Mayor probabilidad de error.


PREGUNTA PLANTEADA EN CLASE:
1.¿Cómo interviene la estadística en la carrera de ciencias de la comunicación?
Muchas veces creemos que dentro de esta no nos será necesaria la estadística, pero conforme va pasando el tiempo nos damos cuenta que esta, es una herramienta fundamental para darnos cuenta de comportamientos que tiene una sociedad en específico o problemas que existen en una sociedad.
Con la estadística, se puede dar a conocer en ciencias de la comunicación: los ratings, análisis de contenidos, discursos, publicidad, propaganda y monitoreo de medios, su aplicación en estos rubros sirve para demostrar de una manera cuantitativa ciertos comportamientos de una sociedad, proporcionando técnicas para medir una características o comportamiento, sin tener que hacer un estudio individuo por individuo; comportamientos de índole demográfico, preferencias y/u opiniones arrojándonos datos básicos para fundamentar, extraer, u obtener conclusiones con base en datos que merecen confianza.

INTEGRANTES:
-García Herrera Sergio Luis
-Mejia Arrasco Camila Cristina 
-Montoya Wood Alicia María
-Santos Mercado María Fernanda
-Soto Prado Ena Liz María

CONCEPTOS BÁSICOS DE LA ESTADÍSTICA

  • POBLACIÓN: Es el conjunto total de individuos, objetos o eventos que tienen las mismas características y sobre el que estamos interesados en obtener conclusiones.
  • MUESTRA: Es una parte de la población, la cual se selecciona con el propósito de obtener información (representativo).
  • VARIABLES: Son una representación de datos.
1. Variables cuantitativas:  
 -Discretas: Que no se pueden fraccionar
 -Continuas: Que si se pueden fraccionar  
2. Variables cualitativas: 
 -Nominal: No tienen un orden.
 -Ordinal: Expresan un orden natural 
  • MUESTREO: El muestreo es el proceso de seleccionar un conjunto de individuos de una población con el fin de estudiarlos y poder caracterizar el total de la población.
1. Muestreo aleatorio o probabilístico:  
-Muestreo aleatorio simple: Se realiza mediante un sorteo y tiene la misma posibilidad de ser seleccionado.
-Muestreo aleatorio estratificado: Agrupa a diferentes poblaciones según estratos, se puede hacer un estudio a profundidad de manera proporcional. 
-Muestreo aleatorio conglomerados: Se da por un agrupamiento natural.
-Muestreo aleatorio sistemático: Ordena a la población para elegir a un individuo de manera aleatoria y a partir de ahí se crea una regla que cada cierta cantidad será de manera sistemática.
2. Muestreo no aleatorio o no probabilístico:  
-Muestreo no probabilístico por conveniencia: Es el más sencillo ya que ahorra tiempo y esfuerzo pero sus conclusiones no son representativas.
-Muestreo no probabilístico por cuota: Divide población en estratos y también en cantidades de acuerdo al interés del investigador.
-Muestreo no probabilístico por bola de nieve: Identifica a los sujetos potenciales en estudios en donde los sujetos son difíciles de encontrar. La clave es la referencia.
-Muestreo no probabilístico por juicio: Los individuos son seleccionados gracias al criterio y sapiencia del observador.

 PREGUNTAS PLANTEADAS EN CLASE:

1.¿El tamaño de la muestra tendrá que ver con la representatividad?
Sí, porque el tamaño de la muestra viene a ser parte de la población y dicha muestra debe tener una representatividad que permitirá extrapolar y generalizar los resultados.
Los datos más representativos puede ser subgrupos o subconjuntos que son extraídos de    una población por algún método de muestreo.

2.¿El error y el nivel de significancia tendrá que ver con el tamaño de la muestra?
Margen de error, nivel de significancia y tamaño de la muestra siempre van de la mano. Si queremos obtener un margen de error y un nivel de confianza determinados (por ejemplo, error del 5% con confianza 95%) necesitaremos un tamaño de muestra mínimo correspondiente. Modificar cualquiera de los 3 parámetros, altera los restantes:
a. Reducir el margen de error obliga a aumentar el tamaño de la muestra.
b. Aumentar el nivel de confianza obliga a aumentar el tamaño de la muestra.
c. Si aumenta el tamaño de mi muestra, puedo reducir el margen de error o incrementar el nivel de confianza.

Pero, ¿qué fórmulas gobiernan la relación entre los parámetros anteriores? El conjunto de teoremas que se conocen como Ley de los grandes números viene a nuestro rescate. Estos teoremas son los que dan soporte matemático a la idea de que el promedio de una muestra al azar de una población de gran tamaño tenderá a estar cerca de la media de la población completa. En concreto, el teorema del límite central demuestra que, en condiciones muy generales, la suma de muchas variables aleatorias independientes.

INTEGRANTES:
-García Herrera Sergio Luis
-Mejia Arrasco Camila Cristina 
-Montoya Wood Alicia María
-Santos Mercado María Fernanda
-Soto Prado Ena Liz María