|
UNIVERSIDAD MAYOR
DE SAN ANDRES
POSTGRADO EN MATEMÁTICA
DIPLOMADO EN
OPTIMIZACIÓN MATEMÁTICA
(Primera
versión-2016)
MODULO: ANÁLISIS DE DATOS MULTIVARIADO
INTEGRANTES
Teodoro Cuti
Olga Patty
Edgar Gonzales
Juan Patiño
Guillermo Manning
TEMA:
"UN ANÁLISIS DE LOS FACTORES CONTAMINANTES DE NUESTRO AMBIENTE"
(PROYECTO PRIMERA FASE )
La
Paz-Bolivia
12-Abril-2017
En todo espacio siempre estará un determinado nivel de
dióxido de carbono, así mismo el fluir del viento, por otra parte una sensación
térmica, lo que se quiere ver con la realización de este trabajo el nivel de
relación que se tiene entre estas variables. Por otra parte el documento está
estructurado inicialmente con una sección introductoria, luego conceptualizamos
en su naturalidad a las variables, posteriormente se refleja los datos y el
análisis de los componentes principales para luego terminar estableciendo
conclusiones.
Se ha elegido un experimento realizado en base a un dispotivo llamado arduino, el cual es un dispositivo electrónico que tiene un microprocesador con capacidades para procesar datos, los datos lo proporcionar sus puertos, y a la ves conectado a sensores adecuados, y un dispositivo de almacenamiento, se convierte en un datalogger (sistema para almacenamiento de datos).
El experimento de a partir de iniciar cerca de un fogón, e irlo alejando, se van recolectando datos para el posterior tratamiento de datos ACP.
>
X<-read.table("DATALOG2.txt",header=T, sep="")
> head(X)
X1= Distancia [cm]
X2= Temperatura [ºC]
X3= Humedad [%HR]
X4= CO2 [ppm]
# X1 X2 X3 X4
1 2 45 15 59 2 2 44 16 59 3 2 44 16 59 4 3 43 17 58 5 3 43 17 58 6 4 42 17 58 7 4 42 18 58 8 5 42 19 57 9 5 41 19 57 10 6 40 19 57 11 6 40 20 80 12 7 39 19 56 13 7 39 20 56 14 8 38 20 56 15 8 38 21 56 16 8 39 21 55 17 9 39 22 55 18 9 38 23 55 19 9 37 24 55 20 10 37 23 55 21 10 37 24 54 22 10 37 24 54 23 10 38 25 50 24 10 37 26 50 25 11 35 35 50 26 11 35 35 50 27 12 34 35 50 28 12 33 37 50 29 13 33 37 50 30 13 31 37 50 31 14 31 38 50 32 15 31 37 50 33 15 30 38 45 34 15 27 38 45 35 16 27 37 45 36 17 27 37 45 37 18 27 40 45 38 18 26 40 45 39 18 26 42 45 40 19 26 42 45 41 20 25 42 45 42 21 20 42 45 43 21 20 43 43 44 21 19 48 43 45 21 19 45 43 46 22 17 48 43 47 22 17 48 43 48 22 15 48 58 49 22 13 49 42 50 22 14 50 42 51 23 13 50 42 52 23 13 51 42 53 23 13 51 42 54 23 12 51 42 55 23 12 52 38 56 23 12 53 38 57 25 12 60 20 58 25 11 60 20 59 25 11 60 18 60 26 11 60 10 61 26 11 60 10 62 27 11 60 10 63 27 11 60 10
Como
se puede ver 63 observaciones con 4 variables X1, X2, X3, X4, las mismas
representan distancia, temperatura, humedad, CO2 respectivamente.
> matplot(X, type="l")
> Xmed<-colMeans(X)
> head(Xmed)
Distancia.cm. Temperatura.ºC. Humedad..HR. CO2.ppm.
14.51562 28.35938 35.87500 46.48438
> n<-dim(X) [1]
> SX<-cov(X)*(n-1)/n
> head(SX)
Distancia.cm. Temperatura.ºC. Humedad..HR. CO2.ppm.
Distancia.cm.
59.31226 -87.98218 109.0332 -84.54663
Temperatura.ºC.
-87.98218 135.32397
-163.6426 125.48218
Humedad..HR.
109.03320 -163.64258
208.8281 -165.75195
CO2.ppm.
-84.54663 125.48218
-165.7520 181.12476
> CX<-cor(X)
> head(CX)
Distancia.cm. Temperatura.ºC. Humedad..HR. CO2.ppm.
Distancia.cm.
1.0000000 -0.9820534 0.9796976
-0.8157089
Temperatura.ºC.
-0.9820534 1.0000000 -0.9734518 0.8015041
Humedad..HR.
0.9796976 -0.9734518 1.0000000
-0.8522662
CO2.ppm.
-0.8157089 0.8015041 -0.8522662 1.0000000
> Y<-scale(X,scale=F)
> head(Y)
Distancia.cm. Temperatura.ºC. Humedad..HR. CO2.ppm.
[1,] -12.51562 16.64062 -20.875
12.51562
[2,] -12.51562 16.64062 -20.875 12.51562
[3,] -12.51562 15.64062 -19.875 12.51562
[4,] -12.51562 15.64062 -19.875 12.51562
[5,] -11.51562 14.64062 -18.875 11.51562
[6,] -11.51562 14.64062 -18.875 11.51562
>
matplot(Y, type="l")
> Ymed<-colMeans(Y)
> head(Ymed)
Distancia.cm. Temperatura.ºC. Humedad..HR. CO2.ppm.
0 0 0 0
> SY<-cov(Y)*(n-1)/n
> head(SY)
Distancia.cm. Temperatura.ºC. Humedad..HR. CO2.ppm.
Distancia.cm.
59.31226 -87.98218 109.0332 -84.54663
Temperatura.ºC. -87.98218 135.32397 -163.6426 125.48218
Humedad..HR. 109.03320 -163.64258 208.8281
-165.75195
CO2.ppm. -84.54663 125.48218 -165.7520 181.12476
> Z<-scale(X)
> head(Z)
Distancia.cm. Temperatura.ºC. Humedad..HR. CO2.ppm.
[1,] -1.612355 1.419262 -1.433218 0.9226647
[2,] -1.612355 1.419262 -1.433218
0.9226647
[3,] -1.612355 1.333973 -1.364561
0.9226647
[4,] -1.612355
1.333973 -1.364561
0.9226647
[5,] -1.483527 1.248684 -1.295904
0.8489437
[6,] -1.483527 1.248684 -1.295904
0.8489437
>
matplot(Z, type="l")
> Zmed<-colMeans(Z)
> head(Zmed)
Distancia.cm.
Temperatura.ºC. Humedad..HR. CO2.ppm.
-9.757820e-19 -1.301043e-18 9.324139e-18 -8.673617e-19
> SZ<-cov(Z)*(n-1)/n
> head(SZ)
Distancia.cm.
Temperatura.ºC. Humedad..HR. CO2.ppm.
Distancia.cm.
0.9843750 -0.9667088 0.9643898 -0.8029634
Temperatura.ºC. 0.9667088 0.9843750 -0.9582416 0.7889806
Humedad..HR. 0.9643898 -0.9582416 0.9843750
-0.8389495
CO2.ppm. -0.8029634 0.7889806 -0.8389495 0.9843750
> pairs(Z)
> symbols(Z[,1:2],circles =
abs(Z[,3]))
> stars(Z)
> faces2(Z)
> andrews(Z, clr=3, type=2)
> D<-eigen(S)
> str(D)
$values
[1] 538.609926 40.998593 3.750615 1.229978
> sum(D$values)
[1]
584.5891
[1] 0.9213 0.07 0.006 0.002
[1] 92% 7% 0.6% 0.2%
Entonces se puede explicar con un 92%, tomando solo una
variable Y1 y el resto
con 7.8% (Y1,Y2,Y3,Y4)
$vectors
[,1]
[,2] [,3] [,4]
[1,] 0.3226744
-0.2298945 0.1074679 0.911855488
[2,] -0.4852248 0.4000289 -0.6921855 0.354136977
[3,] 0.6146615
-0.2890178 -0.7040205 -0.207400783
[4,] -0.5316289 -0.8388052 -0.1169831 -0.009564784
>
mod1<-princomp(covmat=S)
> str(mod1)
$sdev
Comp.1 Comp.2 Comp.3 Comp.4
23.207971 6.403014 1.936650 1.109044
>
diag(1/sqrt(diag(SX)))%*%mod1$loadings%*%diag(mod1$sdev)
[,1] [,2] [,3] [,4]
[1,] 0.9723653
-0.1911352 0.02702450 0.1313114040
[2,]
-0.9680389 0.2201854
-0.11523552 0.0337623411
[3,] 0.9871399
-0.1280603 -0.09435003 -0.0159171220
[4,]
-0.9167625 -0.3990770 -0.01683393 -0.0007881972
La
primera componente esta correlacionada con Xi, porque están altamente
correlacionadas con las Xi con la primera componente Y1, por lo tanto se resume
en una sola variable
mod2<-princomp(covmat=R)
> str(mod2)
$sdev
Comp.1 Comp.2 Comp.3 Comp.4
1.9255244
0.5041768 0.1480415 0.1274568
[1] 3.7076442 0.2541942 0.0219162 0.0162455
> sum(D$values)
[1] 4
[1] 0.9269 0.063 0.005 0.004
[1] 92% 6% 0.5% 0.4%
Es por cuanto que se puede explicar con un 92%, tomando
solo una variable Y1 y el
resto con 6.9% (Y1,Y2,Y3,Y4)
$loadings
Comp.1 Comp.2 Comp.3 Comp.4
Distancia.cm. 0.511 -0.300 0.805
Temperatura.ºC.
-0.508 0.349 -0.666 0.421
Humedad..HR. 0.514
-0.151 -0.734
-0.417
CO2.ppm. -0.466
-0.875 -0.126
CorrZ<-I%*%mod2$loadings%*%diag(mod2$sdev)
[,1] [,2]
[,3]
[,4]
[1,] 0.9831331
-0.15130697 -0.005679233 0.102582774
[2,]
-0.9780035 0.17582638
-0.098598170 0.053596171
[3,] 0.9897470
-0.07588659 -0.108694821 -0.053175254
[4,]
-0.8972199 -0.44116526 -0.018651450 -0.004675298
La
primera componente esta correlacionada con Zi, porque están altamente
correlacionadas con las Zi con la primera componente Y1, por lo tanto se resume
en una sola variable
>
cumsum(mod3$sdev^2/sum(mod3$sdev^2))*100
Comp.1 Comp.2 Comp.3 Comp.4
92.13479
99.14802 99.78960
100.00000
Se
muestra que con la Comp1 se tiene un 92%, el cual es > al 90%, por lo tanto,
puede ser aplicado para un análisis confirmatorio
> plot(mod3)
La
grafica describe claramente la importancia que tiene la componente 1 en
relación a las demás.
> mod3$sdev^2>mean(mod3$sdev^2)
Comp.1 Comp.2
Comp.3 Comp.4
TRUE FALSE FALSE FALSE
Nos
indica que solo la componente 1 bastaría como representación
>
abline(h=mean(mod3$sdev^2),col="red", lwd=2)
Se
observa que la mayoría está altamente correlacionada con la primera componente
La grafica nos representa a las variables,
donde observamos el porcentaje de variabilidad de cada componente, componente
uno , con un 92% y los demás con un 7%, asi también se observa que las
variables están correlacionas en un porcentaje mayor con la primera componente.
La grafica nos describe
las filas de las observaciones, donde la mayoría se concentran en el centroide,
y también muestra datos que están lejanos al centroide, de los cuales es
probable que sean datos atípicos. También podemos observar el porcentaje de
variabilidad de la componente uno con un 92% y de los demás componentes en un
7%
El
objetivo del proyecto se cumplió, y se llegó a las siguientes conclusiones
[1]
Ordoñez, J. A. B., & Masera, O. (2001). Captura de carbono ante el cambio
climático. Madera y bosques, 7(1), 3-12.
[2]
Cuadras, C. M. (2007). Nuevos métodos de análisis multivariante. CMC Editions.
| ||||
|
| ||||
miércoles, 12 de abril de 2017
Analisis multivariado
Suscribirse a:
Comentarios (Atom)



















