I n te r n ati o n al   Jo u r n al   o El e c tr i c a l   an d   C o m p u te r   En gi n e e r i n g   (I JEC E )   V o l .   10 ,   N o .   3 J u n e   20 20 ,   pp .   2651 ~ 2658   IS S N :   2088 - 8708 D O I :   10. 1 1591 / i j e c e . v 10 i 3 . pp2651 - 2658             2651       Jou r n al   h o m e pa ge ht t p: / / i j e c e . i ae s c or e . c om / i nd e x . php / IJ E CE   Pr e d i c t i v e   g e o sp a t i a l   a n a l y t i c s us i n g   p r i n c i p a l   c o m p o n e n t   r e g r e ss i o n       K yi   La i   L ai   K h i n e 1 Th i   Th i   S o e   N yu n t 2   1 C l o ud  C o m put i ng   L a b ,   U n i v e r s i t y   of   C o m put e r   S t ud i e s ,   M y a nm a r   2 F a c ul t y   of   C o m put e r   S c i e nc e ,   U ni v e r s i t y   o f   C o m put e r   S t ud i e s ,   M y a nm a r       A r ti c l e   I n fo     A B S TR A C T   Ar t i c l e   h i s t or y :   R e c e i v e d   M a 31 ,   2 019   R e v i s e N o v   3 ,   2019   A c c e pt e N o v   26,   2019       N o w a da y s ,   e x po ne nt i a l   g r o w t i g e o s pa t i a l   o r   s p a t i a l   d a t a   a l l   o v e r   t he   g l o be ,   g e o s pa t i a l   da t a   a na l y t i c s   i s   a bs o l ut e l y   de s e r v e t o   pa y   a t t e n t i o i n   m a ni p ul a t i ng   v o l um i no us   a m o unt   o f   g e o da t a   i n   v a r i o us   f o r m s   i nc r e a s i ng   w i t h   h i g v e l o c i t y .   I a ddi t i o n,   d i m e ns i o na l i t y   r e duc t i o h a s   be e pl a y i ng   a   ke y   r o l e   i h i g h - di m e ns i o na l   b i g   da t a   s e t s   i nc l ud i ng   s p a t i a l   d a t a   s e t s   w hi c h   a r e   c o nt i nuo us l y   g r o w i ng  no t   o nl y   i o bs e r v a t i o ns   but   a l s o   i f e a t ur e s   o r   di m e n s i o ns .   I t hi s   pa p e r ,   pr e di c t i v e   a na l y t i c s   o g e o s pa t i a l   bi g   da t a   us i ng   P r i nc i pa l   C o m po ne nt   R e g r e s s i o ( P C R ) ,   t r a di t i o na l   M u l t i p l e   L i ne a r   R e g r e s s i o ( M L R )   m o de l   i m p r o v e w i t P r i nc i pa l   C o m po ne nt   A na l y s i s   ( P C A ) ,   i s   i m p l e m e nt e o di s t r i b ut e d,   pa r a l l e l   b i g   da t a   pr o c e s s i ng   pl a t f o r m .   T he   m a i o bj e c t i v e   o f   t he   s y s t e m   i s   t o   i m pr o v e   t he   p r e d i c t i v e   po w e r   o f   M L R   m o de l   c o m bi ne w i t P C A   w hi c h   r e duc e s   i ns i g ni f i c a nt   a nd  i r r e l e v a nt   v a r i a b l e s   o r   di m e ns i o ns   o f   t ha t   m o de l .   M o r e o v e r ,   i t   i s   c o nt r i b ut e t o   pr e s e n t   ho w   da t a   m i n i ng   a nd  m a c h i ne   l e a r ni ng   a pp r o a c he s   c a be   e f f i c i e n t l y   ut i l i z e i pr e di c t i v e   g e o s pa t i a l   da t a   a n a l y t i c s .   F o r   e xpe r i m e n t a t i o n,   O p e n S t r e e t M a ( O S M )   da t a   i s   a ppl i e t o   de v e l o a   o ne - w a y   r o a pr e d i c t i o f o r   c i t y   Y a ngo n,   M y a nm a r .   E xp e r i m e n t a l   r e s u l t s   s ho w   t ha t   hy br i a pp r o a c o f   P C A   a nd  M L R   c a be   e f f i c i e nt l y   ut i l i z e no t   o nl y   i r o a p r e d i c t i o us i ng   O S M   d a t a   bu t   a l s o   i n   i m p r o v e m e nt   o f   t r a di t i o na l   M L R   m o de l .   Ke y w or d s :   D i m e n s i o na l i t y   r e duc t i o n   G e os pa t i a l   da t a   a na l y t i c s   M ul t i pl e   l i n e a r e g r e s s i o n   O pe n   s t r e e t   m a p     P r i n c i pa l   c o m po n e n t   a na l y s i s     C opy r i gh t   ©   2020   I n s t i t ut e   o f   A dv anc e E ng i ne e r i ng   and   S c i e nc e   A l l   r i gh t s   r e s e r v e d .   Cor r e s pon di n g   Au t h or :   K y i   L a i   L a i   K hi n e ,     Cl o ud  Co m put i n g   L a b ,   U n i v e r s i t y   of   Co m put e S t ud i e s ,     N o .   4 ,   M a i R o a d,   S h w e   P y i   t ha r   T o w n s h i p,   Y a ngo n,   M y a nm a r .   E m a i l :   ky i l a i l a i k hi n e @ uc s y . e du. m m       1.   I N TR O D U C TI O N   B i da t a   c a n   b e   de s c r i b e a s   l a rge   vo l um e s   of   da t a   i n   c o m pl e s t r uc t u r e s   i n c r e a s i n w i t h   h i g v e l o c i t y   w h i c r e qui r e s   a dv a n c e t e c hn o l o gi e s ,   m e t h o ds   a n d   a l go r i t hm s   t o   a c qu i r e ,   p r o c e s s   a nd  s t o r e   e ff i c i e n t l y   [1] N ow a da y s ,   i t   c a n   b e   e s t i m a t e t ha t   da t a   a b o ut   2. qui nt i l l i o n   by t e s   a ppr o xi m a t e l y   i s   be i n g   ge n e ra t e e v e r y   da y   a n a   l a rge   po r t i o n   o f   da t a   a m o n t h e m   i s   l o c a t i o n - a w a r e .   T h e r e f o r e ,   i t   c a n   b e   a s s um e d   t h a t   b i da t a   w h e r e   a   s i g ni f i c a n t   po r t i o n   o f   i t   i s   t y pi c a l l y   ge o s pa t i a l   da t a   o r   s pa t i a l   d a t a .   G e o s pa t i a l   o s pa t i a l   b i da t a   i s   de s e r v e t o   pa y   a t t e nt i o n   i n   a n a l y z i n l a r ge - s c a l e   s pa t i a l   da t a   s e t s   w h i c h   e xc e e t r a d i t i o n a l   c o m put i n s y s t e m s   [ 2 ].   In c r e a s i ng  e n o r m o us   a m o unt   o f   ge o s pa t i a l   da t a ,   t h e   c a p a b i l i t y   of   h i g h - pe r f o r m a n c e   c o m put i n ha s   b e e n   a e s s e n t i a l   r e qui r e m e nt   t o   f ul l y   ut i l i z e   h u ge   c o l l e c t i o n   o f   ge o s pa t i a l   b i d a t a   w i t h   hi g h - v e l o c i t y   i n   de m a ndi n a ppl i c a t i o n s .   T h e   di s t r i b ut e d   a n pa r a l l e l   c o m put i ng  o n   a   c l us t e r   o f   c o m m o di t y   c o m put e r s   f o r   b i d a t a   a n a l y s i s   s uc h   a s   H a do o a n S p a rk  h a v e   b e c o m e   po pul a i c u rr e nt   t i m e .   I t   c a pr o v i de   ge os pa t i a l   b i da t a   a n a l y t i c s   e a s i l y   i m pl e m e nt e o n   b i da t a   pl a t f o r m s   [3 4] .   W i t h   t h e   r a p i d   de ve l o pm e n t   i n   t e c hn o l o gi e s ,   i n c r e a s i ng  i n   c o m put a t i o n a l   p ow e r   a n de c r e a s i n i n   d a t a   c o l l e c t i o n   c o s t   a n pr o c e s s i n g,   di m e n s i o n s   o f   da t a   s e t s   a r e   c o n t i n uo us l y   gr ow i n g   i s i z e .   I n   t h e s e   da t a   s e t s ,   t h e   di m e n s i o n s   o r   f e a t ur e   v a r i a b l e s   n   c a n   b e   a s   h i g h   a s   i n   s i z e   o r   m uc h   hi g h e r   t h a n   t h e   ob s e r v a t i o n   s i z e   m .   A m o n Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2088 - 8708   Int   J   E l e c   &   Co m E n g ,   V o l .   10 ,   N o .   3 J u n e   2 020   :    26 51     2658   2652   t h o us a nds   of   di m e n s i o n s   o r   f e a t ur e   v a ri a b l e s ,   o n l y   a   s m a l l   n u m b e r   o r   s ub s e t   of  t h e m   a r e   po s s i b l e   t o   e xt r a c t   v a l ue   o r   i n s i g h t   i n   da t a   a n a l y s i s .   T h e r e f o r e ,   i t   m a ke s   a   c r i t i c a l   s i t ua t i o n   t o   i de n t i f y   c o r r e c t l y   a n t o   r e duc e   e ff i c i e n t l y   t h e m .   A n d ,   f i n di ng   s i g n i f i c a n t   a nd  r e l e v a nt   f e a t ur e s   i d a t a   s e t s   w i l l   f ul f i l l   v a l u a b l e   i n s i g h t s   t o   s uppo r t   b e t t e r   de c i s i o n   m a k i n g .   D i m e n s i o n a l i t y   r e duc t i o n   ha s   b e e n   pl a y i n a   ke y   r o l e   i n   h i g h - di m e n s i o n a l   l a r ge - s c a l e   da t a   na t u r e .   I n   a ddi t i o n ,   t h e   m o s t   f r e que n t   i s s ue   of   da t a   m i ni n a n m a c h i n e   l e a rn i ng  f o r   r e g r e s s i o n   m o de l   i s   t ha t   h o w   t o   pr e di c t   t h e   o ut c o m e   of   a   de pe n de n t   v a r i a b l e   w h e n   t h e r e   a r e   a   l a rge   n um b e r   o i n de pe n de n t   v a ri a b l e s   i n   t h e   m o de l .   W i t t h e   a dv a n c e t e c hn o l o gi e s   a n m o de rn   a l go r i t h m s   f o r   r e g r e s s i o m o de l ,   i t   i s   a   d i f f i c ul t   s i t ua t i o n   t o   ha n dl e   a l l   v a r i a b l e s   a t   o n c e   fo r   t h e   m o de l C ha m a n   L a l ,   S a b ha r w a l   a n d   A n j um   [ 5 p r e s e n t e a a d a pt i v e   h y b r i a pp r o a c h   by   a ppl y i n P CA   t o   t r a d i t i o n a l   r e g r e s s i o n   a l go r i t hm s   t r e duc e   t h e   d i m e n s i o na l i t y   of   a   da t a   s e t   a s   i de n t i fy i n p a t t e rn  i da t a   o f   h i g d i m e n s i o c a n   b e   v e r y   h a r i da t a   a n a l y s i s   a ppl i c a t i o n s .   T h e   c e n t ra l   i de a   of   us i n P CA   i s   t o   f ul f i l l   a n   a dv a n t a ge   of   l o s s l e s s   da t a   r e duc t i o i n   t w o   di v e r s e   a r e a s   s uc h   a s   qua l i t a t i v e   s pa t i a l   r e a s o n i n (Q S R a n h e a l t h   i n f o r m a t i c s .   T h e y   a l s o   e xpr e s s e d   t h a t   a p pl y i n P CA   w i t h y b r i a pp r o a c i t w o   a r e a s ,   Q S R   a n d   h e a l t h   i n f o rm a t i c s   i s   n o t   o nl y   a   pr o c e dur e   f o r   i de nt i fy i n a   s m a l l   num b e r   o f   pr i n c i pa l   c o m po n e nt s   f o r   r e duc e di m e n s i o n s   b ut   a l s o   a   p r o c e dur e   fo r   i m p r o v i n t r a d i t i o na l   r e g r e s s i o n   a l go r i t h m s .   Im p r o v i n t h e   pr e di c t i v e   p ow e r   of   t r a d i t i o n a l   m u l t i pl e   l i n e a r   r e g r e s s i o n   m o de l   us i n P CA   i s   s t udi e by   A h m a Z i a   U I - S a uf i e ,   A h m a S h uk ri   Y a h y a   a n N o r   R a m l i   [6 t pr e di c t   P M 10  c o n c e nt ra t i o n   f o r   n e xt   d a y .   A ppl i c a t i o o f   P CA   i r e gr e s s i o m o de l s   i s   i nt e n de d   t o   a v o i m ul t i c o l l i n e a ri t y   pr o b l e m   a n t o   e n s ur e   t ha t   p r i n c i pa l   c o m po n e n t s   s e l e c t e h a v e   m a xi m um   v a r i a n c e .   A c c o r di n t o   e xpe r i m e nt a l   s t ud i e s ,   t h e y   pr o ve t ha t   t h e   p r i n c i pa l   c o m po n e n t s   a s   i n pu t   t o   r e g r e s s i o n   p r o c e s s   off e r   a   m o r e   a c c ura t e   r e s ul t   t ha n   o ri gi na l   da t a   i n pu t   t o   r e gr e s s i o n   p r o c e s s   be c a us e   of   r e duc e n u m b e r   o i n put s .   T h e r e f o r e ,   a ppl y i n P CA   b a s e r e g r e s s i o n   m o de l s   c a n   b e   c o n s i de r e a s   m o r e   e ff i c i e n t   a nd  de c r e a s e c o m pl e xi t y   m o de l s .   In   c u rr e n t   t i m e ,   h u ge   a m o u n t   o f   g e o s pa t i a l   da t a   c a n   b e   ge n e r a t e d   f r o m   h u n d r e ds   o m i l l i o n s   of   m ob i l e   ph o n e s ,   s e n s o r s ,   s a t e l l i t e s   a n o t h e r   r e s o ur c e s   [7].   O pe n S t r e e t M a (O S M i s   a n   o pe n   s o ur c e   da t a   r e s o ur c e   f o r   ge o gr a p hi c   i n f o r m a t i o n   a l l   o v e r   t h e   w o r l d.   T h e   s i z e   o f   O S M   da t a   s e t s   i n c r e a s e s   s i g n i c a n t l y   i e v e r y   y e a r   b e c a us e   i t   i s   a   h uge   c o l l e c t i o of   ge os pa t i a l   i n f o r m a t i o n .   S t e f a F u n ke ,   R ob i n   S c h i rrm e i s t e r   a n S a b i n e   S t o r a n d t   [ 8 i n t r o duc e t ha t   h o w   t o   a ppl y   m e t h o ds   i n   de t e c t i o n   o ga ps   i n   t h e   r o a d   n e t w o r a ut o m a t i c a l l y   a n t h e n   di s c ov e r y   of   m i s s i n s t re e t   n a m e s   by   us i n O S M   r o a n e t w o r da t a .   T h e y   s h o w e t h a t   d a t a   m i n i ng  a nd  m a c h i n e   l e a rni n m e t h o ds   a r e   v e r y   us e f ul   t o   de t e c t   m i s s i n r o a d   n e t w o r da t a   i n   O S M .   G r o w i n r a p i dl y   i n   vo l um e   a n po pul a r i t y   of  ge o s pa t i a l   d a t a ,   G e o gr a p hi c a l   I n f o r m a t i o n   S y s t e m   (G IS a ppl i c a t i o n s   a r e   de m a n di ng  t o   d a t a   m i ni n a n d   m a c hi n e   l e a rni n g   a pp r o a c h e s   i nt e g r a t e w i t h   s pa t i a l   b i da t a .   H e m l a t a   G oy a l ,   C hi l ka   S ha rm a   a n d   N i s h e e t h   J o s hi   p r e s e nt e i s s ue s ,   c h a l l e n ge s ,   t o o l s   a n d   a l go ri t hm s   f o r   s p a t i a l   d a t a   m i ni n g   c o l l a b o r a t e d   w i t h   b i g   s pa t i a l   da t a   [ 2 ].       2.   G EO S P A TI A O R   S P A TI A B I G   D A TA   G e o gr a p h i c a l   l o c a t i o n - a w a r e   da t a   w hi c h   i s   us ua l l y   s t o r e a s   c o o r di n a t e s   a n t o po l o g y   fo r   m a p pi n g   c a b e   r e f e r r e t o   a s   ge o s pa t i a l   o r   s p a t i a l   d a t a   [9 ] .   G e o s pa t i a l   b i d a t a   c a nn o t   b e   a s s um e a s   n e w   i s s ue   o r   pr o b l e m   i da t a   a na l y t i c s   e r a .   D ue   t o   n o t   o n l y   e xpo n e n t i a l   i n c r e a s e   i n   d a t a   p r o duc t i o n   b ut   a l s o   i da t a   pr o duc t i o n   r a t e   (v e l oc i t y ).   I n   E O S D IS ,   4 T B   of   r e m o t e   s e n s i ng  d a t a   a r c hi v e s   a r e   g r o w i n i e v e r y   da y .   T h i s   da t a   f l ow   m e a n s   m o r e   t h a n   6 30  m i l l i o n   da t a   l e s ,   ne a rl y   20  T B   c a n   b e   de l i ve r e t o   us e r s   a l l   o v e r   t h e   w o r l d .   T h e   o b s e r v a t i o n   da t a   o f   N A S A   i n   e a c h   u n i t   t i m e   c a n   b e   c o l l e c t e f r o m   a pp r o xi m a t e l y   100  a c t i v e   m i s s i o n s   w hi c h   w o ul b e   a bo ut   1. 73G B .   H i gh  pe r f o r m a n c e   c o m put i ng  o r   c l o ud  c o m put i n p l a t f o r m s   a r e   a b s o l ut e l y   r e qui r e i n   a n a l y z i n g   l a rge - s c a l e   ge o s pa t i a l l y   e na b l e c o n t e nt s .   B y   a n a l y z i n ge o s pa t i a l   da t a ,   w e   c a n   m a ke   i nn o v a t i v e   a c t i v i t i e s   i n   o ur   da i l y   l i fe   a n b us i n e s s   [10,   11] .   I n   ge n e ra l ,   w e   c a n   c l a s s i f y   ge o s pa t i a l   da t a   i nt o   t hr e e   c a t e go r i e s   s uc h   a s   r a s t e da t a ,   v e c t o r   d a t a ,   a nd  g ra p da t a .   R a s t e r   d a t a   c o n s i s t s   o ge o i m a ge s   t a ke n   by   di gi t a l   c a m e r a s ,   s a t e l l i t e   e t c .   a n i t   c a n   b e   ut i l i z e by   di gi t a l   m a s e r v i c e s ,   fo r   e xa m pl e ,   G oo gl e   E a r t h.   M a da t a   b e l o n gs   t o   v e c t o r   da t a   c a t e go ry   w h i c h   i n c l ud e s   po i nt s ,   l i n e s ,   a nd  po l y g o n s ,     fo r   e xa m pl e ,   O pe n S t r e e t M a p. T h e   g ra p h   da t a   a ppe a r s   i n   t h e   f o r m   o f   c i t y   m a ps   i n c l udi ng  r o a ds   a n l a ndm a r k .   In   r o a d   n e t w o r ks ,   a n   e dge   c a n   b e   r e p r e s e n t e a s   a   s e gm e n t   o f   r o a d,   a n a   n o de   a s   a n   i n t e r s e c t i o n   o r   a   l a n d m a r k .   O pe n S t r e e t M a p   (O S M i s   a n   o pe n   s o u r c e   da t a   r e s o ur c e   fo r   ge o gr a p hi c   i n f o r m a t i o n   a l l   o ve r   t h e   w o r l d.   T h e   ra w ,   u n s t ruc t u r e l a r ge - s c a l e   O S M   da t a   c a b e   a v a i l a b l e   f o r   de v e l o p e r s   t o   c r e a t e   f r e e l y   t m o di fy   t h e   m a p   o f   t h e   w o r l d.   It   us e s   a   t o po l o gi c a l   da t a   f o r m a t   w i t h   f o ur  m a i e l e m e nt s   ( a l s o   k n o w n   a s   da t a   pri m i t i v e s ):   n o de s ,   w a y s ,   r e l a t i o n s   a n t a gs .   O S M   m a da t a   ge n e ra l l y   r e pr e s e n t s   p h y s i c a l   f e a t ur e s   o n   t h e   gr o und,   f o r   e xa m pl e ,   r o a ds   o r   b ui l di n gs   by   us i n t a gs   w h i c h   de s c r i b e s   a   ge o gr a p hi c   a t t ri b ut e   s h o w i n s pe c i f i c   n o de ,   w a y   o r   r e l a t i o d a t a   s t r uc t u r e s   [8] .   M a n y   w e l l - k n o w n   a pp l i c a t i o n s   a nd  s e r v i c e s   c o l l a b o r a t i n g   w i t h   s o m e   ki n ds   o f   ge o l oc a t i o n   o r   m a p - b a s e c o m po n e n t   u s i ng  O S M   da t a   a r e   a s   fo l l ow s :   O pe n S t r e e t M a p - b a s e m a fo r   i P h o t o   fo r   i O S   a n i t   h a s   b e e n   c i t e a   l o t   of   s o ur c e s   fo r   A ppl e ' s   c us t o m   m a ps   i n   i O S   6 .   Int e ra c t i v e   da t a   v i s ua l i z a t i o n   p r o duc t s   by   T a b l e a s of t w a r e   c o m pa n y   h a s   i nt e g r a t e O S M   fo r   a l l   t h e i m a pp i n g   r e qui r e m e n t s .   T h e   p r o f e s s i o n a l   r o b o t   s i m ul a t o w i de l y   us e fo r   e duc a t i o n a l   pu rpo s e s ,   W e bo t s   Evaluation Warning : The document was created with Spire.PDF for Python.
Int   J   E l e c   &   Co m E n g     IS S N :   2088 - 8708       P r e di c t i v e   ge os pa t i a l   anal y t i c s   us i ng   pr i n c i pal   c om pone nt   r e gr e s s i on   ( Ky i   L a i   L a i   K hi n e )   2653   a ppl i e s   O S M   da t a   t o   c r e a t e   v i r t ua l   e n v i r o n m e n t   f o r   a ut o n o m o us   ve h i c l e   s i m ul a t i o n s .   T h e   l a r ge - s c a l e   un s t r uc t u r e X M L   f o r m   O S M   da t a   c a n   b e   s e r ve a s   a   r e a l i t y   f ul f i l l m e nt   of   G IS   m a r ke t   a n s pa t i a l   w o r l d   [12,   13] .       3.   R ES EA R C H   M ET H O D   3 . 1 .     M u l ti p l e   l i n e ar   r e g r e s s i o n   ( M LR )   R e gr e s s i o n   a na l y s i s a   s t a t i s t i c a l   p r o c e s s ,   i s   w i de l y   us e fo r   pr e di c t i o n   a n f o r e c a s t i n g   by   e s t i m a t i n g   r e l a t i o n s h i ps   b e t w e e n   v a r i a b l e s .   It   i s   n o t   s t ra i g ht   f o r w a r d   f o r   l a rge - s c a l e   da t a   s e t s   [14] .   I t hi s   s y s t e m ,   m ul t i p l e   l i n e a r   r e g r e s s i o n   m o de l   i s   a ppl i e t o   pr e di c t   o ne - w a y   r o a ds   fo r   c i t y   Y a n go n.   M ul t i pl e   L i n e a r   R e gr e s s i o n   (M L R ),   a   s t a t i s t i c a l   m o de l ,   i s   i nt e n de f o r   e s t i m a t i n t h e   r e l a t i o n s hi b e t w e e n   a   de pe n de n t   v a r i a b l e   Y   a n o n e   o r   m o r e   e xpl a n a t o r y   v a r i a b l e s   ( o r   i n d e pe n de nt   v a r i a b l e s X   t ob t a i n   t h e   u n k n o w n   r e g r e s s i o n   m o de l ’s   pa r a m e t e r   β .   T h e   pu r po s e   of   m i ni m i z i n t h e   s um   o f   s qua r e s   of   di ffe r e n c e s   be t w e e n   t h e   pr e d i c t e v a l ue s   a n o b s e r ve v a l ue s ,   e s t i m a t e s   fo r   β   v a l ue s   c a b e   c a l c ul a t e f r o m   t h e   r e g r e s s i o n   e qua t i o n   a s   f o l l ow .     Y   β 0 1 X 1 +…………+β n X n   (1)     w h e r e   Y   i s   a   de pe n de n t   v a r i a b l e ,   X 1 …. . . X n   a r e   i n de pe n de nt   v a r i a b l e s   a n β 0   …… β n   a r e   c o e ff i c i e n t s   o pa r a m e t e r s   o f   r e gr e s s i o n   m o de l .   M L R   a l s s pe c i f i e s   h ow   m uc h   de pe n de n c y   o r   c o n n e c t i o n   e xi s t   b e t w e e n   Y   a n o n e   o m o r e   X s .   T ra di t i o n a l   M L R   p r o c e dur e s   c a b e   s e e n   i t h e   a l go r i t hm   3 . 1 . 1 .     3 . 1 . 1.   A l go r i th m   fo r   tr ad i ti o n al   m u l ti p l e   l i n e a r   r e gr e s s i o n   In p ut :   m   x   da t a   m a t ri x   D   O ut put :   P r e di c t e d   Y ,   R 2   a nd  R M S E     S t e ps   1.   D e f i n e   de pe n de n t   v a ri a b l e   Y   a n d   i nde pe n de n t   v a r i a b l e s   X s   f o r   m a t ri x   D m x n   2.   F i nd  β   v a l ue s   f r o m   t h e   e qua t i o n   (1 )   3.   Co m put e   p r e di c t e Y   us i ng  β   v a l ue s   a nd  X s   4.   Ca l c ul a t e   R 2   a n d   R M S E   f o r   m o de l   pe r f o r m a n c e   A c c o r di n t o   a l go ri t hm   3 . 1. 1,   t h e r e   a r e   s e v e r a l   i n pu t   di m e ns i o n s   o r   i n de pe n de n t   v a r i a b l e s   X s ”  fo r   M L m o de l .   A ddi n g   a l l   i nde pe n de n t   v a r i a b l e s   X s   a t   o n c e   t o   c o n s t r uc t   a   m o de l   m a y   b e   r e a s o n a b l e   fo r   s m a l l   a n m o de r a t e   di m e n s i o n s   i da t a   s e t s ,   h o w e ve r ,   i t   w i l l   b e   c o m pl i c a t e a nd  t i m e - c o n s um i n p r o c e dur e   fo r   hi g h - d i m e n s i o na l   da t a   na t u r e   [ 15] .   I n   ge n e ra l ,   s e v e r a l   i n de pe n de n t   v a ri a b l e s   X s   fo r   de pe n de n t   v a ri a b l e   Y   c a n   b e   s o m e   b i a s   w h i c h   i s   v e r y   l i ke l y   t o   r e duc e   R M S E ,   a   pe r f o r m a n c e   i n di c a t o r   o f   M L R .   T h e r e f o r e ,   i n de pe n de n t   v a r i a b l e s   X s   w h i c h   m a y   a ffe c t   M L R ’s   pr e di c t i v e   pow e r   s h o ul b e   dr o ppe o r   r e m o v e f r o m   t h e   m o de l   i n   t h e   a na l y s i s .   I n   p r e di c t i v e   da t a   a na l y s i s ,   s e l e c t i n s ub s e t   of   fe a t u r e s   o r   di m e n s i o n s   f r o m   hi g h - di m e n s i o na l   d a t a   s e t s   h a s   b e c o m e   a   b i i s s ue   t o   i m pr o v e   m o de l ’s   pr e di c t i v e   p ow e r   be c a us e   i t   i s   a   di f f i c ul t   c o m put a t i o n a l   p r o b l e m   t o   d e a l   w i t h   v e r y   h i g h - di m e n s i o n s .   M o r e ove r ,   h i g h - di m e n s i o na l   d a t a   a n a l y s i s   h a s   b e e n   a   gr e a t   a t t e nt i o n   i n   b i da t a   e ra .   T h e   c o m pl e xi t y   of   b i da t a   of t e n   m a ke s   di m e n s i o n   r e duc t i o n   t e c hni que s   n e c e s s a r y   b e fo r e   c o n duc t i ng  s t a t i s t i c a l   i n f e r e n c e .   T h e   m a i n   p ur po s e   of   di m e n s i o n a l i t y   r e duc t i o n   i s   t o   f i n o ut   h o w   m a n y   di m e n s i o n s   c a n   b e   r e duc e d   f r o m   a l l   di v e r s e   a n r a w   da t a   di m e n s i o n s .   A s   t h e   n u m b e r   o di m e n s i o n s   o f   da t a   i n c r e a s e s ,   i t   b e c o m e s   m o r e   a n d   m o r e   di f fi c ul t   t o   p r o c e s s   i t .   T h e   e xpo n e nt i a l   i n c r e a s i n g   i t h e   s i z e   o f   da t a   c a us e by   a   l a r ge   n um b e r   o f   di m e n s i o n s   i n   b i d a t a   m a ke   a   b i p r o b l e m   i n   da t a   a na l y s i s .   T h i s   i s   Cu r s e   of   D i m e n s i o n a l i t y   i n   h i g h - di m e n s i o n a l   b i da t a   a n a l y t i c s .   P r i n c i p a l   Co m po n e n t   A na l y s i s   (P CA ),   a   m a t h e m a t i c a l   p r o c e dur e ,   i s   a pp l i e t o   r e duc e   t h e   di m e n s i o n a l i t y   of   da t a   m a t r i x .   P CA   c a n   o f t e n   s e r v e   a s   t h e   f i r s t   p r o c e s s i n s t e i n   d a t a   a n a l y s i s   [15 - 17] .   It   m a y   b e   fo l l ow e by   l i n e a r e g r e s s i o n ,   m u l t i pl e   l i n e a r e g r e s s i o n ,   c l us t e r   a n a l y s i s ,   i m a ge   a na l y s i s ,   a n m a n y   o t h e r s .       3 . 2   D i m e n s i o n al i ty   r e d u c ti o n   u s i n P C A   In   c u rr e n t   t i m e ,   di m e n s i o na l i t y   r e duc t i o n   ha s   b e e n   pl a y i n a   ke y   r o l e   i n   hi g h - d i m e n s i o n a l   vo l um i n o us   a m o unt   o da t a .   P CA   pe r f o r m s   di m e n s i o na l i t y   r e duc t i o n   by   e xt ra c t i n t h e   p r i n c i pa l   c o m po n e n t s   (P Cs o f   h i g h - di m e n s i o na l   d a t a .   I n   ge n e r a l ,   d a t a   s e t s   c a n   b e   r e p r e s e n t e a s   m a t ri c e s   a n d   v e c t o r s   w i t a   l o t   of  f e a t ur e s .   F o a   m a t ri x ,   e a c h   c o l um r e f e r s   t o   a   c o n c e pt u a l   a t t ri b ut e   o f   a l l   t h e   da t a .   R e duc i n g   b i o ri gi na l   d a t a   m a t r i i n t o   s m a l l e r   o n e   b ut   r e t a i ni n t h e   s a m e   i n f o r m a t i o n   o f   o r i gi n a l   da t a   m a t r i t o   ga i n   v a l ue   o r   i n s i g ht   f r o m   t hi s .   Co m pu t i n P CA   o f   a   m a t ri Y   o f   s i z e   N   × D   (N   r o w s   a n D   c o l um n s ) ,   i t   c a n   b e   ob t a i n e d”   p r i n c i p a l   c o m po n e nt s   (d  ≤  D t h a t   e xpl a i n s   t h e   m o s t   v a r i a n c e   (i n f o r m a t i o n o f   t h e   da t a   i n   m a t r i Y   [18 - 20] .   T h e   i n pu t   f o r   P CA   i s   m a i nl y   n um e r i c a l   f o r m .   If   t h e   d a t a   i s   o t h e r   f o r m ,   f o r   e xa m pl e ,   c a t e go r i c a l   o r   l o gi c a l ,   i t   m us t   b e   c o n v e r t e i n t o   num e r i c   f i r s t .   A n t h e n ,   e i ge n v a l ue s   a n e i ge n v e c t o r s   a r e   c o m put e t o   t r a n s f o r m   o ri gi na l   h i g h - di m e n s i o na l   da t a   m a t ri i n t o   l o w e r   di m e n s i o n a l   o n e .   P CA   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2088 - 8708   Int   J   E l e c   &   Co m E n g ,   V o l .   10 ,   N o .   3 J u n e   2 020   :    26 51     2658   2654   de c o m po s i t i o n   f o r   a   da t a   m a t ri A   w h i c h   i s   s qua r e   a n s y m m e t r i c   i s   A   =   U D U T   w h e r e   U   i s   m a t r i o e i ge n v e c t o r s   a n D   i s   d i a go n a l   m a t r i o f   e i ge n v a l ue s   of   A .   P CA   a l s o   a rr a nge s   e i ge n v a l ue s   by   o r de ri n i de s c e n di ng  m a g n i t ude   [21] .   I n   d a t a   m i n i n g ,   e a c h   o b s e r v a t i o n   i s   a   v e c t o r   w i t h   n”   c o m po n e n t s   i n   a   m   n”   da t a   m a t ri x .   T h e   f i r s t   p ri n c i p a l   c o m po n e n t   (P C)  w h i c h   i s   e xt r a c t e f r o m   P CA   p r o c e s s   w i l l   b e   a   m a xi m um   a m o u n t   o f   v a r i a n c e   i n   t h e   o b s e r v e da t a   v a r i a b l e s .   T h e   s e c o n p r i n c i pa l   c o m po n e n t   o r   s e c o n P C   w i l l   b e   un c o rr e l a t e w i t h   t h e   f i r s t   P a nd  t h e   r e m a i ni ng  P Cs   c o m put e f r o m   P C A   pos s e s s   t h e   s a m e   c h a ra c t e ri s t i c s   [19 ,   22 ,   2 3] I n   t hi s   s y s t e m ,   w e   w o ul l i ke   t o   pr o v e   t h a t   P CA   w h i c h   i s   m o s t l y   a ppl i e in   di m e n s i o na l i t y   r e duc t i o n   c a a l s o   e ff e c t i v e l y   r e duc e   in s i gni f i c a n t   a n s o m e t i m e s ,   n o i s y   pr e di c t o r s   o i n de pe n de n t   v a r i a b l e s   of   m ul t i pl e   l i n e a r   r e g r e s s i o m o de l .   T h e r e   a r e   a   n u m b e r   o f   r e a s o n s   w h y   pr e di c t o s e l e c t i o n   b e c o m e s   a n   e s s e n t i a l   r o l e   i n   c o n s t ruc t i n t h e   o pt i m a l   r e gr e s s i o n   m o de l .   R e dun d a n t   p r e d i c t o r s   c a n   hi n de r   t h e   r e g r e s s i o n   a na l y s i s   w h i l e   w e   a r e   t r y i n t o   e xpl a i n   d a t a   i n   t h e   s i m p l e s t   w a y   a n i n s i g ni f i c a n t   pr e di c t o r s   a r e   a l s o   hi g hl y   p o t e n t i a l   t o   i n c r e a s e   n o i s e s   a n b i a s e s   fo r   t h e   m o de l .   I n   a ddi t i o n,   a   l a rge   n u m b e r   o pr e di c t o r s   w i l l   a l s o   c a us e   a   pr o b l e m   c a l l e M ul t i c o l l i n e a ri t y .   It   i s   a   s t a t i s t i c a l   p h e n o m e n o n   o f   e xi s t i n g   a   pe r f e c t   o r   e xa c t   r e l a t i o n s hi b e t w e e n   pr e d i c t o r s   w h i c h   w i l l   c a us e   i n c o r r e c t n e s s   a bo ut   t h e   r e l a t i o n s h i b e t w e e n   p r e di c t o r s   a n d   o ut c m e   v a ri a b l e   o f   t h a t   r e g r e s s i o n   m o de l   [24].   T h e r e fo r e ,   i f   w e   a ppl y   t h e   m o de l   w i t r e du n d a n t   p r e d i c t o r s   f o r   pr e di c t i o n   pu rpo s e ,   i t   w i l l   b e   t i m e - c o n s um i n a n h i g h   e xpe n s i v e   j ob   i n de e d .   T h e   i m p r o v e ve r s i o o f   M L R   c o m b i n e w i t P CA   c a a l s o   b e   s e e n   i t h e   a l go ri t hm   3 . 2 . 1 .       3 . 2 . 1.   A l go r i th m   fo r   i m p r o v e d   mu l ti p l e   l i n e ar   r e g r e s s i o n   u s i n P C A   In p ut :   m   x   da t a   m a t ri x   D   (“ n”   d i m e n s i o n s )   O ut put :   P r e di c t e d   Y ,   R 2   a nd  R M S E   S t e ps   1.   A ppl y   P CA   o n   h i g h - d i m e n s i o na l   m a t ri x   D m x n   i.   Co m put e   e i ge n v a l ue s   a nd  e i ge n v e c t o r s   o f   D mx n     ii.   Ch o o s e   t o k”   P Cs   by   ra n ki ng  t h e   e i ge n v a l ue s   f r o m   e i ge n v e c t o r s   i n   de s c e n d i n o r de r   i i i .   Co n s t r uc t   t h e   m a t r i D m x n   us i n g   k”   e i ge n v e c t o r s   i nt o   D m x n k     i v .   R e c o n s t r uc t   t h e   m a t r i D m x n k   i n t o   o r i gi na l   i n p ut   m a t ri x   f o r m   w i t h   r e duc e n k   di m e n s i o n s   2.   D e f i n e   de pe n de n t   v a ri a b l e   Y   a n d   i nde pe n de n t   v a r i a b l e s   X s   f o r   m a t ri x   D m x n k     3.   F i nd  β   v a l ue s   f r o m   t h e   e qua t i o n   (1 )   4.   Co m put e   p r e di c t e Y   us i ng  β   v a l ue s   a nd  X s   5.   Ca l c ul a t e   R 2   a n d   R M S E   f o r   m o de l   pe r f o r m a n c e   A c c o r di n t o   a l go ri t hm   3. 2. 1 ,   i t   i s   c l e a r l y   kn o w n   t h a t   a p pl y i n P CA   p r o c e dur e s   b e fo r e   M L R   m o d e l   c a n   o f fe r   r e duc e n u m b e r   o f   di m e n s i o n s   o r   v a r i a b l e s   (“ n   i nt o   n k i n   de f i ni n i n de pe nde nt   v a r i a b l e s   X s   f o r   t h a t   m o de l .   T h e r e f o r e ,   t h e r e   i s   n o   n e e t o   ut i l i z e   a l l   di m e n s i o n s   o r   i n de pe n de nt   v a ri a b l e s   a s   i n pu t s   di r e c t l y   t t h e   m o de l .     3 . 3   G e o s p ati al   O S M   d ata   fo r   o n e - w ay   r o ad   p r e d i c ti o n   O n e - w a y   r o a ds   a n s t r e e t s   a r e   us ua l l y   us e i n   hi g h   v o l um e   s i t ua t i o n s   w h i c h   o c c ur   i n   do w n t o w n   a r e a s   w i t h   c l o s e l y - s pa c e i n t e r s e c t i o n s .   I Y a n go n ,   t h e   f o r m e r   c a p i t a l   a n n o w   b u s i n e s s   c i t y   of   M y a n m a r,   r o a ds   a n s t r e e t s   a r e   o f t e n   c o n ge s t e a nd  pe o pl e   l os e   m uc h   t i m e   s t uc i n   t ra f f i c   e v e r y   da y .   P e a h o u r s   a r e   8: 00  t o   9: 00  i n   t h e   m o rn i ng,   14 : 00  t o   16: 00  i n   t h e   e ve n i n a n a f t e r   w o r h o ur s .   S o m e t i m e s ,   a   t e n   m i n u t e s   t r i c o ul t a ke   a s   l o n a s   h o u r s   b e c a us e   of   s e v e r e   t r a f f i c   s i t ua t i o n   du ri n pe a h o ur s .   A l t h o ug h   o n e - w a y   r o a ds   a n s t r e e t s   c a n   c a us e   s o m e   di s a dv a nt a ge s   s uc h   a s   i n c re a s e t r a v e l   di s t a n c e ,   w i de r   pe de s t r i a n   c r o s s i ngs ,   a n d r i v e r   c o n f us i o n ,   i t   c a n   o f fe r   s o m e   i m po r t a nt   a dv a n t a g e s   s u c h   a s   e nha n c e   t ra f f i c   c a pa c i t y   a n i n c r e a s e   s a f e t y .   N o t   o n l y   pr ov i di n a ddi t i o na l   l a n e s   a nd  r e duc i n nu m b e r   a n s e v e r i t y   of   c r a s h e s   by   e l i m i n a t i n h e a d - o n   c ra s h e s   t o   b e   e f f i c i e n t   i n   t ra f f i c   c o n t r o l   o pe r a t i o n   a n d   i n c re a s e s a f e t y .   T h e   m a i n   p u r po s e   of   i m pl e m e nt i ng  t h i s   s y s t e m   w i l l   pr e di c t   o n e - w a y   r o a ds   i n   m a j o r   b us i n e s s   c i t y   Y a n go n   us i n O S M   da t a   a s   a   w a y   t o   f a c i l i t a t e   t h e   t r a f f i c   pr o b l e m s .   M o r e ove r ,   O S M   da t a   a pp l y i n M L R   c om b i n e w i t h   P CA   i s   i nt e n de t o   s h o w   t h a t   i t   c a f ul f i l l   t h e   r e qui r e m e n t s   o f   pr e di c t i v e   ge o s pa t i a l   a na l y t i c s .   T h e r e   i s   a n   i s s ue   i n   ge n e ra t i n ge o s pa t i a l   da t a   a n d   pr e p r o c e s s i n f o r   f ur t h e r   a pp l y i n i n   di v e r s e   do m a i n s   [25] .   In   ge n e ra l ,   O S M   da t a   e xi s t s   i n   t h e   fo r m   o f   da t a   s t ruc t u r e s   s uc h   a s   n o de s ,   w a y s   a n r e l a t i o n s .   It   i s   e s s e n t i a l   t o   t r a n s f o r m   t h e   r a w ,   u n s t r uc t u r e d   O S M   X M L   fo r m a t   da t a   i nt o   s ui t a b l e   fo r m a t   c o m pa t i b l e   w i t h   b i da t a   a na l y t i c s   pl a t f o r m s   s uc h   a s   M a p R e duc e   a n S pa rk  c a n   b e   s e e n   i n   F i gu r e   1 .   O S M   da t a   (O S M   X M L i s   f i r s t l y   c o n v e r t e i n t o   G e o J S O N   f i l e s   by   us i n O s m o s i s ,   a   c o m m a n d - l i n e   t o o l   fo r   m a n i pul a t i ng  ra w   s t a t e   O S M   da t a .   I t   c a n   b e   a ppl i e t o   pr o c e s s   l a r ge - s c a l e   da t a   f i l e s .   G e oJ S O N ,   r e p r e s e n t i n ge o da t a   a s   J S O N ,   i s   i nt e n de t o   a ppl y   i n   e n c o di ng  o f   v a r i o us   ge o gr a p h i c   da t a   s t ruc t u r e s .   F o r   ge o s pa t i a l   d a t a   a na l y s i s   i n   b i da t a   pl a t f o r m s ,   ge o da t a   i n   J S O N   fo r m a t ,   G e o J S O N   f i l e s   a r e   t h e c o n v e r t e i nt o   CS V   f i l e s   by   us i n g   Q G IS   (Q u a n t u m   G I S w h i c h   a l l o w s   us e r s   t o   v i e w ,   e di t   a n d   a na l y s e   s pa t i a l   i n f o r m a t i o n.     Evaluation Warning : The document was created with Spire.PDF for Python.
Int   J   E l e c   &   Co m E n g     IS S N :   2088 - 8708       P r e di c t i v e   ge os pa t i a l   anal y t i c s   us i ng   pr i n c i pal   c om pone nt   r e gr e s s i on   ( Ky i   L a i   L a i   K hi n e )   2655             F i gu r e   1 .   O S M   da t a   p r e - p r o c e s s i n s t e ps       4.   R ES U LTS   A ND  A N A L Y S I S   T o   i m p l e m e nt   o n e - w a y   r o a pr e d i c t i o n   us i n O S M   da t a ,   e xpe r i m e nt s   a r e   pe r f o r m e o n   A m a z o E l a s t i c   Co m put e   Cl o ud  (A m a z o n   E C2 ),   a   w e b   s e r v i c e ,   w hi c h   p r o v i de s   r e s i z a b l e   c o m put i n c a p a c i t y   a n d   E M R   (E l a s t i c   M a pR e duc e fo r   c r e a t i n a   c l us t e r   o f   fo ur   A m a z o n   E C2  m 4.   l a r ge   i n s t a n c e s ,   o n e   fo r   M a s t e r”   (S e r v e r   n o de a n t hr e e   S l a v e   n o de s .   T h e   c l us t e r   r u n s   L i n ux  R e H a t   4. 6. 3,   a n A m a z o n   H a do op   D i s t r i b ut i o n   2. 8 . a n A pa c h e   S pa r 2. 3 . w e r e   i n s t a l l e on   t hi s   c l us t e r.   F i r s t l y ,   t h e   ra w   a n u n s t ruc t u r e O S M   da t a   (O S M   X M L i s   t ra n s f o r m e i n t o   m a t ri f o r m   d a t a   a s   s h o w n   i n   F i gu r e   1 .   T h e   l a r ge - s c a l e   da t a   m a t r i x   r e s ul t e f r o m   p r e - p r o c e s s i n s t e ps   i s   g i v e n   a s   i n p ut   da t a   m a t r i x   t o   t ra d i t i o n a l   M L R   m o de l   (de t a i l e d   pr o c e s s i n p r o c e dur e s   a r e   s h o w n   i a l go ri t hm   3 . 1 . 1) .   O n e - w a y   r o a p r e di c t i o r e s ul t s   w hi c h   o b t a i n e f r o m   t r a d i t i o n a l   M L R   c a n   a l s o   be   s e e n   i n   F i g u r e   2 I n   t h i s   p a pe r t h e   i m p r o v e M L R   ( h y b r i a pp r o a c h   o f   P CA   a n M L R )   i s   i n t e n de t o   pr o v e   t h a t   it  w i l l   i m p r o v e   t h e   pr e di c t i o n   o ut c o m e s   of  t h e   s y s t e m .   A c c o r di ng  t o   a l go r i t h m   3. 2 . 1,   s t e p - by - s t e P CA   o pe r a t i o n s   a r e   pe r f o r m e t o   c o m put e   e i ge n v a l ue s   a nd  e i ge n v e c t o r s   w h i c h   w i l l   b e   s e l e c t e d   a s   t o k”   P Cs   o r   di m e n s i o n s   f o r   t h e   s ub s e que nt   M L m o de l ’s   o pe r a t i o n s .   M o r e o ve r ,   P CA ,   a   c o m pl i c a t e a n t i m e - c o n s um i n g   di m e n s i o na l i t y   r e d uc t i o n   a pp r o a c h,   i s   t e s t e o n   t w o   c o n di t i o n s ;   s t a n d a l o n e   a n d i s t ri b ut e (c l us t e r   m o de ).   T h e   e i ge n v a l ue s   o f   P CA   ob t a i n e f r o m   s t a n da l o n e   (s e r i a l v e r s i o n   a n di s t ri b ut e ve r s i o n   us i n c l us t e r   m o de   t o   s h o w   t h e   c om pa ra t i v e   s t udi e s   of   P CA   b e t w e e n   t w v e r s i o n s .   A c c o r di n t o   e xpe r i m e n t a t i o n ,   i t   c a n   b e   a s s um e t ha t   t h e   r e s ul t s   a r e   n o t   qui t e   di f f e r e n t   ( m o s t l y   s a m e   r e s ul t s ).   A l t h o ug h   t h e r e   m a y   e xi s t   t h e   di f f e r e n c e   of   pr o c e s s i n t i m e   duri n P CA   p r o c e s s ,   w e   a c t ua l l y   i n t e n de t de s c r i b e   o n l y   e i ge n v a l ue   r e s ul t s   f r o m   P CA .   T h e r e f o r e ,   t o t e n   e i ge n v a l ue s   f o r   s e l e c t e d   t o k”   P Cs   ob t a i n e f r o m   t w o   ve r s i o n s   o P CA   c a n   b e   s e e n   i n   T a b l e   a n t h e   v a r i a n c e   e xpl a i n e v a l ue s   of   r e s pe c t i ve   pr i n c i pa l   c o m po n e n t s   a r e   s h o w n   i n   T a b l e   2.   I n   t hi s   s y s t e m ,   t h e   f i n a l   p r e di c t i o n   r e s ul t s   a r e   di s p l a y e i n   O pe n S t r e e t M a v i e w .   O n e - w a y   r o a pr e d i c t i o n   r e s ul t s   us i n t r a di t i o na l   M L R   i s   s h o w n   i F i gu r e   2 .   By   us i n i m p r o v e M L R ,   m o r e   a c c u r a t e   a n d   i m p r o v e o n e - w a y   r o a p r e di c t i o n   r e s ul t s   c a n   b e   s e e n   i n   F i gu r e   3 .   A c c o r di n t o   p r e di c t i o r e s ul t s ,   w e   c a n   b e   a s s um e t h a t   us i ng  P CA   b e fo r e   M L R   m o de l   a c t ua l l y   r e duc e s   un i m po r t a nt   a nd   ir r e l e v a n t   i n put   v a ri a b l e s   o r   di m e n s i o n s   o f   t h e   m o de l .   T hi s   m a ke s   t o   i n c r e a s e   p r e di c t i v e   pow e r   of   t h e   m o de l   w h i c h   c a v i s ua l l y   b e   c o m pa r e i n   t w o   F i gur e s   2   a n 3 .   P e r f o r m a n c e   i n di c a t o r s   s uc h   a s   Co e ff i c i e n t   o f   D e t e r m i na t i o (R 2 a n R oo t   M e a n   S qua r e   E rr o r   (R M S E a r e   us e t o   m e a s ur e   t h e   pr e di c t i o n   a c c ura c i e s   be t w e e n   t ra di t i o na l   r e g r e s s i o n   m o de l   a n i m p r o v e P CR  m o de l .   By   e xa m i ni ng  R 2 ,   r a nge s   b e t w e e n   a n 1 ,   t h e   v a l ue   of   R 2   ob t a i n e f r o m   t ra d i t i o n a l   M L R   i s   l ow e r   t ha n   i m p r o v e d   M L R ’s   R 2   v a l ue .   G e n e ra l l y ,   t h e   i n c r e a s e   i n   R w i l l   i n di c a t e   t h e   i m p r o v e m e n t   i r e g r e s s i o n   m o de l .   M o r e o ve r ,   s o m e   n o i s e s   a n d   b i a s   i r e g r e s s i o n   m o de l   c a de gr a de   R M S E   a n i t   c a n   a l s o   de c r e a s e   t h e   p r e di c t i v e   pow e r   o f   t h e   m o de l .   A c c o r di n t o   e xpe r i m e nt a t i o n ,   R M S E   of   i m p r o v e M L R   i s   m uc h   m o r e   t h a t ra di t i o na l   o n e   a s   s h o w n   i n   T a b l e   3 .   T h e r e f o r e ,   i m p r o v e M L w i t h   r e duc e n o i s e s   a nd  b i a s   w i l l   i n c r e a s e   R M S E   w h i c i m p r o v e   m o d e l s   pr e di c t i o n   a c c u r a c y .   F i n a l l y ,   t h e   c o m pa ra t i v e   s t udi e s   b e t w e e n   t w ve r s i o n s   o M L R   m o d e l   w i t h   v a ri e da t a   di m e n s i o n s   o f   O S M   da t a   s e t   a r e   s h o w n   i n   F i gu r e   4 .   I m p r o v e M L R   p o s s e s s   s pe e d y   pr oc e s s i n t i m e   c o m pa r e w i t h   t ra di t i o n a l   o n e   due   t o   r e duc e v a r i a b l e s   o di m e n s i o n s   by   P CA .       T a b l e   1 .   T o t e n   e i ge n v a l ue s   o b t a i n e f r o m   s t a n d a l o n e   a n d   d i s t r i b ut e v e r s i o n s   o f   P CA   N o .   S t a n d a l o n e   V e r s i o n   D i s t ri b u t e d   V e r s i o n   ( A p a c h e   S p a rk   Cl u s t e r)   1.   - 9 4 . 4 0 9 4 4   - 9 4 . 4 0 9 4 4   2.   - 6 1 3 . 0 4 1 6   - 6 1 3 . 0 4 1 6   3.   - 4 5 . 4 5 1 2   - 4 5 . 4 5 1 2   4.   1 0 . 2 8 0 6   1 0 . 2 8 0 6   5.   1 2 7 . 5 3 7 3   1 2 7 . 5 3 7 3   6.   7 2 . 7 5 2 9   7 2 . 7 5 2 9   7 .   1 0 7 . 6 4 6 2   1 0 7 . 6 4 6 2   8.   - 6 8 . 0 0 7 3   - 6 8 . 0 0 7 3   9.   7 8 . 0 3 4 2   7 8 . 0 3 4 2   10.   8 9 . 9 5 1 0   8 9 . 9 5 1 0           Ra w   O S M   X M L   D a t a   Co n v e rt   i n t o   G e o J S O N   fi l e s   w i t h   O s m o s i s   T o o l   Co n v e rt   i n t o   CS V   fi l e s   w i t h   Q G IS   M a t ri x   d a t a   fo a n a l y t i c s   p l a t fo r m s     Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2088 - 8708   Int   J   E l e c   &   Co m E n g ,   V o l .   10 ,   N o .   3 J u n e   2 020   :    26 51     2658   2656   T a b l e   2 T o t a l   v a r i a n c e   e xp l a i n e d   P ri n c i p a l   C o m p o n e n t s   In i t i a l   E i g e n v a l u e s   T o t a l   %   o V a ri a n c e   Cu m u l a t i v e   %   o f   V a ri a n c e   1.   - 0 . 9 9 9 8   0 . 0 9 0 9   0 . 0 9 0 9   2.   - 8 . 9 9 0 5   0 . 8 1 7 0   0 . 9 0 7 9   3.   1 . 1 1 1 0   - 0 . 1 0 10   0 . 8 0 6 9   4.   - 1 . 5 2 2 4   0 . 1 3 8 4   0 . 9 4 5 3   5.   0 . 0 7 4 3   - 0 . 0 0 6 8   0 . 9 3 8 5   6.   - 0 . 5 9 8 3   0 . 0 5 4 4   0 . 9 9 2 9   7.   0 . 0 1 7 3   - 0 . 0 0 1 6   0 . 9 9 1 3   8.   0 . 3 1 0 1   - 0 . 0 2 8 2   0 . 9 6 3 1   9.   0 . 0 0 3 3   - 0 . 0 1 7 2   0 . 9 459   10.   - 0 . 1 5 8 3   0 . 0 1 4 4   0 . 9 603           F i gu r e   2 P r e di c t i o r e s ul t s   us i n g   t ra di t i o na l   M L R   (B l ue - c o l or e l i n e s   r e p r e s e nt   a s   o n e - w a y   r o a ds )           F i gu r e   3 .   P r e di c t i o r e s ul t s   us i n g   i m p r o v e M L R   (S t r o n pi nk - c o l o r e l i n e s   r e p r e s e n t   a s   o n e - w a y   r o a ds )         Evaluation Warning : The document was created with Spire.PDF for Python.
Int   J   E l e c   &   Co m E n g     IS S N :   2088 - 8708       P r e di c t i v e   ge os pa t i a l   anal y t i c s   us i ng   pr i n c i pal   c om pone nt   r e gr e s s i on   ( Ky i   L a i   L a i   K hi n e )   2657   T a b l e   3 P r e di c t i o n   pe r f o r m a n c e   i n d i c a t o r s   f o r   t w o   M L R   v e r s i o n s     T ra d i t i o n a l   M L R   Im p ro v e d   M L R   R2   0 . 1 2 4   0 . 8 9 1 3   RM S E   1 . 1 0 0 5   7 . 4 5 0 5           F i gu r e   4 .   R u nn i ng  t i m e   ( s e c o n ds c o m pa r i s o b e t w e e n   t ra di t i o n a l   a nd  i m p r o v e M L R       5.   C O N C LU S I O N   G e os pa t i a l   d a t a   c a n   b e   ge n e r a t e d   f r o m   h u n d r e ds   o f   m i l l i o n s   of   m ob i l e   ph o n e s ,   s e n s o r s ,   s a t e l l i t e s   a n d   o t h e r   r e s o ur c e s   e ve r y   da y .   H i gh - di m e n s i o na l   d a t a   s e t s   i n c l udi n ge o s pa t i a l   d a t a   s e t s   c a n   a dv e r s e l y   a ff e c t   t h e   c o m pl e xi t y   of   da t a   a na l y s i s   a n d   a dd r e s s i n g   h i g h - di m e n s i o n a l i t y   h a s   b e c o m e   e s s e n t i a l   i n   c o n s t r uc t i n g   e ff i c i e n t   s t a t i s t i c a l ,   da t a   m i n i ng  a nd  m a c hi n e   l e a rni n m o de l s .   P CA   pe r f o r m s   di m e n s i o n a l i t y   r e duc t i o n   by   e xt ra c t i n p ri n c i p a l   c o m po n e n t s   (P Cs o h i g h - d i m e n s i o n a l   da t a   a n i t   a l s o   s e r v e s   a s   t h e   f i r s t   pr o c e s s i n s t e i n   d a t a   a n a l y s is .   S e ve r a l   i n de pe n de n t   v a ri a b l e s   o r   p r e d i c t o r s   X s   fo r   de pe n de nt   v a ri a b l e   Y   i n   M L R   m o de l   c a n   b e   s o m e   b i a s   w h i c i s   v e r y   l i ke l y   t o   r e duc e   R M S E .   M o r e o ve r ,   r e du n d a n t   p r e di c t o r s   c a n   hi n de r   t h e   r e g r e s s i o n   a n a l y s i s   a n i n s i g ni f i c a nt   p r e di c t o r s   a r e   a l s o   hi g h l y   po t e n t i a l   t o   i n c r e a s e   n o i s e s   a n b i a s e s   f o r   t h e   m o de l .   I n   t h i s   s y s t e m ,   M L R   m o de l   c o m b i n e w i t h   P CA   w h i c h   r e duc e s   i n s i g n i f i c a n t   a nd  i rr e l e v a nt   v a r i a b l e s   o r   pr e di c t o r s   i s   de v e l o pe t o   i m pr o v e   t h e   pr e di c t i v e   p ow e r   o t h a t   m o de l .   P e r f o rm a n c e   i n di c a t o r s   s uc h   a s   Co e ff i c i e n t   o f   D e t e r m i na t i o n   (R 2 a n R o o t   M e a n   S qua r e   E rr o r   (R M S E a r e   us e t o   m e a s ur e   t h e   pr e d i c t i o n   a c c ura c i e s   b e t w e e n   t r a d i t i o n a l   M L R   m o de l   a n i m p r o v e P C R   m o de l .   A c c o r di n t e xpe r i m e nt a l   r e s ul t s ,   t h e   b e n e f i t s   of   a ppl y i n P CA   i t ra di t i o na l   M L R   mo de l   c a n   a c t u a l l y   i m pr o v e   pr e di c t i o a c c ur a c y   of   t h e   m o de l .   I n   a d di t i o n t h e   i m p r o v e P CR   m o d e l   us i n O S M   da t a   f o r   o n e - w a y   r o a p r e di c t i o n   c a e ff i c i e n t l y   pe r f o r m   n o t   o n l y   i n   r o a d   p r e di c t i o n   b ut   a l s o   i n   i m p r o v e m e n t   o f   t r a di t i o na l   M L R   m o de l .   In   f ut u r e   w o r ks ,   w e   w i l l   c o n s i de r   o n e - w a y   r o a pr e di c t i o n   us i n o t h e r   p r e d i c t i o n   m o de l s   w h i c h   a r e   c o m pa t i b l e   w i t O S M   d a t a   a n d   t h e a   n u m b e r   o f   c o m pa ri s o ns   w i l l   b e   m a de   b e t w e e n   t h e m .       R EF ER EN C ES   [ 1]   G a ndo m i   A . ,   H a i de r   M . ,   B e y o nd  t he   hy pe :   B i g   D a t a   C o nc e pt s ,   M e t ho ds ,   a nd   A na l y t i c s ,”   I n t e r nat i o nal   J our n al   o f   I nf or m a t i on  M anage m e nt 35 ( 2 ) ,   p p.   13 7 - 144,   2 015 .   [ 2]   G oy a l   H ,   S ha r m a   C ,   J o s h i   N . ,   A I nt e g r a t e A ppr o a c o f   G I S   a nd  S pa t i a l   D a t a   M i n i ng   i bi g   D a t a ,   I nt e r n at i on al   J our nal   o f   C om pu t e r   A p pl i c a t i on 169 ( 11 ) ,   pp .   1 - 6,   20 17 .   [ 3]   J o   J ,   L e e   K W . ,   H i g h - P e r f o r m a nc e   G e o s pa t i a l   B i g   D a t a   P r o c e s s i ng   S y s t e m   B a s e d   o M a p   R e duc e ,   I SP R I nt e r n at i on al   J o ur n al   o f   G e o - I n f or m a t i on 7( 1 0) ,   pp .   3 99 ,   2 018 .   [ 4]   W a ng   S ,   Y ua H . ,   S p a t i a l   D a t a   M i n i ng :   A   P e r s pe c t i v e   o f   B i D a t a ,   I n t e r na t i ona l   J ou r na l   of   D a t W ar e hous i ng   and  M i n i ng   ( I J D W M ) 10( 4) ,   pp.   5 0 - 70,   20 14 .   [ 5]   S a bha r w a l   C L ,   A nj um   B . ,   D a t a   R e duc t i o a n R e g r e s s i o U s i n g   P r i nc i p a l   C o m po ne nt   A na l y s i s   i n   Q ua l i t a t i v e   S pa t i a l   R e a s o ni ng   a n H e a l t h   I nf o r m a t i c s ,   P ol i bi t s 53 ,   p p.   31 - 42 ,   2016 .   [ 6]   Ul - S a uf i e   A Z ,   Y a hy a   A S ,   R a m l i   N A . ,   I m pr o v i ng   M ul t i p l e   L i n e a r   R e g r e s s i o M o de l   U s i ng   P r i nc i p a l   C o m po ne nt   A na l y s i s   f o r   P r e di c t i ng   pm 10  C o nc e nt r a t i o i S e be r a ng   P r a i ,   P ul a P i n a ng ,   I n t e r na t i ona l   J ou r na l   of   E nv i r onm e nt al   Sc i e nc e s ,   2 ( 2 ) ,   pp .   403 - 40 9 ,   20 11.   [ 7]   E l da w y   A ,   M o kbe l   M F . ,   S p a t i a l ha do o p:   A   M a pr e duc e   F r a m e w o r k   f o r   S pa t i a l   D a t a ,”   I E E E   31s t   I nt e r n at i on al   C onf e r e nc e   on   D a t a   E ng i ne e r i ng pp .   1 352 136 3,   20 15.   [ 8]   F unke   S ,   S c hi r r m e i s t e r   R ,   S t o r a nd t   S . ,   A ut o m a t i c   E x t r a po l a t i o n   o f   M i s s i ng   R o a N e t w o r k   D a t a   i n   O pe nS t r e e t M a p,   P r oc e e di ng s   of   t he   2nd   I nt e r n at i on al   C on f e r e nc e   on  M i ni ng  U r ba D a t a ,   1392 ,   pp .   27 - 35 ,   2 015 .   [ 9]   L e e   J G ,   K a ng   M . ,   G e o s pa t i a l   B i g   D a t a :   C ha l l e ng e s   a nd   O ppo r t un i t i e s ,”   B i g   D at R e s e ar c h 2 ( 2) ,   pp .   74 - 81 .   2 015 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2088 - 8708   Int   J   E l e c   &   Co m E n g ,   V o l .   10 ,   N o .   3 J u n e   2 020   :    26 51     2658   2658   [ 10]   S .   S h e kh a r ,   S pa t i a l   B i g   D a t a   C ha l l e ng e s ,”   K e y no t e   a t   A R O / N S F   W o r ks ho o B i g   D a t a   a t   L a r g e :   A ppl i c a t i o ns   a nd  A l g o r i t hm s ,   D u r ha m ,   N C ,   201 2.   [ 11]   L i   S ,   D r a g i c e v i c   S ,   C a s t r o   F A ,   S e s t e r   M ,   W i n t e r   S ,   C o l t e ki A ,   P e t t i t   C ,   J i a ng   B ,   H a w o r t J ,   S t e i A ,   C he ng   T . ,   G e o s pa t i a l   B i g   D a t a   H a nd l i ng   T he o r y   a nd  M e t ho d s :   A   R e v i e w   a nd  R e s e a r c C h a l l e ng e s ,”   I SP R j ou r na l   o f   P hot ogr am m e t r y   and   R e m ot e   Se ns i ng 115 ,   pp .   11 9 - 13 3,   20 16.   [ 12]   Y a g o ub  M M . ,   A s s e s s m e n t   o f   O pe nS t r e e t M a p   ( O S M )   D a t a :   T he   C a s e   o f   A bu  D ha bi   C i t y ,   U ni t e A r a E m i r a t e s ,   J our nal   o f   M a &   G e ogr a phy   L i br a r i e s 13( 3) ,   pp .   3 00 - 3 19 ,   201 7.   [ 13]   B r o v e l l i   M ,   Z a m bo ni   G . ,   N e w   M e t ho f o r   t he   A s s e s s m e nt   o f   S pa t i a l   A c c ur a c y   a nd  C o m pl e t e ne s s   o f   O pe nS t r e e t M a B u i l di ng   F o o t pr i n t s ,”   I SP R I nt e r n at i ona l   J o ur na l   of   G e o - I n f o r m at i on ,   7( 8) pp .   2 89 ,   2 018 .   [ 14]   F a T H ,   C he ng   K F . ,   T e s t s   a nd  V a r i a b l e s   S e l e c t i o o R e g r e s s i o A na l y s i s   f o r   M a s s i v e   D a t a s e t s ,”   D at a   &   K now l e dge   E ngi ne e r i n g 63 ( 3 ) ,   pp .   811 - 81 9.   20 07 .   [ 15]   Z ha ng   T ,   Y a ng   B . ,   B i g   D a t a   D i m e ns i o R e duc t i o U s i ng   P CA ,”   I E E E   I n t e r na t i ona l   C onf e r e nc e   on  Sm ar t   C l o ud   ( Sm ar t C l oud) p p.   15 2 - 157.   2 016 .   [ 16]   M us t a pha   A ,   A bdu  A . ,   A ppl i c a t i o o f   P r i nc i pa l   C o m po ne nt   A na l y s i s   M u l t i p l e   R e g r e s s i o M o de l s   i Su r f a c e   W a t e r   Q u a l i t y   A s s e s s m e nt ,   J o ur n al   o f   E nv i r onm e n t   a nd   E ar t h   Sc i e nc e 2( 2) ,   pp .   16 - 23,   20 12 .   [ 17]   S t e p he J H ,   O w e H T ,   A nna   Y Q ,   J e f f   C H ,   H i r o a ki   O ,   A l be r t   J Q . ,   P r e d i c t i ng   S t ude nt s '   A c a de m i c   P e r f o r m a nc e   U s i ng   M ul t i pl e   L i ne a r   R e g r e s s i o a n P r i nc i pa l   C o m po ne nt   A na l y s i s ,   J ou r na l   o f   I nf or m a t i on  P r oc e s s i n g ,   26   pp.   17 0 - 176 ,   2 018 .   [ 18]   J o l l i f f e   I . ,   P r i nc i pa l   c o m po ne nt   a na l y s i s ,”   Spr i nge r   B e r l i n   H e i de l b e r g ,   2011 .   [ 19]   J o l l i f f e   I T ,   a nd  C a di m a   J . ,   P r i nc i p a l   C o m po ne nt   A na l y s i s A   R e v i e w   a nd  R e c e nt   D e v e l o pm e n t s ,     P hi l os o ph i c a l   T r an s ac t i ons   of   t he   R oy a l   Soc i e t y   A :   M at he m a t i c al ,   P hy s i c a l   and  E ng i ne e r i ng  Sc i e nc e s ,   374 ( 206 5) ,   20150 202   201 6.   [ 20]   W Z ,   L i   Y .,   e t   al . ,   P a r a l l e l   a nd  D i s t r i bu t e D i m e ns i o na l i t y   R e duc t i o o f   H y pe r s pe c t r a l   D a t a   o C l o ud  C om put i ng   A r c hi t e c t ur e s ,   I E E E   J ou r na l   o f   Se l e c t e T opi c s   i A pp l i e E a r t O bs e r v a t i on s   and   R e m ot e   Se ns i ng ,   vo l .   9( 6) ,     pp.   22 70 - 2278 ,   J un .   201 6.   [ 21]   E l g a m a l   T ,   Y a b a nd e M ,   A bo ul na g a   A ,   M us t a f a   W ,   H e f e e d a   M . ,   s P C A :   S c a l a b l e   P r i nc i pa l   C o m po ne nt   A na l y s i s   f o r   Bi g   D a t a   o D i s t r i bu t e P l a t f o r m s ,   P r oc e e di ng s   of   t he   201 A C M   SI G M O D   I nt e r na t i ona l   C on f e r e nc e   on  M an age m e nt   o f   D at a pp .   79 - 91 ,   2 015 .   [ 22]   H o t e l l i ng   H . ,   A na l y s i s   o f   A   C o m pl e o f   S t a t i s t i c a l   V a r i a bl e s   I nt o   P r i nc i pa l   C o m po ne nt s ,   J our nal   of   e du c at i on al   ps y c hol ogy 24 ( 6) ,   pp .   417 441 ,   1933 .   [ 23]   A di w i j a y a ,   U n t a r i   N .   W i s e s t y ,   e t   a l . ,   D i m e ns i o na l i t y   R e duc t i o us i ng   P r i nc i pa l   C o m po ne nt   A na l y s i s   f o r   C a nc e r   D e t e c t i o B a s e d   o M i c r o a r r a y   D a t a   C l a s s i f i c a t i o n,   J ou r na l   of   C o m put e r   Sc i e nc e 1 4( 1 1) ,   pp .   1 521 - 15 30,   2 018 .   [ 24]   G o l ube v   A ,   C he c he t ki I ,   P a r y g i D ,   S o ko l o A ,   S hc he r ba ko v   M . ,   G e o s pa t i a l   D a t a   G e n e r a t i o a nd  P r e p r o c e s s i ng   T o o l s   f o r   U r ba n   C o m put i ng   S y s t e m   D e v e l o pm e nt ,”   P r oc e di a   C om p ut e r   S c i e nc e ,   1 01,   p p.   21 7 - 226,   2 016 .   [ 25]   W e ng   J ,   Y o ung   D S . ,   S o m e   di m e ns i o r e d uc t i o s t r a t e g i e s   f o r   t he   a na l y s i s   o f   s ur v e y   da t a ,”   J our nal   of   B i g   D at a 4,   pp.   43 ,   D e c .   2017 .       B I O G R A P H I ES   O F   A U T H O R S       K y i   L a i   L a i   K h i n e   i s   c ur r e n t l y   w o r ki ng   a s   A s s t .   L e c t ur e r   i U ni v e r s i t y   o f   C o m put e r   S t u di e s ,   Y a ng o ( U C S Y ) ,   a nd  M y a nm a r .   S h e   i s   c ur r e n t l y   pur s ui ng   P h. D .   a t   C l o ud  C o m put i ng   L a i n   U C S Y . S he   h a s   pub l i s he a bo ut   f i v e   pa pe r s   i v a r i o us   J o ur n a l s /   I nt e r n a t i o na l   c o nf e r e nc e s .   H e r   r e s e a r c a r e a   i n t e r e s t   i nc l u de B i g   D a t a   A na l y t i c s ,   G e o s pa t i a l   A na l y s i s ,   a nd  S t a t i s t i c a l   D a t a   A na l y s i s .         T h i   T h i   S o e   N y u n t   g o t   B . S c .   P hy s i c s   ( H o ns : )   de g r e e   f r o m   Y a n g o U ni v e r s i t y   i 19 94  a nd  g o t   M a s t e r   o f   I nf o r m a t i o S c i e nc e   ( M . I . S c . )   d e g r e e   a nd  P h .   D   ( I T )   f r o m   U C S Y   i 1998  a nd  200 4   r e s pe c t i v e l y .   S he   i s   c ur r e nt l y   w o r ki ng   a s   a   pr o f e s s o r   a n he a o f   de pa r t m e n t   i F a c ul t y   of   C o m put e r   S c i e nc e ,   U C S Y .   H e r   r e s e a r c i nt e r e s t s   i nc l ude   K no w l e dg e   &   S o f t w a r e   E ng i ne e r i ng ,   D a t a b a s e ,   C o m put e r   G r a ph i c s ,   B i g   D a t a   A na l y t i c s ,   A r t i f i c i a l   I nt e l l i g e nc e   a nd   N e ur a l   N e t w o r k .       Evaluation Warning : The document was created with Spire.PDF for Python.