I n t e r n a t i o n a l   J o u r n a l   o f   E l e c t r i c a l   a n d   C o m p u t e r   E n g i n e e r i n g   ( I J E C E )   V o l .   9 ,   N o .   1 ,   F e b r u a r y   2 0 1 9 ,   p p .   4 0 9 ~ 4 1 6   I S S N :   2 0 8 8 - 8 7 0 8 ,   D O I :   1 0 . 1 1 5 9 1 / i j e c e . v 9 i 1 . p p 4 0 9 - 4 1 6             4 0 9       J o u r n a l   h o m e p a g e :   h t t p : / / i a e s c o r e . c o m / j o u r n a l s / i n d e x . p h p / I J E C E   G r a n u l a r i t y   a n a l y s i s   o f   c l a s s i f i c a t i o n   a n d   e s t i m a t i o n   f o r   c o m p l e x   d a t a s e t s   w i t h   M O A       C h a n i n t o r n   J i t t a w i r i y a n u k o o n ,   G r a d u a t e   S c h o o l   o f   E L e a r n i n g ,   A s s u m p t i o n   U n i v e r s i t y ,   T h a i l a n d       A r t i c l e   I n f o     A B S T R A C T     A r t i c l e   h i s t o r y :   R e c e i v e d   M a r   1 5 ,   2 0 1 8   R e v i s e d   J u l   2 6 ,   2 0 1 8   A c c e p t e d   A u g   1 6 ,   2 0 1 8       D i s p e r s e d   a n d   u n s t r u c t u r e d   d a t a s e t s   a r e   s u b s t a n t i a l   p a r a m e t e r s   t o   r e a l i z e   a n   e x a c t   a m o u n t   o f   t h e   r e q u i r e d   s p a c e .   D e p e n d i n g   u p o n   t h e   s i z e   a n d   t h e   d a t a   d i s t r i b u t i o n ,   e s p e c i a l l y ,   i f   t h e   c l a s s e s   a r e   s i g n i f i c a n t l y   a s s o c i a t i n g ,   t h e   l e v e l   o f   g r a n u l a r i t y   t o   a g r e e   a   p r e c i s e   c l a s s i f i c a t i o n   o f   t h e   d a t a s e t s   e x c e e d s .   T h e   d a t a   c o m p l e x i t y   i s   o n e   o f   t h e   m a j o r   a t t r i b u t e s   t o   g o v e r n   t h e   p r o p e r   v a l u e   o f   t h e   g r a n u l a r i t y ,   a s   i t   h a s   a   d i r e c t   i m p a c t   o n   t h e   p e r f o r m a n c e .   D a t a s e t   c l a s s i f i c a t i o n   e x h i b i t s   t h e   v i t a l   s t e p   i n   c o m p l e x   d a t a   a n a l y t i c s   a n d   d e s i g n s   t o   e n s u r e   t h a t   d a t a s e t   i s   p r o m p t   t o   b e   e f f i c i e n t l y   s c r u t i n i z e d .   D a t a   c o l l e c t i o n s   a r e   a l w a y s   c a u s i n g   m i s s i n g ,   n o i s y   a n d   o u t - o f - t h e - r a n g e   v a l u e s .   D a t a   a n a l y t i c s   w h i c h   h a s   n o t   b e e n   w i s e l y   c l a s s i f i e d   f o r   p r o b l e m s   a s   s u c h   c a n   i n d u c e   u n r e l i a b l e   o u t c o m e s .   H e n c e ,   c l a s s i f i c a t i o n s   f o r   c o m p l e x   d a t a   s o u r c e s   h e l p   c o m f o r t   t h e   a c c u r a c y   o f   g a t h e r e d   d a t a s e t s   b y   m a c h i n e   l e a r n i n g   a l g o r i t h m s .   D a t a s e t   c o m p l e x i t y   a n d   p r e - p r o c e s s i n g   t i m e   r e f l e c t   t h e   e f f e c t i v e n e s s   o f   i n d i v i d u a l   a l g o r i t h m .   O n c e   t h e   c o m p l e x i t y   o f   d a t a s e t s   i s   c h a r a c t e r i z e d   t h e n   c o m p a r a t i v e l y   s i m p l e r   d a t a s e t s   c a n   f u r t h e r   i n v e s t i g a t e   w i t h   p a r a l l e l i s m   a p p r o a c h .   S p e e d u p   p e r f o r m a n c e   i s   m e a s u r e d   b y   t h e   e x e c u t i o n   o f   M O A   s i m u l a t i o n .   O u r   p r o p o s e d   c l a s s i f i c a t i o n   a p p r o a c h   o u t p e r f o r m s   a n d   i m p r o v e s   g r a n u l a r i t y   l e v e l   o f   c o m p l e x   d a t a s e t s .   K e y w o r d s :   B i g   d a t a   c u r a t i o n   C l a s s i f i c a t i o n   E s t i m a t i o n   G r a n u l a r i t y   l e v e l   M O A   P a r a l l e l   p r o c e s s i n g   R e g r e s s i o n   b a s e d   m a c h i n e   l e a r n i n g   C o p y r i g h t   ©   2 0 1 9   I n s t i t u t e   o f   A d v a n c e d   E n g i n e e r i n g   a n d   S c i e n c e .     A l l   r i g h t s   r e s e r v e d .   C o r r e s p o n d i n g   A u t h o r :   C h a n i n t o r n ,   J i t t a w i r i y a n u k o o n ,   G r a d u a t e   S c h o o l   o f   E L e a r n i n g ,     A s s u m p t i o n   U n i v e r s i t y ,   T h a i l a n d .   E m a i l :   p c t 2 5 2 6 @ y a h o o . c o m       1 .   I N T R O D U C T I O N     C o m p l e x   d a t a s e t s   c a n   b e   t h e   p r o s p e c t s   a n d   i n q u i r i e s   t h e y   a f f e c t   t h e   d a t a   a n a l y t i c s .   T h e   c o m p l e x i t y   o f   d a t a s e t s   i s   t h e   i n d i c a t i o n   o f   d i f f i c u l t y   d a t a   s c i e n t i s t     e x p e r i e n c e s   a s   c u r a t i n g   t h e   i n s i g h t s a   c o m p l e x   d a t a s e t   i s   u s u a l l y   m o r e   p r o b l e m a t i c   t o   c l a s s i f y   t h a n   r e g u l a r   d a t a s e t ,   a n d   g e n e r a l l y   i n v o l v e s   a   d i v e r s e   s e t   o f   t e c h n i c a l   a p p r o a c h e s   t o   f i g u r e   s o   [ 1 ] .   C o m p l e x   d a t a s e t s   r e q u i r e   i n c r e a s e d   e f f o r t   t o   o u t l i n e   t h e   d a t a   p r i o r   t o   v i s u a l i z a t i o n   a n d   c u r a t i o n .   T o   c h a r a c t e r i z e   t h e   c o m p l e x i t y   o f   d a t a s e t s   i s   e s s e n t i a l   a s   w e l l   a s   t h e   f o r t h c o m i n g   c o m p l e x i t y   i s   t o   b e   t a k e n   i n t o   a c c o u n t .   B i g   d a t a   r e p r e s e n t s   c o m p l e x   d a t a s e t   h e n c e   m a s s i v e   a m o u n t   o f   d a t a   s l o w s   t h e   h i g h   s p e e d   c o m p u t e r s   d o w n   c l o s e   t o   b o t t l e n e c k   s t a g e   i n   o r d e r   t o   c a l c u l a t e   a n d   e x t r a c t   i n s i g h t s   [ 2 ] ,   [ 3 ] .   O t h e r   i m p l i c a t i o n s   d e r i v e   f r o m   d i s t i n c t i v e   s o u r c e s .   V a r i o u s   s o u r c e s   c a n   g e n e r a t e   d i s o r g a n i z e d   d a t a s e t s   o r   d a t a s e t s   s u c c e e d   d i s s i m i l a r   s t r u c t u r e s .   D a t a   m u s t   b e   p r e p r o c e s s e d   i n   o r d e r   t o   c o m p l y   w i t h   p r i m a r y   r e p o s i t o r y   f o r m a t .   I n   o r d e r   t o   i r o n   o u t   t h e   b o t t l e n e c k   p r o b l e m   o f   c o m p l e x   d a t a s e t   p r o c e s s i n g ,   d a t a   t r a n s f o r m a t i o n   a n d   r e f i n i n g   s t e p s   ( p r e - p r o c e s s i n g )   h e l p   r e d u c e   p r o c e s s i n g   p o w e r   a n d   t i m e .   B e s i d e s   d a t a   m i n i n g   a p p r o a c h   b a s e d   u p o n   t h e   i n t e g r a t i o n   o f   k n o w l e d g e   i s   i n t r o d u c e d .   T h e   p r e - p r o c e s s i n g   s t e p s   o f   b u s i n e s s   o r i e n t e d   d a t a   a r e   o p t e d   t o   f o r m   a n   o n t o l o g y   a m b i t i o u s   i n f o r m a t i o n   s y s t e m   ( O A I S ) .   T h e   k n o w l e d g e   b a s e   i s   t h e n   d e t e r m i n e d   t o   h e l p   s o r t   o u t   t h e   p o s t - p r o c e s s i n g   o f   i n t e r p r e t a t i o n .   F i n a l l y ,   t h e   i n t e g r a t i o n   o f   o b j e c t i v e   a n d   s u b j e c t i v e   c r i t e r i a   i n   t e a c h i n g   i s   e v a l u a t e d   t o   d e v e l o p   a n   e x p e r t   k n o w l e d g e . P r e - p r o c e s s i n g   o f   d a t a s e t s   i n c o r p o r a t e s   n o r m a l i z a t i o n ,   a t t r i b u t e   e x t r a c t i o n ,   n o i s e   r e m o v a l ,   c l a s s i f i c a t i o n   a n d   s t r u c t u r e   r e - c o n f i g u r a t i o n .   N a w i   e t   a l .   [ 4 ]   h a v e   p r e s e n t e d   a n   a r t i f i c i a l   n e u r a l   n e t w o r k   b a s e d   a l g o r i t h m   f o r   d a t a   p r e - p r o c e s s i n g .   T h e   a l g o r i t h m   h a s   t u r n e d   o u t   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2 0 8 8 - 8 7 0 8   I n t   J   E l e c   &   C o m p   E n g ,   V o l .   9 ,   N o .   1 ,   F e b r u a r y   2 0 1 9   :     4 0 9   -   4 1 6   4 1 0 t o   b e   c o m m o n   a n d   b e c o m e s   a n   a n a l y t i c a l   t o o l   f o r   m i n i n g   p a t t e r n   r e c o g n i t i o n   a n d   m a c h i n e   l e a r n i n g .   B i g   d a t a   h a s   b e e n   m i n e d   u s i n g   p a r a l l e l i s m   a p p r o a c h   a s   i n t r o d u c e d   i n   [ 5 ] .   T h i s   m i n i n g   a p p r o a c h   h a s   n o t   m e n t i o n e d   h o w   t o   d i s c a r d   r e d u n d a n t   a n d   m e s s y   d a t a   w h i c h   i s   i m p o r t a n t   i n   p r e p r o c e s s i n g   s t e p s .   T h e   r e l a t i o n   b e t w e e n   p r e p r o c e s s i n g   a n d   c o m p l e x   d a t a s e t   w i t h   t e c h n o l o g i c a l   a p p r o a c h e s   h a s   b e e n   e x p e r i m e n t e d   i n   [ 6 ] .   V a r i o u s   f r a m e w o r k s   f o r   a n a l y t i c a l   t o o l s   l i k e   F l i n k ,   S p a r k   a n d   M a p R e d u c e   a r e   a l s o   i s s u e d   f o r   c o m p l e x   d a t a   l e a r n i n g .   I n s i g h t s   f r o m   b i g   d a t a   c u r a t i o n   a n d   t h e   i n f r a s t r u c t u r e   f o r   a n a l y t i c s   a t   T w i t t e r   h a v e   b e e n   p r e s e n t e d   b y   [ 7 ] .   A   d y n a m i c   r o l e   i n   a s s i s t i n g   d a t a   s c i e n t i s t s   w i t h   b i g   d a t a   h a s   b e e n   e m p h a s i z e d ,   b u t   c o m p r e h e n s i v e   i n s i g h t s   a r e   n o t   a v a i l a b l e .   D a t a   a n a l y t i c s   f r o m   s e v e r a l   a l g o r i t h m s   m u s t   b e   a g g r e g a t e d   i n t o   p r o d u c t i o n   s y s t e m ,   b u t   t h e y   a c h i e v e   i n   s h a r i n g   o u t p u t s   f o r   a c a d e m i c   i n t e l l e c t   a t   T w e e t i n g .   I n   t h i s   r e s e a r c h ,   t h e   p e r f o r m a n c e   o f   s e v e r a l   p r e - p r o c e s s i n g   m o d e l s   i n   o r d e r   t o   s p e c i f y   g r a n u l a r i t y   l e v e l ,   d e c r e a s e   n o i s y   s a m p l e s   a n d   c o r r e c t   p o s s i b l e   e r r o r   o f   t h e   t r a i n i n g   s a m p l e s   i s   i n v e s t i g a t e d .   T h e   m a i n   o b j e c t i v e s   a r e   t o   c o n f i r m   a c c u r a c y   o f   c l a s s i f i c a t i o n ,   s i m p l i f y   t h e   c o m p u t a t i o n   a n d   t o   e x c e l   p r e p r o c e s s .   B a y e s i a n ,   B o o s t i n g ,   N e a r e s t   N e i g h b o r i n g   a n d   t h e   p r o p o s e d   c l a s s i f i c a t i o n   m o d e l s   a r e   i n t r o d u c e d   i n   t h i s   r e s e a r c h .   A d d i t i o n a l l y ,   t h e   c o m p l e x   d a t a s e t s   p r o c e e d   t o   b e   e x e c u t e d   a t   p o s t - p r o c e s s i n g   e n v i r o n m e n t .   T o   a c c e l e r a t e   t h e   p o s t - p r o c e s s i n g   c a l c u l a t i o n ,   t h e   p a r a l l e l   p r o c e s s i n g   s y s t e m   a s   p r e s e n t e d   i n   [ 8 ]   i s   e m p l o y e d .   T h e   M O A   s i m u l a t i o n   [ 9 ]   r e s u l t s   a n d   s p e e d u p   p e r f o r m a n c e   a r e   s u m m a r i z e d .   I n   t h e   s i m u l a t i o n s ,   c o m p l e x   d a t a s e t s   o b t a i n e d   f r o m   p u b l i c   r e p o s i t o r y   a r e   u s e d .   T h e   c o n t i n u i n g   p a r t   i s   w r i t t e n   a s   f o l l o w s :   S e c t i o n   2   a n d   3   e x p o s e   t h e   t h e o r e t i c a l   c o n t e x t   o f   c o m p l e x   d a t a s e t   c h a r a c t e r i s t i c s   a n d   t h e   p r e - p r o c e s s i n g   a p p r o a c h e s   r e s p e c t i v e l y .   S e c t i o n   4   p r e s e n t s   t h e   p a r a l l e l   e s t i m a t i o n   m o d e l .   R e s u l t s   a n d   a n a l y s i s   f i n a l l y   i s   e s t a b l i s h e d   i n   s e c t i o n   5 .       2 .   C O M P L E X   D A T A S E T S   I t   i s   k n o w n   t h a t   t h e r e   i s   a   d e b a t e   a b o u t   b i g   d a t a .   I t   i s   a b o u t   a   c o m p l e x i t y   p e r   s e .   T h e   d a t a   w i t h   d i f f i c u l t y   i n   h a n d l i n g   i s   t h e   m a t t e r   o f   s i z e .   E n o r m o u s   e f f o r t   i n   m a k i n g   u s e   o f   b i g   s i z e   o f   d a t a ,   j u s t   t o   p o i n t   o u t   w h e r e   t o   m a n i p u l a t e   i s   m a n d a t o r y .   C o m p l e x i t y   r e f l e c t s   a   t e d i o u s   t a s k .   N o t   t o   m e n t i o n ,   e v e n   a   t r i v i a l   d a t a s e t   c a n   p a r a d e   c o m p l e x i t y   c a u s i n g   d a t a   s c i e n t i s t s   h a r d   t o   m i n e   w i t h   c u r r e n t   t e c h n i q u e s .   D a t a   f r o m   v a r i o u s   s e n d e r s ,   o r   d i f f e r e n t   d a t a s e t s   f r o m   t h e   s a m e   s e n d e r ,   i s   s t r u c t u r e d   d i s s i m i l a r l y .   F o r   i n s t a n c e ,   o n e   u n i t   h a s   f e w   d i f f e r e n t   f i l e s w h i l e   a n o t h e r   u n i t   s t o r e s   t h e   i n f o r m a t i o n   o n   a   d a t a b a s e .   F u r t h e r m o r e ,   i n   s o m e   o f   t h e   d a t a b a s e   i n s t a n c e   t h e r e   i s   d u p l i c a t e   c o n t e n t   w h i c h   i s   i d e n t i c a l   t o   f i l e s   c o n t e n t .   T o   m a k e   u s e   o f   d a t a   f r o m   m u l t i p l e   s o u r c e s ,   w i t h o u t   d u p l i c a t i n g   o r   l o s i n g   i n f o r m a t i o n ,   n e c e s s i t a t e s   p r e - p r o c e s s i n g   t a s k   [ 1 0 ] .     A s   a   d e f i n i t i o n   o f   b i g   d a t a ,   t h e   c o l l e c t e d   d a t a   s i z e   c a n   u p s e t   b o t h   p r o c e s s i n g   u n i t s   a n d   a p p l i c a t i o n s   u s e d   t o   a n a l y z e .   S i z e   c a n   b e   i n   p e t a b y t e s   ( P B ) t h e   t a l l e r   t h e   d a t a s e t   i s ,   t h e   m o r e   p r o b l e m a t i c   t o   s q u e e z e   t h e m   o n   b u i l t - i n - m e m o r y   w h i l e   p r o c e s s i n g .   L e t   A   d e n o t e   a   g i v e n   d a t a s e t   m a t r i x   w h i c h   c o n t a i n s   a   r o w s   a n d   b   c o l u m n s     [ A i 1 ,   A i 2 ,   A i 3 , ,   A i ( b - 1 ) ,   A i b ]   f o r   e a c h   i =   1 ,   2 ,   3 , ,   a .   T h e   A   m a t r i x   i s   p r e s u m e d   t o   b e   a   d e t e r m i n i s t i c   s e t .   O b v i o u s l y ,   s t a t e   s p a c e   o f   t h e   d a t a s e t   b e c o m e s   [ a ,   b ]   a n d   c o m p u t a t i o n a l   c o s t   i s   O   ( a b )   [ 1 1 ] .   T h e   l e v e l   o f   g r a n u l a r i t y   i s   v i g o r o u s   f o r   d e v e l o p m e n t   o f   f u l l   r e p o r t   o r   d a s h b o a r d   a n d   d a t a   i n t e g r a t i o n   o r   v i s u a l i z a t i o n .   I t   i s   s i m p l e r   f o r   d e v e l o p e r   t o   d r i l l - d o w n   i n t o   t h e   l a t e s t   d e t a i l   o f   d a t a s e t s n e v e r t h e l e s s ,   t h i s   i s   a   b a l a n c e   b e t w e e n   d a t a   i n d e x i n g   a n d   t h e   c o m p u t a t i o n a l   c o s t   o f   a n a l y t i c a l   d e p t h .   D a t a   c u r a t i o n   w h i c h   a p p r e c i a t e s   g r a n u l a r   d r i l l - d o w n   d e a l s   w i t h   t h e   i n v o l v e m e n t   o f   b i g g e r   a d h o c   b a s e d   a m o u n t   o f   d a t a   d u e   t o   t h e   i g n o r a n c e   o f   d a t a   i n t e g r a t i o n ,   s u m m a r y   a n d   p r e - p r o c e s s .   D i v e r s e   d a t a b a s e s   c o m m u n i c a t e   d i s s i m i l a r   q u e r y   l a n g u a g e s .   S t r u c t u r a l   Q u e r y   L a n g u a g e   i s   t h e   p r i n c i p a l   c o m m u n i c a t i o n s   o f   q u e r y i n g   d a t a   f r o m   c e n t r a l   R e l a t i o n a l   D a t a b a s e ,   b u t   i f   a   t h i r d   p a r t y   h a r d w a r e   i s   u s e d   t h e n   s y n t a x   a n d   A P I   h a v e   t o   b e   i n t e r f a c e d ,   a n d   a d d i t i o n a l l y   c o m m u n i c a t i o n   p r o t o c o l s   a n d   t h e   i n t e r n a l   d a t a b a s e   s t r u c t u r e   m u s t   b e   e x p l o i t e d   t o   a c c e s s .   A n a l y t i c a l   t o o l   i s   t o   b e   e l a s t i c   i n   o r d e r   t o   a p p r o v e   t h e   b u i l t - i n   c o n n e c t i o n   t o   d e s t i n e d   d a t a b a s e   t h r o u g h   A P I   u n l e s s   a   b u l k y   p r o c e s s   o f   e x t r a c t i n g   d a t a   t o   S Q L   d a t a b a s e / w a r e h o u s e   i s   i n v a l i d a t e d   [ 1 2 ] .   P r o c e s s i n g   w i t h   m u l t i m e d i a   d a t a   w a r e h o u s e d   i n   t a b l e   s t y l e   ( . c s v )   i s   a   b u r d e n ,   b u t   u n s t r u c t u r e d   m a s s i v e   d a t a   i s   a n o t h e r   t e d i o u s   t a s k ,   s i n c e   i t   i s   a   r i c h - t e x t   o r i e n t e d   d a t a s e t   p l u s   v i d e o   a n d   a u d i o   s t r e a m s .   V a r i o u s   t y p e s   o f   d a t a   e x h i b i t   d i v e r s e   r u l e s ,   a n d   c o m p r o m i s i n g   a   s i n g l e   t y p e   o f   t r u t h   d a t a   a m o n g   a l l   i s   c r i t i c a l   i n   o r d e r   t o   p r o d u c e   d e c i s i o n s   m a k i n g   [ 1 3 ] .   D i s s e m i n a t e d   d a t a   o c c u r s   w h e n e v e r   d a t a   i s   s t o r e d   i n   s e v e r a l   p l a c e s ,   f o r   i n s t a n c e ,   a t   w o r k   p l a c e ,   i n   c l o u d s ,   o r   d i f f e r e n t   b r a n c h e s .   T h e s e   d a t a   i s   i s o l a t e d   a n d   t o   c o l l e c t   t h e m   a l l   i s   n o t   e a s y .   N o t   t o   m e n t i o n ,   a f t e r   c o l l e c t i o n s o m e   s t a n d a r d i z a t i o n ,   n o r m a l i z a t i o n   a n d   c l e a n s i n g   a r e   c o m p u l s o r y   p r i o r   t o   t h e   d i f f e r e n t   d a t a s e t s   c a n   b e   c r o s s - r e f e r e n c e d   a n d   m a n i p u l a t e d .   L o c a t i o n   b a s e d   d a t a s e t   i s   g a t h e r e d   r e g a r d i n g   t o   t h e   r e l a t e d   o b j e c t i v e s   a n d   a p p l i c a t i o n s   [ 1 4 ] .   L a s t l y ,   n o t   o n l y   c u r r e n t   d a t a   i s   t a k e n   i n t o   a c c o u n t   b u t   t h e   f o r t h c o m i n g   s p e e d   o f   d a t a   ( g r o w t h   r a t e )   i s   a l s o   c o n s i d e r e d .   I t   i s   a l t e r i n g   o r   r i s i n g .   I f   t h e   d a t a s e t s   a r e   o f t e n   b e i n g   u p d a t e d   m e a n i n g   t h a t   a d d i t i o n a l   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t   J   E l e c   &   C o m p   E n g     I S S N :   2 0 8 8 - 8 7 0 8       G r a n u l a r i t y   a n a l y s i s   o f   c l a s s i f i c a t i o n   a n d   e s t i m a t i o n   f o r   c o m p l e x   d a t a s e t s   w i t h   M O A   ( C h a n i n t o r n )   4 1 1 d a t a s e t s   a r e   b e i n g   a u g m e n t e d ,   t h i s   b e e f s   u p   c o m p u t a t i o n a l   r e s o u r c e s   a n d   b o o s t s   t h e   m e n t i o n e d   c o m p l e x i t i e s   a b o u t   t y p e ,   s i z e   a n d   f o r m a t   [ 1 5 ] .   I n   p r a c t i c e ,   c o m p l e x i t y   o c c u r s   i n   d a t a   t h e n   a   d e v e l o p m e n t   o f   a n a l y t i c a l   t o o l s   i s   n e e d f u l   a n d   d e p e n d i n g   o n   ( a )   c l u s t e r i n g   a n a l y s i s   o r   ( b )   c l a s s i f i c a t i o n   m e t h o d .   E v e n   t h o u g h   s u c h   a   t o o l   i r o n s   o u t   a l l   d a t a   a n a l y s i s   p r o b l e m s   t h e n   a   d a t a s e t   w h i c h   a p p e a r s   a s   f o l l o w s   a r i s e s .   N o t e   t h a t   i t   i s   n o t   e s t i m a t e d   b y   a   s t r a i g h t   l i n e   n o r   e a s i l y   s e g m e n t i z e d   i n t o   c l u s t e r s .   I t   i s   c o m p l e x   p e r   s e   a s   i t   d e m o n s t r a t e s   s p h e r i c a l ,   r e c u r r i n g   o r   l o o p y   s t r u c t u r e .   F i g u r e   1   s h o w s   e x a m p l e s   o f   c o m p l e x   d a t a   t r a d i t i o n a l   t e c h n i q u e s   c a n n o t   c l a s s i f y   a l l   c h a r a c t e r i s t i c s .             F i g u r e   1 .   E x a m p l e   s t r u c t u r e s   o f   c o m p l e x   d a t a       3 .   P R E P R O C E S S I N G   M E T H O D S   I n   t h i s   s e c t i o n ,   p r e p r o c e s s i n g   a p p r o a c h e s   a r e   d e s c r i b e d .   O u r   p r o p o s e d   m e t h o d   w h i c h   i s   a p p l i c a b l e   f o r   c o m p l e x   d a t a ,   c l a s s i f i c a t i o n   a l g o r i t h m s   a n d   t h e   c o m p r e h e n s i v e   d i s c u s s i o n   a r e   g i v e n .     3 . 1 .     B a y e s i a n   c l a s s i f i c a t i o n   O n e   o f   t h e   c l a s s i c a l   p r e d i c t i o n s   i s   c a l l e d   B a y e s i a n   w i t h   a   s i m p l e   h y p o t h e s i s   i n   w h i c h   a l l   i n p u t   p a r a m e t e r s   a r e   a s s u m e d   t o   b e   a u t o n o m o u s   [ 1 6 ] .   T h i s   c l a s s i c a t i o n   i s   r e c o g n i z e d   a s   a   m i n i m u m   c o m p u t a t i o n a l   c o s t   a s   w e l l   a s   i n c o m p l e x i t y .   L e t   t h e r e   b e   m   d i f f e r e n t   c l a s s e s   ( C 1 ,   C 2 ,   C 3 , ,   C m )   a n d   t h e   t r a i n e d   B a y e s i a n   c l a s s i e r   e x p e c t s   X   w h i c h   b e l o n g s   t o   c l a s s   C i   w i t h   h i g h   a c c u r a c y .   T h e   c l a s s i f i c a t i o n   m o d e l   p e r f o r m s   a s   f o l l o w s :   L e t   e a c h   t u p l e   b e   a n   n   d i m e n s i o n a l   a t t r i b u t e   v e c t o r   o f   X   ( x 1 ,   x 2   ,   x 3 , .   .   .   ,   x n )   b e   n   f i n i t e   a t t r i b u t e s ,   a n d   s u p p o s e   x i   c a n   t a k e   d i f f e r e n t   C i   v a l u e s ,   n a m e l y ,   P ( C i / X )   >   P ( C j / X )   f o r   1     j     m   a n d   j     i .   T h e   B a y e s i a n   c l a s s i e r   c a l c u l a t e s   a   p r o b a b i l i t y   o f   C i   a s   f o l l o w i n g   P ( C i / X )   =   P ( X / C i )   P ( C i )   /   P ( X ) .   T h e   v a l u e s   P ( X )   a n d   P ( X / C i )   a r e   a p p r o x i m a t e d   f r o m   t h e   t r a i n i n g   d a t a s e t   ( a   d i m e n s i o n a l   t a b l e   w i t h   t u p l e ) .   T h e   a l g o r i t h m   o b v i o u s l y   a c c u m u l a t e s   t h e   c o u n t s   d u e   t o   t a k i n g   a   n e w   b a t c h   o f   e x a m p l e s .   T h e   a l g o r i t h m   o f   B a y e s i a n   c l a s s i f i c a t i o n   i s   d e s c r i b e d   a s   s h o w n   i n   F i g u r e   2 .       A l g o r i t h m   B a y e s i a n   R e q u i r e : D a t a s e t   m a t r i x   w h i c h   c o n t a i n s   a   r o w s   ( i n s t a n c e s )   a n d   b   c o l u m n s   ( a t t r i b u t e s )   E n s u r e : [ A ] a   x   b   f o r   i =   1     t o   a   d o   f o r   j   =   1     t o   b   d o   B u i l d   a   f r e q u e n c y   t a b l e   f o r   a l l   t h e   f e a t u r e s   a g a i n s t   C i   C o n s t r u c t   t h e   l i k e l i h o o d   t a b l e   f o r   t h e   f e a t u r e s   a g a i n s t   C i   C o m p u t e   t h e   c o n d i t i o n a l   p r o b a b i l i t i e s   f o r   C i   C o m p u t e   t h e   m a x i m u m   p r o b a b i l i t y   f o r   C i   e n d   f o r   e n d   f o r     F i g u r e .   2 .   B a y e s i a n   a l g o r i t h m       3 . 2 .     B o o s t i n g   c l a s s i f i c a t i o n   B o o s t i n g   d e n o t e s   a n   a l g o r i t h m   w h i c h   r e n o v a t e s   f r a g i l e   l e a r n e r s   t o   t o u g h   l e a r n e r s .   T h e   w e i g h t i n g   p a r a m e t e r   d e c o m p o s e s   t h e   m a t r i x   A   i n t o   t w o   p a r t s   e q u a l l y .   F i r s t   h a l f   o f   t h e   w e i g h t   ( t o u g h )   i s   a l l o c a t e d   t o   t h e   p e r f e c t   c l a s s i f i c a t i o n   p a r t ,   a n d   t h e   s e c o n d   h a l f   i s   a s s i g n e d   t o   t h e   m i s c l a s s i f i e d   ( f r a g i l e )   p a r t .   P o i s s o n   d i s t r i b u t i o n   f o r   c o m p u t i n g   t h e   r a n d o m   p r o b a b i l i t y   t o   t r a i n   t h e   m o d e l   i s   e m p l o y e d .   T h e   k e y   c o n c e p t   o f   b o o s t i n g   i s   t o   a c c e p t   a   s e q u e n c e   o f   f r a g i l e   l e a r n e r s .   W e i g h t e d   p a r a m e t e r   i s   a p p l i e d   t o   m o d e l   w h i c h   w a s   w r o n g l y   c l a s s i f i e d   i n   t h e   p r e v i o u s   i t e r a t i o n .   O n l y   t h i s   t i m e   b e i n g   t h e   w e i g h t i n g   p a r a m e t e r   a l t e r s   r e g a r d i n g   t o   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2 0 8 8 - 8 7 0 8   I n t   J   E l e c   &   C o m p   E n g ,   V o l .   9 ,   N o .   1 ,   F e b r u a r y   2 0 1 9   :     4 0 9   -   4 1 6   4 1 2 t h e   b o o s t i n g   w e i g h t   a s   p r o c e e d i n g   t h r o u g h   e a c h   r o u n d   o f   c o m p u t a t i o n   i n   o r d e r .   T h e   e s t i m a t i o n   k e e p s   c a l c u l a t i n g   t h r o u g h   a   w e i g h t e d   s u m   ( r e g r e s s i o n )   o r   w e i g h t e d   m a j o r i t y   ( c l a s s i f i c a t i o n )   t o   r e s u l t   t h e   f i n a l   i t e r a t i o n .   T h e   f o l l o w i n g   a l g o r i t h m   l i s t e d   i n   F i g u r e   3   e x p l a i n s   t h e   i t e r a t i o n   o f   b o o s t i n g   [ 1 7 ] .       A l g o r i t h m     B o o s t i n g   R e q u i r e : D a t a s e t   m a t r i x   w h i c h   c o n t a i n s   a   r o w s   ( i n s t a n c e s )   a n d   b   c o l u m n s   ( a t t r i b u t e s )   E n s u r e : [ A ] a   x   b [ A 1 ]   a n d   [ A 2 ] ,   N   =   d i m e n s i o n   o f   [ A ]   S e t : I n i t i a l   w e i g h t   p a r a m e t e r   i s   w n   ( = 1 / N )   f o r   i   =   1     t o   a   d o   f o r   j   =   1     t o   b   d o     f o r   k   =   1     t o   K   d o   A c c e p t   C k   ( x )   a f t e r   m i n i m i z i n g   e r r o r   o f   w e i g h t   p a r a m e t e r   E k   C o m p u t e   E k   =   ( ) 1 [ ( ) ]   C o m p u t e   α k   =   ( ) 1 [ ( ) ] / ( )   C o m p u t e   β k   =     l n      R a n d o m i z e   t h r o u g h   P o i s s o n   d i s t r i b u t i o n   t o   u p d a t e   t h e   w e i g h t   p a r a m e t e r       ( )   =   ( ) e x p   { 1 [ ( ) ] }   e n d   f o r   E s t i m a t e   u s i n g   f i n a l   r e s u l t   Y K ( x )   =   s g n   ( )   { - 1 ,   0 ,   1 }     e n d   f o r   e n d   f o r     F i g u r e   3 .   B o o s t i n g   a l g o r i t h m       3 . 3 .     N e a r e s t   n e i g h b o r i n g   c l a s s i f i c a t i o n   N e a r e s t   w i t h   k   n e i g h b o r s   ( k - N N )   u s e d   i n   c l a s s i f i c a t i o n   h a s   m u l t i p l e   f u n c t i o n s   w h i c h   d i f f e r s   f r o m   o t h e r   a l g o r i t h m s   a s   d e s c r i b e d   a b o v e .   I t   i s   n o n - p a r a m e t r i c   w h i c h   r e q u i r e s   n o   h y p o t h e s e s   a b o u t   t h e   p r o b a b i l i t y   d e n s i t y   f u n c t i o n   o f   t h e   i n p u t s .   I n   c a s e   o f   u n k n o w n   i n p u t   d i s t r i b u t i o n ,   k - N N   i s   h e a l t h i e r   t h a n   o t h e r   p a r a m e t r i c   a l g o r i t h m s .   H o w e v e r ,   p a r a m e t r i c   a l g o r i t h m s   s e e m   t o   g e n e r a t e   f e w   e r r o r s   d u e   t o   c o n s i d e r i n g   i n p u t   p r o b a b i l i t y   f u n c t i o n .   T h i s   k - N N   i s   a   l a z y   m a c h i n e   l e a r n i n g   a l g o r i t h m ,   w h i c h   a n a l y z e s   d a t a   d u r i n g   t h e   t e s t i n g   p h a s e ,   r a t h e r   t h a n   i n   t h e   t r a i n i n g   p e r i o d .   A n   a d v a n t a g e   o f   l a z y   k - N N   i s   t h a t   i t   r a p i d l y   a d j u s t s   t o   a n y   c h a n g e s   a s   i t   d o e s   n o t   t a k e   a   c o m m o n   d a t a s e t   f r o m   t h e   b e g i n n i n g .   B u t   a   m a j o r   d i s a d v a n t a g e   i s   t h e   h u g e   c o m p u t a t i o n a l   c o s t   o c c u r s   d u r i n g   t e s t i n g   p e r i o d .   I n   k - N N   c l a s s i f i c a t i o n ,   a n   i n p u t   i s   c l a s s i f i e d   b y   i t s   m a j o r i t y   o f   t h e   k   n e i g h b o r s .   T h e   a l g o r i t h m   i s   p r e s e n t e d   i n   [ 1 8 ] .     3 . 4 .     P r o p o s e d   c l a s s i f i c a t i o n   T h e   p r o p o s e d   m e t h o d   i s   a   l o g i s t i c   r e g r e s s i o n   b a s e d   l e a r n e r   w h i c h   i n c o r p o r a t e s   c l a s s i f i c a t i o n s   i n   o r d e r   t o   m a x i m i z e   t h e   p r o b a b i l i t y   o f   m o n i t o r e d   v a l u e s .   A t   b a s e   l e v e l   o f   c a l c u l a t i o n ,   t h e r e   a r e   d i v e r s e   l e a r n i n g   a l g o r i t h m s   t h a t   a r e   t r a i n e d   i n d i v i d u a l l y   b a s e d   u p o n   a   p e r f e c t   t r a i n i n g   s e t .   T h i s   i s   u n l i k e   o t h e r   a l g o r i t h m s   t h a t   o p t   t h e   s a m p l e   v a l u e s   t h a t   m i n i m i z e   t h e   s u m   o f   s q u a r e d   e r r o r s .   T h e   p r o p o s e d   m e t h o d   i n v o l v e s   t h e   c o m b i n a t i o n   o f   p r e p r o c e s s i n g   t e c h n i q u e s   f o r   a   p o s t - p r o c e s s i n g   o f   t h e   o u t p u t   a t   d e e p   l e a r n i n g   l e v e l .   N o t e   t h a t   t h e   o r i g i n a l   l e a r n e r s   a r e   n o t   c u s t o m i z e d   w h i l e   t h e   p r o p o s e d   m e c h a n i s m   a i m s   a t   o b t a i n a b l e   h i g h e r   a c c u r a c y   i n   c l a s s i f i c a t i o n   a n d   h i g h e r   p e r f o r m a n c e   o n   c o m p l e x   d a t a s e t s .   T h e   p r o p o s e d   m o d e l   i s   t r a i n e d   o n   t h e   m e t a - o u t p u t s   f r o m   b a s e   l e v e l   o f   c a l c u l a t i o n .   T h e   a l g o r i t h m   i s   d e p i c t e d   i n   F i g u r e   4 .       P r o p o s e d   A l g o r i t h m   R e q u i r e : D a t a s e t   m a t r i x   w h i c h   c o n t a i n s   a   r o w s   ( i n s t a n c e s )   a n d   b   c o l u m n s   ( a t t r i b u t e s )   E n s u r e : [ A ] a   x   b   ,   M   c l a s s i f i e r s ,   N   =   d i m e n s i o n   o f   [ A ]   f o r   i =   1     t o   a   d o   f o r   j   =   1     t o   b   d o   f o r   k   =   1     t o     P   d o     / * *   B a s e   l e v e l   c a l c u l a t i o n   * * /   L e a r n e r   M k   w i t h   d a t a s e t   A   e n d   f o r   f o r   q   =   1     t o     N   d o     / * *   M a x i m i z e   p r o b a b i l i t y   b a s e d   o n   r e g r e s s i o n   * * /   A m   =   { a q , b q } ,   w h e r e     a q =   m 0   +   m 1   a q   +   m 2   a q +   . . .   +   m P   a q   e n d   f o r   A p p l y   l e a r n e r   M   w i t h   A m     / * *   D e e p   l e v e l   c a l c u l a t i o n   * * /   R e s t o r e   M   e n d   f o r   e n d   f o r     F i g u r e .   4 .   P r o p o s e d   a l g o r i t h m   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t   J   E l e c   &   C o m p   E n g     I S S N :   2 0 8 8 - 8 7 0 8       G r a n u l a r i t y   a n a l y s i s   o f   c l a s s i f i c a t i o n   a n d   e s t i m a t i o n   f o r   c o m p l e x   d a t a s e t s   w i t h   M O A   ( C h a n i n t o r n )   4 1 3 3 . 5 .     G r a n u l a r i t y   a n d   p e r f o r m a n c e   I n   a   p r e p r o c e s s i n g   a p p r o a c h ,   t h e   n u m b e r   o f   c l a s s e s   o b s e r v e d   f o r   t h e   p r o c e s s   d e s i g n a t e s   a   d i v e r s e   d i s t r i b u t i o n   o f   t h e   d a t a s e t .   A s   f a r   a s   t h e   p e r f o r m a n c e   i s   c o n c e r n e d ,   i t   i m p l i e s   t h e   d i s p e r s i o n   o f   t h e   o r i g i n a l   d a t a s e t   a m o n g   t h e   c l a s s i f i e r s .   G r a n u l a r i t y   i s   u s e d   t o   m e a s u r e   t h e   l e v e l   o f   h i e r a r c h y   ( i n   d e c i s i o n   t r e e ) ,   t h e   r e l a t i v e   s i z e ,   t h e   d e t a i l e d   l e v e l ,   d e p t h   o f   p e n e t r a t i o n   a n d   s c a l e   i n   a   d a t a s e t .   R e g a r d i n g   t o   t h i s ,   t h e   p e r f o r m a n c e   f o r   a n y   c l a s s i f i c a t i o n s   d i f f e r s   b a s e d   o n   t h e   n u m b e r   o f   s e l e c t e d   c l a s s e s .   O n e   r e a s o n   i s   t h a t   t h e   c a p a b i l i t y   o f   l e a r n i n g   a l g o r i t h m s   c r e a t e s   f e w e r   r a t i o n a l   t o   d a t a   s h o r t a g e .   H o w e v e r ,   h i g h e r   g r a n u l a r i t y   d e v e l o p s   t h e   s t r u c t u r e   o f   a   h e a l t h y   m o d e l ,   r e g a r d i n g   t o   t h e   d e t a i l   o f   t h e   s t a t e   s p a c e .   I n   t h i s   r e s e a r c h ,   t h e   f o l l o w i n g   f o c u s e s   a r e   f u l f i l l e d .   F i r s t l y ,   t h e   d e p e n d e n c y   o f   t h e   g r a n u l a r i t y   l e v e l   i n   c o m p l e x   d a t a s e t s   i s   i n v e s t i g a t e d .   T h e   c l a s s i f i e r s   i n   a n   e x p e r i m e n t a l   l e a r n e r   w i t h   c o m p l e x   d a t a s e t s   a r e   c h o s e n .   S e c o n d l y ,   t h e s e   t r a i n i n g   r e s u l t s   l i s t   t h e   b e n e f i t   o f   a   h i g h e r   g r a n u l a r i t y   f o r   a l l   d a t a s e t s .   L a s t l y ,   t h e   r o b u s t   m o d e l   i n   t e r m s   o f   t h e   d a t a   g r a n u l a r i t y   i s   f u r t h e r   a n a l y z e d   b y   h i g h   p r o c e s s i n g   p o w e r   i n   o r d e r   t o   e x a m i n e   a   s p e e d u p   p e r f o r m a n c e   a n d   t h e   e f f i c i e n c y .   T h e   f o l l o w i n g   m e t r i c s   a r e   c o n c e r n e d   t o   e v a l u a t e   t h e   p e r f o r m a n c e   o f   t h e   p r o p o s e d   t e c h n i q u e .   T h e   a c c u r a c y   m e a n s   t h e   n u m b e r   o f   a c c e p t a b l e   c l a s s i f i c a t i o n s   a c c o r d i n g   t o   t h e   t o t a l   n u m b e r   o f   i n s t a n c e s .   T h e   p r o c e s s i n g   t i m e   c o n s u m e d   b y   i n d i v i d u a l   c l a s s i f i e r   i s   q u a n t i f i e d   f o r   t h e   e f f i c i e n c y   c o m p a r i s o n .   T h e   s p e e d - u p   r e f l e c t s   t h e   p e r f o r m a n c e   o f   a   p a r a l l e l   p r o c e s s i n g   s y s t e m   i n   c o m p a r i s o n   w i t h   a   s l o w e r   v e r s i o n .   T h e   s p e e d - u p   c a n   b e   c o m p u t e d   b y   s e q u e n t i a l   t i m e   o v e r   p a r a l l e l   r e f e r e n c e   t i m e .       4 .   E S T I M A T I O N   M E T H O D   T h e   o p e n - s o u r c e   b a s e d   s i m u l a t i o n   t o o l   c a l l e d   M O A   i s   e m p l o y e d   f o r   t h e   a n a l y t i c s .   F o u r   c o m p l e x   d a t a s e t s   h a v e   b e e n   s e l e c t e d   a n d   t h e   g r a n u l a r i t y   a n a l y s i s   o f   p r e p r o c e s s i n g   m e t h o d s   h a s   b e e n   a c c u m u l a t e d .   T h e   e x e c u t i o n   h a s   b e e n   r u n   o n   a   F u j i t s u   W i n d o w s   8   w i t h   I n t e l ®   C o r e     i 5   C P U ,   2 . 6 7   G H z   P r o c e s s o r   a n d   8   G B   R A M   o n   b o a r d .   T h e   d a t a s e t s   h a v e   b e e n   s e l e c t e d   i n   o r d e r   t h a t   t h e y   a r e   d i f f e r e n t   i n   n u m b e r   o f   a t t r i b u t e s ,   i n s t a n c e s ,   d e t a i l s   a n d   s i z e .   D a t a s e t s   1 ,   2 ,   3 ,   a n d   4   a r e   r u n   o n   a   s i n g l e   s e r v e r   ( M / M / 1 ) ,   a n d   e a c h   d a t a s e t   i s   d i v i d e d   i n t o   4   s u b t a s k s   t o   b e   i n d e p e n d e n t l y   p r o c e s s e d   o n   f o u r   p a r a l l e l   p r o c e s s o r s   ( M / M / 4 ) .   T h e   p a r a l l e l   p r o c e s s i n g   i s   i n c l u s i v e   o f   s p l i t t i n g   t i m e   a n d   r e - a s s e m b l i n g   t i m e .   S p l i t t i n g   i s   b a s e d   u p o n   s o f t w a r e   d e v e l o p e d   b y   [ 1 9 ]   a n d   t h e   s i m u l a t i o n   m o d e l   i s   s h o w n   i n   F i g u r e   5 .   P e r f o r m a n c e   e v a l u a t i o n   o f   p a r a l l e l   p r o c e s s i n g   f o r   r e d u c i n g   o f   p r o b l e m   c o m p l e x i t y   a n d   t i m e   i s   a l s o   p r e s e n t e d   i n   [ 2 0 ] .   T h e   s i m u l a t i o n   r e s u l t s   r u n   o n   o n e   a n d   f o u r   p r o c e s s i n g   u n i t s   a r e   d e p i c t e d   i n   T a b l e   1 0 .           F i g u r e   5 .   S i m u l a t i o n   m o d e l       5 .   R E S U L T S   A N D   A N A L Y S I S   M e a n   A b s o l u t e   E r r o r   ( M A E ) ,   R o o t   M e a n   S q u a r e d   E r r o r   ( R M S E )   a n d   s i m u l a t i o n   r u n t i m e   f o r   f o u r   d a t a s e t s   a r e   t a b u l a r i z e d   i n   T a b l e   1 .   G r a n u l a r i t y   a n d   c o m p l e t e n e s s   o f   t h e s e   f o u r   d a t a s e t s   c a n   b e   f o u n d   a s   s h o w n   i n   T a b l e   2 - 5 .   I t   i s   o b v i o u s l y   s e e n   t h a t   d a t a s e t   2 - 4   a r e   c o m p l e t e   d a t a s e t s   w h i l e   o n l y   d a t a s e t   1   i s   c o n t a i n i n g   h i g h   p e r c e n t a g e   o f   m i s s i n g   a n d   c o n s i d e r a b l e   a s   i n c o m p l e t e   d a t a s e t .   P e r f o r m a n c e   o f   p r e p r o c e s s i n g   m e t h o d s   d e s c r i b e d   i n   s e c t i o n   3   l i s t s   o u t   a l l   m e t r i c s ,   s u c h   a s   A r e a   U n d e r   t h e   R e c e i v e r   O p e r a t i n g   C h a r a c t e r i s t i c   c u r v e   ( A U R O C ) ,   C l a s s i f i c a t i o n   A c c u r a c y   ( C A )   a n d   p r e c i s i o n .   P r e p r o c e s s i n g   p e r f o r m a n c e   e v a l u a t i o n s   f o r   e a c h   d a t a s e t   a r e   s h o w n   i n   T a b l e   6 - 9 .   I n   a l l   c a s e s   p r o p o s e d   m e t h o d   o u t p e r f o r m s   m a r g i n a l l y .   T h e n   t h e   p r o p o s e d   p r e p r o c e s s i n g   t i m e   i n   m s e c   i s   t a k e n   i n t o   a c c o u n t   i n   o r d e r   t o   c o m p u t e   f o r   t h e   p a r a l l e l   p r o c e s s i n g   ( p o s t - p r o c e s s i n g )   i n   t h e   s i m u l a t i o n   m o d e l   a s   s h o w n   i n   F i g u r e   5 .   I n   o r d e r   t o   c o m p a r e   t o   o t h e r   r e s e a r c h ,   t h e   N a ï v e   B a y e s   ( N B )   i n   S p a r k   p r e - p r o c e s s i n g   m e c h a n i s m   i s   c o n s i d e r e d .   N o t e   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2 0 8 8 - 8 7 0 8   I n t   J   E l e c   &   C o m p   E n g ,   V o l .   9 ,   N o .   1 ,   F e b r u a r y   2 0 1 9   :     4 0 9   -   4 1 6   4 1 4 t h a t   N B - S p a r k   r e s u l t s   o n l y   A U R O C   a s   d e p i c t e d   i n   T a b l e   1 0 .   T h e   s p e e d - u p   m e t r i c   f o r   t h e s e   f o u r   d a t a s e t s   i s   c a l c u l a t e d   f r o m   s i m u l a t i o n   r e s u l t   a s   d i s p l a y e d   i n   T a b l e   1 1 .   I n   c a s e   o f   d a t a s e t   # 3   a n d   # 4 ,   p r e p r o c e s s i n g   t i m e   i m p r o v e s   s p e e d - u p   a s   i t   d i f f e r s   s i g n i f i c a n t l y   f r o m   p o s t - p r o c e s s i n g   t i m e .       T a b l e   1 .   M O A   S i m u l a t i o n   R e s u l t s     D a t a s e t   1   2   3   4   M A E   0 . 1   5 7 . 4   0 . 0 9   0 . 0 3   R M S E   0 . 2 3   6 7 . 6   0 . 1 4   0 . 0 6   R u n T i m e ( m s e c )   8 0   2 7 0   4 5 0   1 8 0       T a b l e   2 .   G r a n u l a r i t y   o f   D a t a s e t   # 1     D a t a s e t   # 1   A t t r   1   A t t r   2   S k e w n e s s   1 4 . 5 7   7 . 5   K u r t o s i s   2 1 3 . 8   8 8 . 6 8   D i s p e r s i o n   h i g h   7 5 1 , 2 7 1   M i s s i n g   ( % )   6 1   0 . 5     T a b l e   3 .   G r a n u l a r i t y   o f   D a t a s e t   # 2     D a t a s e t   # 2   A t t r   1   A t t r   2   A t t r   3   S k e w n e s s   1 4 . 5 7   - 2 . 6 9   0 . 9 7   K u r t o s i s   2 1 3 . 8   7 . 5 8   1 . 8 8   D i s p e r s i o n   h i g h   3 7 8 . 1   4 , 6 0 6 . 0 8   M i s s i n g   ( % )   0   0   0         T a b l e   4 .   G r a n u l a r i t y   o f   D a t a s e t   # 3     D a t a s e t   # 3   A t t r   1   A t t r   2   A t t r   3   A t t r   4   A t t r   5   A t t r   6   A t t r   7   S k e w n e s s   - 0 . 5   - 0 . 5 9   - 0 . 0 1   0 . 3 8   1 . 4 4   0   2 . 3 6   K u r t o s i s   - 1 . 3 9   1 . 8 8   0 . 9 5   0 . 8 7   4 . 2 3   - 0 . 0 9   7 . 9 9   D i s p e r s i o n   7 , 1 3 1 . 6   1 . 3 5   0 . 6 9   h i g h   h i g h   0 . 0 2   0 . 0 2   M i s s i n g   ( % )   0   0   0   0   0   0   0       T a b l e   5 .   G r a n u l a r i t y   o f   D a t a s e t   # 4     D a t a s e t   # 4   A t t r   1   A t t r   2   A t t r   3   A t t r   4   A t t r   5   S k e w n e s s   0 . 2   0 . 3   0 . 4 2   - 0 . 2 3   0 . 0 4 5   K u r t o s i s   - 1 . 1 1   - 0 . 8 6   - 1 . 5 8   - 0 . 8 9   - 0 . 6   D i s p e r s i o n   2 . 6 8   h i g h   h i g h   0   0   M i s s i n g   ( % )   0   0   0   0   0       T a b l e   6 .   P r e p r o c e s s i n g   P e r f o r m a n c e   o f   D a t a s e t   # 1     R u n t i m e   ( m s e c )   D a t a s e t   # 1   A U R O C   ( % )   C A   ( % )   P r e c i s i o n   ( % )   B o o s t   3 0   9 4   9 4 . 6   9 3   N N 5   1 9 7   9 5 . 6   9 3 . 3   9 3 . 4   N N 1 5   2 0 6   9 6   9 2 . 4   9 2 . 4   B a y   6 0   9 8 . 6   9 4   9 0 . 6   P r o p o s e d   7 4   9 5 . 2   9 5 . 1   9 3 . 7       T a b l e   7 .   P r e p r o c e s s i n g   P e r f o r m a n c e   o f   D a t a s e t   # 2     R u n t i m e   ( m s e c )   D a t a s e t   # 2   A U R O C   ( % )   C A   ( % )   P r e c i s i o n   ( % )   B o o s t   2 0   9 1 . 8   9 2 . 4   8 8 . 5   N N 5   7 3   9 8   9 5 . 5   9 3 . 8   N N 1 5   8 5   9 9   9 4 . 7   9 4   B a y   1 0   9 9 . 3   9 4 . 2   9 4 . 2   P r o p o s e d   4 6   9 7   9 6   9 4 . 7       T a b l e   8 .   P r e p r o c e s s i n g   P e r f o r m a n c e   o f   D a t a s e t   # 3     R u n t i m e   ( m s e c )   D a t a s e t   # 3   A U R O C   ( % )   C A   ( % )   P r e c i s i o n   ( % )   B o o s t   1 0   8 3 . 9   7 5   8 4 . 5   N N 5   6 . 7   8 8 . 2   7 4 . 7   7 7 . 2   N N 1 5   6 . 9   9 0 . 5   7 7 . 3   7 6 . 7   B a y   0   9 8 . 7   8 9   9 0   P r o p o s e d   8 . 9   9 4 . 2   9 0   9 4 . 2     Evaluation Warning : The document was created with Spire.PDF for Python.
I n t   J   E l e c   &   C o m p   E n g     I S S N :   2 0 8 8 - 8 7 0 8       G r a n u l a r i t y   a n a l y s i s   o f   c l a s s i f i c a t i o n   a n d   e s t i m a t i o n   f o r   c o m p l e x   d a t a s e t s   w i t h   M O A   ( C h a n i n t o r n )   4 1 5 T a b l e   9 .   P r e p r o c e s s i n g   P e r f o r m a n c e   o f   D a t a s e t   # 4     R u n t i m e   ( m s e c )   D a t a s e t   # 4   A U R O C   ( % )   C A   ( % )   P r e c i s i o n   ( % )   B o o s t   8 0   8 1 . 8   9 2 . 4   8 7 . 5   N N 5   6 0   9 8   9 5 . 5   9 3 . 8   N N 1 5   8 0   7 9 . 5   7 6 . 7   4 4 . 4   B a y   1 0   9 5 . 3   9 4 . 4   9 2 . 2   P r o p o s e d   8 0   9 7   9 6   9 4 . 7       T a b l e   1 0 .   P r e p r o c e s s i n g   P e r f o r m a n c e   C o m p a r i s o n     R u n t i m e   ( m s e c )   D a t a s e t   # 4   A U R O C   ( % )   C A   ( % )   P r e c i s i o n   ( % )   B o o s t   8 0   8 1 . 8   9 2 . 4   8 7 . 5   N N 5   6 0   9 8   9 5 . 5   9 3 . 8   N N 1 5   8 0   7 9 . 5   7 6 . 7   4 4 . 4   B a y   1 0   9 5 . 3   9 4 . 4   9 2 . 2   N B   S p a r k   N / A   7 1   N / A   N / A   P r o p o s e d   8 0   9 7   9 6   9 4 . 7       T a b l e   1 1 .   R e s u l t s   C o m p a r i s o n   f o r   O n e   a n d   F o u r   P r o c e s s i n g   U n i t s   ( P r e : P o s t )   R e s i d u a l   T i m e   ( m s e c )   D a t a s e t   1   2   3   4   M / M / 1   7 4 : 1 0 9   4 6 : 6 0   8 . 9 : 2 8 6   8 0 : 1 5 9 1   M / M / 4   7 4 : 4 2 . 7   4 6 : 1 8   8 . 9 : 1 0 9   8 0 : 4 5 9   S p e e d - u p   1 . 5 6   1 . 6 5   2 . 5   3 . 1       6 .   C O N C L U S I O N   I n   p a r a l l e l   p r o c e s s i n g   s y s t e m ,   s e v e r a l   p r o c e s s i n g   u n i t s   a r e   c o n n e c t e d   i n   p a r a l l e l   f a s h i o n   w i t h   e a c h   o t h e r   a n d   t h i s   c o m b i n e d   s t r u c t u r e   i s   f i l l e d   w i t h   a   c o m p l e x   d a t a s e t .   S i n c e   t h e   c o m p l e x i t y   o f   d a t a s e t   e x i s t s ,   p r e p r o c e s s i n g   t e c h n i q u e s   a r e   c o m p u l s o r y .   T h e   p r o p o s e d   a l g o r i t h m   f o r   p r e p r o c e s s i n g   i s   i n t r o d u c e d   a n d   o u t p e r f o r m s   f o r   b o t h   C A   a n d   p r e c i s i o n   a n a l y s i s   c o m p a r e d   t o   o t h e r   e x i s t i n g   m e t h o d s .   T h e   p r o p o s e d   c l a s s i f i c a t i o n   m e t h o d   o u t p e r f o r m s   a n d   i m p r o v e s   g r a n u l a r i t y   l e v e l   o f   c o m p l e x   d a t a s e t s .   I n   t h e   e n d ,   p a r a l l e l   p r o c e s s i n g   i s   e m p l o y e d   t o   m e a s u r e   t h e   p o s t - p r o c e s s i n g   t i m e   a n d   s p e e d - u p   m e t r i c s .   I t   i s   c l e a r   t h a t   D a t a s e t   c o m p l e x i t y   a n d   p r e - p r o c e s s i n g   t i m e   r e f l e c t   t h e   e f f e c t i v e n e s s   o f   e a c h   a l g o r i t h m .   S p e e d u p   i s   b a s e d   o n   t h e   r u n t i m e   o f   M O A   s i m u l a t i o n .   T h e   f u t u r e   r e s e a r c h   c o n s i d e r s   t h e   a p p r o x i m a t i o n   t e c h n i q u e   i n   o r d e r   t o   l e s s e n   t h e   p r o c e s s i n g   t i m e   c o m p l e x i t y   i s s u e d   b y   s i m u l a t i o n .   T h e   n e x t   p u b l i c a t i o n   t o u c h e s   a   c o n c e p t   o f   o p t i m i z i n g   b o t h   C A   a n d   p r e c i s i o n   i n   p r e p r o c e s s e s .       R E F E R E N C E S     [ 1 ]   C .   C .   A g g a r w a l ,   D a t a   M i n i n g :   T h e   T e x t b o o k , B e r l i n ,   G e r m a n y :   S p r i n g e r ,   2 0 1 5 .   [ 2 ]   D .   L a n e y ,   3 D   D a t a   M a n a g e m e n t :   C o n t r o l l i n g   D a t a   V o l u m e ,   V e l o c i t y   a n d   V a r i e t y ,   R e t r i e v e d   J a n u a r y   1 2 ,   2 0 1 8 ,   f r o m   h t t p s : / / b l o g s . g a r t n e r . c o m / d o u g - l a n e y / f i l e s / 2 0 1 2 / 0 1 / a d 9 4 9 - 3 D - D a t a - M a n a g e m e n t - C o n t r o l l i n g - D a t a - V o l u m e - V e l o c i t y - a n d - V a r i e t y . p d f ,   2 0 0 1 .   [ 3 ]   X .   W u ,   X .   Z h u ,   G .   Q .   W u   a n d   W .   D i n g ,   D a t a   M i n i n g   w i t h   B i g   D a t a ,   I E E E   T r a n s   K n o w l e d g e   D a t a   E n g i n e e r i n g ,   v o l .   2 6 ,   n o . 1 ,   p p .   9 7 1 0 7 ,   2 0 1 4 .   [ 4 ]   N .   M .   N a w i ,   W .   H .   A t o m i   a n d   M .   Z . R e h m a n ,   T h e   E f f e c t   o f   D a t a   P r e - P r o c e s s i n g   o n   O p t i m i z e d   T r a i n i n g   o f   A r t i f i c i a l   N e u r a l   N e t w o r k s ,   P r o c e d i a   T e c h n o l o g y ,   v o l .   1 1 ,   p p .   3 2 - 3 9 ,   2 0 1 3 .   [ 5 ]   C . F .   T s a i ,   W . C .   L i n   a n d   S . W .   K e ,   B i g   D a t a   M i n i n g   w i t h   P a r a l l e l   C o m p u t i n g :   A   C o m p a r i s o n   o f   D i s t r i b u t e d   a n d   M a p R e d u c e   M e t h o d o l o g i e s ,   J o u r n a l   o f   S y s t e m s   a n d   S o f t w a r e ,   p p .   8 3 9 2 ,   2 0 1 6 .   [ 6 ]   S .   G a r c í a ,   S .   R a m í r e z - G a l l e g o ,   J .   L u e n g o ,   e t   a l .   B i g   D a t a   A n a l y t i c s   1 : 9 ,   R e t r i e v e d   F e b r u a r y   1 5 ,   2 0 1 8 ,   f r o m   h t t p s : / / d o i . o r g / 1 0 . 1 1 8 6 / s 4 1 0 4 4 - 0 1 6 - 0 0 1 4 - 0 ,   2 0 1 6 .   [ 7 ]   L .   B r i s s o n   a n d   M .   C o l l a r d ,   H o w   t o   S e m a n t i c a l l y   E n h a n c e   a   D a t a   M i n i n g   P r o c e s s ,   E n t e r p r i s e   I n f o r m a t i o n   S y s t e m s ,   S p r i n g e r   B e r l i n   H e i d e l b e r g ,   v o l .   1 9 ,   p p .   1 0 3 1 1 6 ,   2 0 1 0 .   [ 8 ]   C .   J i t t a w i r i y a n u k o o n   a n d   V .   S r i s a r k u n ,   A n   A p p r o x i m a t i o n   M e t h o d   o f   R e g r e s s i o n   A n a l y s i s   i n   C o n c u r r e n t   B i g   D a t a   S t r e a m ,   I n t e r n a t i o n a l   J o u r n a l   o f   T e c h n o l o g y   ( I J T e c h ) ,   v o l .   9 ,   n o .   1 ,   p p .   1 9 2 - 2 0 0 ,   2 0 1 8 .   [ 9 ]   B i f e t ,   R .   K i r k b y ,   G .   H o l m e s   a n d   B .   P f a h r i n g e r ,   M O A :   M a s s i v e   O n l i n e   A n a l y s i s ,   J o u r n a l   o f   M a c h i n e   L e a r n i n g   R e s e a r c h   1 1 ,   p p .   1 6 0 1 1 6 0 4 ,   2 0 1 0 .   [ 1 0 ]   W .   L i u ,   L .   M a ,   B .   Q i u ,   M .   C u i   a n d   J .   D i n g ,   A n   E f f i c i e n t   D e p t h   M a p   P r e p r o c e s s i n g   M e t h o d   B a s e d   o n   S t r u c t u r e - A i d e d   D o m a i n   T r a n s f o r m   S m o o t h i n g   f o r   3 D   V i e w   G e n e r a t i o n ,   P L o S   O N E ,   v o l .   1 2 ,   n o .   4 ,   p p .   1 - 2 0 ,   2 0 1 7 .   [ 1 1 ]   G .   M a d h u   a n d   G .   N a g a c h a n d r i k a ,   A   N e w   P a r a d i g m   f o r   D e v e l o p m e n t   o f   D a t a   I m p u t a t i o n   A p p r o a c h   f o r   M i s s i n g   V a l u e   E s t i m a t i o n ,   I n t e r n a t i o n a l   J o u r n a l   o f   E l e c t r i c a l   a n d   C o m p u t e r   E n g i n e e r i n g ,   v o l .   6 ,   p p .   3 2 2 2 - 3 2 2 8 ,   2 0 1 6 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2 0 8 8 - 8 7 0 8   I n t   J   E l e c   &   C o m p   E n g ,   V o l .   9 ,   N o .   1 ,   F e b r u a r y   2 0 1 9   :     4 0 9   -   4 1 6   4 1 6 [ 1 2 ]   G .   J a k o b s o n ,   G .   P i a t e t s k y - S h a p i r o ,   C .   L a f o n d ,   M .   R a j i n i k a n t h   a n d   J .   H e r n a n d e z ,   C A L I D A :   A   S y s t e m   f o r   I n t e g r a t e d   R e t r i e v a l   f r o m   M u l t i p l e   H e t e r o g e n e o u s   D a t a b a s e s ,   P r o c e e d i n g s   o f   t h e   T h i r d   I n t e r n a t i o n a l   C o n f e r e n c e   o n   D a t a   a n d   K n o w l e d g e ,   p p .   1 - 1 8 ,   2 0 1 4 .   [ 1 3 ]   M .   S a q i b ,   M .   A r s h a d ,   M .   A l i ,   N .   U .   R e h m a n   a n d   Z .   U l l a h ,   I m p r o v e   D a t a   W a r e h o u s e   P e r f o r m a n c e   b y   P r e p r o c e s s i n g a n d   A v o i d a n c e   o f   C o m p l e x   R e s o u r c e   I n t e n s i v e   C a l c u l a t i o n s ,   I n t e r n a t i o n a l   J o u r n a l   o f   C o m p u t e r   S c i e n c e   ( I J C S I ) ,   v o l .   9 ,   n o .   2 ,   p p .   2 0 2 - 2 0 6 ,   2 0 1 2 .   [ 1 4 ]   S .   C h r i s t a ,   V .   S u m a   a n d   L .   M a d u r i ,   A n   E f f e c t i v e   D a t a   P r e p r o c e s s i n g   T e c h n i q u e   f o r I m p r o v e d   D a t a   M a n a g e m e n t   i n   a   D i s t r i b u t e d E n v i r o n m e n t ,   I n t e r n a t i o n a l   J o u r n a l   o f   C o m p u t e r   A p p l i c a t i o n s   o n   A d v a n c e d   C o m p u t i n g   a n d   C o m m u n i c a t i o n   T e c h n o l o g i e s   f o r   H P C   A p p l i c a t i o n s ,   p p .   2 5 - 2 9 ,   2 0 1 2 .   [ 1 5 ]   S .   R í o ,   J .   B e n í t e z   a n d   F .   H e r r e r a ,   A n a l y s i s   o f   D a t a   P r e p r o c e s s i n g   I n c r e a s i n g   t h e   O v e r s a m p l i n g   R a t i o   f o r   E x t r e m e l y   I m b a l a n c e d   B i g   D a t a   C l a s s i f i c a t i o n ,   P r o c e e d i n g s   o f   I E E E   T r u s t c o m / B i g D a t a S E / I S P A   C o n f e r e n c e   2 0 1 5 ,   p p .   1 8 0 - 1 8 5 ,   2 0 1 5 .   [ 1 6 ]   H .   Y .   M u s s a ,   J .   B .   M i t c h e l l   a n d   R .   C .   G l e n ,   F u l l   L a p l a c i a n i s e d   P o s t e r i o r   N a i v e   B a y e s i a n   A l g o r i t h m ,   J o u r n a l   o f   C h e m i n f o r m a t i c s ,   p p .   1 - 6 ,   2 0 1 3 .   [ 1 7 ]   W .   H u ,   W .   H u   a n d   S .   M a y b a n k ,   A d a B o o s t - B a s e d   A l g o r i t h m   f o r   N e t w o r k I n t r u s i o n   D e t e c t i o n ,   I E E E   T r a n s a c t i o n s   o n   S y s t e m s ,   M a n   a n d   C y b e r n e t i c s ,   v o l .   3 8 ,   n o .   2 ,   p p .   5 7 7 - 5 8 2 ,   2 0 0 8 .   [ 1 8 ]   R .   T h i r u m a h a l   a n d   P a t i l   A .   D e e p a l i ,   K N N   a n d   A R L   B a s e d   I m p u t a t i o n   t o   E s t i m a t e   M i s s i n g   V a l u e s ,   I n d o n e s i a n   J o u r n a l   o f   E l e c t r i c a l   E n g i n e e r i n g   a n d   I n f o r m a t i c s ,   v o l .   2 ,   p p .   1 1 9 - 1 2 4 ,   2 0 1 4 .   [ 1 9 ]   G . D . G .   S o f t w a r e   S A R L ,   R e t r i e v e d   J u l y   1 4 ,   2 0 1 7 ,   f r o m   h t t p : / / w w w . g d g s o f t . c o m ,   2 0 1 6 .   [ 2 0 ]   S .   K r i s h n a m u r t h y   a n d   R .   T z o n e v a ,   D e c o m p o s i t i o n - C o o r d i n a t i n g   M e t h o d   f o r   P a r a l l e l   S o l u t i o n   o f   a   M u l t i   A r e a   C o m b i n e d   E c o n o m i c   E m i s s i o n   D i s p a t c h   P r o b l e m ,   I n t e r n a t i o n a l   J o u r n a l   o f   E l e c t r i c a l   a n d   C o m p u t e r   E n g i n e e r i n g ,   v o l .   6 ,   n o .   5 ,   p p .   2 0 4 8 - 2 0 6 3 ,   2 0 1 6 .   Evaluation Warning : The document was created with Spire.PDF for Python.