I n d on e s i an   Jo u r n al   o El e c t r i c al   En gi n e e r i n g   an d   C o m p u te r   S c i e n c e   V o l .   15 ,   N o .   2 A ugus t   20 1 9 ,   pp .   1076 ~ 1085   IS S N :   2502 - 4752 ,   D O I :   10. 1 1591 / i j e e c s . v 1 5 .i 2 . pp 107 6 - 1085             1076       Jou r n al   h o m e pa ge ht t p: / / i ae s c or e . c om / j our na l s / i nde x . php/ i j e e c s   T o w a r d m a c h i n e   l e a r n i n g - b a sed  s e l f - t u n i n g   o f     h a d o o p - s p a r k   s y st e m       M d .   A r m an u r   R ah m an 1 A b i d   H o s s e n 2 J .   H o s s e n 3 ,   V e n k atas e s h ai ah   C 4 Th an gav e l   B h u v an e s w ar i 5 A z i z S u l tan a 6   1 , 3 , 4 , 5 F a c ul t y   of   E ng i ne e r i ng   a nd   T e c hno l o gy ,   M ul t i m e d i a   U ni v e r s i t y ,   M a l a y s i a   2 F a c ul t y   of   C o m put i ng   a nd  E ng i ne e r i ng ,   K hul na   U ni v e r s i t y ,   B a ng l a de s h   6 F a c ul t y   of   C o m put i ng   a nd  E ng i ne e r i ng ,   D ha k a   I nt e r na t i o na l   U n i v e r s i t y ,   B a ng l a de s h       A r ti c l e   I n fo     A B S TR A C T   Ar t i c l e   h i s t or y :   R e c e i v e d   S ep   2 1,   2 018   R e v i s e F eb   1 ,   2019   A c c e pt e F eb   2 5,   201 9       A pa c he   S pa r i s   a o pe s o ur c e   di s t r i bu t e pl a t f o r m   w hi c us e s   t h e   c o n c e pt   o f   di s t r i bu t e m e m o r y   f o r   pr o c e s s i ng   bi g   da t a .   S pa r h a s   m o r e   t ha 18 pr e do m i n a nt   c o nf i g ur a t i o pa r a m e t e r .   C o nf i g ur a t i o s e t t i ng s   di r e c t l y   c o nt r o l   t he   e f f i c i e nc y   of   A pa c he   s pa r k   w hi l e   p r o c e s s i ng   b i g   da t a ,   t o   g e t   t he   be s t   o ut c o m e   y e t   a   c ha l l e ng i ng   t a s a s   i t   ha s   m a ny   c o n f i g ur a t i o p a r a m e t e r s .     C ur r e nt l y ,   t he s e   p r e do m i n a n t   pa r a m e t e r s   a r e   t une d   m a nu a l l y   b y   t r i a l   a n e r r o r .   T o   o v e r c o m e   t hi s   m a nua l   t un i ng   p r o bl e m   i t h i s   pa p e r   pr o po s e a n de v e l o pe a   s e l f - t uni ng   a ppr o a c us i ng   m a c hi ne   l e a r ni ng .   T hi s   a p p r o a c c a n   t un e   t h e   pa r a m e t e r   v a l ue   w h e i t s   r e qu i r e d .   T he   a ppr o a c w a s   i m p l e m e nt e o D e l l   s e r v e r   a nd  e xp e r i m e n t   w a s   do ne   o f i v e   di f f e r e nt   s i z e s   o f   t he   d a t a s e t   a nd  pa r a m e t e r .   A   c o m pa r i s o n   i s   pr o v i de t o   hi g hl i g ht   t h e   e xpe r i m e nt e r e s ul t   o f   t he   pr o po s e a pp r o a c h   w i t d e f a ul t   S p a r c o nf i g ur a t i o s y s t e m .   T he   r e s ul t s   d e m o ns t r a t e   th at   t h e   e xe c u t i o i s   s pe e de d - up  by   a bo ut   33%   ( o a n   a v e r a g e c o m pa r e t o   t he   de f a u l t   c o nf i g ur a t i o n.   Ke y w or d s :   A pa c h e   s p a r k   B i da t a   M a c hi n e   l e a rni n g   S e l f - t un i ng   S pa r pa ra m e t e r   C opy r i gh t   ©   201 9   I n s t i t ut e   o f   A dv anc e E ng i ne e r i ng   and   S c i e nc e .     A l l   r i gh t s   r e s e r v e d .   Cor r e s pon di n g   Au t h or :   M d.   A rm a nu r   R a hm a n,     F a c ul t y   of   E n g i n e e ri n a n d   T e c hn o l o g y ,   M ul t i m e di a   U ni v e r s i t y ,   J a l a n   A y e r   K e r o h   L a m a ,   M e l a ka ,   7 5450   B uki t   B e r ua ng,   M a l a y s i a .   E m a i l :   a rm a n. b dm a i l @ g m a i l . c o m       1.   I N TR O D U C TI O N     T h e   i m p r o ve m e n t   o f   t h e   m o b i l e   n e t w o r k,   e - c o m m e r c e ,   t h e   s o c i a l   n e t w o r i s   c o n t i n uo us l y   a n v a s t l y   i n c r e a s i ng  w h i c h   r e s ul t s   i n   t h e   i n c r e m e n t   o f   a   n um b e r   o f   i nt e rn e t   us e r s .     T h e   i n c r e a s i ng  n u m b e r   o f   i n t e rn e t   us e r s   c o n s t a n t l y   g e n e ra t e s   h u ge   c o n t e n t   o f   da t a   fo r   f ut ur e   us e .     A c c o r di n g   t o   a n   i n di c a t i o n   by   ID by   t h e   e n d   of   2020,   t h e   a m o u n t   o f   di gi t a l   da t a   w i l l   b e   m o r e   t h a 44  Z B   [1 - 3].   T h e   e xi s t e n c e   of   b i da t a   c a nn o t   b e   de ni e w i t h   t h e   c u rr e n t   s t a t e   o f   t h e   di gi t a l   w o r l d.   R e c e n t l y ,   b i da t a   t e c hn o l o gi e s   ga i n e h uge   c o n c e n t r a t i o n   w i t h   t h e vo l v i n o f   b i da t a   i n   t h e   s e c t o r s   s uc h   a s   go v e r nm e nt ,   a c a de m i a ,   a nd  i ndus t ri e s .   T h e   t ra d i t i o n a l   c o m put i ng  s y s t e m   c a n n o t   o ff e r   t h e   n e c e s s a r y   e ff i c i e n c y   a n pe r f o r m a nc e .   T h e r e f o r e ,   t h e   b i da t a   i n dus t ri e s   ha v e   s e e n   v a r i o us   pl a t f o r m s   s uc h   a S pa rk   [4] ,   H a ddo o   [5 ,   6 a n S t r o m   [7]    t o   e nt e rt a i n   t h e   de m a n ds   o f   a   l a r ge   a m o unt   of   b i da t a   p r o c e s s i n g.   A pa c h e   s pa r i s   o n e   of   t h e   m o s t   w i de s pr e a f r a m e w o r ks   a m o n t h e   pr e v a i l i n g   di s t r i b ut e s   f r a m e w o r k,   due   t o   i t s   g r e a t   c a p a b i l i t y   t o   s us t e na n c e   h e a v y   a ppl i c a t i o n s   a nd   f o r   c o m pl e x   da t a   pr o c e s s i n pe r f o r m a n c e   [2 ,   4].   T h e   m o s t   po pul a r   p r o c e s s i n pl a t f o r m s   i n   i s   A pa c h e   S pa rk  w h i c h   o ffe r s   h i g h - l e v e l   A P i n   s c a l a r ,   py t h o n,   a nd  J a v a   [8].   I n   t h e   s pa r k,   t h e   s y s t e m   h a s   m o r e   t ha n   180  p a r a m e t e r s   t h a t   r e qui r e   t o   a dj us t   m a nua l l y   fo r   e a c h   i n di v i du a l   a pp l i c a t i o n   i n   o r de r   t o   i n c r e a s e   a ppl i c a t i o n s   f un c t i o na l i t i e s   [9] .     It   i s   t h e   o n l y   o pe r a t i o n a l   a n r e t i r i n g   m e t h o t o   e nri c h   t h e   c a pa b i l i t y .   In  o n e   h a nd,   t h e   h uge   n u m b e r   o f   pa r a m e t e s pa c e   of fe r s   a   l o t   of   c h a n c e s   t o   i m pr o v e   pr o m i n e n t   p r o f i c i e nc y   by   t un i n pa ra m e t e r   c a r e f ul l y .   T h e n   a ga i n ,   i t   i s   v e r y   t o ugh   t o   t u n e   a b un d a n c e   o f   pa r a m e t e r s   b e c a us e   o f   t h e   c o m pl e i nt e r a c t i o n   a m o n p a ra m e t e r s   [10 ].   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       T o w ar ds   m ac hi n e   l e ar n i ng - bas e d   s e l f - t u ni ng   of   ha doop - s par k   s y s t e m   ( Md.   A r m anur   R ahm a n)   1077   W e   h a v e   d e ve l o p e a   n o ve l   a ppr o a c h   us i n m a c hi n e   l e a rn i n w h i c h   c a n   s e l f - t un e   t h e   pa r a m e t e r   v a l ue   w h i l e   pr o c e s s i n b i g   da t a .     W h a t e v e r   r e m a i n s   o f   t h i s   pa pe r   i s   s t r uc t u r e a s   f o l l ow s .   T h e   de t a i l s   o f   A pa c h e   s p a r a n r e l a t e d   w o r a r e   p r o v i de i n   s e c t i o n   a n a c c o r di n g l y .   S e c t i o n   de s c r i b e t h e   s t e ps   o f   m e t h o do l o g y .   T h e   B l o c k   di a g ra m   o f   t h e   n o v e l   a pp r o a c h   a r e   p r e s e n t e i s e c t i o n   5.   T h e   r e s ul t   a nd  a na l y s i s   i s   pr e s e nt e i n   s e c t i o n   6 .   T h e   c o n c l us i o o f   t h e   pa pe a n d   s ugge s t i o n   i s   de s c ri b e i n   s e c t i o n   7 .       2.   B A C K G R O U N D   O F   A P A C H S P A R K   In  t h e   b i da t a   i n d us t r i e s ,   A pa c h e   S pa r i s   t h e   g r e a t e s t   a c k n o w l e dge o p e n   s o ur c e   pl a t f o r m   w h i c de c l a r e s   t h e   g r e a t   i de a   o f   us i n R e s i l i e n t   D i s t ri b ut e D a t a s e t s   (R D D s )”   [4].   R D D s   pe rm i t s   ra p i c o n s i de r i ng  of   t h e   h uge   da t a   s i z e   e xt ra c t i ng  di s t ri b ut e m e m o r y .   T h e   ke y   f e a t ur e   of   A pa c h e   S pa r i s   R D D   t h a t   i s   c h a ra c t e ri z e by   a   r e a d - o nl y   e n t i t i e s   c o l l e c t i o n   a s s i g n e a m o n v a r i o us   m a c h i n e s .     A n   R D D   c a n   e xpl i c i t l y   s t o r e   da t a   i n   t h e   c a c h e   m e m o r y   s e t   by   t h e   us e r   f o r   s e v e r a l   t i m e s   a nd  r e us e   i t   i n   p a r a l l e l   na t u r e   a s   t h e   M a pR e duc e   d oe s .   R D D   h a s   t h e   c h a ra c t e r i s t i c s   of   t o l e r a t i n g   f a ul t   t hr o ug h   a n   e x t r a c t i o n   n o t a t i o n.   R D D   c a r e b ui l t h e   l o s t   p a r t i t i o n s   o f   da t a   a s   i t   ha s   t h e   s uf f i c i e n t   i n f o r m a t i o n   a b o ut   t h e   o r i g i n   o f   t h e   da t a .   R D D s   a r e   c o n s i de r e a s   t h e   w e l l - s ui t e f o r   di v e r s e   o f   a ppl i c a t i o n s   [1 1 - 14] .   T h e   s p a r c l us t e r   f ra m e w o r i s   de m o n s t r a t e i n   t h e   F i g u r e   1   f r a m e w o r k.           F i gu r e   1 .   S p a r k   P h y s i c a l   C l us t e r       T h e   A pa c h e   S p a r c o n s i s t   w i t h   a   d r i v e r   n o de   w h i c h   i s   c o r r e s po n di n t o   a   m a s t e r   n o de   a n a   n u m b e r   of   w o r ke r s   n o de   w h i c a r e   a   r e po rt e t o   s l a v e   n o de s .   A l l   t he   w o r ke r   n o de s   a r e   m a na ge by   t h e   d ri v e r   n o de   t hr o ugh   a   p r o c e s s   n a m e w o r ke r   da e m o n   p r o c e s s .   T h e   w o r ke r   da e m o n   p r o c e s s   h e l ps   w o r ke r ’s   n o de s   t c o m m uni c a t e   w i t h   d r i v e r   n o de   a s   w e l l   a s   t o   m a na ge   l o c a l   e xe c ut o r s .   E a c h   a pp l i c a t i o n   c o m pri s e s   of  m ul t i p l e   o n e   d r i v e r   a n m u l t i pl e   e xe c ut o r s .     E a c a pp l i c a t i o n   c o m pri s e s   w i t h   o n e   d r i v e   a n a   num b e r   o f   e xe c ut o r s .   T h e   d r i v e p r o c e s s   r u n s   t h e   ke y   j o bs   of   t h e   a ppl i c a t i o a n d   ge n e ra t e s   S pa rkCo nt e xt .   E a c h   w o r ke n o de s   pe r f o r m   e i t h e r   o n e   o r   m o r e   E xe c ut o r   b a c ke pr o c e s s   w h i l e   i ni t i a t i n a n s upe r v i s i n i n s t a n c e   i s   a c c o m pl i s h e b y   a   s i n g l e   E xe c u t o r b a c ke d.   A n   e xe c ut o r   a c c o m pl i s h e s   a   g r o up  o f   t h e   t hr e a d   w h i c h   t r a c ks   e a c h   of   t h e   j ob s   a s   a   s i n g l e   t hr e a d.   H ow e ve r ,   t h e   e xe c ut i o n   t i m e   of   a   de f i n i t e   j ob  i n   t h e   A pa c h e   pl a t f o r m   r e l y   o n   v a r i o us   a s pe c t s   s uc a s   t h e   v o l um e   o f   i n pu t ,   CP U   s pe e d,   da t a   t y pe ,   s i z e   o f   m e m o r y ,   t h e   n u m b e r   o f   n o de s ,   de s i gn   a n i m pl e m e n t a t i o n   o f   t h e   s y s t e m ,   pa r a m e t e c o n f i gura t i o n ,   a n d   s o   o n .   T h e   e xe c ut i o n   t i m e   i n   A p a c h e   S pa r pl a t f o r m   m a y   di ff e r   o bv i o us l y   i n   e a c h   i n di v i du a l   j o b   ba s e o n   t h e s e   a s pe c t s .       3.   R ELA TED   WO R K   In  t h e   p r e s e nt   y e a r s ,   o n e   o f   t h e   h o t t e s t   r e s e a r c i s   pe r f o r m a n c e   o pt i m i z a t i o n   o f   b i da t a   due   t o   t h e   w i de   b i da t a   t r a n s f o r m a t i o n   a na l y t i c s   pl a t f o r m .   N e v e r t h e l e s s ,   m o s t   o t h e   pr e v a i l i ng  r e s e a r c h e s   h a v e   be e n   c o n duc t e o n   e i t h e r   M a pR e duc e   (M R c o m put i n f ra m e w o r o r   H a doo p - Sp a r k   pl a t f o r m .   S t a r f i s h   us e s   s i m ul a t i o n   a n d   a   c o s t - b a s e m o de l   t o   l o o fo r   r e qu i r e e m p l oy m e n t   s e t up  f o r   t h e   w o r kl o a o f   M R .   A R O M A   [ 15 e xpl o i t s   a n   o pt i m i z a t i o n   c o n t e xt   a s   w e l l   a s   a   t w o - s t a ge   M L   t o   r e s e t   r e s o ur c e   di s t r i b ut i o n   a n j o c o n f i gur a t i o n   ke e pi n i n   m i d   h e t e r o g e n e o us   c l o uds .   T h e   a ut h o r s   o f   [ 1 6 ],   po i n t   o ut   t h a t   H a do o s c h e dul e r   i n   a   C l i e n t   N o d e   D r i v e r   S p a r k   C o n tex t   M as t e r   N o d e   Y A R N   R e s o ur c e   M a n a g e r   H D F S   Na m e   N o de   Wo r k e r   N o de   YA R N   No d e     M a n a g e r   H DF S   D a t a   N o d e   B lo c k   Ca c h e   P a r ti ti o n   E x e c u t o r   T a s k   Wo r k e r   N o de   YA R N   No d e     M a n a g e r   H DF S   D a t a   N o d e   B lo c k   Ca c h e   P a r ti ti o n   E x e c u t o r   T a s k   Wo r k e r   N o de   YAR N   No d e     M a n a g e r   H DF S   D a t a   N o d e   B lo c k   Ca c h e   P a r ti ti o n   E x e c u t o r   T a s k   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   15 ,   N o .   2 A ugus t   2 019   :     1076   -   1085   1078   h e t e r o ge n e o us   s i t ua t i o n   c a n   r e s ul t   i n   s e ri o us   pe r f o r m a n c e   re duc t i o n   a n t h us   t h e y   pr o po s e a n   a l t e rna t i v e   s c h e dul e t i t l e L o n ge s t   A p p r o xi m a t e   T i m e   t o   E nd.     In   [ 17 a   c o n c e n t r a t i o n   w a s   s e e n   fo r   e xa m i ni n di v e r s e   r e s o ur c e   c o n s um pt i o n   c o n s e que n c e   fo r   a   di f fe r e nt   s e t   f o r   M a a n r e duc e   s l o t s .   T h e s e   di f f i c ul t i e s   ha v e   be e n   s o l ve by   [ 18 ov e r   a   s y s t e m   na m e P r o f i l i n g   a n d   P e r f o r m a n c e - B a s e S y s t e m   (P P A B S )   t ha t   c a n   a ut o - t u n e   t u n e   H a do o c o n f i gu r a t i o s e t t i n g   by   r e duc i n t h e   n e e ds   o f   a ppl i c a t i o n   pe r f o r m a n c e .   T h e   ke y   c o n t r i b ut i o n   o f   [ 18 i s   m o di fy i n w i de s pr e a K M e a n s + +   c l us t e r   a l o n w i t h   s i m ul a t e s t r e n g t h e n i n g   a l go ri t h m   t ha t   w a s   r e qui r e t o   a dj us t   t o   M R   pa ra d i gm .   R e fe r e n c e   [ 18 r e c o m m e n ds   s i m pl i fy i n t h i s   i s s ue   by   a n   e ngi n e   w h i c h   p r o po s e s   t h e   c o n f i gu r a t i o f o r   a   n e w   a n a l y t i c a l   t a s i n t e l l i ge n t l y   a n t i m e l y .   In   o r de r   t o   di s c o ve r   t h e   c o r r e c t   c o n f i gura t i o n   i n   w h i c h   t h e   pa s t   j ob  pe r f o r m e w e l l ,   t hi s   e n gi n e   w a s   e m b e dde i nt o   t h e   m o d i f i e k - n e a r e s t   n e i g h b o r   (K N N ).   H ow e v e r ,   r e s e a r c hi n t h e   A pa c h e   S pa rk  pe r f o r m a n c e   o pt i m i z a t i o n   i s   s t i l l   t h e   b e gi nn i ng  s t a ge .   A   s i m ul a t i o n   d r i v e n   pr e di c t i o m o de l   t o   e s t i m a t e   j ob   pe r f o r m a n c e   w i t h   hi g pe r f e c t i o n   f o r   A pa c h e   S p a r i s   p r e s e nt e i [ 19 ].   T h e i r   p r o po s e m o de l   pr e di c t s   t h e   e xe c ut i o n   t i m e   a n m e m o r y   us a ge   of   t h e   S pa r s y s t e m   i n   t h e   s i t u a t i o n   o de f a ul t s   pa r a m e t e r s .   T h e   a u t h o r s   of  [ 20 pr e s e n t e t ha t   S uppo r t   V e c t o r   R e gr e s s i o n   (S V R i s   c o m put i n e ffe c t i ve   w i t h   hi g h   a c c u r a t e n e s s .   B a s e o n   t h e i r   f i n d i ngs ,   i t   a l l o w s   c o n c l udi n t ha t   ut i l i z i ng  a ut o m a t i c   pa r a m e t e r   t u n i ng  c a n   pr o v i de   i m p r o v e p e r f o r m a n c e   c om pa r e t o   S t a r f i s h   w i t h   us i n r e l a t i v e l y   fe w   pa r a m e t e r s .       4.   M ET H O D O L O G Y   4. 1 .   D ata  C o l l e c ti o n   In  o r de r   t o   t r a i n   a n d   t e s t   o u r   p r o po s e s y s t e m ,   w e   h a v e   c o l l e c t e d   t w o   i n pu t   d a t a ,   t a r ge t   t i m e   a nd  da t a s e t   s i z e   by   pr o c e s s i n P um a   b e a n c h m a r k .   W o r dc o un t   j o w a s   i n i t i a t e t o   c o l l e c t   t h e   i n pu t   da t a   by   c h a ngi n p a ra m e t e r   a nd  t h e i r   v a l ue s   f o r   di f fe r e nt   da t a s e t   s i z e s .   A   n u m b e r   o f   3000  da t a   s a m pl e   d a t a   w a s   c o l l e c t e fo r   t ra i n i n a nd  t e s t i ng  t o   t h e   m a c hi n e   l e a rni n g   m o de l .   T h e   da t a   w a s   s e pa r a t e i n t o   80: 20  f o r   t r a i ni n g   a n t e s t i n g   r e s pe c t i v e l y .     4. 2 .   P ar am e te r   S e l e c ti o n   In  t hi s   p r o po s e w o r k,   w e   ha v e   s e l e c t e f i ve   c o n f i gu r a t i o p a r a m e t e r s   w h i c h   a r e   e xpo s e i T a b l e   1.   In   t h i s   t a b l e   de f a ul t s   pa ra m e t e r   s h o w s   t h e   v a l ue s   w i t h   de fa ul t   s e t t i n g   a n t h e   r a nge   of   t h e   pa ra m e t e r s   a r e   s h o w n   by   t h e   c o l um n   na m e ra n ge .   P a ra m e t e r   r a nge   i s   us e t o   r e duc e   t h e   pr o c e s s   t i m e   a n t o   m a xi m i z e   pe r f o r m a n c e   w h e t h e   p a r a m e t e r s   c a n o t   tu n e   a ut o m a t i c a l l y   a s   n e e de d .     P a ra m e t e r   s e l e c t i o n   i s   a n   i m po r t a n t   i s s ue   fo r   t h e   r e s e a r c h   o f   t h i s   a r e n a .   By   c o n s i de r i ng  t h e   n o t a b l e   f a c t s ,   f i v e   pa r a m e t e r s   ha v e   b e e n   s e l e c t e d.   F i r s t ,   t h e s e   f i ve   pa r a m e t e r s   a r e   a v a i l a b l e   a l m o s t   i n   a l l   e xi s t i ng  r e s o ur c e s   of   t h e   c l us t e r s   t ha t   ge n e r a l l y   i n c l ude s   m e m o r y ,   CP U   di s a n s o   o n .   T h e   s e c o n t h i ng  t ha t   t h e   s e l e c t e pa r a m e t e r   c a pl a y   a   s i gn i f i c a n t   r o l e   f o r   bo t h   s c h e dul i ng  a n s h uf f l i n m o dul e s .   T hi r dl y ,   di f fe r e nt   l e v e l s   of   c l us t e r s   a r e   i m p r e s s i v e l y   a ff e c t e d   by   t h e s e   pa r a m e t e r s   [21 ,   2 2 ].       T a b l e   1 .   S e l e c t e p r e do m i n a nt   pa ra m e t e r   P a ra m e t e r   D e s c ri p t i o n   D e f a u l t   Ra n g e   s p a rk . d ri v e r. c o r e s   N u m b e r   o c o r e s   t o   u s e   fo t h e   d r i v e p r o c e s s   1   1 - 8   s p a rk . d ri v e r. m e m o ry   A m o u n t   o m e m o r y   t o   u s e   t h e   d ri v e p ro c e s s   1g   1g - 4g   s p a rk . e x e c u t o r. c o r e s   N u m b e r   o c o r e s   t o   u s e   fo t h e   e x e c u t o r   p r o c e s s   1   10 - 40   s p a rk . e x e c u t o r. m e m o ry   A m o u n t   o m e m o r y   t o   u s e   p e e x e c u t o p ro c e s s   1g   2g - 8g   S p a rk . r e d u c e r. m a x S i z e I n F l i g h t   M a x i m u m   s i z e   o f   m a p   o u t p u t s   t o   fe t c h   s i m u l t a n e o u s l y   f r o m   e a c h   re d u c e   t a s k   48m   24m - 9 6 m         4. 3 .   F l o w c h ar   T o   de v e l o t h i s   a p p r o a c h   w e   m a de   t w o   pr o c e s s   o n e   i s   fo r   m o de l   m a ki ng  a n a n o t h e r   o n e   i s   t h e -   pr e di c t i o n.   F i gu r e   s h o w s   t h e   m o de l   m a ki ng  f l ow c h a r t .   T h e   f l ow c h a rt   i n c l ude s   t h e   r e qui r e m a c h i n e   l e a rn i ng  l i b ra ri e s ,   t r a i n   da t a ,   t e s t   da t a ,   m o de l   de f i n e d,   m o de l   c o m pi l e ,   m o de l   f i t   w i t h   t ra i n   d a t a ,   p r e di c t   t h e   m o de l   w i t h   t e s t   da t a   a n m o de l   s a v e .   F i gu r e   3   P r e di c t i o f l ow c h a r t   s h o w s   h ow   t h e   o pt i m um   p a ra m e t e r   v a l ue s   a r e   p r e di c t e us i n t h e   m o de l   ge n e ra t e e a r l i e r   a n s a v e i n   t h e   di s k .   It   i n c o r po r a t e s   t h e   f o l l ow i n s t e ps :   l o a de s i r e da t a s e t ;   p r o v i de   i nput   v a l ue s   o pr e de f i n e t a r ge t   t i m e   a nd  da t a s e t   s i z e ;   l o a t h e   ge n e r a t e m o de l ;   p r e di c t   t h e   o pt i m um   pa ra m e t e r   ra n ge   us i n m o de l ;   re c e i v e   a n upd a t e   t h e   o pt i m um   pa ra m e t e r   v a l ue s   i n   S p a r k   s y s t e m ;   s t a r t   p r o c e s s i n t h e   de s i r e d a t a s e t   a n a f t e e xe c ut i o n   i s   do n e   r e s e t   de f a ul t   v a l ue s   i S pa rk.       Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       T o w ar ds   m ac hi n e   l e ar n i ng - bas e d   s e l f - t u ni ng   of   ha doop - s par k   s y s t e m   ( Md.   A r m anur   R ahm a n)   1079       F i gu r e   2 .   F l o w c h a r t   o f   M o de l   M a ki n g       F i gu r e   3 .   F l o w c h a r t   o f   P r e di c t i o n       4. 4 .   L i n e a r   R e gr e s s i o n   (LR   LR   i s   o n e   i n   a l l   t h e   f o r e m o s t   o r di na r i l y   us e s t r a t e gi e s   fo r   pr e di c t i o n.   t h e   m e t h o i s   pr e c i s e l y   s pe c i f i e by   a n   e qu a t i o n   [23 - 27 ] :     = β 0   +   β 1   1   + + β    +   ε                            (1)     w h e r e   Y i   i s   t h e   o ut put   i n   t h e   i th   t ra i l   w i t h   i   =   1 , , n ,   w h e r e   n   de n o t e a s   t h e   t r i a l   s i z e ,   t h e   v a l ue s   X i1 ,   X i2 , …,   X ij  is   t h e   o b s e r ve v a l ue   o f   t h e   j th   o f   p,   j = 0 , , i n de pe nde nt   v a r i a b l e s   r e l a t e w i t h   t h e   i th   o ut put ,   t h e   n o n - ob s e r v a b l e   r a n do m   v a r i a b l e s   ε 1 ε 2 , ,   ε a r e   r a ndo m   e rr o r   t e rm   w i t h   E   { ε }   =   a n v a r i a n c e   σ 2 { ε i } =   σ a n d   β j   a r e   u n i de nt i f i e p a r a m e t e r s   t o   b e   a s s e s s e d.   T h e   p r o c e dur e   c a b e   de m o n s t ra t e b y :     ̂ = β 0   +   β 1   1   + + β                                 (2)     D i f fe r e n t   t y pe   of   m e t h o ds   s ub s i s t   t o   ge t   t h e   r e g r e s s i o n   c o e ff i c i e n t ,   β j ,   t h e   m o s t   w e l l - k n o w n   a pp r o a c i s   o r di n a r y   l e a s t   s qua r e s   (O L S ).   B y   us i n O L S ,   t h e   r e g r e s s i o n   c o e ff i c i e n t   a p p r o xi m a t i o n s   a r e   c o m pl e t e b y   e xpr e s s i n t h e   m e a s u r e m e n t s   i t h e   m a t r i f o r m ,   f o r   e xpe di e n c y ,   ( p   + 1)  i s   de f i n e d   a s   p ′.     n p np n n n p p n X X X X X X X X X X X X Y Y Y : : * 1 1 1 2 1 1 0 3 2 1 2 23 22 21 1 13 12 11 2 1     (3)                                   ( n *1)                                 ( n   *   p                      ( p′   *1   )       ( n *1 )     T h e   O L S   y i e l ds   t o   e qua t i o n   (4 ),   w h i c h   gi v e s   t h e   l e a s t   s qu a r e s   e s t i m a t e   β ˆ   o f   t h e   p a ra m e t e r   s e t .     ̂ = (   ) 1                                     (4)     T o   c a l c ul a t e   t h e   c o e ff i c i e n t   of   t h e   r e gr e s s i o n   m o de l ,   i t   i s   n e c e s s a r y   t o   w e i gh   t h e   m o de l ’s   v a l i di t y .   In   o r de r   t o   e xa m i n e   t h i s ,   w e   h a v e   e m pl oy e d   c o m m o n l y   us e r 2   f i t .   T h e   qua n t i t y   of   r 2   pr o v i de s   t h e   de gr e e   fo r   w h i c t h e   l i n e a r e l a t i o n s h i p   a m o n g   v a ri a b l e s   a nd  a   s e t   o f   pr e di c t o r s   a r e   a b l e   t o   j us t i fy   t h e   v a r i a n c e   i n   t h e   v a r i a b l e .   I n   o t h e r   w o r d s ,   r 2   de m o n s t r a t e s   t h e   t o t a l   p r o po r t i o of   v a r i a t i o n   i n   y   w h i c h   i s   de s c r i b e by   t h e   f i t t e S t a rt   Im p o r t   M L   L i b ra ry   S p l i t   d a t a   i n t o   i n p u t   ( X )   a n d   o u t p u t   ( Y )   v a r i a b l e s   D e f i n e   Ba s e   M o d e l   T ra i n   m o d e l   w i t h   t ra i n   d a t a   P re d i c t   t h e   m o d e l   w i t h   t e s t   d a t a   Co m p i l e   t h e   M o d e l   S a v e   M o d e l   o n   D i s k   S t o p   L o a d   T ra i n i n g   D a t a   S t a rt   Lo a d   U n p r o c e s s e d   D a t a s e t   S e t   P re d e f i n e d   T a rg e t   T i m e   a n d   D a t a s e t   S i z e   Lo a d   M o d e l   f r o m   D i s k   S t a rt   P r o c e s s i n g   t h e   U n p r o c e s s e d   D a t a s e t   U p d a t e   P r e d i c t e d   P a ra m e t e Ra n g e   S e t   b a c k   d e f a u l t   p a ra m e t e r   v a l u e   P re d i c t   O p t i m u m   P a ra m e t e V a l u e   S t o p   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   15 ,   N o .   2 A ugus t   2 019   :     1076   -   1085   1080   m o de l .   F o r   e x a m p l e ,   0. 9   m e a n s   t ha t   t h e   v a r i a t i o o f   90%  c a n   b e   e xpr e s s e by   t h e   L R   m o de l .   T h e   r 2   i s   c a l c ul a t e d   a s   f o l l ow s     2 =   =   ( ̂   ̅ ) 2 = 1 (   ̅ ) 2 = 1             (5)     w h e r e   T h e   S u m   o f   S qua r e s   R e gr e s s i o n   (S S R ),   T h e   T o t a l   S u m   o f   S qua r e s   (S S T ) ,     ̂   i s   t h e   e s t i m a t e v a l ue   f o r   Y i   ,   i . e . ,   ̂ =       r 2   i s   a l w a y s   be t w e e n   a nd  1 .   W e   ut i l i z e t o   e v a l ua t e   w h e t h e r   t h e   s t a t e m e nt   i n   w hi c t h e   l i n e a r   m o de l   c a n   b e   f i t t e h i s t o r i c   d a t a   w a s   e ff e c t i v e   o r   n o t .   A s   w e   kn o w   t ha t   a   r e gr e s s i o n   m o de l   a do pt s   t h a t   t h e   qua n t i t y   e r r o r s   a r e   i n de pe n de n t   a n G a us s i a n.   T h us ,   i t   i s   pr o j e c t e d   t h a t   t h e   f r a gm e nt s   a r e   t y pi c a l l y   di s t r i b ut e [28 - 29 ].     4. 5 .   M o d e l   d e v e l o p m e n t   W e   de v e l o t h i s   l i n e a r   r e g r e s s i o n   m o de l   by   us i n g   K e ra s ,   T e ns o r f l ow   a n P y c h a r m .   K e ra s   i s   a   l i b r a r y   of   T e n s o r f l ow .   In   de v e l o pm e n t ,   t h e   r e qui r e m a c h i n e   l e a rni n l i b ra r i e s   f r o m   K e r a s   a r e   i m po rt e d.   T h e   t r a i n   a n t e s t   da t a   a r e   l o a de a nd  ke pt   i n   X _t ra i n,   Y _t r a i n,   a n X _t e s t   v a r i a b l e s   r e s pe c t i ve l y .   X _t r a i n   c o n t a i n s   t w t r a i ni n v a l ue s   w h i c h   a r e   da t a   s i z e   a nd  e xe c ut i o n   t i m e   w h i c h   a r e   c o l l e c t e m a n u a l l y   by   pa r a m e t e r   t u ni n g .   L i ke w i s e ,   X _t e s t   v a r i a b l e   h o l ds   t h e   t e s t   da t a   s i z e   a n e xe c ut i o t i m e .   T h e   t r a i n   a n d   t e s t   d a t a s e t   a r e   l o a de i n t o   t h e   m o de l .   A f t e r   t h a t ,   t h e   b a s e   m o de l   i s   c o m pi l e d .   T h e n   X _t ra i n   a n Y _ t r a i n   da t a   a r e   f i t t e d.   A f t e r   t ha t ,   t h e   b a s e   m o de l   p r e di c t s   t h e   a c c ura c y   of   X _t e s t   da t a .     T h e   a c c ur a c y ,   a n l o s s   a r e   p r i n t e f o r   a n a l y s i s   (F i gur e   4 ).   T h e   m o de l   a c c ur a c y   is   95. 7%  f o r   t r a i n i ng  da t a   a n 94 . 3%  f o r   t e s t i n g .   A f t e r   s a t i s f a c t o r y   a c c ur a c y   w e   s a v e t h e   m o de l   o n   d i s f o r   p r e di c t i o (F i gu r e   5 ).   O n e   m o de l   i s   s a v e fo r   o n e   pa ra m e t e r.   T h e r e f o r e ,   i t   ha s   a l t o ge t h e 5   m o de l s   t ha t   w e r e   c o n s t r uc t e b y   c h a n gi ng  Y _ t r a i n   w i t f i v e   di ff e r e n t   pa ra m e t e r s .             F i gu r e   4 .   M o de l   A c c ura c y   a n L o s s   i n   T ra i a nd  T e s t   C a s e s           F i gu r e   5 .   G e n e ra t e d   M a c h i n e   L e a rni n g   M o de l       4. 6 .   P r e d i c t i o n   F o r   p r e di c t i o o f   o pt i m u m   pa ra m e t e r   v a l ue s   us i n t h e   s t o r e m o de l s ,   a   p r e d i c t i o a l go r i t hm   i s   de ve l o pe d.   F o r   pr e d i c t i o n,   m a c h i n e   l e a rni n l i b r a ri e s   a r e   i m po r t e a n t h e   de s i r e da t a s e t   i s   l o a de d .   A f t e r   t h a t ,   t w o   i n put s   (d a t a s e t   s i z e   a n p r e de f i n e t a r ge t   t i m e a r e   gi v e n   a s   a r gu m e nt   v a l ue s .   T h e n ,   t h e   s t o r e dr i v e r _c o r e s _m o de l . h5   dr i v e r _m e m o r y _m o de l . h5   e xe c ut o r _c o r e s _m o de l . h 5   e xe c ut o r _m e m o r y _m o de l . h5   r e duc e r _m a xS i z e I nF l i g ht _m o de l . h 5   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       T o w ar ds   m ac hi n e   l e ar n i ng - bas e d   s e l f - t u ni ng   of   ha doop - s par k   s y s t e m   ( Md.   A r m anur   R ahm a n)   1081   m o de l   i s   l o a de d   a n i n pu t   d a t a   i s   f i t t e i n t o   t h e   m o de l   t o   p r e di c t   t h e   o pt i m um   pa ra m e t e r   v a l ue .   T h e   O p t i m um   pa r a m e t e r   v a l ue   i s   p r e di c t e b a s e o n   i n pu t   da t a   ( da t a s e t   s i z e   a n p r e de f i n e t a r ge t   t i m e us i ng  t h e   s t o r e m o de l   (F i gu r e   6 ) .   I t hi s   p r o c e s s ,   o n l y   o n e   pa r a m e t e v a l ue   i s   pr e d i c t e d.   T h e r e fo r e ,   t h e   s a m e   p r o c e s s   i s   t o   b e   r e pe a t e d   f o r   t h e   r e m a i ni n g   p a r a m e t e r s .           F i gu r e   6 .   P r e di c t i o o f   P a r a m e t e r   V a l ue   U s i n S t o r e M o de l   a n d   A r gu m e n t s       O n c e   t h e   o pt i m u m   p a r a m e t e r   v a l ue   i s   o b t a i n e d,   t h e   c o rr e s po n d i n g   de f a ul t   v a l ue   i t h e   S p a r s y s t e m   i s   upda t e w i t h   t hi s   v a l ue   (F i gu r e   7 ) .   T h e n ,   t h e   S pa r k   s y s t e m   s t a rt s   p r o c e s s i n t h e   gi v e n   d a t a s e t   us i ng  t h e   pr e di c t e o pt i m um   pa ra m e t e r   v a l ue s .   A f t e r   c o m pl e t i n t h e   p r o c e s s ,   a n o t h e r   f un c t i o n   i s   de v e l o p e fo r   r e s e t t i ng   t h e   p a r a m e t e t o   i t s   de f a ul t   v a l ue   i S pa rk.               F i gu r e   7 .   P r e di c t e O pt i m u m   P a r a m e t e V a l ue   U pda t e d   i S pa r k       4. 7 .   Te s Be d   T h e   n o v e l   a pp r o a c h e s   h a v e   b e e n   i m pl e m e n t e o n   a   t e s t b e c o m pr i s i ng   o f     D e l l   P ow e r E dge   R 720  s e r v e r .     T h e   s e r v e r   i s   f urn i s h e w i t h   X e o n (R CP U   E v @   2. 6G h z   16  c o r e   p r o c e s s o r   32    G B   P C3  m e m o r y ,   Int e l (R ).   U b un t L i nus   v e r s i o 17 . 10  i s   us e by   t h e   s e r v e r   w i t h   H a do o 2. 8. 1.   T h e   n o v e l   a pp r o a c h   c a n   b e   ru n   e i t h e r   i n   a n   i n de pe n d e n t   s y s t e m   o r   o n   a   v i r t u a l   m a c h i n e   ( VM ) .   A s   l i s t e d   i n   T a b l e   2,   t h e   w o r dc o un t   j ob   w a s   r u i n   t h e   S pa r k   s y s t e m   fo r   f i v e   di ffe r e nt   da t a s e t s   w hi c h   a re   70,   120 ,   17 0, 22 0,   a n 270  G B s .     T h e   d a t a s e t s   w e r e   c h o s e f r o m   P U M A   b e n c h m a r k .   I n   T a b l e   1   f i v e   pr e do m i na n t   p a r a m e t e c o n f i gu r a t i o n   is   di s p l a y e d.       T a b l e   2 .   S e l e c t e d a t a s e t s   f o r   t h i s   w o r k   D a t a s e t s   S i z e   Be n c h m a rk   S p a rk   P ro g ra m   7   GB   P u m a   B e n c h m a rk   W o r d c o u n t   12 0   G B   17 0   G B   22 0   G B   27 0   G B   L o a d   M o d e l s   &   A r g u m e n t s   d a t a   d ri v e r_ m e m o ry _ m o d e l . h 5   e x e c u t o r_ c o r e s _ m o d e l . h 5   e x e c u t o r_ m e m o ry _ m o d e l . h 5   re d u c e r_ m a x S i z e I n F l i g h t _ m o d e l . h 5   d ri v e r_ c o r e s _ m o d e l . h 5   P a ra m e t e 1   V a l u e   5   P a ra m e t e 2   V a l u e   5 g   P a ra m e t e 3   V a l u e   4 0   P a ra m e t e 4   V a l u e   8 g   P a ra m e t e 5   V a l u e   8 5 m   P a ra m e t e 1   V a l u e   5   P a ra m e t e 2   V a l u e   5 g   P a ra m e t e 3   V a l u e   4 0   P a ra m e t e 4   V a l u e   8 g   P a ra m e t e 5   V a l u e   8 5 m   s p a rk . d ri v e r. c o r e s     5   s p a rk . d ri v e r. m e m o ry   =5 g   s p a rk . e x e c u t o r. c o r e s   = 4 0   s p a rk . e x e c u t o r. m e m o ry   =8 g   s p a rk . r e d u c e r . m a x S i z e I n F l i g h t   =8 5 m   S p a rk   S y s t e m   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   15 ,   N o .   2 A ugus t   2 019   :     1076   -   1085   1082   5.   B L O C K   D I A G R A M   T r a i n i ng  b l oc ga t h e r s   t r a i n i ng  da t a   f r o m   a   da t a s e t   a nd  fo r m ul a t e s   t h e s e   da t a   f o r   m o de l   c r e a t i o n .   T h e   m o de l   ge n e r a t i o b l o c ob t a i n s   t h i s   da t a   a n d   c r e a t e s   t h e   m o de l   a c c o r di n g   t o   t h e   de f i ni t i o n   o f   m o de l   L R   a n s t o r e t h e   m o de l   o n   t h e   d i s i n   t h e   p r e de f i n e l o c a t i o n   f o r   l a t e r   us e .   T h e   b l o c n a m e m o de l   a s s e s s m e nt ’  i s   us e t o   e v a l ua t e   a nd  t e s t   t h e   s a v e m o de l .   P r e di c t e d   pa ra m e t e r   v a l ue   i s   us e t o   ge t   o ut put   t h a t   i s   t h e   pa r a m e t e r   ra n ge   a s   a   r e a l   v a l ue .   T h e   upd a t e   b l o c i n   t h e   S pa rk  s y s t e m   i s   r e s po n s i b l e   fo r   r e c e i v i n a n d   upda t i n g   r e a l   v a l ue s   i n   t h e   S pa rk  s y s t e m .     T h e   b l o c di a g r a m   of  a ppr o a c h   i s   i l l us t r a t e i n   F i gu r e   8 .           F i gu r e   8 .     T h e   b l o c di a g r a m   o f   t hi s   a pp r o a c h       6.   R ES U LT  D I S C U S S I O N   In  t hi s   p a rt   c o n s i s t   o f   t h e   n o v e l   a pp r o a c h   e f f i c i e n c y ,   c a pa b i l i t y   a n s y s t e m   pe r f o r m a n c e   s pe e dup.     6. 1 .   Effi c i e n c o N o v e l   A p p r o ac h   F i gu r e   i l l us t ra t i o n s   w o r dc o un t   j o b   e x e c ut i o n   t i m e   w i t h   t h e   n o v e l   a pp r o a c h   a n d   de f a ul t   c o n f i gur a t i o n   f o r   a   v a r i e t y   of   da t a s e t   s i z e s .   It   i s   o b s e r v e t ha t   t h e   e xe c ut i o n   t i m e s   of   w o r dc o un t   a r e   s i g n i f i c a n t l y   l ow e r   c o m pa r e t o   de f a ul t   pa ra m e t e r   c o n f i gu ra t i o n   w hi c i s   i n de pe nde nt   o f   da t a s e t   s i z e   s uc h   t h e   ra n ge   i s   f r o m   o f   70  t o   270   G B .           F i gu r e   9 .     T h e   f i gu r e   s h o w s   a   c o m pa ri s o n   b e t w e e n   n o v e l   a pp r o a c a n d   de f a ul t   c o n f i gu ra t i o n       6. 2 .   S e l f - tu n i n c ap ab i l i ty  an d   e x e c u ti o n   ti m e   s p e e d - up   T o   a s s e s s   n ov e l   a ppr o a c h   a b i l i t y   of   s e l f - t un e ,   t h e   S pa r p a r a m e t e r s   a s   pe r   t h e   di f f e r e n t   o f   i n p ut   da t a s e t   s i z e ,   w e   r u n   a   S p a r w o r dc o un t   p r o gra m m e   f o r   f i ve   da t a s e t s   s uc h   a s   (7 0 ,   1 20 ,   17 0 ,   2 2 a n 2 7 G B )   5 6 . 3 9 9 1 . 2 1 1 2 5 . 3 3 1 6 5 . 4 1 2 0 8 . 5 9 3 8 . 2 1 6 4 . 1 1 8 2 . 7 9 1 0 5 . 9 8 1 3 6 . 8 9 0 50 1 0 0 1 5 0 2 0 0 2 5 0 70 1 2 0 1 7 0 2 2 0 2 7 0 Ex e c u ti o n   Ti m e   i n   (m i n ) D a ta s e S i z e   i n   (G B) W i t h   D e fa u l t   C o n fi g u ra t i o n W i t h   N o v e l   A p p ro a c h T ra i n i n g   D a t a   G e n e ra t e   M o d e l   M o d e l   A s s e s s m e n t   S t o re   M o d e l     P re d i c t e d   P a ra m e t e r   V a l u e   r e c e i v e   P re d i c t e d   O p t i m a l   V a l u e   U p d a t e   i n   S p a rk   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       T o w ar ds   m ac hi n e   l e ar n i ng - bas e d   s e l f - t u ni ng   of   ha doop - s par k   s y s t e m   ( Md.   A r m anur   R ahm a n)   1083   w i t h   de f a ul t   p a r a m e t e r   v a l ue   a n w i t h   o ur   de v e l o p e n o ve l   a pp r o a c h T a b l e   pr e s e n t s   t h e   e xe c ut i o n   t i m e s   fo r   e a c h   o f   t h e   i nput   da t a s e t   a nd  t h e   c o rr e s po n di ng  p r e di c t e o pt i m um   pa ra m e t e r   v a l ue .   I t   c a n   b e   ob s e r ve d   f r o m   T a b l e   3 ,   t o   pr o c e s s   m e n t i o n   da t a s e t s ,   t h e   de f a ul t   pa ra m e t e c o n f i gura t i o o f   S pa r t a ke s   56 . 39 91 . 2 1,   1 25. 3 3 ,   16 5 .4 a n d   208 . 59   m i n u t e s   fo r   da t a s e t   s i z e s   7 0 ,   1 2 0 ,   17 0,   2 2 a nd  2 7 G B   r e s pe c t i v e l y .   B ut   o ur   n o v e l   a ppr o a c h   t a ke s   3 8. 2 1 ,   6 4 . 11 ,   8 2 . 7 9,   105 . 98  a nd  136. 8 9   m i n ut e s   a c c o r di n gl y .   T h e   r e s ul t s   s h o w   (T a b l e   4 t h a t   i nde pe n de n t   o f   t h e   da t a s e t   s i z e   a n t h e   e xe c ut i o n   t i m e s   ob t a i n e w i t h   t h e   n o v e l   a ppr o a c h   a r e   s i g n i f i c a n t l y   l ow e r   t ha de f a ul t   c o n f i gu r a t i o n.       T a b l e   3 .   P r e di c t e o pt i m u m   pa ra m e t e v a l ue         P a ra m e t e r s   N a m e   P a ra m e t e D e f a u l t   V a l u e   P a ra m e t e Ra n g e   V a l u e   P re d i c t e d   P a ra m e t e V a l u e   fo 5 0 G B   P re d i c t e d   P a ra m e t e V a l u e   fo 1 0 0 G B   P re d i c t e d   P a ra m e t e V a l u e   fo 1 5 0 G B   P re d i c t e d   P a ra m e t e V a l u e   fo 2 0 0 G B   P re d i c t e d   P a ra m e t e V a l u e   fo 2 5 0 G B   s p a rk . d ri v e r. c o r e s   1   1 - 8   2   3   6   6   6   s p a rk . d ri v e r. m e m o ry   1g   1g - 4g   3g   3g   4g   4g   6g   s p a rk . e x e c u t o r. c o r e s   1   10 - 40   20   30   30   35   40   s p a rk . e x e c u t o r. m e m o ry   1g   2g - 8g   3g   3g   5g   5g   6g   S p a rk . r e d u c e r. m a x S i z e I n F l i g h t   48m   24m - 9 6 m   48m   60m   60m   70m   80m       T a b l e   4 .   T i m e   S a v e d     E x e c u t e d   w i t h   d e f a u l t   Co n f i g u ra t i o n   E x e c u t e d   w i t h   A S S P M   s y s t e m   T i m e   S a v e d   D a t a   S i z e   E x e c u t i o n   T i m e   ( M i n )   E x e c u t i o n   T i m e   ( M i n )   In   M i n   7 0   G B   5 6 . 3 9   3 8 . 2 1   1 8 . 1 8   1 2 0   G B   9 1 . 2 1   64 . 11   2 7 . 1   17 0   G B   1 2 5 . 3 3   8 2 . 7 9   4 2 . 5 4   22 0   G B   1 6 5 . 4 1   1 0 5 . 9 8   5 9 . 4 3   2 7 0   G B   2 0 8 . 5 9   1 3 6 . 8 9   7 1 . 7       7.   C O N C LU S I O N   n o v e l   a ppr o a c h   i s   p r e s e nt e i n   t hi s   pa pe r,   f o r   s e l f - t un i n c o n f i gura t i o n   o f   S pa r p a r a m e t e r   t i n c r e a s e   i t s   pe r f o r m a n c e   f o r   b i da t a   p r o c e s s i n g.   O u r   de v e l ope d   a ppr o a c h   e s t i m a t e s   t h e   o pt i m a l   r a nge   fo r   f i v e   n o m i na t e pa ra m e t e r s   a n u pda t e s   A pa c h e   S p a r b e fo r e ha n d   t h e   s t a rt   o f   pr o c e s s i n g.   T h e   m e t h o w a s   a ppl i e o n   D e l l   P ow e r E dge   R 720  s e r v e r   us i n d i f fe r e nt   s i z e s   of   d a t a s e t s .   T h e   e xpe r i m e nt e r e s ul t   s h o w s ,   t y pi c a l   pe r f o r m a n c e   i s   i n c r e a s e 33%   r e l a t e t o   t h e   de f a ul t   c o n f i gura t i o n.     T h e   i m p r o v e m e n t   i s   n o t i c e w i t h   t h e   i n c r e a s e   o f   da t a s e t   s i z e .   F o r   s e l e c t i ng  m o r e   s ui t a b l e   pa ra m e t e r s   ut i l i z i n b e t t e r   s e r v e r s   w e   a r e   s t i l l   do i n r e s e a r c h .       R EF ER EN C ES     [ 1]   P r o f i l e   U   S ,   T he   D i g i t a l   U n i v e r s e i 2020:   B i g   D a t a ,   B i gge r   D i gi t al   Shad ow s ,   and  B i g ge s t   G r ow t i t he   F ar   E as t - U n i t e St at e s ,   p p.   1 - 7 2 013 .   [ 2]   A na g n o s t o po ul o s   I . e t   al . ,   H a ndl i ng   bi g   da t a :   r e s e a r c c ha l l e ng e s   a nd  f ut ur e   di r e c t i o ns ,”   J .   Su pe r c om pu t . ,   v o l .   72 pp.   14 94 - 516 2016 .   [ 3]   M c K i ns e y   a nd   C o m pa n y ,   B i g   da t a :   T he   ne x t   f r o nt i e r   f o r   i nno v a t i o n,   c o m pe t i t i o n,   a n pr o duc t i v i t y ,”   M c K i n s e y   G l ob .   I ns t . ,   v o l .   1 56 2011 .   [ 4]   B ha t t a c ha r y a   A .   a nd   B ha t na g a r   S .,   B i g   D a t a   a n A pa c he   S pa r k  :   A   R e v i e w ,”   pp .   206 - 10 201 6 .   [ 5]   K a ur   I . e t   al . ,   R e s e a r c P a pe r   o B i g   D a t a   a nd   H a do o p ,   v o l .   849 1 ,   pp .   50 - 3 20 16 .   [ 6]   R a hm a M .   A . e t   a l . ,   A   S ur v e y   o f   M a c hi ne   L e a r n i ng   T e c hni qu e s   f o r   S e l f - t un i ng   H a do o P e r f o r m a nc e ,”   I n t .   J .   E l e c t r .   C om pu t .   E ng . ,   v o l .   8 ,   pp .   1 854 201 8 .   [ 7]   V .   D .   V e e n   J .   S . e t   al . ,   “D y na m i c a l l y   s c a l i ng   a pa c he   s t o r m   f o r   t he   a na l y s i s   o f   s t r e a m i ng   da t a ,”   P r oc .   -   2 015  I E E E   1s t   I nt .   C on f .   B i D at a   C om p ut .   Se r v .   A p pl .   B i gD at aSe r v i c e ,   pp .   154 - 61 201 5 .     [ 8]   D r a ba s   T .   a n L e e   D .,   L e a r n i ng   P y S pa r k ,”   v o l .   2 73 2 017 .   [ 9]   W a ng   G . e t   a l . ,   A   N o v e l   M e t ho f o r   T un i ng   C o nf i g ur a t i o P a r a m e t e r s   o f   S pa r b a s e o M a c hi ne   L e a r n i ng ,   2016 .   [ 10]   H e r o do t o H . e t   al . ,   S t a r f i s h:   { A }   S e l f - t uni ng   S y s t e m   f o r   B i D a t a   A na l y t i c s   { C I D R } ,”   2011   F i f t B i e nn .   C onf .   I nno v .   D a t a   Sy s t .   R e s .   A s i l om ar ,   C A ,   U SA O n l i ne   P r oc . ,   pp .   261 - 72 201 1 .   [ 11]   G upt a   A . e t   al . ,   B i g   D a t a   A na l y s i s   F r a m e w o r k   U s i ng   A pa c he   S pa r a nd   D e e L e a r n i ng .       [ 12]   J o nna l a g a d da   V S . e t   al . ,   A   R e v i e w   S t udy   o f   A pa c he   S pa r k   i B i g   D a t a   P r o c e s s i ng ,   v o l .   4 ,   pp .   93 - 8 2 016 .     [ 13]   K a r a u   H . ,   e t   al . ,   L e a r n i ng .”   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   15 ,   N o .   2 A ugus t   2 019   :     1076   -   1085   1084   [ 14]   P a r s o l a   J ,   e t   al . ,   P o s t   E v e nt   I nv e s t i g a t i o o f   M ul t i - s t r e a m   V i d e o   D a t a   U t i l i z i ng   H a do o C l us t e r ,”   I nt .   J .   E l e c t r .   C om put .   E ng . ,   v o l .   8 ,   pp .   508 9 20 18 .   [ 15]   L a m a   P .   a nd  Z ho X .,   A R O M A :   A ut o m a t e R e s o ur c e   A l l o c a t i o a nd  C o nf i g ur a t i o o f   M a pR e duc e   E nv i r o nm e nt   i t h e   C l o ud ,”   P r oc .   9t I n t .   C on f .   A ut o n.   C om p ut .   -   I C A C 12 ,   v o l .   63 20 12 .   [ 16]   Z a ha r i a   M . e t   al . ,   I m pr o v i ng   M a pR e duc e   P e r f o r m a nc e   i n   H e t e r o g e ne o us   E nv i r o nm e n t s ,”   pp .   29 - 42 .   [ 17]   W D .   a nd  G o kha l e   A .,   A   s e l f - t un i ng   s y s t e m   ba s e o a pp l i c a t i o pr o f i l i ng   a nd  p e r f o r m a nc e   a n a l y s i s   f o r   o pt i m i z i ng   ha do o m a pr e duc e   c l us t e r   c o nf i g ur a t i o n ,”   20 t A n nu.   I nt .   C o nf .   H i gh  P e r f or m .   C om pu t .   H i P C ,   pp .   89 - 98 20 13 .   [ 18]   Z ha ng   R . e t   a l . ,   F i ndi ng   t he   B i g   D a t a   S w e e t   S po t :   T o w a r ds   A ut o m a t i c a l l y   R e c o m m e ndi ng   C o nf i g ur a t i o ns   f o r   H a do o C l us t e r s   o D o c ke r   C o nt a i n e r s ,”   p p.   36 5 - 8 20 15 .   [ 19]   W a ng   K .   a nd  K ha M .   M .   H .,   P e r f o r m a nc e   pr e di c t i o f o r   a pa c he   s pa r p l a t f o r m ,”   P r oc .   -   201 I E E E   1 7t I n t .   C onf .   H i g P e r f or m .   C om p ut .   C om m un .   20 15  I E E E   7t I n t .   Sy m p .   C y be r s p .   Sa f .   Se c u r .   2015  I E E E   12 t I nt .   C on f .   E m be d.   S of t w .   S y s t .   H ,   p p.   16 6 - 73 20 15   [ 20]   Y i g i t b a s i   N . e t   a l .,   T o w a r ds   m a c h i ne   l e a r n i ng - ba s e a u t o - t uni n g   of   M a pR e duc e ,”   P r oc .   -   I E E E   C om pu t .   S oc .   A nnu.   I nt .   Sy m p .   M ode l .   A nal .   Si m ul .   C om pu t .   T e l e c om m un .   Sy s t .   M A SC O T S ,   pp .   11 - 20 2 013 .   [ 21]   G o una r i s   A .   a nd   T o r r e s   J .   A   M e t ho do l o gy   f o r   S pa r k   P a r a m e t e r   T u ni ng   B i g   D a t a   R e s ,   v o l .   11 ,   pp .   22 - 32 2018 .   [ 22]   A n g e l o v   P . e t   a l . C on f e r e nc e   I   an D a t a   B   201 A d v an c e s   i n   B i D at a .   [ 23]   S unt ho r nj i t t a no n   S .,   L i ne a r   R e g r e s s i o A na l y s i s   o N e t   I nc o m e   o f   a n   A g r oc he m i c a l   C o m pa ny   i T ha i l a nd ,   20 15 .   [ 24]   G us t a f s s o A .   a nd   W o g e ni us   S .,   M o de l l i ng   A pa r t m e n t   P r i c e s   w i t h   t h e   M u l t i p l e   L i ne a r   R e g r e s s i o M o de l ,   2014 .   [ 25]   F a l l i s   A . ,   A   M u l t i p l e   L i ne a r   R e g r e s s i o M o de l   t o   P r e d i c t   t h e   S t u de nt s   F i na l   G r a d e   i a   M a t he m a t i c s   C l a s s ,”   J .   C he m .   I nf .   M o de l ,   v o l .   53 ,   pp .   168 9 - 99 20 13 .   [ 26]   C oo R .   D .   a n W e i s be r g   S .,   S i m p l e   L i ne a r   R e g r e s s i o n ,   pp .   97 - 1 38 20 08 .   [ 27]   J o s e ph  P .   J . e t   al . ,   C o ns t r uc t i o a nd  U s e   o f   L i ne a r   R e g r e s s i o M o de l s   f o r   P r o c e s s o r   P e r f o r m a nc e   A na l y s i s ,”   T w e l f t h   I nt .   Sy m p.   H i gh - P e r f or m anc e   C om put .   A r c hi t . ,   pp .   99 - 108 2006 .   [ 28]   B a r a n   M .   E . e t   a l . ,   L o a e s t i m a t i o f o r   l o a d   m o ni t o r i ng   a t   d i s t r i bu t i o s ubs t a t i o ns ,”   I E E E   T r ans .   P ow e r   Sy s t . ,   v o l .   20 ,   pp .   164 - 70 200 5 .   [ 29]   L i m   H .   L .   a nd  B r o w R .   H .,   G a s   L o a F o r e c a s t i ng   M o de l   I nput   F a c t o r   I de nt i f i c a t i o U s i ng   A   G e ne t i c   A l go r i t hm ,”   I EEE ,   pp .   6 70 - 3 20 01 .       B I O G R A P H I ES   O F   A U T H O R S           M d .   A r m a nu r   R a hm a r e c e i v e d   t h e   B . S c .   d e g r e e   i n   c o m put e r   s c i e nc e   a nd   e ng i n e e r i ng   f r o m   A s i a U ni v e r s i t y   of   B a ng l a de s ( A U B )   i 2 010 .   H e   i s   c ur r e n t l y   w o r ki ng   t o w a r t he   M E ng S c   de g r e e   a t   t h e   M u l t i m e di a   U ni v e r s i t y   ( M M U ) ,   M a l a y s i a .   H i s   r e s e a r c i nt e r e s t   i nc l u de   pe r f o r m a nc e   o pt i m i z a t i o o f   bi g   da t a   s y s t e m ,   da t a   m i n i ng ,   m a c hi ne   l e a r n i ng   a nd  i m a g e   pr o c e s s i ng .       A bi H o s s e i s   a   S e r v i ng   a s   V i c e   P r e s i de n t   a t   I nf o r m a t i o T e c hno l o gy   di v i s i o o f   N a t i o na l   B a nk  L i m i t e o f   B a ng l a de s h.   H e   r e c e i v e a   B . S c .   I   C o m put e r   S c i e nc e   a nd  E ng i ne e r i ng     f r om   K hul n a   U n i v e r s i t y   ( K U )   a nd   pu r s i ng   h i s   M . S c   i n   I ndus t r i a l   a nd   P r o duc t i o E ng i n e e r i ng   f r o m   B a ng l a de s U n i v e r s i t y   o f   E ng i ne e r i ng   a n T e c hno l o gy   ( B U E T ) .   D ur i ng   hi s   18  y e a r s   c a r r i e r   i n   I T   o f   di f f e r e nt   ba n k,   he   i m p l e m e nt e d i f f e r e nt   I T   pr o j e c t   s uc c e s s f ul l y .   H i s   a r e a   o f   i n t e r e s t   i s   I T   S e c ur i t y ,   B i g   da t a ,   A r t i f i c i a l   I nt e l l i g e nc e   a nd   C l o ud  C o m put i ng .     D r .   J a k i r   H o s s e i s   g r a dua t e d   i M e c ha ni c a l   E ng i n e e r i ng   f r o m   t he   D h a ka   U ni v e r s i t y   of   E ng i ne e r i ng   a nd  T e c hno l ogy   ( 1997) ,   M a s t e r s   i C o m m uni c a t i o a nd  N e t w o r E ng i ne e r i ng   f r o m   U ni v e r s i t i   P u t r a   M a l a y s i a   ( 2 003 )   a nd  P hD   i S m a r t   T e c hno l o gy   a nd  R o bo t i c   E ng i ne e r i ng   f r o m   U ni v e r s i t i   P u t r a   M a l a y s i a   ( 2 012 ) .   H e   i s   c u r r e nt l y   a   S e ni o r   L e c t ur e r   a t   t he   F a c ul t y   of   E ng i ne e r i ng   a nd  T e c hno l o gy ,   M ul t i m e d i a   U n i v e r s i t y ,   M a l a y s i a .   H i s   r e s e a r c h   i n t e r e s t s   a r e   i t he   a r e a   o f   A r t i f i c i a l   I nt e l l i g e nc e   ( F uz z y   L og i c ,   N e ur a l   N e t w o r k) ,   I nf e r e nc e   S y s t e m s ,   P a t t e r C l a s s i f i c a t i o n,   M o bi l e   R o bo t   N a v i g a t i o a n d   I nt e l l i g e n t   C o nt r o l .   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       T o w ar ds   m ac hi n e   l e ar n i ng - bas e d   s e l f - t u ni ng   of   ha doop - s par k   s y s t e m   ( Md.   A r m anur   R ahm a n)   1085     D r . C h i n t ha kun t a   V e n ka t a   S e s ha i a r e c e i v e h i s   B a c he l o r   o f   E ng i ne e r i ng   ( B . E . )   D e g r e e   i n   E l e c t r i c a l   E ng i ne e r i ng   f r o m   S . V .   U ni v e r s i t y ,   A ndhr a   P r a de s h ,   I ndi a ,   i t he   y e a r   196 4. H e   r e c e i v e M a s t e r   o f   E ng i ne e r i ng   ( M . E )   de g r e e   i n   H i g V o l t a g e   E ng i ne e r i ng   f r o m   I ndi a I ns t i t ut e   o f   S c i e nc e ,   B a ng a l o r e   i 1966 .   H e   r e c e i v e h i s   P h . D .   de g r e e   i n   E l e c t r i c a l   E ng i ne e r i ng   ( i t he   a r e a   o f   P o w e r   S y s t e m s )   i 19 76  f r o m   I . I . T .   M a d r a s .   L a t e r ,   he   w o r ke i t he   s a m e   i n s t i t ut e   t i l l   2005 .   H e   w a s   a ppo i n t e a s   P r o f e s s o r   o f   E l e c t r i c a l   E ng i ne e r i ng   i J a n . 199 3.   I 2006,   he   j o i ne d   t he   F a c ul t y   o f   E ng i ne e r i ng   a nd  T e c hno l o gy ,   M ul t i m e d i a   U n i v e r s i t y   ( M e l a k a )   M a l a y s i a   a nd  i s   w i t h   t h e m   p r e s e nt l y   a s   A s s o c i a t e   P r o f e s s o r .   H i s   r e s e a r c i n t e r e s t s   a r e   i n   t h e   a r e a s   o f   E l e c t r i c a l   Po w e r   S y s t e m s ,   H i g V o l t a g e   E ng i ne e r i ng   a nd  I ns t r um e n t a t i o n, P o w e r   E l e c t r o n i c s   a nd  i t s   a ppl i c a t i o t o   g r e e n   t e c hno l o gy   s o l ut i o ns , E l e c t i c   P o w e r   q ua l i t y   i m pr o v e m e nt   a nd   E l e c t r i c a l   e ne r g y   c o ns e r v a t i o n,   P o w e r   e f f i c i e nt   de v i c e s   a nd   B i g   d a t a   a na l y t i c s .         D r . T . B huv a n e s w a r i   i s   a   L e c t ur e r   i t he   F a c ul t y   of   E ng i ne e r i ng   a nd  T e c hno l o gy ,   M ul t i m e d i a   U ni v e r s i t y   ( M M U ) ,   M e l a k a .   S h e   o bt a i ne h e r   P hD   i E l e c t r o ni c s   E ng i ne e r i ng   f r o m   M ul t i m e d i a   U ni v e r s i t y   i 2013.   S h e   e a r ne he r   M a s t e r   o f   E ng i ne e r i ng   i A ppl i e E l e c t r o ni c s   w i t h   D i s t i nc t i o f r o m   B ha r a t hi a r   U n i v e r s i t y ,   I ndi a   i 200 a nd  B a c he l o r   o f   E ng i ne e r i ng   i E l e c t r i c a l   a nd  E l e c t r o n i c s   E ng i ne e r i ng   ( F i r s t   c l a s s )   f r o m   B ha r a t h i a r   U ni v e r s i t y ,   I ndi a   i 1998 . S h e   ha s   22   y e a r s   o f   o v e r a l l   t e a c h i ng   e xpe r i e nc e . H e r   r e s e a r c i nt e r e s t s   a r e   di g i t a l   s y s t e m   de s i g n,   V L S I ,   F P G A ,   S o l a r   po w e r   c o nt r o l l e r   de s i g a nd   b i o i nf o r m a t i c s .     A z i z a   S ul t a na   r e c e i v e t he   B . S c .   de g r e e   i c o m put e r   s c i e nc e   a nd  e ng i ne e r i ng   f r o m   D ha ka   I nt e r na t i o na l   U ni v e r s i t y   ( D I U )   i 2016 .   S he   i s   c ur r e n t l y   s e a r c hi ng   a o o pe r t uni t y   t o   c o nt i nue   he r   hi g he r   s t udy .   H e r   r e s e a r c i nt e r e s t   i nc l ude   pe r f o r m a nc e   o pt i m i z a t i o o f   bi g   da t a   s y s t e m ,   da t a   m i ni ng ,   m a c hi ne   l e a r ni ng   a nd   i m a g e   p r o c e s s i ng .     Evaluation Warning : The document was created with Spire.PDF for Python.