I n d on e s ian   Jou r n al   o f   E lec t r ica l   E n gin e e r in a n d   Com p u t e r   S c ience   Vo l .   25 ,   N o .   2 F e b r ua r y   20 22 ,   pp.   1 078 ~ 108 6   I S S N:  2502 - 4752,   DO I 10 . 11591/i j e e c s . v 25 .i 2 . pp 1078 - 108 6             1078       Jou r n al  h o m e page ht tp: // ij e e c s . iaes c or e . c om   A n  e f f ic ie n t  an d  r ob u st  p ar al le sc h e d u le r  f or  b io in f or m at ic ap p li c at io n in  a  p u b li c  c lo u d :   b ig d at a ap p r oac h       L e e n Am m an n a 1 Jagad e e s h gowda 2 ,   Jagad e e s h   P u j ar i 1   1 D e pa r tm e nt   of   I n f or ma ti o n S c i e nc e  a nd E ngi n e e r in g,  S D M  C ol le g e   of  E ng in e e r in g a nd  T e c hn o l o g y , D ha r w a d, I ndi a   2 D e pa r tm e nt   of  C o mpu te r  S c ie n c e  a nd E ngi n e e r in g, S h r K r is h na  I ns ti tu te   of   T e c hn o l o g y B e nga lu r u, I ndi a       Ar t ic l e   I n f o     AB S T RA CT     A r ti c le  h is tor y :   R e c e i ve J u l   7 2021   R e vi s e De c   21 2021   A c c e pt e De c   29 2021       I n   b i o i n fo r m at i c s ,   g e n o m i c   s e q u en ce   al i g n men t   i s   a   s i m p l e   me t h o d   fo r   h an d l i n g   a n d   an a l y s i n g   d at a,   an d   i t   i s   o n e   o t h e   mo s t   i m p o rt an t   ap p l i c at i o n s   i n   d e t e r m i n i n g   t h e   s t ru c t u r e   an d   fu n c t i o n   o p ro t e i n   s eq u e n ce s   an d   n u cl e i ac i d s .   T h e   b as i c   l o c al   al i g n m en t   s e ar ch   t o o l   ( B L A ST )   al g o ri t h m ,   w h i ch   i s   o n e   o t h e   m o s t   fre q u en t l y   u s ed   l o c al   s e q u en c al i g n m en t   al g o r i t h m s ,   i s   c o v e r e d   i n   d e t ai l   h e r e .   C u rren t l y ,   t h e   N CB I 's   BL A S T   al g o r i t h m   (s t an d - al o n e i s   u n ab l e   t o   h an d l e   b i o l o g i c al   d at i n   t h e   t e rab y t e s .   T o   ad d r e s s   t h i s   p ro b l em ,   v ari e t y   o f   s ch e d u l e rs   h a v e   b ee n   p ro p o s ed .   E x i s t i n g   s e q u e n ci n g   ap p ro ac h e s   are   b a s e d   o n   t h e   H a d o o p   Map Re d u ce   (MR framew o rk ,   w h i c h   e n ab l e s   a   d i v e rs e   s e t   o ap p l i c at i o n s   a n d   em p l o y s   a   s e r i al   e x ecu t i o n   s t rat e g y   t h at   t ak e s   l o n g   t i me   an d   co n s u me s   l o t   o c o m p u t i n g   re s o u rce s .   T h e   au t h o r,   i m p ro v e s   t h e   BL A ST   al g o r i t h m   b as e d   o n   t h e   B L A ST - BS PMR  al g o r i t h m   t o   a c h i e v e   t h e   BL A ST   al g o ri t h m .   T o   ad d re s s   t h e   i s s u e   w i t h   H ad o o p 's   Map Re d u ce   fra mew o rk ,   cu s t o mi s ed   Map R e d u ce   fra mew o r k   i s   d ev e l o p ed   o n   t h e   A zu r c l o u d   p l at fo r m .   T h e   e x p e r i me n t   f i n d i n g s   i n d i c at e   t h at   t h e   s u g g e s t e d   b u l k   s y n c h r o n o u s   p aral l e l   Ma p Re d u ce - b as i c   l o c a l   al i g n me n t   s e ar ch   t o o l   ( BSPMR - B L A ST )   al g o r i t h m   m a t c h e s   b i o i n fo r m at i c s   g en o mi c   s e q u en ce s   mo r e   q u i ck l y   t h an   t h e   e x i s t i n g   H ad o o p - BL A ST   me t h o d ,   an d   t h at   t h e   p ro p o s e d   cu s t o mi s ed   s c h ed u l e i s   e x t reme l y   s t ab l e   an d   s c a l ab l e .   K e y w o r d s :   B i o i nf o r m a t i c s   ge n o m i c   s e que n c e     Ha doo   M i c r o s o f t   a z ur e   S c h e du l e r   pa r a l l e li z a t i o n     Th i s   i s   a n   o p en   a c ces s   a r t i c l u n d e r   t h CC  B Y - SA   l i cen s e.     C or r e s pon din A u th or :   J a ga de e s h go wda   De pa r t m e n t   o f   C o m put e r   S c i e n c e   a n E n g i ne e r i n g S h r i   K r i s hn a   I ns t i t u t e   o f   T e c hn o l o g y   B e n ga l ur u,   I n d i a   E m a i l h o dc s . s k i t bl r @ g m a il . c o m       1.   I NT RODU C T I ON       A c c o r d i n t o   r e s e a r c h   [ 1] [ 2] ,   c l o ud  c o m put i n h a s   e s t a bl i s he i t s e l f   a s   t h e   f ut ur e   n o r m   f o r   da t a - i n t e n s i ve   c o m put i n g.   A c c o r di n t o   [ 3 ] ,   [ 4]   c l o ud  c o m put i n p l a t f o r m s   a ll o o n - de m a n a c c e s s   t s h a r e d,   s c a l a bl e ,   f a u l t - to l e r a n t ,   a n r e c o nf i gur a bl e   c o m p ut i n r e s o ur c e s   w i t l i t t l e   a d mi n i s t r a t i v e   wo r a n a   l o w   c o s t.   I n   c o m pa r i s o n   t o   f r e e s t a n d i ng  pr i va t e   c o m put e r   c l u s t e r s   [ 5] [ 6]   de m o ns t r a t e   h o c l o ud  c o m put i n g   p l a t f o r m s   a r e   a   c o m m o nl y   de s i r e a n d   r e c o gni s e m e t h o f o r   r unni ng  l a r ge   da t a   a pp li c a t i o n s   o r   hi g h - pe r f o r m a n c e   c o m put a t i o ns   ( HPC ) .   T h e   c l o ud' s   r e s o ur c e   m a n a ge m e n t ,   vi r t ua l   c o m put i n p l a t f o r m s ,   a n e l a s t i c i t y   a ll   c o n t r i b ut e   to   t h e   e a s e   w i t h   w hi c h   da t a - i n t e n s i ve   a pp li c a t i o ns   c a n   b e   mi gr a t e to   th e   c l o ud   pa r a d i g m .   C a i   et   al.   [ 7] Oku r   a n B ü y ükk e ç e c i   [ 8]   n ot e   t h a t   t h e   f r a m e wo r ks   r e qu i r e to   e n a bl e   t h e   m o s t   e f f i c i e n t   us e   o f   c l o ud  r e s o ur c e s   a t   t h e   l o we s t   po s s i bl e   c o s t   f o r   da t a - i n t e ns i ve   a pp li c a t i o ns   r e m a i u n r e s o l v e d.   Googl e s   M a pR e duc e   f r a m e wo r di s c us s e i n   [ 9]   i s   a   c o m m o nl y   us e a ppr o a c h   f o r   pe r f or m i n d i s tr i b ut e d   c o m pu t a t i o n s   o n   t h e   c l o ud .   W hi t e   [ 1 0]   a n Ha d oop  [ 1 1]   pr e s e n t   t h a i m p l e m e n t a t i o n s   o f   Ha doop  a r e   b a s e o n   t h e   M a pR e duc e   a r c hi t e c t u r e   a n a r e   c a pa b l e   o f   s upp o r t i n l a r ge - s c a l e   da t a   a ppl i c a t i o n s .   T h e   M a pR e duc e   m o de l   e m p l o y s   a   t w o - s t a ge   e x e c ut i o n   m e c h a ni s m .   T h e   i ni t i a l   s t a ge   e n t a i l s   s p l i t t i n o r   di vi d i ng  t h e   da t a   to  b e   Evaluation Warning : The document was created with Spire.PDF for Python.
I n do n e s i a n   J   E l e c   E n &   C o m S c i     I S S N:   2502 - 4752         A e ff icie nt  and  r obus par all e s c he duler   f or   bioi nf or matics   …  ( L e e na  A mm anna )   1079   pr o c e s s e d   i n t l i tt l e   pi e c e s .   E a c h   s m a l l   bi t   o f   da t a   i s   a s s o c i a t e d   wi t h   a   m a ppe r .   T h e   m a ppe r   ou t pu ts    |   pa i r s   t h a t   a r e   a r r a n ge a c c o r di n to   t h e    va l ue s .   T h e   R e duc e   w or ke r s   a r e   pr o v i de wi t h   t h e   s or t e d   v a l ue s   us i n t h e    |   ( )   me t h o d .   T h e   H a d oo p   di s tr i b ut e d   f i l e   s y s t e m   i s   us e to   s tor e   t h e   r e s ul t s   o f   t h e   r e duc e   w or ke r s   h a d oo di s t r i b ut e f i l e   s y s t e m   ( HD F S ) .   I n   m o s t   p ub l i c   c l o ud  s e t u ps ,   t h e   M a a n d   R e duc e   w or ke r s   a r e   vi r tual   m a c hi n e s   ( VM s ) .     T h e   r e s e a r c h e r s   r e c o gn i s e t h e   di s a d v a n t a ge s   o f   Ha d oop  M a pR e d uc e   a n e x a m i n e s e v e r a l   i m pr o v e m e n t   s tr a t e gi e s .   Z h et   al.   [ 12]   di s c us s e s   t h e   us e   o f   Ha doo wi t h   C UD A   to   i n c r e a s e   pr o c e s s i n g   c a pa c i t y   a n e x e c ut i o n   s pe e d.   Z h et   al.   [ 12 ]   p r o p o s e s   a   r e s e a r c h   pa r a di g m   t h a t   f a c i l i t a t e s   a ppr opr i a te  us e   o gr a ph i c s   pr o c e s s i n u ni t s   ( GPU) .   Da hi p h a l e   et   al [ 13]   p r e s e n t s   a   c l o ud - b a s e M a pR e duc e   m o de l .   P i pe l i ni ng   i s   us e t o   i m pr o v e   e x e c ut i o n   pe r f o r m a n c e   a n to   e n a bl e   e l a s t i c   pr i c i n g.   F o r   s c i e n t i f i c   a pp l i c a t i o n s   [ 14 ]   pr o p o s e a   f r a m e wo r b a s e o n   pa r a l l e l   t e m p e r i ng  c a l l e r e p l i c a   e x c h a n ge   s t a t i s t i c a l   t e m pe r a t u r e   m o l e c u l a r   dy n a m i c s .   T a n g   e al.   [ 15 ]   de s c r i b e   a   uni que   d yn a m i c   Ha doo s l ot   a l l o c a t i o n   t e c h ni que   f o r   r e s o l vi n t h e   Ha d oo p   r e s our c e   p r o vi s i o ni n pr o b l e m   t h a t   i s   n ot   op t i m a l .   T h e   r e s ul t   r e p or t e i n   T a n e al.   [ 15 ]   de m o n s t r a tes   t h a t   t h e i r   t e c h ni que   s i gni f i c a n t l y   i m pr o v e s   Ha doop ' s   pe r f o r m a n c e   wh e h a n d l i ng  m a ny   M a pR e duc e   j o b s .   T h e   m o s t   o f t e n   u t i l i s e t e c h ni que   i s   t o   i n c r e a s e   e x e c ut i o n   e f f e c t i v e n e s s   t h r o u gh   s c h e du l i n pr a c t i s e s ,   a s   de s c r i b e d   i n   [ 16] - [ 19] .     W a n g   et   al.   [ 20]   pr e s e n t e a   m e t h o d   f o r   c o m put i ng  " I m pr e c i s e   A pp l i c a t i o n s "   us i n M R   f r a m e wor ks .   R e duc e   i s   r un  a f t e r   t h e   M a s t e i n   pr e d i c t a bl e   M a pR e duc e   a ppl i c a t i o n s .   I n   t h e   c a s e   o f   i na c c ur a t e   a pp l i c a t i o n s ,   t h e   R e duc e   s tage   m i g h t   b e   i ni t i a t e us i n t h e   M a p   s t a ge ' s   pa r t i a l   f i nd i n gs .   A pp l i c a t i o n s   s uc h   a s   wor d   f r e que n c y   s t a t i s t i c s   a n h ot - w or i de n t i f i c a t i o n   a r e   c o n s i de r e i m pr e c i s e .   E x e c ut i n i na c c ur a t e   a pps   o n   we l l - kn o wn   m a c hi ne   l e a r ni ng  f r a m e wo r ks   l i ke   Ha do o i n t r o duc e s   l a t e n c y .   R u nni n e r r o n e o us   a pps   m i g h t   r e s u l t   i n   a dd i t i o n a l   e x pe n d i t ur e s   o n   publi c   c l o ud  s y s t e m s ,   wh e r e   us e r s   a r e   c h a r ge f o r   a l l   c o m put a t i o n s   a n d   s to r a ge   s e r vi c e s   c o ns u m e d.   T o   a dd r e s s   t h i s   s h o r t c o m i n g   i nc or p or a t e t h e   c h e c ph a s e   i n t o   t h e   M a pR e duc e   f r a m e wo r k   i n   o r d e r   to  r e duc e   c o s ts   a n d   e x e c u t i o n   l a t e n c i e s   [ 20] .     I n   M R   f r a m e wo r ks ,   i t e r a t i v e   a ppl i c a t i o n s   a n c e r t a i n   gr a ph - b a s e a ppl i c a t i o n s   pe r f o r m e poor l y .   Googl e   i n t r o duc e t h e   P r e ge l   f r a m e wo r f o r   c l o ud  c o m pu t a t i o n s   i [ 21]   f o r   s i mi l a r   a pp l i c a t i o n s .   P r e ge l   i s   b u i l t   o n   v a l i a n t ' s   b u l s y nc h r o n o us   pa r a l l e l   ( B S P )   c o m pu t a t i o n   m o de l   [ 22] .   K a j da n o w i c z   et   al.   [ 23 ]   de m o n s t r a t e   t h a t   t h e   P r e ge l   f r a m e wo r ou t p e r f or m s   M a pR e duc e   wh e n   c a l c u l a t i n gr a ph - b a s e a ppl i c a t i o n s .   A pa r f r o m   t h e   s e r i a l   e x e c ut i o n   m e c h a ni s m   ut i l i s e i n   M R ,   s e v e r a l   c o n c e r n s   r e m a i n   un r e s o l v e d,   i n c l ud i n n o d e   f a i l ur e   m a n a ge m e n t   c a pa b i l i t i e s ,   s c h e dul i n s t r a t e gi e s ,   a n m u l t i wa y   j o i n   pr o c e s s e s .     T h e   a ut h o r s   p r o vi d e   a   f r a m e wo r f o r   pa r a l l e l   c o m put a t i o n   M a p R e duc e   ( P M R )   i n   pu bli c   c l o ud   e nvi r o nm e n t s   i t hi s   a r t i c l e .   T h e   M a p R e duc e   a r c hi t e c t ur e   o f   t h e   B L A S T - B S P M R   e n a bl e s   pa r a l l e c o m put a t i o n   to   a c c e l e r a t e   t h e   e xe c ut i o n   o f   t h e   B S P   m o de l .   T h e   B L A S T - B S P M R   i m p l e m e n t s   M a a nd   R e duc e   wo r ke r s   by   ut i li s i ng  M i c r o s o f t   A z ur e   V M   c o m put i n e nvi r o nm e n t s .   M u l t i c o r e   pr o c e s s o r s   e n a bl e   pa r a l l e l   c o m put a t i o n   i t he s e   vi r t ua l i z e d   c o m put i n e nvi r o nm e n t s .   T h e   B L A S T - B S P M R   pr o po s a l   lev e r a ge s   t hi s   p a r a l l e l   e xe c ut i o n   f e a t ur e   to   dr a s t i c a ll y   l o we r   t h e   M a a n R e duc e   wo r ke r   n o de s '   c o m put a t i o n   t im e s .   I n   c o m pa r i s o n   t o   ot h e r   M a pR e duc e   f r a m e wo r ks   l i ke   Ha doo p,   t h e   B L A S T - R e duc e   B S P M R 's   p h a s e   i s   i n i t i a t e wh e n   t wo   o r   m o r e   wor ke r   n o de s   h a v e   c o m p l e t e d   t h e i r   j o bs .   T h e   B L A S T - B S P M R   f u n c t i o n   s h o wn  h e r e   i s   us e to   c a l c u l a t e   t h e   r e s ul t s   o f   bi o i n f o r m a t i c s   B L A S T x   a pp l i c a t i o n s .     S e v e r a l   s t r a tegi e s   a n s c h e du l e r   a r e   pr o p os e by   r e s e a r c h e r s   to   i m pr o v e   t h e   pe r f or m a n c e   o f   t h e   M a pR e duc e   c l o ud  c o m put i n f r a m e wo r p r o p o s e d   by   Goo gl e   i n   De a et   al.   [ 9] .   T h e   w o r pr e s e n t e d   i n   Z h u,   et   al [ 12 ]   e n dur e s   t h e   c l o s e s t   s i m il a r i t y   to   o u r   w or pr e s e n t e h e r e .   Us i n C UD A   c o de s   t h e   M a a n R e duc e   wor ke r   t a s ks   e x e c u t e   pa r a l l e ly   o n   t h e   GP U’ s   i s   a c hi e v e d.   T h e   i n t e gr a t i o n   o f   Ha doop  a n GP i s   a c hi e v e d   us i n t h e   Ha doo S tr e a m i n g,   P i pe s ,   J C uda   a n J NI   a pp r o a c h e s .   T h e   e x pe r i m e n t a l   i nv e s t i ga t i o n   g i v e i n   J i e   Z h et   al.   [ 12]   de m o n s tr a t e s   t h e   e f f e c t i v e n e s s   o f   t h e   s ugge s t e a pp r o a c h   o n   a   pr i v a t e   h e t e r o g e n e ous   c l o ud   e n vi r o nm e n t   us i n t h e   w or c oun a ppl i c a t i o n .   T h e   e x e c ut i o n   e f f i c i e n c y   o f   t h e   J C uda   a pp r o a c h   o v e r   Ha d oop  S t r e a m i n g,   P i pe s   a n J NI   i s   a l s o   pr o v e d.   T h e   m a j o r   dr a wb a c o f   t hi s   a ppr o a c h   i s   t h a t   s uc h   c o m p u t a t i o n a l   m o de l s   a r e   n ot  s ui t e f or   publ i c   c l o ud  e n vi r o nm e n t s   a s   GPU   b a s e VM   e n vi r o nm e n t s   a r e ge n e r a l l y   n o o f f e r e d.   P ubl i c   c l o ud  e nvi r o nm e n t s   l i ke   Am a z o n   E C t h a t   o f f e r   s uc h   GPU  b a s e vi r t ua l i z e c o m put i n e nvi r o n m e n t s   pr o v i de   i t   a v e r y   hi g h   c o s t s .     Da hi p h a l e   et   al .   [ 13]   de s c r i b e t h e   dr a wb a c ks   o f   t h e   c o n v e n t i o n a l   M a pR e duc e   f r a m e wo r ks   a s   f o l l o ws t h e   M a pR e duc e   f r a m e wo r a d op t s   a   s e q ue n t i a l   pr o c e s s i n o f   t h e   M a a n R e d uc e   s t a ge s .   T h e   s c a l a bil i t y   o f   t h e   M a pR e duc e   i s   l im i t e d.   T h e   M a p R e duc e   f r a m e wo r p r o v i de s   n o   s upp or t   f or   f l e xi ble  pr i c i n op t i o n s .   T h e   M a pR e du c e   m o de l   pr o vi de s   n o   s upp o r f o r   c o m put i n s t r e a m i n da t a .   T o v e r c om e   t h e s e   dr a wb a c ks   a   pi pe l i ne m o de l   i s   pr e s e n t e to   pa r a l l e l i z e   t h e   e x e c ut i o n   o f   t h e   M a a n R e duc e   pha s e .   T h e   M a pR e du c e   m o de l   pr o p o s e i n   [ 13]   i s   r e a l i z e o n   t h e   Am a z o n   publ i c   c l o ud.   T h e   s p ot   i ns t a n c e   o f f e r i n o f   t h e   Am a z o n   c l o ud  a l l o ws   f l e xi bl e   pr i c i n g.   T h e   e x pe r i m e n t a l   s t udy   g i v e h e r e   de m o n s tr a t e s   t h e   e f f i c i e nc y   o f   t h e   pi pe l i n i n g - b a s e M a pR e duc e   m o de l   w h e n   c o m pa r e to   t h e   c o n v e n t i o n a l   M a pR e duc e   m o de l   us i n th e   wo r c oun a ppl i c a t i o n .   T h e   m a j o r   dr a wb a c o f   t h e   m ode l   pr o p o s e i n   [ 13]   i s   t h a t   t h e   l o c a l i t y   o p t i m i z a t i o n   i s   n o Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2502 - 4752   I n do n e s i a n   J   E l e c   E n &   C o m S c i Vo l .   25 ,   N o .   2 F e b r ua r y   20 22 :   1078 - 108 6   1080   c o n s i de r e a n h o s t i n o f   a dd i t i o n a l   da t a   de pe n de n t   a ppl i c a t i o n s   l i ke   S m i t h   W a t e r m a n   a nd  ot h e r   bi o i nf o r m a t i c s   a ppl i c a t i o n   c a n n o b e   e x e c u t e d   i n   a   pi pe l i ne f a s hi o n .     T h e   c o m put a t i o n   o f   c e r t a i n   da t a   i n t e n s i v e   a ppl i c a t i o n s   l i ke   gr a ph   a ppl i c a t i o n s   a n i t e r a t i v e   a ppl i c a t i o n s   o n   M a pR e duc e   f r a m e wo r ks   e x hi bi t   high   c o m put a t i o n   t i m e   a n c o s t .   T s upp or s uc h   a p p l i c a t i o n s ,   Googl e   pr e s e n t e d   a   p r o p r i e t a r y   c l o ud  c o m pu t i n f r a m e wo r k   n a m e P r e ge l   t h a t   e m b r a c e s   t h e     c o m puti n m o de l   [ 21] .   I n   P r e ge l ,   t h e   g r a ph   c o m put a t i o n s   a r e   a c hi e v e us i n a   s e o f   s upe r - s t e ps .   A   s upe r   s t e i s   us e to  e x e c ut e   t h e   us e r   de f i n e a pp l i c a t i o n   or   f un c t i o n   i n   a   pa r a l l e l   f a s hi o n   us i n t h e   da t a   i t e m   f r o m   t h e   da t a b a s e .   E a c h   da t a   i t e m   f r o m   t h e   da t a b a s e   b e h a v e s   a s   a n   a ge n t.   T h e   P r e ge l   s y s t e m   a do p t s   v e r tex - c e n tr i c   e x e c ut i o n   s tr a t e gy .   T h e   c o m put a t i o n   o f   e a c h   da t a   i t e m   h a s   a   gr a ph   l i ke   r e pr e s e n t a t i o n   i n   .   T h e   v e r t e x e s   i n   t h e   P r e ge l   de a c t i v a t e   p os t   t h e   c o m pu t a t i o n   o pe r a t i o n   a n a r e   r e a c t i v a t e o n l y   i f   a dd i t i o n a l   da t a   i t e m s   a r e   pr e s e n t e d   to  t h e m .   On c e   a ll   t h e   v e r t i c e s   a r e   de a c t i v a t e t h e   c o m pu t a t i o n   i s   s a i t o   b e   c o m p l e t e .   T h e   l o c a l   s to r a g e   o f   t h e   da t a   i t e m s   i t h e   n o de s   e x e c ut i n t h e   c o m put a t i o n   po s e s   a   pr o b l e m .   I t h e   c a s e   t h e   da t a   i t e m   i s   l a r ge   t h e n   a   s p i l li n g - to - di s t e c h ni que   n e e ds   to  b e   i n   [ 23 ] .       T h e   M a pR e duc e   f r a m e wo r i s   b e e n   a dop t e d   by   th e   Ha d oo f r a m e wo r k   i n   Ngu y e n   et   al .   [ 24 ]   f or   c o m pu t i n o n   t h e   c l o ud  pl a t f o r m .   T h e   M a pR e duc e   pa r a di g m   e m p l o y s   a   t w o - ph a s e   t e c h ni que .   T h e   f i r s t   ph a s e   di vi de s   t h e   i n put   da ta  i n t o   l i tt l e   bi t s   o f   da t a   to  b e   p r o c e s s e d .   E a c h   s m a ll   bi t   o f   da t a   i s   a s s o c i a t e wi t h   a   m a ppe r .   T h e   m a ppe r   o u tpu t s   a < K e y ,   Va l ue >   pa i r   t h a t   i s   s or t e a c c or di n to   t h e   K e y   v a l ue s .   T h e r e duc e r   t a ke s   t h e s e   s or t e d   v a l ue s   a s   t h e   < K e y S o r tedL i s t   ( Va l ue ) > .   T h e s e   s o r ted  v a l ue s   a r e   s tor e d   i n   t h e   Ha d oop  Di s t r i bu t e F i l e   S y s t e m .   S c h a t z   [ 25]   a n C l o udB ur s t   m a ke   us e   o f   t h e   Ha d oop  M a pR e duc e   f r a m e wo r a s   t h e   c o m put i n g   pl a t f o r m .   T h e s e   a l i g nm e n t   too l s   pe r f o r m   e f f e c t i v e ly   f o r   s m a l l   b a s e   pa i r   a l i gnm e n t s   r e qui r i n s i n g l e - ga o r   un - ga ppe d   a l i g nm e n t.   H owe v e r ,   wh e n   h uge   b a s e   pa i r s   a r e   c o n s i de r e d,   t h e s e   a l i g n e r s   pe r f o r m   poor l y .   B e c a us e   a ll   pr e s e n t   c l o ud  f r a m e wo r s e que n c e   a l i g n e r s   t a ke   t h e   Ha doop  f r a m e wo r i n to   a c c oun t,   H a d oop  s uf f e r s   wh e i t e r a t i v e   a ppl i c a t i o n s   a r e   h o s t e o n   t h e   c l o ud  f r a m e wor k .   W h e n   c o n s i de r i n m u l t i wa y   j o i n s ,   Ha d oo p e r f o r m s   p oo r l y .   S i n c e   Ha d oo f r a m e wo r k   e x e c u t e s   s e q u e n t i a l ly ,   a ga i n   t h e r e   i s   de gr a da t i o n   i n   t h e   pe r f or m a n c e .   T h e     b a s e P r e g e l   f r a m e wo r e x hi bi t s   l o we r   c o m pu t a t i o n   t i m e   f o r   s e l e c t i v e   a ppl i c a t i o n s .   I n   t h i s   pa pe r   t h e      f r a m e wo r i n c o r p or a t e s   t h e   M a pR e duc e   a r c h i t e c t u r e   a n a n   e x e c u t i o n   s tr a t e gy   i s   c o n duc ted   i n   pa r a l l e l   f a s hi o n   a s   o b s e r v e i n   t h e   .       2.   M E T HO D   c l o ud  p l a t f o r m ,   B L A S T - B S P M R   i s   pr o po s e t h a t   a l l o ws   to   a pp l y   bi o i n f o r m a t i c s   a pp l i c a t i o n   li ke   ge n e   s e qu e n c i ng.   T h e   B L A S T - B S P M R   us e s   M a pR e duc e   f r a m e wo r whi c wo r ks   o n   a   c l o ud  c o m put i n g   e nvi r o nm e n t .   A z ur e   VM   i s   t h e   Az ur e   i nf r a s t r uc t ur e   a s   s e r vi c e   ( I a a S )   w hi c h   i s   u s e t o   de pl o y   pe r s i s t e n t   VM s .   T h us ,   t h e   M a a n R e duc e   wo r ke r   n o de s   i n   B L A S T - B S P M R   a r e   de p l o y e o A z ur e   VM s .   Ali g nm e n t   o f   ge n o m i c   s e qu e n c e s   i s   pe r f o r m e us i ng  t h e   B L A S T xm e t h o d.   He r e   i n   B L A S T x ,   a   DN A   que r y   i s   c o m pa r e to  a   pr ot e i da t a b a s e .   T he   B L A S T - B S P M R   a l go r i t hm   p e r f o r m s   s e que n c e   a li g nm e n t   i t wo   s t a ge s ,   n a m e ly   t he   M a a n R e duc e   p h a s e s .   S i n c e Ha do o f r a m e wo r i s   s e que n t i a l ,   o nl y   w h e n   t h e   M a p h a s e   i s   c o m p l e t e t h e   R e duc e   p h a s e   ge t s   e x e c ut e d.   T o   p r e v e n t   s e que n t i a l   e x e c ut i o n ,   B L A S T - B S P M R   c o ns i d e r s   pa r a l l e li z i n t h e   M a a n R e duc e   p h a s e s .   T h e   M a a n R e duc e   f un c t i o n s   a r e   m e a n t   to   b e   e x e c ut e i n   pa r a ll e l   a n d   to   m a ke   o p t i m a l   u s e   o f   t h e   c o r e s   a v a i l a bl e   i n   t he   wo r ke r   V M s .     2. 1.     B as ic  l oc al   a l ign m e n t   s e a r c h   t ool   ( B L AST )   al go r it h m   B a s i c   l o c a l   a li g nm e n t   s e a r c h   t oo l   ( B L A S T )   i s   u s e to   c o m pa r e   a   que r y   s e que n c e   w i t h   t h e   da t a b a s e   s e que n c e   t o   f i nd  s i mi l a r   s e que n c e s   i t h e   da t a ba s e .   T h e   B L A S T   c o ns i s t s   o f   v a r i o us   s e que nc e   s e a r c hi ng   pr o g r a m m e s   ( i nc l ud i ng  B L A S T n ,   t B L A S T n ,   B L A S T x ,   B L A S T p,   t B L A S T p,   a n t B L A S T x) .   E a c a pp l i c a t i o n   v a r i e s   i i t s   f u nc t i o na l i t i e s ,   b ut   t h e   c o r e   o f   t h e   a l go r i t hm   f o r   a ll   o f   t he m   i s   b a s i c a ll y   t h e   s a m e .   T he   B L A S T   a l go r i t hm   c o n s i s t s   o f   t h r e e   s t e ps .   I n   t he   i ni t i a l   s t e p,   c a l l e a s   b u il d i ng  t he   wo r l i s t ,   th e   que r y   s e que n c e   i s   s p li t   i n t o s m a ll   wo r ds   o f   f i xe s i z e   ( w - m e r s ) ,   o f t e n   be i n g   11.   T h e r e f o r e ,   i f   t h e   l e ngt h   o f   t h e   que r y   s e qu e n c e   i s   n ,   t h e n   li s t   o f   n - w+ wo r ds   a r e   b e i ng  c o ns t r uc t e d.   T h i s   s t e i s   i ll u s t r a t e i n   F i gur e   1.   T h e   s e c o n s t a ge ,   r e f e r r e t o   a s   t h e   s c a n   f o r   hi t s ,   i s   w h e r e   t h e   B L A S T   a l go r i t hm   l o o ks   f o r   m a t c h e s   t o   th e   wo r ds   ( r e f e r r e to   a s   hi t s )   i n   t h e   da t a b a s e   s e que n c e .   T he   B L A S T   a l go r i t hm   e m p l o y s   t h e   ' t wo - hi t '   s t r a t e g y .   I f   t wo  n o n - o v e r l a pp i n wo r pa i r s   a r e   f o u n t b e   w i t hi n   a   d i s t a nc e   o f   o ne   a n o t h e r ,   a n   e x t e ns i o n   i s   i ni t i a t e d.   T h e   n e x t   s t a ge ,   dubb e e x t e n t h e   hi t s ,   i nv o l v e s   t h e   B L A S T   a l go r i t hm   e x pa n d i ng  t he   r e s u l t s   i o r de r   to   f i nd   l o n ge r   r e l a t e s e g m e n t   pa i r s .   W h e n   t h e   " t wo - hi t "   r e qu i r e m e n t   i s   m e t ,   a   ga p - f r e e   e x t e n s i o n   i n   t wo   di r e c t i o n s   i s   pe r f o r m e t l o c a t e   a n   a l i g nm e n t   kn o wn   a s   a   hi g h - s c o r i n s e g m e n t   pa i r   ( HSP ) .   F i gur e   g i v e s   a n   e xa m p l e   o f   ga p - f r e e   e x t e n s i o n .   T hi s   i s   t h e   s e e d - a n d - e x t e n h e ur i s t i c   s t r a t e gy   f o r   i de n t i f yi ng  hi g h - s c o r i n ge n e   s e que nc e   a l i g nm e n t s   b e t we e n   t h e   ge n o m i c   que r y   s e que nc e   a n t h e   da t a b a s e 's   ge n o m i c   s e qu e n c e s .       Evaluation Warning : The document was created with Spire.PDF for Python.
I n do n e s i a n   J   E l e c   E n &   C o m S c i     I S S N:   2502 - 4752         A e ff icie nt  and  r obus par all e s c he duler   f or   bioi nf or matics   …  ( L e e na  A mm anna )   1081         F i gur e   1.   B ui l wo r l i s t     F i gur e   2.   B ui l wo r l i s t       2. 2.     B L AST on   t h e   p r op os e d   p ar a ll e l i z e d   M ap Re d u c e   f r am e wo r k   T h e   ge n o m i c   s e que nc e   da t a ba s e   wa s   i ni t i a ll y   s p li t   i n t o   t r i vi a l   c h u n k s   o f   s t a t i c   s i z e   a n s c h e du l e d   o v e r   t h e   vi r t ua l   A z ur e   c o m put i n n o de s   i t h e   c ur r e n t   wor k.   Num e r o us   c o m put i n g   n o de s   c a n   pr o c e s s   t h e   c h u n k s   i n   pa r a ll e l .   T h e   t h r e e   c o r e   B L A S T   pr o c e s s e s   ( b u il d i ng  wo r l i s t s ,   s c a nni ng,   a n e x t e ns i o n )   we r e   t h e r e or ga ni s e a n r u n   c o n c ur r e n t l y .   I t   t a ke s   l o n g e r   i n   t wo   s t a ge s ,   a c c o r di n t o   t h e   B L A S T   a l go r i t hm s e a r c hi ng   f o r   m a t c hi ng  t e r m s   i n   t h e   ge n o m e   da t a b a s e   a n e x t e n d i ng  t h e   s e e d s .   T h us ,   t h e   pr o p o s e B L A S T - B S P M R   f r a m e wo r i s   e m p l o y e to   pa r a l l e li z e   t h e   B L A S T   a l go r i t hm ,   t h e r e by   i nc r e a s i ng  t h e   c a l c u l a t i o n' s   o v e r a ll   e f f i c i e nc y .   T h e   B L A S T - B S P M R   t e c hni que   i s   im p l e m e n t e i n   t h r e e   s t a ge s da t a   s to r a ge   i n   A z ur e   bl o s to r a ge ,   ge n o m i c   s e que n c e   pr e pa r a t i o n ,   a n d   ge n o m i c   s e que n c e   pa r a l l e li z a t i o n .   T h e   f i r s t   s t a ge   i nv o l v e s   t r a n s f e r r i n t he   ge n o m i c   da t a ba s e   a n que r y   s e qu e n c e   t o   A z ur e   bl o b   s t or a ge .   T h e   s e c o n d   l e v e l   pr e p r o c e s s e s   e a c h   c o m put a t i o n a l   wo r ke r   n o de 's   ge ne t i c   da t a .   T he   t hi r s t a ge   pe r f o r m s   f ur t h e r   a c c ur a t e   m a t c h e s ,   e xt e n s i o n ,   a n s t a t i s t i c s   o n   t h e   pr e pr o c e s s e s e que nc e   s e e ds   pr i o r   to  gi vi ng  t h e m   a s   i n put   to  t h e   B L A S T - B S P M R   a l go r i t hm .   T h e   s e c t i o ns   t h a t   f o l l o de s c r i b e   t h e   s u gge s t e m e t h o d's   s e v e r a l   s t a ge s .     2. 2. 1.   P r e - p r oc e s s in of   ge n e   s e q u e n c e   d at a   As   s t a t e d   i n   t h e   b a s i c   pr o c e dur e   o f   t h e   NC B I   B L A S T   a l go r i t hm ,   t h e   f i r s t   c r i t e r i o n   t h e   B L A S T   a l go r i t hm   i s   t o   ge n e r a t e   a   w o r l i s t   f o r   t h e   B L A S T - B S P M R   m e t h o d.   T h e   pur po s e   o f   i d e n t i f yi ng  wo r ds   w i t h   a   hi g h   c o r r e l a t i o n   c o e f f i c i e n t   dur i n t h e   pr e - pr o c e s s i ng  o f   ge n o m i c   s e que n c e   d a t a   i s   t o   s i m p li f y   c a l c u lat i o n s   o r   c o m put a t i o n s   c o n c e r ni ng  a c c ur a t e /co r r e c t   m a t c h e s   a n s e e e x pa ns i o n .   T hi s   t e c hni qu e   a c c e l e r a t e s   t h e   t hi r d   ph a s e   o f   s e que n c e   a li g nm e n t .   Due   to   t h e   f a c t   t h a t   t h e   r e s e a r c h   qu e r y   da t a   c o n s i s t s   o f   n uc l e i c   a c i d   s e que n c e s ,   t h e   l e n gt hs   o f   t h e   ge n o m i c   que r y   a n da t a ba s e   s e q ue n c e s   a r e   x   a n y ,   r e s pe c t i ve l y ,   a n d   t h e   n u m be r   o f   wo r ds   i s   x - 10  a n y - 10.   T h e   f o l l o w i ng  s t a ge s   m us t   b e   f o l l o we i t h e   pr e - pr o c e s s i n o f   ge n o m i c   s e que nc e   da t a S t a ge s   o f   m a pp i ng,   s o r t i n g,   s h u f f l e ,   a n r e duc t i o n .   T h e   a ut h o r   ge n e r a t e s   a   s t a t i s t i c   o f   n uc l e o b a s e s   ( A T GC )   w i t h   t h e   hi g he s t   o c c ur r e n c e   n u m be r   us i n a   M a p   s c he m e   o n   e a c h   wo r i n   t h e   M a s t a ge ,   s uc h   a s   < T , 4> ,   wh e r e   T   i nd i c a t e s   t h e   m o s t   o f t e n   o c c ur r i n n u c leo b a s e   a n d   de n o t e s   t h e   n u m be r .   T h e   o ut pu t   o f   M a i s   s o r t e by   t h e   f r e que nc y   o f   e a c h   n u c l e o b a s e   dur i ng   t h e   s o r t   s t a ge .   I n   t h e   s h u f f l e   p ha s e ,   t h e   s o r t   s t a ge ' s   r e s u l t s   a r e   j u m b l e a n m e r ge d.   I f   t h e   f r e que n c y   o f   n uc leo b a s e   T   i n   t h e   w o r d  ( i = 0 , 11 , . , 10y + 1 , . )   i n   t h e   ge n o m i c   que r y   s e que n c e   i s   n u m a n t h e   c o un t   o f   n u c l e o b a s e   T   i n   t h e   wo r d  ( i = 0 , 11 , . , 10y + 1 , . )   i t h e   ge n o m i c   da t a ba s e   s e qu e n c e   i s   n u m 2,    w i ll   c o m bi ne   w i t h   a l l  ,   a n r a n t h e m   a c c o r di n t t h e   s i z e   o f   n u m 1+ n u m 2.   L i s t   o f   a l l  c o m bi ne w i t h  a s   i t e m s   i n   t h e   B L A S T - B S P M R   a l go r i t hm 's   wo r l is i n   t h e   f i na l   s t a ge   o f   R e duc e ,   ba s e o n   t h e   o u t pu of   t h e   s h u f f l e   s t a ge .   T h e   f o l l o w i ng  s t e i s   t s a v e   t he   r e s u l t s   to  A z ur e   B l o b   S to r a ge   f o r   l a t e r   a n a l y s i s .     2. 2. 2.   Al ign m e n t   of   ge n e   s e q u e n c e s   in   p ar all e l   T h e   wo r l i s t   f o r   t h e   s c a nn e r   i s   p r o duc e f r o m   p r e pr o c e s s e ge n o m i c   s e que nc i ng  da t a .   T h e   t h r e e   b a s i c   s t e ps   i n   t h e   pa r a l l e l   a li g nm e n t   o f   ge n o m i c   s e que n c e s   us i ng  a   wo r d   l i s t   a n a   s c a nn e r   a r e   e xa c t   w o r d   m a t c h e s ,   s e e e x pa ns i o n ,   a n s t a t i s t i c a l   s i g nif i c a n c e   dur i n g   s e e e x pa ns i o n .   T o   f a c il i t a t e   pa r a l l e li z a t i o o f   ge n o m i c   s e que n c e   a li g nm e n t ,   t h e   ge n e r a t e wo r l i s t   a n s c a nne r   s h o u l b e   d i s t r i b ut e a m o n g   a   l a r ge   n u m be r   o f   vi r t ua l   pr o c e s s i ng  n o de s .   T h e   f l o c ha r i n   F i gur e   de p i c t s   t h e   pa r a l l e li z a t i o n   o f   t h e   B L A S T - B S P M R   m e t h o w i t h   M a pR e du c e .     Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2502 - 4752   I n do n e s i a n   J   E l e c   E n &   C o m S c i Vo l .   25 ,   N o .   2 F e b r ua r y   20 22 :   1078 - 108 6   1082       F i g ur e   3.   T h e   P a r a l l e li z e B L A S T - B S P M R   m o de l       2. 2. 3.   T h e   s t e p s   r e q u ir e d   in   al ign in t h e   B L AST - B S P M R   m e t h od   i n   p ar all e l   a)   E a c h   A z ur e   vi r t ua l   c o m put e r   n o de   wi ll   r e c e i ve   th e   li s t   o f   wo r ds   a n s c a nn e r ,   a n t h e   ge n e   s e qu e n c e   w i ll be   a l i g ne us i n a   B L A S T - B S P M R   M a pR e du c e   J o b .     b)   Dur i n t h e   M a p h a s e ,   e a c h   M a t a s r e a ds   t h e   s c a nne r   a n a   li s t   o f   wo r ds   f r o m   l o c a l   m e m o r y   t b u il d   a c c ur a t e   m a t c h e s   f o r   i t e m s   w i t h   a   hi g h   c o r r e l a t i o n i t e m s   t h a t   s a t i s f y   t h e   m a t c hi n g   c o n d i t i o n s   a r e   s a ve a s   wo r ds   i n   t h e   f o l l o w i ng  e x t e n s i o n .     c)   F o l l o w i ng  s c a nni ng,   t h e   r e s to r e bi t s   f r o m   s e c o n d   s t e 2)   wi l l   go   t h r o ugh   t h r e e   pr o c e s s e s   i e a c h c o m put i n g   n o de t h e y   w il l   i n i t i a t e   a   s i m p l e   mat c h   e x t e n s i o w i t h o ut   s pa c e ,   t h e y   w i ll   us e   DP  t f i nd   a m a t c e x t e n s i o n   w i t h   va c a n c i e s ,   a n t h e y   w il l   f i na l ly   o b t a i n   a li g nm e n t   r e s u l t s   t h a t   s a t i s f t h e   g i v e n c o n d i t i o n s .   d)   T h e   r e s u l t s   o f   t h e   c o m pa r i s o n   w il l   b e   a r r a n g e a c c o r di n to  t h e   s c o r e   a c qui r e dur i n t h e   s h u f f l e   p h a s e .   e)   T h e   R e duc e   p h a s e   t r a n s f e r s   t h e   ge n o m i c   s e que nc e   a l i g nm e n t   f i nd i ng s   to   A z ur e   B l o b   S t or a ge   i t h e i r   o r i g i na l   f o r m a t .     2. 3 .     P r op os e d   B L AST   al ign m e n t   on   t h e   p ar all e l i z e d   M ap Re d u c e   m od e l   B L AST - B S P M R   L e t     de n ot e   a   b i o i nf o r m a t i c s   s e que n c e   o f   t h e   g e n o m e   da t a b a s e   a n d      t h e   ge n o m i c   que r y   s e que n c e .   T h e      i s   po s i t i o n e o n   a   p ubl i c   c l o ud  pl a t f or m   n a m e ly   a z ur e   c o n s i s t   o f   a   m a s t e r   n o de ,   M a a n R e duc e   w or ke r   c o m put i n n o de s .   T h e   m a s t e r   c o m pu t i n n o de   o f        i ni t i a li z e s        M a a n R e duc e   w or ke r   c o m pu t i n n o de s   us i n th e   vi r t ua l   c o m put i n n o de s .   E v e r y   vi r t ua l   c o m puti n n o de   i s   pr e s um e to   C P c or e s   a v a i l a bl e   f o r   tas k /j o b   c o m put a t i o n .   L e t     _ r e p r e s e n t h e   t i m e   s pe n i ni t i a li s i n t h e   v i r t ua l   pl a t f o r m .   T h e   s e que n c e     i s   a   bi o i nf o r m a t i c s   da t a b a s e   t h a i s   di vi de i n to t i n y   c h un ks   o f   s e que n c e   da ta   wi t h   o v e r l a pp i n p or t i o n s .   A   da t a b a s e ' s   s h o r b i t   o f   da ta   s e que n c e   a n d   t h e        a r e   t h e n   t r a n s m i t t e a s   i n put   ke y ,   v a l ue   pa i r s   to  t h e   M a c o m put i n n o de s .   T h e   ke y   v a l ue   pa i r i n gs   t h a t   t a ke   i n to  a c c oun t h e   r e f e r e n c e   s m a l l   bi t   o f   da t a   a r e   de n ot e a s   (  ,  ) ,   wh e r e        i s   t h e   ke y   a n      whi c c o n t a i ns   t h e   ge n o m i c   da t a   wi t h   o v e r l a pp i n o f f s e t s .   T h e   ke y - v a l ue   pa i r   c o r r e s p o n di n to   t h e   ge n o m e   que r y   s e que n c e        i s   i n d i c a t e b y   (  ,  ) ,   wh e r e      i s   t h e   ke y   a n    i s   th e   ge n o m e   que r y   s e que n c e .   E a c o f   t h e      c o m put i n M a w o r ke r s   di vi de s   t h e   que r y   s e que n c e      i n t  l i t t l e   bi t s   o f   da t a   a n s tor e s   t h e m   i t h e   a v a i l a bl e   l o c a l   m e m o r y   s t or a ge .   T h e   s e que n c e   a l i g nm e n t   i s   pe r f o r m e us i n t h e   B L A S T x   a l g or i t hm   i pa r a l l e l   us i n t h e c o r e s   t a ki n i n to   a c c o un t   a n e a c h   a n e v e r y    .   T h e   B L A S T x   a l gor i t hm   i s   pa r a l l e li z e to  r e duc e   t h e   t i m e   r e q ui r e to  c o m pl e t e   ge n o m i c   s e que n c e   a l i g nm e n t s .   L e     d e n ot e   t h e   a v e r a ge   t i m e   t a ke n   by   t h e      M a c o m put e   n o de s   to   c o m p l e t e   a   tas k .   T h e   m a ppe r s   g i v e   a l i g nm e n t   p o s i ti o n s   b e t we e n      a n da t a b a s e   s m a l l   bi t   o f   da t a   o f     a l o n wi t h   t h e   c o m put e d   s c or e   a s   a   r e s ul o f   t h e i r   p o s t   c o m pu t a t i o n s .   M ul t i p l e   a l i g nm e n t   pl a c e s   a n c o m pu t e d   s c or e ,   i . e . ,        c o m bi n e w i t h   t h e   s m a l l   bi t   o f   da ta  i o f   i . e . ,       a r e   s a v e i n   t h e   m e m o r y   i n   t h e   f o l l o wi n m a n n e r :    ( ,  ) .   T h e   B L A S T - B S P M R   M a pf un c t i o n   i s   r e pr e s e n t e d   a s      ( (  ,  ) , (   ,  ) )  ( ,  ) T h e      M a c o m put i n wor ke r   n o de s   o b t a i n   i n t e r m e di a t e   ge n o m i c   da t a   i . e . ,  ( ,  )   a n pe r f or m   s h u f f l e   a n s o r o pe r a t i o n s .   T h e   r e duc e   s tep  c o n s i d e r s   t h e   c o l l e c t i o n   o f   a l l   n o n - o v e r l a pp i n a n n o n - r e dun da n Evaluation Warning : The document was created with Spire.PDF for Python.
I n do n e s i a n   J   E l e c   E n &   C o m S c i     I S S N:   2502 - 4752         A e ff icie nt  and  r obus par all e s c he duler   f or   bioi nf or matics   …  ( L e e na  A mm anna )   1083   a l i g nm e n t   r e s ul t s ,   i . e . ,    (  ) .   Al l o    i s   t h e   a v e r a ge   t i m e   s pe n t   b y   t h e      R e duc e   c o m pu t i n wor ke r   n o de s   to   c o m p l e t e   t h e   s tor a ge   pr oc e du r e   ( ga t h e r   t h e   r e s ul t s ) .   T h e   tot a l   t i m e   r e qu i r e f o r   t h e   B L A S T - B S P M R   to  a l i gn   t h e   ge n o m i c   s e que n c e   us i n a   c l o ud - b a s e pl a t f o r m      a ga i n s t   t h e   da tab a s e ,     i s   c a l c u l a t e a s ,     =  _ +     +    .   ( 1)     t h e   B L A S T - B S P M R   c l o ud   pl a t f or m   i s   de p i c t e d   i n   F i gur e   3 .       3.   RE S UL T S   AN DI S CU S S I ON   T h e   m a c hi n e   wa s   c o n f i gur e d   wi t h   a   6 4 - bi v e r s i o n   o f   W i n d ows   1 0   E n te r p r i s e ,   16   GB   o f   R A M ,   a n d   a n   i - 5   q ua c or e   p r o c e s s or .   W e   c o n d uc te a n   e x p e r i m e n t a l   i nv e s t i ga t i o n   c o m pa r i n th e   p r op os e d   B L A S T - B S P M R   g e n e   s e q ue n c i n m ode l   to  th e   e xi s t i n Ha d oop - B L A S T   s e qu e n c i n m o d e l   o n   t h e   f o l l ow i n p a r a m e t e r s s pe e du ps ,   t h r ou gh pu t,   a n d   s e q ue n c e   a l i gnm e n t   c o m p l e t i o n   t i m e   us i n g   t h e   d ot  n e f r a m e w or k   4 . 0   a nd   C #   6 . p r og r a m m i n l a n gua ge   f or   t h e   p r op o s e d   w or k   a n d   j a v a   pr og r a m m i n l a n gua ge   f or   t h e   e xi s t i n Ha d oop .   I i s   c o n s i de r e t o   c o m pa r e   t h e   pe r f o r m a n c e   o f   B L A S T - B S P M R   w i t h   H a do o p - B L A S T .   W i t h   a   s i n g l e   VM   c o m put i n n o de ,   Ha doo p - B L A S T   a n d   B L A S T - B S P M R   c a n   be   d e p l o y e d.   T h e   M i c r o s of t   A z ur e   c l o ud  p l a t f o r m   h o s t s   t h e   B L A S T - B S P M R .   T h e   Ha doo p - B L A S T   a pp l i c a t i o n   i s   b u il t   o n   to o f   t h e   Ha doo p   M a pR e duc e   f r a m e wo r k.   T h e   Ha doo p - B L A S T   i s   de p l o y e us i ng  A pa c h e   Ha do o &   YA R 2. 6. 0.   I n   t h e   de p l o y m e n t s ,   i de n t i c a l   c o nf i gur a t i o n s   o f   VM   c o m put i n n o de s   a r e   t a ke n   i n t o   a c c o un t .   T h e    m o de l   i s   h o s t e d   o n   M i c r o s o f t ' s   A z ur e   c l o u d   c o n s i de r i n A VM   i n s t a n c e s .   E a c h   A VM   i ns t a n c e   c o n s i s t s   o f   v i r t ua l   c o m pu t i n c or e s ,   7   GB   o f   R A M   a n 120  GB   o f   l o c a l   h a r d r i v e   s pa c e .   T h e  m o de l   de pl o y e o n   t h e   A z ur e   c l o u d   pl a t f o r m s   a r e   c o m pr i s e o f   a   m a s t e r   n ode   a n d   a   w or ke r   n o de   f or   t h e   p ur p o s e   o f   pe r f o r m i n M a a n R e duc e   ope r a t i o n s / t a s ks .   Us i n A z ur e   HD I n s i g h t .   I e n a bl e s   de pl o y m e n a n pr o v i s i o ni n g   o f   A pa c h e   Ha doop  c l us t e r s   o n   th e   A z ur e   c l o ud  pl a t f o r m .   T h e   A pa c h e   Ha do op  &   YA R N   v e r s i o n   2. 6. i s   c o n s i de r e f o r   pe r f o r m a n c e   e v a lua t i o n .   T h e   m a s t e r   n o de   o f   t h e   a z ur e   c l us t e r   r un s   o n   t h e   W i n do ws   S e r v e r   20 12  R o pe r a t i n s y s t e m .   O n e   wor ke r   n o de   o f   A VM   i ns t a n c e s   i s   c o n s i de r e f o r   t h e   Ha d oo p   de pl o y m e n t .   F or   e v a l u a t i o n ,   t h e   n o n - r e dun da n t   pr ot e i n   ge n o m i c   d a t a b a s e   i s   us e d.   T he   i ni t i a l   i nve s t i g a t i o ns   e m p l o y   a   c o n t i n uo us   n o n - r e du n da n t   pr ot e i n   ge n o m i c   s e que n c e   a n f o ur   n uc l e o t i d e   que r y   s e que n c e s   o f   v a r yi ng  s i z e s .   T h e f i r s t   e x pe r im e n t   c o n duc t e wi t h   t h e   r e f e r e n c e   a n v a r i e que r y   ge n o m ic   s e que n c e s   a r e   s u mm a r i z e i T a bl e   1.   F i gur e   s h o ws   t h e   e x e c ut i o n   t i m e   a n F i gur e   5   s h o ws   t h e   s pe e dup  a n t h r o ugh put   a n F i gur e   s h o ws   t h e   a ve r a ge   s p e e dup  a n t h r o ugh put .   T h e   r e s u l t s   s h o t h a t   t h e   pr o p o s e d   B L A S T - B S P M R   a li g n e r ,   whi c h   i s   r u nni ng  o n   A z ur e ,   o u t pe r f o r m s   Ha do o p - B L A S T .   F o r   b ot h   B L A S T - B S P M R   a n Ha do o p - B L A S T ,   t h e   e x e c ut i o n   t i me  i nc r e a s e s   a s   t h e   que r y   f il e   l e n gt h   gr o ws .   T h e   s e c o n d   e x pe r im e n t   i s   c o n du c t e us i n v a r i e n o n - r e du n da n t   pr ot e i n   ge n o m i c   s e qu e n c e   a n c o ns t a n t   que r y   s e que n c e s   o f   n uc l e o t i de .   T h e   t ot a l   t i m e   ( i nc l ud i ng  t h e   M a a n R e du c e   s t a ge s )   t a ke n   to   e x e c ut e   t h e   a l i g nm e n t   i s   m o ni t o r e us i n T a bl e   f o r   t h e   B L A S T x   s e que n c e   a li g nm e n t   c o m put a t i o n   o n   t h e   B L A S T - B S P M R   a n d   Ha doo p - B L A S T .   T h e   r e s u l t s   o b t a i n e a r e   s u mm a r i z e i n   T a bl e   3.   T h e   tot a l   t i m e   r e qu i r e to  c o m p l e t e   s e que n c e   a li g nm e n t   ( a s   de p i c t e i n   F i gur e   7)   i s   r e c o r de d .   T h e   r e s u l t s   s h o t h a t   t h e   pr o p o s e B L A S T - B S P M R   a li g n e r ,   w hi c h   i s   r u nni ng  o n   Az ur e ,   o u t p e r f o r m s   Ha do o p - B L A S T .   F i gur e   8   s h o ws   t h e   s pe e dup  a n d   t h r o ugh pu t   f o r   t h e   e x pe r i m e n t   l   a n F i gur e   9   de p i c t s   t h e   a v e r a ge   s pe e dup  a n t h r o ugh put   o b t a i n e d   f o r   t h e   e x pe r im e n t   2.   A s   t h e   da t a b a s e   f il e   s i z e   i nc r e a s e s ,   th e   e x e c ut i o n   t i m e   a l s o   i nc r e a s e s   f o r   b o t h   B L A S T - B S P M R   a n Ha do o p - B L A S T .         T a bl e   1.   E x pe r i m e n t   da t a   us e to  c o m pa r e   B L A S T - pe r f o r m a n c e   B S P M R ' s   to   t h a o f   B L A S T - Ha do o p   w i t h   v a r i e s i z e   o f   que r y   ge n o m e   No   D a ta ba s e  G e n o m e   S iz e  ( G B )   Q ue r y   G e n o me   S iz e  ( kb )   1   nr .01( n o n - r e dunda nt  pr o t e in )   2.99   N uc l e o ti de  s e qu e nc e   16   2   nr .01( n o n - r e dunda nt   pr o t e in )   2.99   N uc l e o ti de  s e qu e nc e   32   3   nr .01( n o n - r e dunda nt  pr o t e in )   2.99   N uc l e o ti de  s e qu e nc e   64   4   nr .01( n o n - r e dunda nt  pr o t e in )   2.99   N uc l e o ti de  s e qu e nc e   128       T a bl e   2.   E x pe r i m e n t   da t a   us e to  c o m pa r e   B L A S T - pe r f o r m a n c e   B S P M R ' s   to   t h a o f   B L A S T - Ha do o p   w i t h   v a r i e s i z e   o f   da t a b a s e   ge n o m   No   D a ta ba s e  ge no m e   S iz e  ( G B )   Q ue r y  g e n o m e   S iz e  ( kb )   1   nr .40 ( n o n - r e dunda nt  pr o t e in )   0.078   N uc l e o ti de  s e qu e nc e   128   2   nr .04 ( n o n - r e dunda nt  pr o t e in )   0.299   N uc l e o ti de  s e qu e nc e   128   3   nr .05 ( n o n - r e dunda nt  pr o t e in )   1.075   N uc l e o ti de  s e qu e nc e   128   4   nr .01 ( n o n - r e dunda nt  pr o t e in )   2.99   N uc l e o ti de  s e qu e nc e   128     Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2502 - 4752   I n do n e s i a n   J   E l e c   E n &   C o m S c i Vo l .   25 ,   N o .   2 F e b r ua r y   20 22 :   1078 - 108 6   1084         F i gur e   4.   S e que n c e   a l i g nm e n t   e x e c ut i o n   t i m e     F i gur e   5.   S pe e dup  a n t h r o ugh put           F i gur e   6.   A v e r a ge   s p e e dup   a n t h r o ugh put       T a bl e   3.   S pe e dup  a n t h r o ugh put   f o r   v a r i e que r y   ge n o m e   S e g. F il e  S iz e     S pe e dup   T h r o ughput   16 K B     4.1   76%   32 K B     2.6   62%   64 K B     2.14   53%   128 KB     2.07   53%   A ve r age     2.72   51%   0.078 GB     7.067   85.0%   0.299 GB     3.35   70.0%   1.075 GB     2.16   53.8%   2.99 GB     2.07   51.8%   A ve r age     3.66   65.15%               F i gur e   7.   S e que n c e   a l i g nm e n t   e x e c ut i o n   t i m e   f o r   v a r i e n o n - r e du n da n t   pr ot e i n   da t a b a s e     F i gur e   8.   S pe e dup  a n d   t h r o ugh put  f o r   v a r i e d   n o n - r e dun d a n t   pr ot e i n   da t a b a s e   Evaluation Warning : The document was created with Spire.PDF for Python.
I n do n e s i a n   J   E l e c   E n &   C o m S c i     I S S N:   2502 - 4752         A e ff icie nt  and  r obus par all e s c he duler   f or   bioi nf or matics   …  ( L e e na  A mm anna )   1085       F i gur e   9.   A v e r a ge   s p e e dup  a n t h r o ugh put   n o n - r e d un da n t   pr ot e i n   da t a b a s e       4.   CONC L USI ON   Ali g ni ng  ge n o m i c   s e que n c e s   i s   a   s t r a i g h t f o r wa r t e c h ni que   f o r   m a n a g i ng  a n a n a ly s i n g   bi o i nf o r m a t i c s   da t a .   T h e   a ut h o r   de s c r i b e s   t h e   pr o pe r   m e t h o ds   f o r   a li g ni ng  s e que n c e s   u s i ng  t h e   B L A S T   a l go r i t hm ,   w hi c h   i s   t h e   m o s t   wi de ly   u s e too l   f o r   a l i g ni ng  l o c a l   s e que n c e s .   C ur r e n t l y ,   t h e   B L A S T   a l go r i t hm   g i v e by   NC B I   ( s t a n d - a l o n e )   i s   u n a bl e   t o   h a n d l e   d y na mi c   bi o l o g i c a l   da t a   i t h e   t e r a by t e   r a n g e .   C l o ud   p l a t f o r m s   a r e   us e t o   a dd r e s s   i s s ue s   s uc h   a s   da t a   s to r a ge   a n da t a - i n t e ns i ve   c o m put a t i o n .   B i o s e que n c i ng   a n a ly s i s   o f   ge ne t i c   da t a   i s   a   c r i t i c a l   a pp li c a t i o n .   I t h i s   s t ud y ,   t h e   a ut h o r   e v a l ua t e s   m a ny   e xi s t i n s c he du l e r s .   T h e   e xi s t i n s c he du l e r   h a s   i s s u e s   w hi c h   a r e   e xpe ns i ve   w i t h   a l i g ni ng   ge n o m i c   da t a   s e que n c e s .   E xi s t i n g   bi o i nf o r m a t i c s   s e que nc e   a li g n e r s   t h a t   m a ke   us e   o f   o r   e m b r a c e   Ha do o M a pR e duc e   s u f f e r   f r o m   t h e   c o n c e r ns   d i s c us s e i n   t hi s   s t ud y .   I n   t hi s   pa pe r ,   t h e   pr opo s e B L A S T - B S P M R   a l go r i t hm   i s   e m p l o y e to  a l i g s e que n c e s .   F o r   bi o s e qu e n c e   a li g nm e n t ,   t h e   B L A S T x   a l go r i t hm   i s   us e d,   a n a   p a r a l l e l   M a pR e duc e   e x e c ut i o a ppr o a c h   ba s e o A z ur e   c l o ud  i s   us e d   i t h e   B L A S T - B S P M R   c l o ud  p l a t f o r m .   T h e   M a a n d   R e duc e   f r a m e wo r a r e   e x e c ut e i n   pa r a l l e l   t t a ke   us e   o f   t h e   c l o ud  c o m put i n p l a t f o r m 's   vi r t ua l   m a c hin e - b a s e de s i g n .   A dd i t i o n a ll y ,   t h e   r e s e a r c h   c o m pa r e s   t h e   pr o p o s e B L A S T - B S P M R   t e c hni que   t o   pr e vi o us l y   p ubli s h e d   s y s t e m   s e qu e n c e   a li g nm e n t s .   E x pe r i m e n t s   a r e   c a r r i e o u t   wi t h   a   v a r i e t y   o f   n o n - r e du n da n t   pr ote i ns   a n d   n uc l e o t i de   que r y   s e que n c e   f il e s   o f   v a r i o us   s i z e s .   E x pe r i m e n t s   a r e   pr e s e n t e to   de m o n s t r a t e   t h e   e f f ic i e n c y   o f   t h e   B L A S T x   a l go r i t hm .   T h r o ugh   a n   e x pe r i m e n t a l   s t ud y ,   a   c o m p a r i s o n   w i t h   Ha do o p - B L A S T   f o r   s e que nc e   a l i g nm e n t   i s   pr e s e n t e d.   W he n   c o m pa r i ng  t h e   B L A S T - B S P M R   r e s u l t s   t o   t h e   Ha do o p - B L A S T   r e s u l t s ,   t h e   B L A S T - B S P M R   r e s u l t s   s h o a   s i g nif i c a n t   i m pr o ve m e n t .   T h e   a ut h o r s   p l a to   t e s t   t h e i r   t h e o r y   o a   va r i e t y   o f   r e dun da n t   da t a b a s e s   i t h e   f ut ur e   s uc h   a s   S w i s s P r ot   p r ot e i n ,   a n d   R E F S E a n a l s o   r un   v a r i e a p p l i c a t i o t h a t   a r e   a v a il a bl e   i N C B I   s uc h   a s   B L A S T n ,   a nd  B L A S T o o ur   pr o p o s e B S P M R   S c h e du l e r   t o   f ur t h e r   a n a ly s e   t h e   r o b us t n e s s   a n e f f i c a c y   o f   o ur   s c h e du ler .       RE F E R E NC E S     [ 1]   D C M a r in e s c u,  " P a r a ll e a nd  D is tr ib ut e C o mput in g:   M e m o r i e s   of   T im e   P a s a nd  a   G li mps e   a th e   F ut ur e , "   2014  I E E E   13t h   I nt e r nat io nal  Sy m pos iu m  on P ar al le and Dis tr ib ut e d C om put i ng , 2014, pp. 14 - 15, do i 10.1109/I S P D C .2014.33.   [ 2]   G a r tn e r . I n c ,   G a r tn e r   F o r e c a s ts   W o r ld w id e   P ubl i c   C lo ud  E nd - U s e r   S pe ndi ng  t o   G r o w   23%   in   2021 2021.   A c c e s s e d:   A pr .   21 2021 [ O nl in e ] A v a il a bl e ht tp s :/ /ww w .ga r tn e r . c o m/ e n/ n e w s r oo m/ p r e s s - r e l e a s e s /2 021 - 04 - 21 - ga r tn e r - f or e c a s ts - w or ld w id e - pub li c - c l o ud - e nd - us e r - s p e ndi ng - to - g r o w - 23 - p e r c e nt - in - 2021   [ 3]   W . H a s s a n, T S . C h o u,  T .  O ma r a nd  J . P i c ka r d,  C l o ud  c o mp ut in g s ur ve y   o n  s e r v i c e s , e nha n c e m e nt s  a nd c ha ll e ng e s  i n t h e   e r a  of   ma c hi ne   le a r n in g a nd da ta  s c ie n c e ,”   I nt  J  I nf  &  C om m un T e c hnol .,   vo l.   9, n o .   2, pp. 117 - 139, 2020, d o i:  10.11591/i ji c t. v 9i 2.   [ 4]   W H a s s a n,  T . - S C ho u,   X L i,   P A . - K ubi a nd  O T a m e r L a te s tr e nds c ha ll e ng e s   a nd  s o lu ti o ns   in   s e c ur it y   in   th e   e r a   of   c l o ud  c o mput in a nd  s of twa r e   d e f in e n e tw o r ks ,”   I nt   J   I nf   C om m un  T e c hnol .,  v o l.   8,  no .   3,  pp.  162 - 183,  2019,  do i:   10.11591/i ji c t. v 8i 3.pp162 - 183 .   [ 5]   P M e hr o tr a J D jo m e gr i,   S H e is ta nd,  a nd  R H oo d,   P e r f o r ma nc e   e v a lu a ti o of   A ma z o E C f o r   N A S A   H P C   a ppl ic a ti ons , "   P r oc e e di ngs  of  t he  3 r d w or k s hop on Sc ie nt i f ic  C lo ud  C om put in g , 2012,  pp. 41 - 50, do i :   10.1145/2287036.22 87045.   [ 6]   A G upt a   e al .,   " E v a lu a ti ng  a nd  I mpr ov in g   th e   P e r f or ma nc e   a nd  S c h e dul in of   H P C   A ppl ic a ti o ns   in   C lo ud, "   in   I E E E   T r ans ac ti ons  on C lo ud  C om put in g , vo l.  4, n o . 3, pp. 307 - 321, 1  J ul y - S e pt . 2016, d o i:  10.1109/ T C C .2014.2339858.   [ 7]   Z C a i,   X L i ,   a nd  J N D G upt a " H e ur is ti c s   f o r   P r ov is i o ni ng  S e r v i c e s   t o   W o r k f l o w s   in   X a a S   C l o uds ,"   in   I E E E   T r ans ac ti ons   on   Se r v ic e s  C om put in g , v o l.  9, n o . 2, pp. 250 - 263, 1 M a r c h - A pr il   2016, do i:  10.1109/ T S C .2014.2361320.   [ 8]   M C .   O kur   a nd  M B üy ükk e ç e c i,   " B ig   da ta   c ha ll e nge s   in   in f or ma ti o e ngi n e e r in c u r r i c ul um, "   2014  25t E A E E I E   A n nual   C onf e r e nc e  ( E A E E I E ) , 2014, pp. 1 - 4, d o i:  10.1109/ E A E E I E .20 14.6879372.    [ 9]   J D e a a nd  S G h e ma w a t,   " M a pR e du c e :   s im pl i f i e da ta   pr oc e s s in o la r ge   c lu s t e r s ,”   C om m uni c at io ns   of   th e   A C M ,   vo l.   51,     no .   1,   pp.   107 - 113,   2008 d o i 10.1145/1327452.13 27492.   [ 10]   T . W hi t e H adoop:   T he  de f in it iv e  gui de ,   O R e il l y  M e di a I nc .,  2012.   [ 11]   A H a d oo p,  2020. Ac c e s s e d:   S e p. 21, 2021.  [ O nl in e ] . A v a il a bl e ht tp :/ /h a doo p.a pa c he . or g   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2502 - 4752   I n do n e s i a n   J   E l e c   E n &   C o m S c i Vo l .   25 ,   N o .   2 F e b r ua r y   20 22 :   1078 - 108 6   1086   [ 12]   J Z hu,  J L i,   E .   H a r de s t y H J ia ng ,   a nd  K L i,   " G P U - in - H a d oo p:   E na bl in g   M a pR e duc e   a c r o s s   di s tr ib ut e d   he t e r o ge n e o us   pl a tf or ms , "   2014 I E E E /A C I S 13 th  I nt e r nat io nal  C onf e r e nc e  on  C om put e r  and I nf o r m at io n Sc ie nc e  ( I C I S) , 2014, pp. 321 - 326,  do i:   10.1109/I C I S .2014.6912154.     [ 13]   D D a hi pha le   e a l .,  " A n   A dv a n c e M a pR e du c e C l o ud  M a pR e du c e ,   E nha n c e m e nt s   a nd   A ppl ic a ti o ns , "   in   I E E E   T r ans ac ti ons   on  N e tw or k  and Se r v i c e  M anage m e nt , v o l.  11, n o . 1, pp. 101 - 115,  M a r c h 2014, doi:  10.1109/ T N S M .2014.031714.130407.     [ 14]   P K o ndi k o ppa   e al .,   " M a pR e du c e - B a s e d   R E S T M D :   E na bl i ng  L a r g e - S c a l e   S a mpl in g   T a s ks   w it D is tr ib ut e d   H P C   S y s t e ms ,"   2014 6th I nt e r nat io nal   W or k s hop on Sc ie nc e   G at e w ay s , 2014,  pp. 30 - 35, do i 10.1109/I W S G .2014.12.     [ 15]   S T a ng,  B L e e ,   a nd  B H e " D y na mi c M R A   D y na mi c   S l o A ll oc a ti o O pt im i z a ti o F r a me w or f o r   M a pR e du c e   C lu s te r s , "   in   I E E E  T r ans ac ti ons  on C lo ud C om put in g , v o l.  2, n o . 3, pp. 333 - 347, 1 J ul y - S e pt . 2014, d o i:  10.1109/ T C C .2014.2329299.   [ 16]   M Z a ha r ia A .   K o nw in s ki A D J o s e ph,  R K a tz a nd  I S to i c " I mpr ov in M a pR e du c e   p e r f or ma nc e   in   he t e r o g e n e o us   e n v ir o nm e nt s ,”   O s di ,   vo l.  8, n o . 4, pp.   29 - 42, 2008,   d oi 10.555 5/ 1855741.1855744.   [ 17]   Y T a o Q .   Z ha ng,  L S hi ,   a nd  P C h e n,  " J o S c h e dul in O pt im iz a ti o f or   M ul ti - us e r   M a pR e du c e   C lu s te r s , "   2011  F o ur th   I nt e r nat io nal   Sy m pos iu m   on  P ar al le A r c hi te c tu r e s ,   A lg or it hm s   and  P r ogr am m in g 2011,  pp.  213 - 217,  do i :   10.1109/P A A P .2011.33.     [ 18]   C K a us ha a nd  D K o unda l,   R e c e nt   T r e nds   in   B ig   D a ta   us in H a d oo p ,”   I nt e r nat io nal   J our nal   of   I nf or m at ic s   and  C om m uni c at io T e c hnol ogy ,”   I nt e r nat io nal   J ou r nal   o f   I n f or m at ic s   and  C om m uni c at io T e c hnol ogy ,   v o l.   8,   n o .   1,   pp.   39 - 49,   2019,   do i:  10.11591/i ji c t. v 8i 1.pp39 - 49.   [ 19]   M Z a ha r ia D B o r th a kur ,   a nd  J S .   S a r ma ,   " D e la y   s c h e dul in g a   s im pl e   t e c hni que   f or   a c h ie v in g   l oc a li t y   a nd   f a ir n e s s   in   c lu s te r   s c he dul in g ,”   P r oc e e di ngs   of   th e   5t E ur ope an  c on fe r e nc e   on  C om put e r   s y s te m s 2010,   pp.   265 - 278,   do i:   10.1145/1755913.17 55940.   [ 20]   C W a ng   e al .,   " M a pc he c kr e du c e a im pr ove d   ma pr e du c e   c o mput in m o d e f o r   im pr e c is e   a ppl i c a ti o ns ,”   I E E E   I n te r nat io nal   C ongr e s s  on B ig  D at a ,   2014, do i:  10.1109/ B ig D a ta .C o ngr e s s .2014.61.   [ 21]   G M a le w i c z M H A us te r n,  A J C B ik ,   a nd  J C D e hn e r t,   " P r e g e l:   a   s y s t e f o r   la r g e - s c a l e   gr a ph  p r oc e s s in g ,”   P r oc e e di ngs   o th e  2010 A C M  SI G M O D  I nt e r nat io nal  C onf e r e n c e  on M anage m e nt  of  dat a ,   2010,  pp.   135 - 146,   do i:  10.1145/1807167.1 80718 4.   [ 22]   L G V a li a nt ,   " A   br id gi ng  m o d e f o r   pa r a ll e c o mput a ti o n ,”   C om m uni c at io ns   o f   th e   A C M ,   v o l.   33,  n o .   8,  pp.   103 - 111,  1990,  do i:   10.1145/79173.7918 1.   [ 23]   T K a jd a no w i c z W I nd y k,  P K a z i e nk o a nd  J .   K ukul " C ompa r is o of   th e   E f f ic ie n c y   of   M a pR e duc e   a nd  B ul S y n c hr ono us   P a r a ll e A ppr o a c h e s   t o   L a r g e   N e tw o r P r o c e s s in g, "   2012  I E E E   12t I nt e r nat io nal   C onf e r e nc e   on  D at M in in W or k s hops ,   2012,   pp. 218 - 225, do i 10.1109/I C D M W .2012.135.    [ 24]   T N gu y e n,  W S hi ,   a nd  D R ude n,   " C lo udA l ig ne r A   f a s a nd  f ul l - f e a tu r e M a pR e duc e   ba s e t oo f or   s e que n c e   ma ppi ng ,”   B M C   r e s e a r c h note s v ol .   4, n o .   1,  pp.   1 - 7, 2011, d o i:  10.1186/1756 - 0500 - 4 - 171.   [ 25]   M C S c ha tz ,   C lo ud B ur s t:   hi ghl y   s e ns it i ve   r e a ma ppi ng   w it M a pR e duc e ,”   B io in f or m at ic s v o l.   25,   n o .   11,   2009,   do i:   10.1093/bi o in f or ma ti c s /b tp 236.       B I OG RA P HI E S   OF   AU T HO RS        Leen a   A m m a nn a           i s   cu rr e n t l y   a n   A s s i s t an t   Pro fes s o i n   t h d e p art men t   o f   I n f o r m at i o n   S ci e n ce   a n d   E n g i n ee ri n g ,   SD Co l l eg o E n g i n ee r i n g   a n d   T ec h n o l o g y ,   D h ar w a d ,   In d i a.   S h e   r ece i v e d   B . E .   a n d   M. T ech .   D e g r ee s   fro m   V i s v e s v ara y T ech n o l o g i c al   U n i v e rs i t y ,   K ar n at ak a,   I n d i a .   Sh e   h as   2 0   y e ars   o e x p eri en ce   i n   t e a c h i n g   an d   r e s e ar c h .   S h e   c an   b e   co n t a c t ed   at   l een ai g n at i u s ak ri @ g m a i l . co m .         J a g a dee s h g o w da           i s   Pro f e s s o an d   H e ad   o t h D e p art me n t   o C o m p u t er   Sci en ce   an d   E n g i n ee ri n g ,   Sh r i   K ri s h n I n s t i t u t e   o T ech n o l o g y ,   B e n g al u ru ,   In d i a.   H e   h as   an   e x p e ri en ce   o 2 4   y e ars   i n   r e s e ar ch ,   a c a d em i c s   an d   i n d u s t r y .   H e   r ecei v ed   h i s   Ph . D .   fr o U n i v e rs i t y   o J J T , In d i a.   Im ag e   p ro ce s s i n g , b i g   d at an a l y t i c s ,   an d   n e t w o rk   s ecu ri t y   ar e   h i s   m aj o re s e ar c h   i n t e r e s t s .   H e   h as   w i d e   p u b l i c at i o n s   i n   rep u t e d   i n t e rn at i o n a l   co n f e r en ce s   an d   j o u rn al s .   H e   h as   s u p e rv i s e d   fo u Ph . D .   a n d   5 0   p l u s   Po s t   G rad u at e   s t u d en t s .   H h as   r ece i v e d   g ran t s   fro m   G o v e r n me n t   o I n d i a .   H c an   b e   c o n t ac t e d   a t   h o d c s . s k i t b l r@ g m ai l . co m .         J a g a dee s h   P u ja ri           i s   Pro fe s s o an d   H e a d   o t h e   D e p art men t   o In fo r m at i o n   Sci en ce   a n d   E n g i n ee ri n g ,   S D C o l l e g e   o E n g i n ee r i n g   an d   T ech n o l o g y ,   D h ar w a d ,   In d i a.   H e   h as   an   e x p e ri en ce   o 3 2   y e ars   i n   r e s e ar ch ,   a c ad emi c s   an d   i n d u s t ry .   H e   r ece i v e d   h i s   Ph . D .   fro U n i v e rs i t y   o G u l b arg a,   K arn at ak a,   In d i a. H i s   r e s e a rc h   i n t e r e s t s   s p an   i m ag e   p ro ce s s i n g ,   p at t e rn   r eco g n i t i o n ,   b i g   d at an al y t i c s ,   a n d   m a ch i n e   l earn i n g .   H h as   w i d e   p u b l i c at i o n s   i n   re p u t ed   i n t e r n at i o n al   c o n f e r e n ce s   an d   j o u r n al s .   H e   h as   s u p e rv i s e d   fi v e   Ph . D .   an d   8 0   p l u s   Po s t   G r ad u at e   s t u d en t s .   H e   i s   t h e   i n v e s t i g at o f o s ev e ra l   p ro j ec t s   fu n d ed   b y   G o v e rn men t   o I n d i a   an d   I n d u s t ri e s .   H c an   b e   co n t ac t e d   at   j ag g u d p @ g m ai l . co m .     Evaluation Warning : The document was created with Spire.PDF for Python.