I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   6 ,   No .   6 Dec em b er   201 6 ,   p p .   2 9 1 1 ~ 2 9 1 9   I SS N:  2088 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v 6i 6 . 1 0 5 5 5           2911       J o ur na l ho m ep a g e h ttp : //ia e s jo u r n a l.c o m/o n lin e/in d ex . p h p /I JE C E   Big  Data  and M a pReduce   Cha llen g es, O ppo r tunit ie   a nd Trends       S a chin Ar u n T ha ne k a r 1 K .   Su bra h m a ny a m 2 ,   A.   B .   B a g w a n 3   1, 2 De p a rtem e n o f   Co m p u ter  S c ien c e   a n d   E n g in e e rin g ,   KL   Un iv e rsity V a d d e sw a ra m ,   G u n tu r,   In d ia   3 D e p a rte m e n o f   Co m p u ter E n g in e e rin g ,   RS COE,   T a th w a d e ,   P u n e ,   S S P U,  I n d ia       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   Ma r   2 1 ,   2 0 1 6   R ev i s ed   Oct   5 ,   2 0 1 6   A cc ep ted   Oct   21 ,   2 0 1 6     No w a d a y we   a ll   a re   su rro u n d e d   b y   Big   d a ta.  T h e   term   „Big   Da ta‟  it se lf  in d ica tes   h u g e   v o lu m e ,   h ig h   v e lo c it y ,   v a riet y   a n d   v e ra c it y   i. e .   u n c e rtain ty   o f   d a ta  w h ich   g a v e   rise   to   n e w   d if f i c u lt ies   a n d   c h a ll e n g e s .   Big   d a ta  g e n e ra ted   m a y   b e   stru c tu re d   d a ta,  S e m i   S tru c tu re d   d a ta  o u n stru c t u re d   d a ta.  F o r   e x isti n g   d a tab a se   a n d   s y ste m s   lo o f   d iff icu lt ies   a re   th e re   to   p ro c e ss ,   a n a ly z e ,   sto re   a n d   m a n a g e   su c h   a   Big   Da ta.   T h e   Big   Da ta  c h a ll e n g e a re   P r o tec ti o n ,   Cu ra ti o n ,   Ca p tu re ,   A n a ly sis,  S e a rc h in g ,   V isu a li z a ti o n ,   S to ra g e ,   T ra n s f e a n d   sh a rin g .   M a p   Re d u c e   is  a   f ra m e w o rk   u sin g   w h ich   w e   c a n   w rit e   a p p li c a ti o n to   p ro c e ss   h u g e   a m o u n o f   d a ta,  in   p a ra ll e l,   o n   larg e   c lu ste rs  o f   c o m m o d it y   h a rd w a re   in   a   re li a b le  m a n n e r.   L o o f   e ff o rts  h a v e   b e e n   p u b y   d if fe re n re se a r c h e rs  to   m a k e   it   s im p le,  e a s y ,   e ff e c ti v e   a n d   e ff i c ie n t.   In   o u r   su rv e y   p a p e w e   e m p h a siz e d   o n   th e   w o rk in g   o f   M a p   Re d u c e ,   c h a ll e n g e s,  o p p o rt u n it ies   a n d   re c e n tren d so   th a re se a rc h e rs  c a n   th in k   o n   f u rth e r   im p ro v e m e n t.   K ey w o r d :   B ig   d ata   C lo u d   co m p u tin g   Had o o p   HDFS   Ma p   r ed u ce   Co p y rig h ©   2 0 1 6   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   Sach i n   A r u n   T h an e k ar ,     Dep ar te m en t o f   C o m p u ter   Sci en ce   an d   E n g i n ee r in g ,   L   U n iv er s it y ,   Vad d es w ar a m ,   Gu n t u r   Dis tr ic t,  An d h r P r ad esh ,   I n d ia.   E m ail: sac h i n . t h an e k ar @ y a h o o . co . in       1.   I NT RO D UCT I O N   No w ad a y s   w all  ar s u r r o u n d ed   b y   h u g d ata.   P eo p le  u p lo ad /d o w n lo ad   v id eo s ,   au d io s ,   i m ag e s   f r o m   v ar iet y   o f   d ev ices.  Se n d in g   tex m e s s a g es,  m u lti m ed i m es s ag e s ,   u p d ati n g   th eir   Fa ce b o o k ,   W h ats A p p T w it ter   s tat u s ,   co m m en t s ,   o n l i n s h o p p in g ,   o n li n ad v er ti s i n g   etc.   g en er ate s   h u g d ata.   A s   r esu l t,  m ac h i n es   h av to   g e n er ate  an d   k ee p   h u g d ata  to o .   Du to   t h is   ex p o n en t ial  g r o w t h   o f   d ata  th a n al y s i s   o f   th at   d ata  b ec o m c h alle n g i n g   an d   d if f ic u lt.            Fig u r 1 .   Fo u r   Vs o f   B ig   Data     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E    Vo l.  6 ,   No .   6 Dec em b er   201 6   :   2 9 1 1     2 919   2912   As  s h o w n   i n   Fi g u r 1   t h ter m   B ig   Data   m ea n s   h u g v o l u m e,   h i g h   v elo cit y ,   v ar iet y   a n d   v er ac it y   i.e .   u n ce r tai n t y   o f   d ata.   T h is   b ig   d ata  is   i n cr ea s i n g   tr e m e n d o u s l y   d a y   b y   d a y .   T h B ig   d ata  g en er ated   m a y   b e   s tr u ct u r ed   d ata,   S e m Stru c tu r ed   d ata  o r   u n s tr u ctu r ed   d ata.   E x is ti n g   d atab ase s   a n d   to o ls   a r n o g o o d   en o u g h   to   p r o ce s s ,   an al y ze ,   s to r an d   m an a g s u c h   B ig   Data   e f f ec t iv el y   a n d   ef f icie n tl y   [1 - 3 ] .         2.   H ADO O P   Had o o p   is   an   o p en - s o u r ce ,   b ig   d ata  s to r ag an d   h ig h   s p ee d   d ata  p r o ce s s in g   s o f t w ar f r a m e w o r k .   As   s h o w n   i n   Fi g u r 2   it  u s es  cl u s ter s   o f   co m m o d it y   h ar d w ar to   s to r an d   p r o ce s s   b ig   d a ta  in   d i s tr ib u ted   f as h io n .   T r e m en d o u s   d ata  s to r ag e,   p r o ce s s in g   t h at  d ata  w it h   h ig h   s p ee d   ar m a k i n g   Had o o p   m o r s u itab le   f o r   b ig   d ata  p r o ce s s in g   [ 4 ]   Had o o p   clu s ter   is   s et  o f   c o m m o d it y   m ac h in e s   i n v o lv i n g   h u g e   s to r ag e   ca p ab ilit ies,  n et w o r k e d   to g eth er   in   o n lo ca tio n   i.e .   clo u d .   T h ese  clo u d   m ac h i n es   ar th e n   u s ed   f o r   Data   s to r a g a n d   p r o ce s s in g .   Fro m   i n d iv id u al   clie n t‟ s   u s er   ca n   s u b m it   th e ir   j o b s   to   clu s t er .   T h ese  clie n ts   m a y   b e   p r es en at   s o m r e m o te  lo ca tio n s   f r o m   t h Had o o p   clu s ter .   Di s tr ib u ted   f ile  s y s te m ,   f aster   p r o ce s s i n g ,   f a s ter   d ata  t r an s f er ,   g o o d   f au lt  to ler an ce   m ad Had o o p   v er y   e f f icie n an d   r eliab le.   Had o o p   tr an s f er s   co d to   d ata   w h ich   i s   tin y   a n d   c o n s u m e s   les s   m e m o r y .   A lo n g   w it h   d ata  r eq u ir ed   th is   ti n y   co d g et  ex ec u ted   th er it s el f .   As  d ata  is   lo ca ll y   av ailab le  o n   t h at  m ac h i n lo o f   ti m e,   co m p u ti n g   r eso u r ce s   ar s av ed .               Fig u r 2 .   Had o o p   C lu s ter         I n   o r d er   to   p r o v id b etter   d ata   av ailab ilit y   an d   f au l to ler an c r ep licatio n   o f   d ata  is   d o n e.   User   n ee d   n o to   w o r r y   ab o u p ar titi o n i n g   t h d ata,   d ata  an d   tas k   as s i g n m e n to   n o d es,  co m m u n ica ti o n   b et w ee n   n o d es.  As Ha d o o p   h an d les it a ll,  u s er   ca n   co n ce n tr ate  o n   d ata  an d   o p er atio n s   o n   th at  d ata.       2 . 1 .   I m po rt a nt  F ea t ures o f   H a do o p   2 . 1 . 1 .   L o w   Co st     As  Had o o p   is   an   o p en - s o u r ce   f r a m e w o r k ,   it  is   f r ee .   I u s es  co m m o d it y   h ar d w ar to   s to r an d   p r o ce s s   h u g d ata.   Hen ce   n o m u c h   co s tl y .     2 . 1 . 2 .   H ig h Co m p uting   P o w er       Had o o p   u s es  d is tr ib u ted   co m p u tin g   m o d el.   Du e   to   th is   ta s k   ca n   b d is tr ib u ted   a m o n g s t   d if f er en t   n o d es  an d   ca n   b p r o ce s s ed   q u ick l y .   C lu s ter   h a v th o u s a n d s   o f   n o d es  w h ic h   g iv e s   h i g h   c o m p u ti n g   ca p ab ilit y   to   Had o o p .     2 . 1 . 3 .   Sca la bil it y       No d es  ca n   b ea s il y   ad d ed   an d   r em o v ed .   E v e n   f ailed   n o d e s   ca n   b ea s il y   id en t if ied .   Fo r   all  th ese   ac tiv itie s   v er y   litt le  ad m i n is tr a tio n   is   r eq u ir ed .     2 . 1 . 4 .   H ug a nd   F lex ibl Sto r a g     Ma s s i v d ata  s to r ag i s   av a ilab le  d u to   th o u s an d s   o f   n o d es  in   t h cl u s ter .   I s u p p o r ts   b o th   s tr u ct u r ed   an d   u n s tr u ctu r ed   d ata.   No   p r ep r o ce s s in g   i s   r eq u ir e d   o n   d ata  b ef o r s to r in g   it.            Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2088 - 8708       B ig   Da ta   a n d   Ma p R e d u ce   C h a llen g es,  Op p o r tu n ities   a n d   T r en d s   ( S a ch in   A r u n   Th a n ek a r )   2913   2 . 1 . 5 .   F a ult  T o l er a nce  a nd   Da t a   P r o t e ct io     I f   an y   n o d f a ils   t h tas k s   in   h an d   ar au to m at icall y   r ed ir ec t ed   to   o th er   n o d es.  Mu ltip le  co p ies  o f   all   d ata  ar au to m atica ll y   s to r ed .   Du e   to   t h is   ev e n   i f   an y   n o d f ail s   t h at   d ata  is   av a ilab le  o n   s o m e   o th er   n o d es   also .     2 . 2 .   Co m pa riso n o f   H a do o p w i t T ra d it io na l R DB M S   T ab le  1   is   s h o w i n g   th e   d i f f er en ce   b et w ee n   tr ad itio n al  R D B MS  an d   Had o o p   w h ic h   i n d i ca tes  th a tr ad itio n al  d atab ases   ar n o t th at  m u c h   s u p p o r tiv f o r   b ig   d at a.       T ab le  1 .   Had o o p - R DB MS  C o m p ar i s io n   S r . N o .   H a d o o p   R D B M S   01   H a d o o p   s t o r e s b o t h   st r u c t u r e d   a n d   u n st r u c t u r e d   d a t a .   R D B M S   st o r e s d a t a   i n   a   s t r u c t u r a l   w a y .     02   S Q L   c a n   b e   i m p l e me n t e d   o n   t o p   o f   H a d o o p   a t h e   e x e c u t i o n   e n g i n e   S Q L   ( st r u c t u r e d   q u e r y   l a n g u a g e )   i s u s e d .   03   S c a l i n g   o u t   i n o t   t h a t   m u c h   e x p e n si v e   a s ma c h i n e s c a n   b e   a d d e d   o r   r e mo v e d   w i t h   e a se   a n d   l i t t l e   a d mi n i st r a t i o n .   S c a l i n g   u p   ( u p g r a d a t i o n )   i s v e r y   e x p e n si v e .   04   B a si c   d a t a   u n i t   i k e y / v a l u e   p a i r s.   B a si c   d a t a   u n i t   i s re l a t i o n a l   t a b l e s.   05   W i t h   M a p R e d u c e   w e   c a n   u se   s c r i p t a n d   c o d e t o   t e l l   a c t u a l   s t e p s i n   p r o c e ssi n g   t h e   d a t a .   W i t h   S Q L   w e   c a n   st a t e   e x p e c t e d   r e su l t   a n d   d a t a b a se   e n g i n e   d e r i v e s i t .   06   H a d o o p   i d e si g n e d   f o r   o f f l i n e   p r o c e s si n g     a n d   a n a l y si s o f   l a r g e - sca l e   d a t a .   R D B M S   i s   d e si g n e d   f o r   o n l i n e   t r a n s a c t i o n s.        2 . 3 .   H a do o p Sy s t e m   P rinci ples   2 . 3 . 1 .   Sca lin g   O ut      I n   T r ad itio n al  R DB MS   it  is   q u ite  d i f f ic u lt to   ad d   m o r h ar d w ar e,   s o f t w ar e   r eso u r ce s   i.e .   s ca le  u p .   I n   Had o o p   th is   ca n   b ea s il y   d o n i.e .   s ca le  d o w n .       2 . 3 . 2 .   T ra ns f er   co de  t o   da t a   I n   R DB MS  g en er all y   d ata  is   m o v ed   to   co d an d   r esu lts   ar s to r ed   b ac k .   A s   d ata    is   m o v i n g   t h er i s   al w a y s   s ec u r it y   th r ea t.  I n   H ad o o p   s m al co d is   m o v ed   to   d ata  an d   it  i s   e x ec u ted   t h er its el f .   T h u s   d ata  i s   lo ca l.  T h u s   Had o o p   c o r r elate s   p r ep r o ce s s o r s   an d   s to r ag e.     2 . 3 . 3 .   F a ult  T o lera nce   Had o o p   is   d esig n ed   to   co p u p   w it h   n o d f ail u r es.  As lar g n u m b er   o f   m ac h i n es    ar th er e,   n o d e   f ail u r is   v er y   co m m o n   p r o b lem .     2 . 3 . 4 .   Abs t ra ct io n o f   Co m ple x it ies   Had o o p   p r o v id es p r o p er   in ter f ac es b et w ee n   co m p o n e n ts   f o r   p r o p er   w o r k in g .     2 . 3 . 5 .   Da t a   pro t ec t i o n a nd   Co n s is t enc y   Had o o p   h an d les s y s te m   lev el  ch alle n g e s   as it s u p p o r ts   d ata  co n s is ten c y .     2 . 4 .   B uil din g   B lo cks   o f   H a do o   As  s h o w n   in   Fi g u r 3   s et   o f   r esid en p r o g r a m s   i.e .   d ae m o n s   ar r u n n in g   i n   Had o o p .   T h ese   d ae m o n s   m a y   b r u n n i n g   o n   t h s a m e   s er v er   o r   o n   t h d i f f er en s er v er s   i n   th e   n et w o r k .   A ll   t h ese  d ae m o n s   h av s o m s p ec i f ic  f u n ctio n ali t y   as s ig n ed   to   th e m .   L e t u s   s ee   th ese  d ae m o n s ,             Fig u r 3 .   Had o o p   C lu s ter   T o p o lo g y       2 . 4 . 1 .   Seco nd a ry   Na m eNo de   T h Seco n d ar y   Na m eNo d ( SNN)   m o n ito r s   t h s tate  o f   t h cl u s ter   H DFS.  E ac h   cl u s t er   h as  o n e   SNN  w h ic h   r es id es  o n   it s   o w n   m ac h i n al s o .   On   t h s a m s er v er   a n y   o th er   Data No d o r   T ask T r ac k er   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E    Vo l.  6 ,   No .   6 Dec em b er   201 6   :   2 9 1 1     2 919   2914   d ae m o n s   ca n n o b r u n .   Na m eNo d also   p r o v id es  s n ap s h o ts   o f   th e   HDF m e tad ata  at   r eg u lar   in ter v al s   t o   SNN.       2 . 4 . 2 .   Na m eNo de   I is   th Ma s ter   n o d in   HD FS .   I p r o v id es  in s tr u ct io n s   to   s la v ( Data No d e)   f o r   in p u o u tp u task s   o f   lo w   le v el.   T h Na m e No d k e ep s   tr ac k   o f   f ile s   b r o k en   d o wn   in to   f ile  b lo c k s ,   n o d es  s to r in g   t h e s b lo ck s   a n d   t h o v er all   f u n ctio n alit y   o f   th d is tr ib u ted   f ile  s y s te m .   Na m eNo d is   t h o n l y   s i n g l p o in o f   f a ilu r e   co m p o n e n t i n   HD FS .     2 . 4 . 3 .   Da t a No de   Na m eNo d tells   clien th b lo ck   ad d r ess es  in   Data No d es.  T h u s   clien ca n   d ir ec tl y   co m m u n ica te  to   Data No d eto   p r o ce s s   th lo ca f ile s   i n s id t h o s b lo ck s .   Fo r   r ep licatio n   o f   d ata  o n Data No d m a y   co m m u n icate   w it h   o t h er   Dat aNo d d ir ec tly .   Data No d es  c o n tin u all y   p r o v id es  i n f o r m ati o n   to   Na m eNo d e   r eg ar d in g   lo ca ch a n g es.  Data No d also   r ec eiv es   in s tr u c tio n s   f o r   cr ea tio n   o r   m o v e m e n t   o r   d e letio n   o f   b lo ck s   f r o m   t h lo ca l d is k .     2 . 4 . 4 .   J o bT ra ck er   T h J o b T r ac k er   d eter m in e s   t h ex ec u t io n   p lan .   I d eter m i n e s   f ile s   to   p r o ce s s ,   n o d ass i g n m en ts   f o r   d if f er e n ta s k s ,   tas k s   m o n ito r i n g   e tc.   T h er is   o n l y   o n e   J o b T r ac k er   d ae m o n   p er   Had o o p   clu s ter .   I r u n s   o n   a   s er v er   as a   m a s ter   n o d o f   th clu s ter .     2 . 4 . 5 .   T a s kT ra c k er   I n d iv id u a tas k s   a s s i g n ed   b y   J o b T r ac k er   ar ex ec u ted   b y   T ask T r ac k er .   T h er is   s in g le   T ask T r ac k er   p e r   s lav n o d e.   T ask T r ac k er   m a y   h a n d le  m u l tip le  task s   p ar allell y   b y   u s i n g   m u ltip le  J VM s .   T ask T r ac k er   co n s tan tl y   co m m u n icate s   w i th   th e   J o b T r ac k er .   W ith i n   s p ec if ied   a m o u n t   o f   ti m e   i f   t h T ask T r ac k er   f ails   to   r esp o n d   to   J o b T r ac k er   th en   it  i s   ass u m ed   t h at  t h T ask T r ac k er   h a s   cr ash ed .   C o r r esp o n d in g   ta s k s   ar r esu b m itted   to   o th er   n o d es i n   th cl u s ter .   T h in ter ac tio n   b et w ee n   J o b T r ac k er   an d   T ask T r ac k er   is   s h o w n   b y   Fi g u r 4 .           Fig u r 4 .   J o b T r ac k er   an d   T ask T r ac k er   I n ter ac tio n       2 . 5 .   H a do o p L i m it a t io   Had o o p   ca n   p er f o r m   o n l y   b atch   p r o ce s s i n g   a n d   s eq u en t ial  ac ce s s .   Seq u e n tial  ac ce s s   is   ti m e   co n s u m i n g .   So   n e w   tec h n iq u is   n ee d ed   to   g et  r id   o f   th is   p r o b lem .       2 . 6 .   H a do o p Distr ibu t ed  F ile  Sy s t e m   ( H DF S)   HDFS  ca n   s to r v er y   lar g f il es.  I s u p p o r ts   s tr ea m in g   d ata  ac ce s s   p atter n s .   HDF r u n s   o n   clu s ter s   o n   co m m o d it y   h ar d w ar e.   HDF S h as  f o llo w i n g   i m p o r tan t c h a r ac ter is tics ,     a.   Hig h l y   f a u lt - to ler an t   b.   Hig h   th r o u g h p u t   c.   Su p p o r ts   ap p licatio n   w ith   m a s s iv d ata  s et s   d.   Stre a m i n g   d ata  ac ce s s   e.   E asil y   b u ilt o n   co m m o d it y   h ar d w ar e.       I n   HDFS  f ile  is   c h o p p ed   in to   6 4 M B /1 2 8 MB   ch u n k s   an d   th en   s to r ed   k n o w n   as  b lo ck s .   As  s h o w n   in   Fi g u r 5   HDFS  cl u s ter   h as   t w o   t y p e s   o f   n o d   Ma s ter   ( Na m eNo d e)   an d   Sla v ( Data No d e) .   Nam eNo d e   m an a g e s   t h n a m e s p ac o f   t h f iles y s te m .   I m a in ta in s   t h f ile  s y s te m   tr ee .   T h m e t ad ata  co n tain s   t h e   in f o r m atio n   ab o u al t h d ir e cto r ies  an d   f ile s   i n   t h tr ee   is   also   s to r ed .   T h is   i n f o r m atio n   i s   s to r ed   co n s tan t l y   o n   th lo ca l d is k   in   t h f o r m   o f   t w o   f ile s : t h n a m e s p ac i m a g an d   th ed it lo g .       T h r o u g h   th e   co m m u n icatio n w it h   th e   Na m e n o d an d   Data n o d es  cl ien t   ca n   g et  t h ac ce s s   o f   t h e   f iles y s te m .   T h u s er   co d is   u n a w ar ab o u w h ic h   Na m en o d an d   Data n o d ar f u n ctio n .   On l y   a f ter   Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2088 - 8708       B ig   Da ta   a n d   Ma p R e d u ce   C h a llen g es,  Op p o r tu n ities   a n d   T r en d s   ( S a ch in   A r u n   Th a n ek a r )   2915   in s tr u ctio n s   f r o m   Na m eNo d e,   Data n o d e s   s to r an d   r etr iev b lo ck s .   A th s a m ti m e,   t h e y   ar p r o v id in g   s to r ag u p d ates to Na m eNo d e.           Fig u r 5 .   HDFS  A r ch i tectu r e       3.   M AP RE DUCE   Hu g a m o u n o f   d ata  ca n   b ea s il y ,   e f f icie n tl y   p r o ce s s ed   b y   Ma p   R ed u ce   w it h   g r ea p ar allelis m .   Mo r eo v er ,   th ese  ap p licatio n s   ca n   r u n   o n   cl u s ter s   o f   co m m o d it y   h ar d w ar w h ic h   m a k es i s u itab le  f o r   s ca l in g .   Ma p   R ed u ce   i s   b ased   o n   j av a.   T h Ma p   R ed u ce   a lg o r it h m   c o n tain s   Ma p   ta s k   an d   R ed u ce   tas k .   T h g e n er al   Ma p R ed u ce   d ataf lo w   i s   as  s h o w n   in   F ig u r 6 .   I n   Ma p   task   in d iv id u al  ele m en ts   ar b r o k en   d o w n   in to   tu p les   also   k n o w n   as   k e y / v al u p air s .   R ed u ce   tas k   f u r th er   ta k e s   t h e s i n ter m ed iate   t u p les  a s   a n   i n p u t.  T h en   R ed u ce   task   co m b i n es  i in to   s m all er   s et  o f   tu p les.  R ed u ce   tas k   ca n   b s tar ted   o n l y   a f ter   th co m p let io n   o f   Ma p   task   [ 5 - 8 ].              Fig u r 6 .   T h Gen er al  Ma p r ed u ce   Data f lo w       3 . 1 .   M a p Re du ce   co re   f un ct io ns   a.   I n p u t r ea d er     Div id es i n p u t i n to   s m all  p ar ts   / b lo ck s .   T h ese  b lo ck s   th e n   g e t a s s i g n ed   to   Ma p   f u n ctio n .     b.   Ma p   f u n ctio n     I n d iv id u a l e le m e n t s   ar b r o k en   d o w n   in to   tu p les al s o   k n o w n   as k e y /v al u p air s .     c.   Sh u f f le  a n d   So r t   P ar titi o n   f u n ctio n     W ith   th g i v en   k e y   a n d   n u m b er   o f   r ed u ce r s   it f i n d s   th co r r ec t r ed u ce r .     C o m p ar f u n c tio n     Ma p   in ter m ed iate  o u tp u ts   ar s o r ted   ac co r d in g   to   th is   co m p a r f u n ctio n .     d.   R ed u ce   f u n ctio n   C o m b i n es i n ter m ed iate  t u p les  in to   s m aller   s et  o f   t u p les a n d   g iv e s   it to   o u p u t.   e.   Ou tp u w r i ter     Giv es  f ile  o u tp u t.   L et  u s   u n d er s ta n d   Ma p R ed u ce   w o r k i n g   w it h   an   e x a m p le,     Fil e1 : " Hi  Sru s h ti Hi  S h r u ti"       Fil e2 : " B y Sru s h t i B y S h r u ti "   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E    Vo l.  6 ,   No .   6 Dec em b er   201 6   :   2 9 1 1     2 919   2916   Nu m b er   o f   o cc u r r en ce s   o f   ea c h   w o r d   ac r o s s   d if f er en t f i les ar to   b co u n ted .     T h r ee   o p er atio n s   w i ll b th er as f o llo w s ,     Map   Ma p 1             Ma p 2   Hi,   1   >           <B y e,   1   >   <Sr u s h ti,  1   >           <Sr u s h ti,  1   >   Hi,   1   >           <B y e,   1   >   <Sh r u ti,  1   >           <Sh r u ti,  1   >     C o m b i n e   C o m b i n Ma p 1           C o m b i n Ma p 2   <Sr u s h ti,  1   >           <Sr u s h ti,  1   >   <Sh r u ti,  1   >           <Sh r u ti,  1   >   Hi,   2   >           <B y e,   2   >             R ed u ce   <Sr u s h ti,  2   >                   <Sh r u ti,  2   >   <B y e,   2   >   Hi,   2   >     3 . 2 .   Nu m ber  o f   M a pp er s   a nd   Reducer s   Am o u n o f   d ata  an d   th b lo ck   s ize  d ec id es  t h n u m b er   o f   Ma p s .   Had o o p   A P I   w it h   t h s etNu m Ma p T ask s ( i n t )   m et h o d   p r o v id es  th c u r r en n u m b er   o f   m ap p er s   i n   t h s y s te m .   A   n u m b er s   o f   R ed u ce r s   ar d ir ec tl y   r elate d   to   th Ma p p er 's  i n p u t.   A s   p er   s p ec if ica tio n   i w il b ex ec u ted .   Ma p   R ed u ce   co m m a n d   - m ap r ed .   r e d u ce   ca n   s et  t h n u m b e r   o f   R ed u ce r s   at  r u n ti m e   as  w ell.   co n f .   s etNu m R ed u ce T ask s ( in t)   is   t h m et h o d   th r o u g h   w h ic h   p r o g r a m m er s   ca n   s et  it  w i th   co d i n g .     3 . 3 .   F a ilu re   H a nd lin g   in M a p Re du ce   Ma ch i n f ail u r h a n d lin g   is   v er y   i m p o r tan asp ec o f   Ma p   R ed u ce   as  it  u s es  h u n d r ed s   o r   th o u s a n d s   o f   co m m o d it y   m ac h in e s .   T h er ar t w o   t y p es   o f   b asic  f ail u r es a s   Ma s ter   n o d f ail u r o r   W o r k er   n o d f ai lu r e.   I f   Ma s ter   n o d f ail s ,   t h en   all   Ma p   R ed u ce   tas k   i s   a b o r ted .   T h w h o le  ta s k   is   to   b a s s i g n ed   to   n e w   Ma s ter   n o d an d   ag ain   i t h a s   to   b r ed o n e.     Ma s ter   co n s ta n tl y   c h ec k s   t h w o r k er   s tatu s   i n   o r d er   to   ch ec k   f a ilu r e.   I f   w o r k er   d o es  n o r esp o n d   to   m aster   i n   ti m e,   t h en   it  is   m ar k ed   as  f ailed .   I f   m ap   tas k   w o r k er   f ail s ,   t h en   w i th   n o   co n s id er atio n   o f   an y   m ap   task s   s tate  i . e.   w h eth er   it  is   i n   p r o g r ess / co m p leted   etc.   w o r k er s   ar r eset  to   th eir   in itial  id le  s tate.   T h task   th en   w ill  b a s s i g n ed   to   o th er   id le  w o r k er .   I f   r ed u ce   ta s k   f a ils   a n   id le  w o r k er   i s   ch o s en   f o r   r ea s s ig n m e n o f   th tas k   ir r esp ec tiv o f   an y   tas k   s tate.       3 . 4 .   Da t a   Sto ra g a nd   Replica t io n in M a p Re du ce     I n   Ma p   R ed u ce   co m p leted   r ed u ce   task s   o u tp u is   s to r ed   in   g lo b al  f ile  s y s te m .   T h u s   r e - e x ec u tio n   o f   co m p leted   r ed u ce   tas k s   is   n o r eq u ir ed .   L o ca d is k s   ar u s ed   to   s to r e   th r esu lts   o f   m a p   task s .   I n   ca s o f   f ail u r it c an   b r e - e x ec u ted   f r o m   lo ca l d is k s .       3 . 5 .   M a pReduce  Cha lleng es   Fo llo w i n g   ar th li m itatio n s   o f   Ma p R ed u ce   id en t if ied   [ 9 - 1 3 ],   1)   No   r ed u ce   ca n   b eg in   u n til all  m ap s   ar co m p lete   2)   Ma p   r ed u ce   r ed u ce   task   s tar ts   o n l y   a f ter   f i n i s h i n g   o f   t h all  m ap   tas k s .     3)   Ma s ter   m u s t c o m m u n icate   lo c atio n s   o f   i n ter m ed iate  f i les.   4)   Af ter   e v er y   m ap   tas k   lo t   o f   in ter m ed iate  d ata  i s   g e n er ated   a n d   it  is   to   b s to r ed   a n d   also   t o   b e   in f o r m ed   to   o th er s .   5)   T ask s   s ch ed u led   b ased   o n   lo ca tio n   o f   d ata.   6)   L o t o f   co m p u tatio n   i s   r eq u ir ed   to   p r o v id d ata  l o ca tio n   an d   th en   to   allo ca te  r eso u r ce s   o n   th at  lo ca tio n .     7)   B ef o r r ed u ce   f in i s h e s   if   m ap   w o r k er   f ails ,   ta s k   m u s t b co m p letel y   r er u n   8)   I f   m a s ter   f ails   th e n   t h w h o le  Ma p   R ed u ce   tas k   g et  ab o r ted ,   an d   it  h as  to   b r ed o n af ter   ass i g n in g   n e m aster   n o d e.   9)   I n ter m ed iate  d ata   10)   L o ts   o f   i n ter m ed iate  d ata  is   g e n er ated .   Af ter   u s it is   d estro y ed .   Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2088 - 8708       B ig   Da ta   a n d   Ma p R e d u ce   C h a llen g es,  Op p o r tu n ities   a n d   T r en d s   ( S a ch in   A r u n   Th a n ek a r )   2917   11)   Hete r o g en eo u s   d ata   Data   is   co m i n g   f r o m   d i f f er en s o u r ce s   an d   d i f f er e n t f o r m ats.       4.   RE SU L T A ND  AN AL Y SI S   I n   th i s   s ec tio n   w w ill d is c u s s   th w o r k   d o n b y   d if f er e n t r es ea r ch er s   o n   d if f er en t c h alle n g es,      4 . 1 .   Cha lleng I :   No   Reduce  c a B eg in Unt il a ll  M a ps   a re   C o m p let e   I n   Ma p   R ed u ce ,   r ed u ce r   ca n n o s tar it s   p r o ce s s in g   till   t h co m p letio n   o f   all  t h m ap p in g   tas k s .   T h m aj o r   d r aw b ac k   o f   t h is   te ch n iq u is   t h at  r ed u ce r s   h a v to   w ait  u n n ec es s ar il y .   I n   o th er   s en s it  is   n o a n   ef f ec tiv a n d   ef f icie n u s o f   r eso u r ce s .     A b d e R a h m a n   E ls a y ed   et  al. ,   [ 11 d o n in v e s ti g atio n   o n   Ma p R ed u ce   r esear ch   tr en d s ,   an d   cu r r en r esear ch   ef f o r ts .   T h ey   s u g g e s ted   th at  n e w   a lg o r it h m s   ca n   b d ev elo p ed   o r   f r a m e w o r k   c an   b m o d i f ied   in   o r d er   t o   im p r o v t h p er f o r m a n ce   o f   Ma p R ed u ce .     Dh o le  P o o n a m   et   al. ,   [ 14 ]   p r o p o s ed   s o lu tio n   f o r   th i s   p r o b l e m .   I n   t h eir   w o r k   p ip eli n ed   m ap   r ed u ce   m ap p er   ca n   s e n d   its   o u tp u t d ir ec tl y   to   r ed u ce r   as   a n   i n p u t.   T h u s   co m p letio n   ti m e,   s y s te m   u tili za tio n   f o r   b atc h   j o b s   ar im p r o v ed .     4 . 2 .   Cha lleng I I :   M a s t er   m us t   C o mm un ica t L o c a t io ns   o f   I n t er m ed ia t F iles   Dian Mo i s et  a l. ,   [ 5 ]   p r o p o s ed   th u s o f   B lo b Seer   d ata  m a n ag e m e n s er v ice  f o r   s to r in g   in ter m ed iate  r esu lts .   I i s   f a u lt - to ler an t,  co n cu r r en c y   o p ti m ized   d ata  s to r ag la y er .   T h u s   it  i s   an   a lter n ati v e   f o r   lo ca s to r ag o f   th m ap p er s .   T h u s   th i n ter m ed iate  d ata   ca n   b m a in ta in ed   s ep ar atel y   an d   later   o n   it   ca n   b u s ed   ag ai n .       4 . 3 .   Cha lleng I I I :   T a s ks   Sche du led B a s e d o Lo ca t io n o f   Da ta   Nila m   Kad ale  et  al. ,   [1 5 ]   s tated   th at  in   Ma p r ed u ce   f r a m e w o r k   d if f er en ta s k   s ch ed u li n g   m e th o d s   ar u s ed   to   s ch ed u le  th ta s k .   Su r v e y   o f   v ar io u s   tas k   s c h ed u li n g   m eth o d s   o f   Ma p r ed u ce   f r a m e w o r k   i s   d o n e.     J u n   L i u   e al. ,   [1 6 ]   in tr o d u ce d   d y n a m ic   p r io r it y   s c h ed u lin g   a n d   r ea l - ti m p r ed ictio n   m o d el.   T h e y   in tr o d u ce d   th d ata  lo ca lit y   alg o r ith m   w h ic h   h as  m i n i m u m   co s an d   also   co n s id er s   w ei g h t.  R ea l - ti m e   p r ed ictio n   m o d el  i s   u s ed   to   b etter   s er v d i f f er en t   s ize   j o b s .   T h e y   al s o   s tated   th at   r es o u r ce   u ti lizatio n   o f   u n e x ec u ted   tas k s   ca n   b p r ed icted   b y   ca lc u lati n g   t h r u n n in g   tas k s .     B o   Z h an g   et  al. ,   [1 7 ]   p r o p o s e d   f ee d b ac k   co n tr o lo o p   b ased   ap p r o ac h .   B ased   o n   th cu r r en s tate   o f   th e   clu s ter   t h e y   d y n a m ical l y   ad j u s ted   t h Had o o p   r eso u r ce   m an a g er   co n f i g u r atio n .   T h e y   i m p r o v ed   t h e   p er f o r m a n ce   o f   t h s y s te m   b y   3 0 % a s   co m p ar ed   to   d ef au lt H ad o o p   s etu p .   Mu h a m m ad   I d r is   e al. ,   [ 18 ]   p r o v id ed   g o o d   s u r v e y   o n   Had o o p   Ma p R ed u ce   s c h ed u li n g   an d   en h a n ce m en ts   d o n s o   f ar .   T h e y   a ls o   d is c u s s ed   o p en   i s s u es,  ch alle n g es  r elate d   to   th e   s ch ed u lin g   d o n i n   Ma p R ed u ce .       4 . 4 .   Cha lleng I V:   B ef o re   Reduce  F ini s he s   if   M a p Wo rk er   F a ils ,   T a s k   M us t   be  Co m plet e ly   Rer un   I n   o r d er   to   s o lv th is   p r o b le m ,   th s a m tas k   ca n   b ex ec u t ed   o n   d if f er e n n o d es.  T h n o d w h ich   f i n is h es e x ec u tio n   f ir s g iv e s   o u tp u t.  T h en   s i m p l y   w ca n   ab o r t a ll o th er   ex ec u tio n s   [ 12 ] .       4 . 5 .   Cha lleng V:   I nte r m ed ia t D a t a   Yax io n g   Z h ao   et  al. ,   [1 9 ]   p r o p o s ed   n o v el  Dac h e   ( Data   Aw ar C ac h e)   tech n iq u e.   C ac h m a n a g er   g ets  i n ter m ed iate  r es u lts   f r o m   d if f er e n tas k s .   B ef o r ex ec u ti n g   a n y   tas k ,   task   q u er ies  t h ca ch m a n ag er .   I f   it  is   av ailab le  i n   ca ch t h en   s a m is   u s ed ,   if   n o th e n   o n l y   n e w   co m p u ti n g   is   d o n e.   T h ey   d e s ig n ed   a   n e ca ch r eq u est  an d   r ep l y   p r o to co l,  ca ch d escr ip tio n   s ch em e.   T h r o u g h   t h eir   r esu l ts   th e y   h a v s h o w n   th e   s ig n i f ica n t i m p r o v e m e n t i n   th co m p letio n   ti m o f   Ma p R ed u ce   j o b s .   R .   Ud en d r an   et  al. ,   [ 20 ]   d o n r ev ie w   o n   th d ata - a w ar ca ch ( Dac h e)   f o r   b ig   d ata  a p p licatio n s .   T h ey   also   s tated   t h at  b etter   l i f e - ti m m an a g e m e n o f   ca c h is   r eq u ir ed   if   it  r eq u ir e s   h u g a m o u n t   o f   ca c h e.   Dian Mo is et  al. ,   [ 5 ]   in   th ei r   p ap e r   f o cu s ed   o n   in ter m ed i ate  d ata  g en er ated   in   m ap   r ed u ce   p r o ce s s .   T h ey   p r o p o s ed   n e w   s to r ag m ec h an is m   f o r   in ter m ed iate  d ata  o n   th B lo b Seer   d ata  m a n ag e m en s er v ice.   Fail u r e   h an d li n g ,   m i n i m u m   e x ec u t io n   ti m e,   co n cu r r en c y   co n tr o etc .   ar m an a g ed   p r o p er ly .   T h u s   r ed u ce d   th lo ca l   s to r ag d ep en d en c y .   T h u s   r eu s o f   in ter m ed iate  d ata  is   p o s s ib le.   Mr u d u la  Var ad et   al. ,   [2 1 ]   g iv en   g o o d   co m p ar ativ s tu d y   o f   m etad ata  m a n ag e m e n s ch e m es.   T o   m ai n tai n   r eliab ilit y ,   m etad ata  is   r ep licated   in   d if f er en Na m eNo d es.  L o g   r ep licatio n   tech n o lo g y   i s   u s ed   f o r   r ep licatio n .   T o   m ai n tai n   r e p licatio n   co n s i s te n c y   P ax o s   al g o r ith m   is   u s ed .       Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E    Vo l.  6 ,   No .   6 Dec em b er   201 6   :   2 9 1 1     2 919   2918   4 . 6 .   Cha lleng VI:  H et er o g eneo us   Da t a   J u n   Q u   et  a l. ,   [2 2 ]   p r o p o s ed   n e w   f r a m e w o r k   ca lled   a s   Ma p - R ed u ce - Me r g e.   W eb   h et er o g en eo u s   d ata  p r o ce s s in g   is   e f f icie n tl y   d o n e.   T h ey   d o n t h eir   ex p er i m e n ts   o n   f ea t u r es o f   w eb   d ata.     Nen a v ath   Sri n i v as  Nai k   et  al. ,   [ 2 3 ]   p r o p o s ed   Ma p   R ed u ce   R ein f o r ce m e n L ea r n i n g   s c h e d u ler .   T h is   s ch ed u ler   s u g g est s   th r e - ex ec u tio n   o f   s lo w er   tas k s   to   o th er   av ailab le  n o d es b y   o b s er v i n g   t h s y s te m   s ta te  an d   task   ex ec u tio n .   T h u s   f aster   e x ec u tio n   o f   th e   tas k   ca n   b d o n e.   No   p r io r   k n o w led g e   o f   th e   s y s te m   is   r eq u ir ed .   T h u s   o v er all  j o b   co m p letio n   ti m is   s ig n i f ica n tl y   m in i m ized .       5.   CO NCLU SI O N     B ig   d ata  is   in cr ea s in g   tr e m e n d o u s l y   d a y   b y   d a y   w h ich   g a v r is to   n e w   d if f ic u ltie s   an d   ch a llen g es  a s   w h a v to   s to r e,   p r o ce s s ,   an aly ze ,   m o d if y   s u c h   h u g a m o u n o f   d ata.   E x is ti n g   d atab ases ,   to o ls   ar n o g o o d   en o u g h   to   h a n d le  t h is   is s u e.   I n   o u r   p ap er   w e   h a v p r o v id ed   o v er v ie w   o f   t h b ig   d ata,   its   c h alle n g e s   w it h   r esp ec t to   Ma p   r ed u ce .   Ma n y   ef f o r t s   tak e n   to   r ed u ce   th o s c h alle n g e s   ar also   d is cu s s ed .   T h u s   b etter   p lan n i n g   o f   B ig   Data   p r o j ec ts   ca n   b d o n e.   Fo r   r esear ch er s   o p p o r tu n i ties   f o r   f u t u r r esear ch   ca n   b id en ti f ied .       RE F E R E NC E S   [1 ]   Ha sh e m   I .   A .   T . e a l. ,   T h e   rise   o f   b ig   d a ta  o n   c lo u d   c o m p u ti n g Re v ie a n d   o p e n   re se a rc h   issu e s ,   El se v ier   In fo rm a t io n   S y ste ms ,   v o l.   4 7 ,   p p .   9 8 1 1 5 ,   2 0 1 5 .   [2 ]   W a n g   L .   a n d   A lex a n d e C .   A . ,   Big   Da ta:  In f ra stru c tu re ,   tec h n o l o g y   p ro g re ss   a n d   c h a ll e n g e s , ”  J o u rn a l   o D a t a   M a n a g e me n a n d   C o mp u ter   S c ien c e v o l/ issu e 2 ( 1 ),   p p .   0 0 1 - 0 0 6 ,   2 0 1 5 .   [3 ]   W .   F a n   a n d   A .   Bi f e t,   M in in g   Big   Da ta:  Cu rre n S tatu s,  a n d   F o re c a st  to   th e   F u t u re , ”  S IGKD Exp lo ra t io n s v o l/ issu e 1 4 (2 ),   2 0 1 2 .   [4 ]   P .   Bh a ti a   a n d   S .   G u p ta,  Co rre l a ted   A p p ra isa o f   Big   Da ta,  Ha d o o p   a n d   M a p Re d u c e , ”  Ad v a n c e in   C o mp u ter   S c ien c e An   I n ter n a ti o n a l   J o u r n a l v o l/ issu e 4 (4 ),   p p .   1 6 ,   2 0 1 5 .   [5 ]   D .   M o ise ,   e a l. ,   Op ti m izin g   In term e d iate   Da ta  M a n a g e m e n in   M a p   Re d u c e   Co m p u tatio n s ,   1 st  In ter n a ti o n a l   W o rk sh o p   o n   Cl o u d   C o mp u ti n g   P la tf o rm s ,   2 0 1 1 .   [6 ]   S .   A g a r wa l   a n d   Z .   K h a n a m ,   M a p   Re d u c e A   S u rv e y   P a p e o n   Re c e n Ex p a n sio n , ”  In ter n a ti o n a J o u rn a o f   Ad v a n c e d   Co mp u ter   S c ien c e   a n d   Ap p li c a ti o n s v o l /i ss u e 6 (8 ),   2 0 1 5   [7 ]   N .   M a ll e sw a ri  T .   Y .   J .   a n d   V a d iv u   G . ,   M a p Re d u c e Tec h n ica Re v ie w , ”  In d ia n   J o u r n a o sc ien c e   a n d   te c h n o l o g y v o l/ issu e 9 (1 ),   p p .   1 - 6 ,   2 0 1 6 .   [8 ]   K .   A .   A l m o h se n   a n d   H .   Al - Jo b o ri,   Re c o m m e n d e S y ste m s   in   L ig h o Big   D a ta ,   In ter n a ti o n a J o u rn a o f   El e c trica a n d   C o mp u ter   En g in e e rin g   ( IJ ECE ),   v ol /i ss u e :   5 ( 6 ) ,   p p .   1 5 5 3 ~ 1 5 6 3 ,   2 0 1 5 .     [9 ]   D .   Zh a n g ,   In c o n siste n c ies   i n   Big   Da t a , ”  1 2 th   IEE In t.   Co n f.   o n   Co g n it ive   In f o rm a ti c &   Co g n it i v e   Co mp u ti n g 2 0 1 3 .   [1 0 ]   H .   Ba g h e ri   a n d   A .   A .   S h a lt o o k i,   Big   Da ta:  Ch a ll e n g e s,  Op p o rt u n it ies   a n d   Cl o u d   Ba se d   S o lu ti o n s ,   In ter n a ti o n a l   J o u rn a o El e c trica a n d   C o mp u t e r E n g i n e e rin g   ( IJ ECE ),   v ol /i ss u e :   5 ( 2 ) ,   p p .   3 4 0 ~ 3 4 3 ,   2 0 1 5 .   [1 1 ]   A .   R.   El sa y e d ,   e t   a l. ,   M a p   Re d u c e S tate - of - th e - A rt  a n d   Re se a rc h   Dire c ti o n s , ”  In ter n a ti o n a J o u rn a o Co mp u ter   a n d   El e c trica E n g in e e rin g v o l/ is su e 6 (1 ) ,   2 0 1 4 .   [1 2 ]   K.  G ro li n g e r,   e a l. ,   Ch a ll e n g e f o M a p Re d u c e   in   Big   Da ta , ”  IEE 1 0 th   2 0 1 4   W o rld   C o n g re ss   o n   S e rv ice s   ( S ER VICE S   2 0 1 4 A la sk a   U S A ,   J u ly   2 0 1 4 .   [1 3 ]   V .   A .   Ay m a ,   e a l. ,   Clas sif ica ti o n   A lg o rit h m f o b ig   d a ta an a ly sis ,   A   m a p re d u c e     a p p ro a c h , ”  T h e   In ter n a t io n a l   Arc h ive o t h e   Ph o t o g ra mm e tr y ,   Rem o te  S e n sin g   a n d   S p a t ia l   In f o rm a ti o n   S c ien c e s,  XL - 3 /W 2 ,   J o in t   IS PR S   c o n fer e n c e   Ge rm a n y   2 0 1 5 .   [1 4 ]   D .   P o o n a m   B .   a n d   G Ba isa   L . ,   S u rv e y   P a p e o n   T ra d it i o n a Ha d o o p   a n d   P ip e li n e d   M a p   Re d u c e ,   In ter n a ti o n a l   J o u rn a o Co m p u t a ti o n a E n g i n e e rin g   Res e a rc h v o l/ issu e 0 3 ( 1 2 ),   2 0 1 3 .   [1 5 ]   N Ka d a le   a n d   U.  A .   M a n d e ,   S u rv e y   o f   T a s k   S c h e d u li n g   M e t h o d   f o M a p   Re d u c e   F ra m e w o r k   in   Ha d o o p ,   In ter n a t io n a J o u rn a o A p p li e d   I n fo rm a t io n   S y ste ms   ( IJ AIS NCIP ET ,   2 0 1 3 .   [1 6 ]   J .   L iu ,   e a l. ,   A n   Eff icie n Jo b   S c h e d u li n g   f o M a p   Re d u c e   Cl u ste rs , ”  In ter n a ti o n a l   J o u rn a o F u tu re   Ge n e ra ti o n   Co mm u n ica ti o n   a n d   Ne two rk in g v o l/ issu e 8 ( 2 ),   p p .   3 9 1 - 3 9 8 ,   2 0 1 5 .   [1 7 ]   B.   Zh a n g ,   e a l . ,   S e lf -   c o n f ig u ra ti o n   o f   th e   Nu m b e o f   c o n c u rre n tl y   Ru n n in g   M a p   Re d u c e   Jo b in   a   Ha d o o p   Clu ste r ,   ICAC  2 0 1 5 ,   p p . 1 4 9 - 1 5 0 ,   2 0 1 5 .   [1 8 ]   M .   Id ris ,   e a l . Co n tex t - a w a r e   s c h e d u li n g   in   M a p   Re d u c e a   c o m p a c re v ie w ,   Co n c u rr e n c y   a n d   Co mp u t a ti o n :   Pra c ti c e   a n d   Exp e rie n c e ,   v o l/ issu e 2 7 ( 1 7 ),   p p .   5 3 3 2 5 3 4 9 .   [1 9 ]   Y .   Zh a o ,   e a l. ,   Da c h e A   Da ta  Aw a re   Ca c h in g   f o Big - Da ta  A p p li c a ti o n Us in g   th e   M a p   Re d u c e   F ra m e w o rk ,   T S INGH UA  S CIENC AND  T EC HNO L OG Y v o l/ issu e 1 9 ( 1 ),   p p .   3 9 - 5 0 ,   2 0 1 4 .   [2 0 ]   R.   Ud e n d ra n ,   e a l. ,   Re v ie w   P a p e o n   Da ta - a w a re   Ca c h in g   f o Big   Da ta   A p p li c a ti o n s , ”  In ter n a ti o n a J o u rn a o f   Ad v a n c e d   Res e a rc h   in   Co mp u ter   S c ien c e   a n d   S o ft w a re   En g in e e rin g v o l/ iss u e 5 ( 3 ),   2 0 1 5 .     [2 1 ]   M .   V a ra d e   a n d   V .   Je th a n i ,   Distrib u te d   m e ta  d a ta   m a n a g e m e n sc h e m e   in   HD F S , ”  In ter n a ti o n a J o u r n a o f   Ad v a n c e d   Co mp u ter   S c ien c e   a n d   Ap p li c a ti o n s v o l /i ss u e 6 (8 ),   2 0 1 5 .   [2 2 ]   J .   Qu ,   e a l. ,   T h e   Op ti m iza ti o n   a n d   Im p ro v e m e n o f   M a p Re d u c e   in   W e b   Da ta  M in in g ,   In ter n a ti o n a J o u rn a o f   Fu tu re   Ge n e ra ti o n   Co mm u n ica t i o n   a n d   Ne two rk in g v o l/ issu e 8 (2 ),   p p .   3 9 1 - 3 9 8 ,   2 0 1 5 .   Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2088 - 8708       B ig   Da ta   a n d   Ma p R e d u ce   C h a llen g es,  Op p o r tu n ities   a n d   T r en d s   ( S a ch in   A r u n   Th a n ek a r )   2919   [2 3 ]   N .   S .   Na ik ,   e a l. ,   P e rf o r m a n c e   I m p r o v e m e n o f   M a p Re d u c e   F ra m e w o rk   in   H e tero g e n e o u Co n tex u sin g   Re in f o rc e m e n Lea rn in g ,   El se v ie r IS BCC’1 5 ,   2 0 1 5 .       B I O G RAP H I E S   O F   AUTH O RS          S a c h i n   Ar u n   T h a n e k a r ,   re c e iv e d   h is  B. (Co m p u ter)  a n d   M . E. (Co m p u ter).  d e g re e s   f ro m   P u n e   Un iv e rsity ,   In d ia,  in   2 0 0 5   a n d   2 0 1 3   re sp e c ti v e ly .   Cu rre n tl y   h e   is  a   P h . D.  sc h o lar  in   KL   Un iv e rsit y ,   A n d h ra   P ra d e sh ,   In d i a .   His  c u rre n in tere sts  in c lu d e   b ig   d a ta,  in f o r m a ti o n   se c u rit y ,   d a tab a se s,  so f t w a re   tes ti n g .           Dr .   K .   S u b r a h m a n y a m   is  a   p ro f e ss o in   Co m p u ter  S c ien c e   a n d   E n g in e e rin g   d e p a rtm e n o f   KL   Un iv e rsit y ,   A n d h ra   P ra d e sh .   His  c u rre n i n tere sts in c lu d e   so f tw a r e   e n g in e e rin g ,   b ig   d a ta.           Dr .   A.  B .   B a g w a n   is  w o rk in g   a s   a   P ro f e ss o in   Co m p u ter  En g in e e rin g   d e p a rtm e n o f   Ra jar sh i   S h a h u   C o ll e g e   o f   En g in e e rin g ,   P u n e .   His  c u rre n i n tere sts  in c lu d e   d a ta  W a re h o u se ,   d a ta   M in i n g ,   A lg o rit h m s an d   b ig   d a ta.     Evaluation Warning : The document was created with Spire.PDF for Python.