I nte rna t io na l J o urna l o f   Adv a nces in Applie d Science s   ( I J AAS)   Vo l.   5 ,   No .   2 J u n e   201 6 ,   p p .   101 ~ 1 0 8   I SS N:  2252 - 8814           101       J o ur na l ho m ep a g e h ttp : //ia e s jo u r n a l.c o m/o n lin e/in d ex . p h p /I J AAS   A St u dy  on Big  D a ta Techniques   a nd   Appli ca tions     K .   Ra dh a B .   T hiru m a la   Ra o   CS E,   KL   Un iv e rsity ,   G u n tu r,   A n d h ra   P ra d e s h ,   I n d ia       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   Mar   1 2 ,   2 0 1 6   R ev i s ed   Ma y   8 ,   2 0 1 6   A cc ep ted   Ma y   19 ,   2 0 1 6       W e   a re   li v in g   in   o n - De m a n d   Dig it a Un iv e rse   w it h   d a ta  sp re a d   b y   u se rs  a n d   o rg a n iza ti o n a a   v e ry   h ig h   ra te.  T h is  d a ta  is  c a teg o rize d   a Big   Da ta  b e c a u se   o f   it V a riet y ,   V e lo c it y ,   V e ra c it y   a n d   V o l u m e .   T h is  d a t a   is  a g a in   c las si f ied   in to   u n stru c t u re d ,   se m i - stru c tu re d   a n d   stru c tu re d .   L a rg e   d a tas e ts   re q u ire  sp e c ial  p ro c e ss in g   s y ste m s;  it   is  a   u n iq u e   c h a ll e n g e   f o a c a d e m icia n s   a n d   re se a rc h e rs.  M a p   Re d u c e   jo b u se   e ff icie n d a ta  p ro c e ss in g   tec h n iq u e w h ic h   a re   a p p li e d   in   e v e ry   p h a se o f   M a p   Re d u c e   su c h   a M a p p i n g ,   Co m b in in g ,   S h u f f li n g ,   In d e x in g ,   G ro u p in g   a n d   Re d u c in g .   Big   Da ta  h a s   e ss e n ti a c h a ra c teristics   a f o ll o ws   V a riety ,   V o lu m e   a n d   V e lo c it y ,   V isc o sity ,   V iralit y .   Big   D a ta  is   o n e   o th e   c u rre n a n d   f u tu re   re se a rc h   f ro n ti e rs.  In   m a n y   a re a s   Big   Da ta  i c h a n g e d   su c h   a p u b li c   a d m in istratio n ,   sc ien ti f ic  re se a rc h ,   b u sin e ss ,   T h e   F in a n c ial  S e rv ice In d u stry ,   A u to m o ti v e   In d u stry ,   S u p p ly   Ch a in ,   L o g isti c s,  a n d   In d u strial   En g in e e rin g ,   Re tail,   En terta in m e n t e tc.  Ot h e Big   Da ta  a p p li c a ti o n a re   e x ist  in   a t m o sp h e ric  sc ien c e ,   a stro n o m y ,   m e d icin e ,   b io l o g ic,  b io g e o c h e m istry ,   g e n o m i c a n d   in terd isc ip l in a ry   a n d   c o m p lex   re s e a rc h e s.    T h is  p a p e is  p re se n ts  t h e   Esse n ti a l   Ch a ra c teristics   o f   Big   Da ta   A p p li c a ti o n a n d   S tate   o f - t he - a rt  to o ls  a n d   tec h n iq u e to   h a n d le  d a ta - in ten siv e   a p p l ica ti o n s   a n d   a lso   b u il d in g   i n d e x   f o w e b   p a g e a v a il a b le  o n li n e   a n d   se e   h o w   M a p   a n d   Re d u c e   f u n c ti o n c a n   b e   e x e c u ted   b y   c o n sid e ri n g   in p u a s a se o f   d o c u m e n ts   K ey w o r d :   B ig   Data   Data - I n ten s i v A p p licatio n s   Ma p   R ed u ce   Var iet y   Velo cit y   Vo lu m e   Co p y rig h ©   201 6   In s t it u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   K.   R ad h a   C SE ,   KL   U n i v er s it y ,   An d h r P r ad esh ,   I n d ia.   E m ail:  r ad h a. s a itej @ g m ail. co m       1.   I NT RO D UCT I O N   W ar liv in g   i n   o n - De m a n d   Dig ital   Un iv er s e   w it h   d ata  s p r ea d   b y   u s er s   an d   o r g a n izatio n s   at  v er y   h ig h   r ate.   T h is   d ata  is   ca teg o r ized   as  B ig   Data   b ec au s o f   i ts   Var iet y ,   Velo cit y ,   Ver ac it y   an d   Vo lu m e.   I n   h eter o g o n o u s   e n v ir o n m en t,  t h is   d ata  i s   a g ai n   d iv id ed   in to   u n s tr u ct u r ed s e m i - s tr u ctu r ed   an d   s tr u c tu r ed .   T o   m an a g B ig   Da ta,   s u c h   k in d   o f   d ata  is   d if f icu lt  f o r   th p r e s en co m p u ti n g   in f r astr u ct u r e.   C o n v e n tio n al  d ata  m an a g e m e n t,  an al y s i s   s y s te m s   an d   w ar eh o u s i n g   f all  s h o r o f   to o ls   to   an al y ze   th i s   d ata.   T h is   d ata  is   s to r ed   in   d is tr ib u ted   f ile  s y s te m   d u to   its   s p ec if ic  n at u r o f   B ig   Data .   T o   s to r e   an d   m a n ag B ig   Data   Had o o p   an d   HDFS  b y   A p ac h e   is   w id el y   u s ed .   An al y s i s   o f   B ig   Da ta  i s   cr itical  ta s k   as   it  i n v o lv es   l ar g d is tr ib u ted   f ile   s y s te m s   w h ic h   w o u ld   b e   s ca l ab le,   f a u lt  to ler a n a n d   f le x ib le.   Fo r   t h e f f icien a n al y s i s   o f   B ig   Data   Ma p   R ed u ce   i s   u s ed   w id el y .   I n   M ap   R ed u ce   f o r   g r ap h   s ea r c h   c lu s ter i n g   a n d   clas s if icatio n   te ch n iq u es   w er u s ed   an d   also   s o m o th er   co n v e n ti o n al  DB MS  tec h n iq u es  s u c h   as  Jo in s   a n d   I n d ex i n g   ar e   u s e d .   Fo r   co n v en tio n al   an al y s is   o f   d ata  an al y z in g   b ig   d ata  is   ted io u s   tas k   an d   m a n a g e m e n to o ls   b ec au s o f   its   v elo cit y ,   h eter o g e n eit y   a n d   v o l u m o f   b ig   d ata.   Ma p   R ed u ce   o v er co m t h e   p r o b lem   o f   an al y zi n g   l ar g d is tr ib u ted   d ata   s ets  [ 2 ] ,   [ 3 ] .   L ar g d atasets   r e q u ir s p ec ial  p r o ce s s in g   s y s te m s i is   u n iq u c h alle n g f o r   ac ad em icia n s   a n d   r esear ch er s .   Ma p   R ed u ce   j o b s   u s e f f icie n d ata  p r o ce s s i n g   tech n iq u es   w h ich   ar ap p lied   in   e v er y   p h ases   o f   Ma p   R ed u ce   s u c h   as  Ma p p i n g ,   C o m b i n i n g ,   Sh u f f l i n g ,   I n d ex in g ,   Gr o u p in g   a n d   R ed u ci n g .   Go o g le’ s   tec h n ical   r esp o n s to   th ch allen g es  o f   an al y s is   a n d   W eb - s ca le  d ata  m an a g e m e n w a s   s i m p le,   b y   d atab ase  s tan d ar d s ,   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8814   IJ AA S    Vo l.   5 ,   No .   2 J u n e   2 0 1 6   :   1 0 1     1 08   102   b u k ic k ed   o f f   w h at  h as  b ec o m t h m o d er n   B i g   Data   r ev o lu tio n   i n   th s y s te m s   wo r ld .   T o   h an d le   th e   ch alle n g e   o f   W eb - s ca le  s to r ag e,   t h Go o g le   Fil S y s te m   w a s   cr ea ted .     Go o g le   f i le  s y s te m   p r o v id es   clie n t s   w it h   t h f a m iliar   o p er atin g   s y s te m   le v el  b y te - s tr ea m   ab s t r ac tio n ,   b u it  d o es  s o   f o r   ex tr e m e l y   lar g f iles   w h o s co n te n ca n   s p an   h u n d r ed s   o f   m ac h i n e s   in   s h ar ed - n o t h in g   clu s ter s   cr ea ted   u s i n g   in e x p en s iv e   co m m o d it y   h ar d w ar e.   Ma p   R ed u ce   p r o g r a m m i n g   f r a m e w o r k   w a s   d ev elo p ed   b y   Go o g le  to   h a n d le  th e   ch alle n g e   o f   p r o ce s s i n g   t h d ata  in   m a s s i v b i g   f ile s .   T h is   p ar ad ig m   i s   d escr ib ed   as  p ar allel   p r o g r a m m i n g   f o r   d u m m ies   en ab led   Go o g l e’ s   d ev elo p er s   to   p r o ce s s   th e   m as s i v co llectio n s   o f   d ata  b y   w r it in g   t w o   u s er - d ef in ed   f u n ctio n s   s u c h   a s   Ma p   an d   R ed u ce ,   t h at  t h Ma p   R ed u ce   f r a m e w o r k   ap p lies   to   th i n s ta n ce s   ( m ap )   an d   s o r ted   g r o u p s   o f   i n s tan ce s   th at  s h ar co m m o n   k e y   ( r ed u ce )     s i m i lar   to   th e   s o r o f   p ar titi o n ed   p ar allelis m   u tili ze d   in   s h ar ed - n o t h i n g   p ar allel  q u er y   p r o ce s s i n g .   C o n v e n tio n all y ,   B ig   Data   is   d escr ib ed   as  d ata  is   to o   b i g   f o r   e x is ti n g   s y s te m s   to   p r o ce s s .   B i g   Data   h as   ess e n tia c h ar ac ter is tic s   a s   f o llo w Var iet y ,   Vo lu m a n d   Velo cit y   a s   s h o wn   in   F ig . 1 .   I n   Dis tr ib u ted   S y s te m s   w o r ld ,   B ig   Data   s tar ted   to   b ec o m m aj o r   ch alle n g i n   t h late  1 9 9 0 s   d u to   th i m p ac o f   w o r ld - w i d w eb .   Data b ase  tech n o lo g y   ( in clu d i n g   p ar allel   d atab ases )   w as  co n s id er ed   f o r   th e   task ,   b u w as  f o u n d   to   b n eith er   w ell - s u ited   n o r   co s t - ef f ec t iv f o r   th o s p u r p o s es.  T h tu r n   o f   t h m ill en n i u m   t h e n   b r o u g h t   f u r t h er   c h alle n g e s   as   co m p a n ies   b eg a n   to   u s i n f o r m atio n   s u c h   as  th to p o lo g y   o f   th W eb   an d   u s er s ‟  s ea r ch   h i s to r ies  in   o r d er   to   p r o v id in cr ea s in g l y   u s ef u s ea r c h   r esu lt s ,   as  w ell  as  m o r ef f ec ti v el y - tar g eted   ad v er tis i n g   to   d is p la y   alo n g s id a n d   f u n d   t h o s r esu lts .         T h n ec ess it y   to   p r o ce s s   m as s iv q u a n titi e s   o f   d ata  h as  n e v er   b ee n   g r ea ter .   No o n ly   te r ab y te  an d   p etab y te  s ca le  d at asets   r ap id l y   b ec o m i n g   co m m o n   p lace ,   b u th er is   co n s e n s u s   t h at  g r ea v alu l ies  b u r ied   i n   th e m ,   w ait in g   to   b u n lo c k ed   b y   t h r i g h t c o m p u tatio n al  to o ls .   I n   t h co m m er cial   w o r ld ,   b u s i n es s   i n tel lig e n ce   g ath er s   th d ata  f r o m   ar r a y   o f   s o u r ce s .   B ig   Da ta  an al y s i s   to o ls   lik Ma p   R ed u ce   o v er   Had o o p ,   HDFS,  to   ass is t to   o r g an izatio n s   b etter   u n d er s tan d   t h eir   m ar k et  p lace   an d   cu s to m er s   h o p ef u ll y   lead i n g   to   b etter   b u s in e s s   d ec is io n s   a n d   co m p etiti v b en ef its .   Fo r   en g i n ee r s   b u i ld in g   in f o r m a tio n   p r o ce s s i n g   to o ls   an d   ap p l icatio n s ,   lar g an d   h e ter o g en eo u s   d at asets   w h ic h   ar g e n er atin g   c o n tin u o u s   f lo w   o f   d ata,   lead   to   m o r e f f ec t iv e   alg o r ith m s   f o r   w id r an g o f   task s .       2.   B I G   DA T CH ARAC T E RI ST I CS          Fro m   B ig   Data   [ 4 ] .   T h er ar d if f er en ex p lan a tio n s   f o r   B ig   Data   f r o m   3   V s   to   4   V’ s .   A cc o r d in g   to   Do u g   L a n e y ,   Vo l u m e,   Ve lo cit y   a n d   Var iet y   r e f er r ed   to   as  3 Vs  [ 9 ] .   A cc o r d in g   to   o th er   p eo p le  s p ec ial  r eq u ir e m en ts ,   t h e y   ar e x ten d ed   an o th er   V.   T h f o u r t h   is   Valu e,   Var iab ilit y   [ 1 0 ] .   B ig   Data   is   co llectio n   o f   v er y   h u g e   d ata  s et s   w i th   d iv er s i f icatio n   o f   t y p e s   s u c h   t h a t,  it b ec o m e s   ted io u s   to   p r o ce s s   b y   u s in g   th e   s tate - of - t h e - ar d ata  p r o ce s s in g   ap p r o ac h es  o r   co n v en tio n al  d ata  p r o ce s s in g   p lat f o r m s .     I n   th y ea r   2 0 1 2 ,   Gar tn er   de f in ed   B ig   Data   as  B ig   Dat is   Hig h   Velo cit y ,   Hi g h   Vo l u m a n d   Hig h   v ar iet y   in f o r m atio n   ass et s   r eq u ir e   n e w   f o r m s   o f   p r o ce s s i n g   to   en ab le  en h a n ce d   d ec is io n   m a k i n g ,   p r o ce s s   o p ti m izatio n   a n d   in s ig h t d is co v er y   [ 6 ] .     2 . 1 .   Vo lu m e   Vo lu m e   i s   d escr ib ed   as   t h r e lativ e   s i ze   o f   th e   d ata  to   th e   p r o ce s s in g   ca p ab ilit y .   E v er y   d ay   w ar e   cr ea tin g   2 . 5   q u in t illi o n   b y tes   o f   d ata   [ 5 ] .   T h is   d ata  is   g e n er ated   f r o m   e v er y w h er s u c h   a s   f r o m   s en s o r s ,   s o cial   m ed ia  s ites ,   d ig ital   p ict u r es  v id eo s ,   p u r c h ase  tr an s ac tio n   r ec o r d s ,   etc.   to   o v er co m t h i s   v o lu m p r o b le m   r eq u ir es  tech n o lo g ie s   t h at  s t o r m a s s i v a m o u n ts   o f   d at in   s ca lab le  m a n n er   an d   p r o v id d is tr ib u ted   ap p r o ac h es  to   f in d   t h at  d ata.   A p ac h Had o o p   b ased   s o lu tio n s   an d   m as s iv e l y   p ar allel  p r o ce s s in g   d atab ase s   s u c h   as E MC Gr ee n   p lu m ,   C al p o n t,  E XA S O L ,   I B Net w zz a,   T e r ad ata   Kick   f ir e.     2 . 2 .       Velo cit y   Velo cit y   is   d escr ib ed   as  f r eq u en c y   at  w h ic h   th d ata  is   g e n er ated ,   s h ar ed   an d   ca p tu r ed .   T h g r o w th   in   s en s o r   d ata  f r o m   d ev ice s ,   a n d   w eb   b ased   clic k   s tr ea m   a n al y s i s   n o w   cr ea tes   r eq u ir e m e n ts   f o r   g r ea ter   r ea l - ti m u s e   ca s e s .     T h v elo cit y   o f   m a s s i v d ata  s tr ea m s   p o w e r   th ab ilit y   to   p ar s tex t,  id en tify i n g   n e w   p at ter n s   an d   d etec s e n ti m en t.    Ke y   t ec h n o lo g ies  t h at  ad d r ess   v elo cit y   i n cl u d s tr ea m in g   p r o ce s s in g   a n d   co m p lex   ev en p r o ce s s i n g .     W h en   r elati o n al  ap p r o ac h es  n o   lo n g er   m a k s e n s e ,   No SQ L   d atab ases   ar u s ed I n   ad d itio n   to   th at ,   co lu m n ar   d atab ases t h u s o f   i n - m e m o r y   d ata  b ases   ( I MD B ) ,   an d   k e y   v alu s to r es  h elp   i m p r o v e   r etr iev al  o f   p r e - ca lc u lated   d ata .     2 . 3 .   Va riet y       Sp r ea d   o f   d ata  t y p es  f r o m   m ac h in e   to   m ac h i n e,   s o cial   an d   m o b ile  s o u r ce s   ad d   n e w   d a ta  t y p es  to   co n v e n tio n al   tr an s ac tio n a d at a.   Data   n o   lo n g er   f i ts   i n to   n ea t,  ea s y   to   co n s u m s tr u ct u r es .   Ne w   t y p e s   i n clu d e   g eo - s p atial,   co n ten t,  h ar d w ar d ata  p o in ts ,   lo g   d ata ,   m ac h in d ata,   m o b ile,   p h y s ical  d ata  p o in ts ,   p r o ce s s ,   m etr ics,   R FID s   s ea r c h ,   s o cial,   w eb ,   s e n ti m en s tr ea m i n g   d ata  an d   tex t.   Un s tr u c tu r ed   d ata  s u ch   as   tex t,  Evaluation Warning : The document was created with Spire.PDF for Python.
IJ AA S   I SS N:  2252 - 8814           A   S tu d o n   B i g   Da ta   Tech n iq u es a n d   A p p lica tio n s   ( K .   R a d h a )   103   s p ee ch   a n d   la n g u a g i n cr ea s i n g l y   co m p licate   t h ab ilit y   to   c ateg o r ize  d ata.   So m e   o f   t h te ch n o lo g ies   th at   ar d ea lin g   w i th   u n s tr u c tu r ed   d ata  in clu d te x t a n a l y t ics,   d ata  m i n in g   a n d   n o is y   tex t a n al y tic s .       3 .      RE S E ARCH   M E T H O D   3 . 1 .     M a p Re du ce     1)   T h u s   th e   Ma p R ed u ce   f r a m e wo r k   tr an s f o r m s   li s t o f   ( k e y ,   v alu e)   p air s   in to   lis t o f   v al u es .   2)   Th ese  b eh av io r s   is   d i f f er e n f r o m   th f u n ctio n al  p r o g r a m m i n g   m ap   a n d   r ed u ce   co m b i n ati o n ,   w h ic h       ac ce p ts       l is o f   ar b itra r y   v al u es  a n d   r et u r n s   o n s i n g le   v al u t h at  co m b i n e s   all  th e   v al u e s   r etu r n ed   b y   m ap .   3)   I is   n ec ess ar y   b u n o s u f f ic ien to   h a v i m p le m e n tatio n s   o f   th m ap   an d   r ed u ce   ab s tr ac tio n s   i n   o r d er   t o   im p le m e n t M ap R ed u ce .   4)   Dis tr ib u ted   i m p le m en ta tio n s   o f   Ma p R ed u ce   r eq u ir m ea n s   o f   co n n ec tin g   t h p r o ce s s es  p er f o r m i n g   th Ma p   an d   R ed u ce   p h a s es.   5)   T h is   m a y   b a   Dis tr ib u ted   f i le  s y s te m .   6)   Oth er   o p tio n s   ar p o s s ib le,   s u ch   as  d ir ec s t r ea m in g   f r o m   m ap p er s   to   r ed u ce r s ,   o r   f o r   th m ap p in g   p r o ce s s o r s   to   s er v u p   th eir   r esu lt s   to   r ed u ce r s   th at  q u er y   t h e m .         Fig u r 1 .   W o r k   f lo w   o f   Ma p   R ed u ce       3 . 1 . 1 .   User   P ro g ra m   1)   T y p icall y   E x ec u tio n   o f   p r o g r a m   b eg i n s   w it h   t h u s er   p r o g r a m   2)   Ma p   R ed u ce   lib r ar ies  ar i m p o r ted   in to   th p r o g r a m   an d   t h at  p r o g r a m   is   s p litt ed   i n to   t h o p er atio n s   th at  ar to   b p er f o r m ed   o n   th in p u t d ataset.   3)   I n   clu s ter   e v er y   m ac h in h as   s ep ar ate  in s ta n ce   o f   th m ap p er   p r o g r a m   r u n n i n g   o n   it.   4)   T h er ar m a s ter   an d   w o r k er s .   On o f   th e   co p ies  o f   t h p r o g r a m   is   Ma s ter   a n d   R e m ai n in g   p r o g r am s   ar ass ig n ed   to   w o r k   u n d er   th m a s ter   ca lled   as  W o r k er .   T h er e   ar M   n u m b er   o f   tas k s   an d   N   Nu m b er   o f   r ed u ce   o p er atio n s   to   p er f o r m .   T h m ap p er   p ick s   th e   u n u s ed   w o r k er s   a n d   as s ig n s   ea c h   o f   th e m   m ap   tas k   o r   r ed u ce   task .     3 . 1 . 2 .   M a p Wo rk er s   1)   T h w o r k er   th a is   a s s i g n ed   th Ma p   tas k   ta k es  t h s p lit te d   in p u d ata  a n d   p r o d u ce s   th e   k e y /v al u e   p air   f o r   ev er y   s eg m e n t o f   i n p u t d ata.   2)   User - d e f in ed   m ap   f u n ct io n   is   i n v o k ed   b y   th w o r k er   n o d e.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8814   IJ AA S    Vo l.   5 ,   No .   2 J u n e   2 0 1 6   :   1 0 1     1 08   104   3)   T h r e s u ltan v al u es  o f   th M ap   f u n ctio n   ar b u f f er ed   in   th m e m o r y .   T e m p o r ar y   d ata  later   w r itte n   to   th d is k .   4)   T h p h y s ical  ad d r ess   o f   t h ese  co n ten t s   is   p as s ed   to   th Ma s t er .   5)   T o   p er f o r m   th R ed u ce   ta s k   t h m aster   f in d   t h p ass es t h e s p h y s ical  m e m o r y   ad d r ess es t o   th e m .     3 . 1 . 3 .   Reduce  Wo rk er s   1)   R ed u ce   w o r k er   n o tifie d   b y   t h u s er s   r e m o te  p r o ce d u r ca lls   to   ac ce s s   th b u f f er ed   d ata  f r o m   t h e   Ma p   w o r k er s .   2)   W h en e v er   r ed u ce   w o r k er   h as   r ea d   all  th in ter m ed iate  d ata,   it  g r o u p s   to g eth er   all  th d ata  o f   th e   s a m i n ter m ed iate   k e y .   3)   Var io u s   d i f f er e n k e y s   m ap   to   th s a m e   tas k   b ec au s o f   th e   p ar allel  p r o ce s s in g   n a tu r o f   th ta s k s .   Su c h   th at  t h ab o v m en t io n e d   s o r tin g   s tep   i s   n ee d ed .   4)   Fo r   ev er y   u s er   ev er y   u n iq u e   k e y   a n d   its   d ata  ar p ass ed   b y   t h r ed u ce   w o r k er   to   t h R ed u ce   f u n ct io n .   5)   Ou tp u t o f   R ed u ce   ta s k   i s   w r i tten   to   an   o u tp u t u s u all y   to   d is tr ib u ted   f ile  s y s te m .     3 . 1 . 4 .   Ret urn  t o   t he  User  P ro g ra m   1)   Af ter   r u n n i n g   all  th Ma p   an d   R ed u ce   h av b ee n   r u n ,   T h Ma s ter   n o d s en d s   co n tr o b ac k   to   th u s er   s id e.   2)   T h er ar m an y   o u tp u t   f i les   av ailab le  to   t h u s er   as  th er e   w er R ed u ce   ca ll s .   u p o n   co m p letio n   o f   ab o v m en t io n ed   s et  o f   ta s k s   3)   T h ese  f iles   m a y   r ei n s er t   in to   an o th er   Ma p   R ed u ce   tas k s   s ess io n   o r   th e y   m a y   d ea l   as  in p u t s   f o r   d is tr ib u ted   p r o ce s s in g   ap p licatio n s .     3 . 2 .   L o g ica l V iew   1)   Fo r   b o t h   th Ma p   an d   R ed u c f u n ctio n s   o f   Ma p   R ed u ce ,   Data   is   as s u m ed   to   b s tr u ctu r ed   in   ( k e y ,   v alu e)   p air s .   2)   Ma p   tak es  o n p air   o f   d ata  w i th   t y p i n   o n d ata  d o m ai n ,   an d   r etu r n s   lis o f   p air s   i n   a   d if f er e n t   d o m ai n : M ap ( k 1 , v 1 )   - li s t( k 2 , v 2 )   3)   B y   ap p l y i n g   th is   m ap   f u n c tio n   in   p ar allel  to   ev er y   ite m   in   th i n p u d ataset,   P ar allel  p r o ce s s i n g   i s   in tr o d u ce d     4)   I p r o d u ce s   li s o f   ( K2 ,   v 2 )   p air s   f o r   ea c h   ca ll.   Af ter   t h at,   th e   Ma p   R ed u ce   f r a m e w o r k   co llects  all   p air s   w i th   t h s a m k e y   f r o m   all  lis t s   an d   g r o u p s   t h e m   to g et h er ,   th u s   cr ea ti n g   o n g r o u p   f o r   ea ch   o n e   o f   th d if f er e n t g e n er ated   k e y s .   5)   T h is   p h ase  o p ti m ize s   th i n p u t   f o r   r ed u ce   f u n ctio n .   6)   T h R ed u ce   f u n ctio n   i s   t h en   a p p lied   in   p ar allel  to   ea ch   g r o u p ,   w h ich   i n   t u r n   p r o d u ce s   co llectio n   o f   v alu e s   i n   th s a m d o m ai n R e d u ce   ( k 2 ,   lis t ( v 2 ) )   - lis t( v 3 )     Alg o rit h m   I np ut :   Da t a   in t he  f o r m   o f   ( key ,   v a lue)   pa irs   O utput :   L is t   o f   da t a   it e m s   Alg o rit h m :   1.   Ma p   d ata  f r o m   o n d o m a in   to   an o th er   [ Ma p ( m 1 , v 1 )   - li s t( m 2 , v 2 ) ]   2.   Op ti m ize  i n p u f o r   R ed u ce   f u n ctio n   3.   R ed u ce   t h d ata  in to   m o r m e an in g f u l d ata  in   t h s a m d o m ain   [ R ed u ce ( m 2 ,   lis t ( v 2 ) )   - l is t( v 3 ) ]   T h Ma p   an d   R ed u ce   f u n cti o n s   ar n ec es s ar y   b u n o s u f f icien f o r   Ma p R ed u ce   f r a m e w o r k .   T h ese   t w o   f u n ctio n s   b r in g   t h p ar allel  p r o ce s s in g   to   th al g o r it h m   a s   th e y   ca n   b ex ec u ted   s i m u lta n eo u s l y   f o r   ea ch   g i v e n   d ata.     L et  u s   ta k an   e x a m p le  o f   b u il d in g   i n d ex   f o r   w eb   p ag es a v ai lab le  o n lin a n d   s ee   h o w   Ma p   an d   R ed u ce   f u n ctio n s   ca n   b ex ec u ted .   I n p u t c an   b co n s id er ed   as a   s et  o f   d o cu m e n t s     P s eudo   co de  f o M a p :   Fo r   ea ch   w o r d   m k   in   d o cu m e n t   co u n t( m k )   co u n t( m k )   1     P s eudo   co de  f o Reduce :   Fo r   ea ch   w o r d   w k   o v er   all  d o cu m e n t s   in d ex ( m k )   S u m ( co u n t( m k ) )   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ AA S   I SS N:  2252 - 8814           A   S tu d o n   B i g   Da ta   Tech n iq u es a n d   A p p lica tio n s   ( K .   R a d h a )   105   4 .       B I G   DA T AP P L I CA T I O N S   B ig   Data   is   o n e   o f   th e   cu r r e n t   an d   f u t u r r esear ch   b o u n d ar i es.  Gar tn er   lis ted   t h Fo r   t h e   Nex t   Fi v e   Yea r s   T o p   1 0   C r itical  T ec h   T r en d s ”  [ 7 ]   an d   F o r   2 0 1 3   T o p   1 0   Stra teg ic  T ec h n o lo g y   T r en d s ”  [ 8 ] .   I n   m a n y   ar ea s   B ig   Data   is   ch a n g ed   s u c h   as  p u b lic  ad m i n is tr atio n ,   s ci en ti f ic  r esear ch ,   b u s in e s s ,   T h Fin a n cial  Ser v ice s   I n d u s tr y ,   Au to m o ti v I n d u s tr y ,   S u p p l y   C h ain ,   L o g is tics ,   a n d   I n d u s tr ial  E n g i n ee r in g ,   R e tail,  E n ter tai n m e n t etc.   Oth er   B ig   Data   ap p lic atio n s   ar ex is i n   at m o s p h er ic  s cie n ce ,   astro n o m y ,   m ed icin e,   b io lo g ic,   b io g eo ch e m i s tr y ,   g e n o m ics   an d   i n ter d is cip li n ar y   a n d   co m p lex   r esear ch e s .   W eb - b ase d   ap p lica tio n s   ar e   en co u n ter   b ig   d ata  s u c h   a s   s o cial  co m p u ti n g   ( in cl u d es   o n lin e   co m m u n ities ,   r ep u tati o n   s y s te m s ,   s o cial   n et w o r k   an al y s is ,   p r ed ictio n   m ar k et s ,   r ec o m m e n d er   s y s te m s ,   I n ter n et  s ea r ch   in d e x in g ,   I n ter n et   te x a n d   d o cu m en ts .   T h er ar v ar io u s   s en s o r s   a v ailab le  ar o u n d   u s ,   t h e y   w ill   g e n er ate  s ea m les s   s e n s o r   d ata  t h at  n ee d   to   b u til ized   f o r   e x a m p le   i n t ellig e n tr a n s p o r tatio n   s y s te m s   ( I T S)  [ 1 1 ]   ar b ased   o n   th an al y s is   o f   m a s s i v e   v o lu m o f   co m p lex   s e n s o r   d ata .   Data - in te n s iv e   ap p licatio n s   ar e   l ar g e   s ca le   e - co m m er ce   [ 1 2 ] .   T h is   d ata - in te n s i v ap p licatio n   co n s i s t s   o f   m as s i v n u m b er   o f   tr an s ac t io n s   an d   cu s to m er s .   I n   th f o llo w i n g   s u b s ec tio n s   w w i ll  b r ief l y   i n tr o d u ce   v ar i o u s   ap p l icatio n s   o f   t h B ig   D ata  p r o b lem s   i n   b u s i n ess ,   s o ciet y   ad m in i s tr atio n   an d   s cien tific   r esear ch   f ield s .       4 . 1 .   B ig   Da t a   in So ciet y   Ad m i nis t ra t io n     P u b lic  ad m in i s tr atio n   h as  B i g   Data   p r o b lem s   [ 1 4 ] . u s u all y   p o p u latio n   o f   o n co u n tr y   i s   v er y   lar g e.   I n   ea ch   ag le v el  r eq u ir d is ti n ct  p u b lic  s er v ice s .   Fo r   in s ta n ce ,   ad u lts   a n d   k id s   r eq u ir m o r e d u ca tio n   a n d   eld er s   n ee d   h i g h   lev el   o f   h ea lt h   ca r e.   in   ev er y   p u b lic  s ec tio n ,   ea ch   p er s o n   p r o d u ce s   lo o f   d ata,   s u c h   t h at,   to tal   n u m b er   o f   d ata  ab o u t   p u b lic  ad m in i s tr atio n   i n   o n e   n atio n   is   v er y   h u g e.   Fo r   e x a m p le,   b y   2 0 1 1   th er ar 3   ter ab y te s   o f   d ata  co llected   b y   th e   US  L ib r ar y   o f   C o n g r es s .   I n   2 0 1 2 ,   T h Ob a m ad m in i s tr atio n   a n n o u n ce d   th at  t h B ig   Data   r esear c h   an d   d ev elo p m e n i n it iati v e.   I in v esti g ate s   an d   ad d r ess ed   t h at,   b y   u s i n g   s u c h   b i g   d ata  g o v er n m en f ac i n g   t h p r o b lem s .   Six   d ep ar t m e n ts   w er e   in v o l v ed   f o r   th in it iativ co n s i s ts   o f   8 4   d is tin ct   B ig   Data   p r o g r am s I n   E u r o p e,   th is   s it u atio n   is   r ep ea ted   . T o   i m p r o v th p r o d u ctiv it y   o f   g o v er n m en t s   ar o u n d   th w o r ld   t h e y   ar f ac i n g   u n f av o u ar ab le  cir cu m s tan ce s .   I n   p u b lic  ad m in is tr atio n ,   t h e y   ar m o r ef f ec t iv e.   W ith   s ig n i f ica n b u d g etar y   co n s tr ai n ts ,   in   t h r ec en t   g lo b al  r ec ess io n   m an y   g o v er n m e n t s   h a v to   p r o v id a   h ig h er   le v el  o f   p u b lic  s er v ices .   Hen ce ,   t h e y   w o u ld   ta k B ig   Data   as  p o ten t ial  b u d g e r es o u r ce   an d   d ev elo p   to o ls   to   g et  alter n ati v s o l u tio n s   to   r ed u ce   n atio n al  d eb t le v e ls   an d   d ec r ea s b ig   b u d g et  d e f icits     4 . 2 .   B ig   Da t a   in B us ines s   a n d Co mm e rc e   A cc o r d in g   to   t h f o r ec asti n g   o f   [ 1 3 ] ,   f o r   ev er y   1 . 2   y ea r s   t h v o lu m o f   w o r ld w id b u s i n es s   d ata   ac r o s s   al m o s co m p an ie s   . Fo r   ex a m p le,   i n   R e tail  I n d u s tr y ,   ar o u n d   2 6 7   m il lio n   tr a n s ac tio n s   p er   d a y   i n   W al - Ma r t’ s   6 0 0 0   s to r es  w o r ld w id e.   R ec en t l y ,   W al - Ma r i s   co l l ab o r ated   w ith   He w lett   P ac k ar d   to       s to r 4   p eta   b y te s   o f   d ata,   i.e .   4 0 0 0   tr illi o n   b y tes;   it  i s   tr ac ed   f r o m   t h eir   p o in t - of - s ale  ter m i n als   f o r   e v er y   p u r c h ase  r ec o r d .   W ith   th h elp   o f   m ac h i n lear n in g   tech n iq u es  t h e y   h av s u cc es s f u ll y   i m p r o v ed   th e   ef f ic ien c y   o f   t h eir   ad v er tis i n g   ca m p ai g n s   an d   p r icin g   s tr ateg ie s .   T h m a n ag e m en o f   th eir       in v e n to r y   an d   Su p p l y   ch ai n   s ig n i f ica n tl y   b en e f it ted   f r o m   lar g d ata   w ar eh o u s e.   Mc Kin s e y s   R ep o r s a y i n g   t h a [ 1 5 ] ,   B ig   Data   f u n ctio n alitie s   s u c h   as  h ig h er   lev els  o f   e f f ec tiv e n e s s   an d   ef f icien c y ,   p r o v id th p u b lic  s e cto r   to   im p r o v th e   p r o d u ctiv it y   a n d   r eser v i n g   t h in f o r m ati v p atter n s   a n d   k n o wled g e.     4 . 3 .   B ig   Da t a   I n Scient if ic  Resea rc h   Ma n y   o f   t h s cien ti f ic  ar ea s   a r alr ea d y   w ith   t h d ev elo p m en o f   co m p u ter   s cie n ce s       h i g h l y   d a ta - d r iv en   [ 1 6 ] .   Fo r   ex am p le,   m e teo r o lo g y ,   astro n o m y ,   s o cial  co m p u ti n g   [ 1 7 ] ,   co m p u tat io n al  b io lo g y   [ 1 8 ]   an d   b io in f o r m at ics  ar e   b ased   o n   s cien ti f ic  d i s co v er y   as   m ass iv e   v o l u m e   o f   d ata  i s   g en er ated   w it h   d is ti n ct  t y p e s   th ese  s cien ce   f ield s .           5.   ST A T E   O F   T H E   A RT   T O O L AND  T E CH NI Q UE T O   H AND L E   DAT A - I NT E NS I VE   AP P L I CA T I O N S   5 . 1 .     B ig   Da t a   T ec hn o lo g ies a nd   T ec hn i qu e s     W n ee d   to   d ev elo p   n e w   tech n o lo g ies   an d   tec h n iq u e s   to   an al y ze   t h d ata  a n d   to   ca p tu r th v alu e   f r o m   b ig   d ata.   T ill  n o w   s cien t is ts   h av d ev e lo p ed   v ar io u s   te ch n iq u es  to   cu r ate,   ca p tu r a n al y ze   an d   v is u alize   th B ig   Data .   T h ese  tech n o lo g ies  an d   tech n iq u es  cr o s s e d   n u m b er   o f   d is cip li n es  s u ch   as  ec o n o m ic s ,   co m p u ter   s cien ce ,   s tati s tic s ,   m at h e m a tics   an d   o t h er   e x p er tis e.   M u ltid is c ip lin ar y   m et h o d s   ar r eq u ir e d   to   d is co v er   th u s e f u l   in f o r m at i o n   f r o m   B i g   Data .   W w i ll  d is cu s s   p r esen t   tec h n o lo g ies   an d   tech n iq u e s   to   ex p lo it   th e   d ata   in ten s i v e   ap p l icatio n s .   T o   m ak s e n s o f   B ig   Data w n ee d   to o ls   ( p latf o r m s ) .   P r esen to o ls   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8814   IJ AA S    Vo l.   5 ,   No .   2 J u n e   2 0 1 6   :   1 0 1     1 08   106   f o cu s in g   o n   th r ee   cla s s e s ,   s u ch   as  s tr ea m   p r o ce s s in g   to o ls ,   b atch   p r o ce s s in g   to o ls   a n d   in ter ac ti v an a l y s is   to o ls .   Ma n y   o f   b atch   p r o ce s s in g   to o ls   [ 2 0 ]   ar b ased   u p o n   t h A p ac h Had o o p   in f r ast r u ctu r a s   f o llo w s   Dr y ad   an d   Ma h o u t.  Fo r   lar g e   s ca le  s tr ea m i n g   d ata  an al y ti cs  p latf o r m s   S4   an d   Sto r m   a r ex a m p les.  I n   a n   in ter ac ti v en v ir o n m en t t h in ter ac ti v an al y s i s   p r o ce s s es   th d ata   an d   allo w s   th u s er s   t o   co m m it  o n e   th eir   o w n   an al y s is   o f   i n f o r m atio n .   I n   r ea ti m u s er   is   co n n ec ted   t o   P C   an d   h ca n   i n ter ac w it h   it.  T h d ata  ca n   b co m p ar ed ,   r ev ie w ed   a n d   an a l y ze d   in   g r ap h ica f o r m at  o r   t ab u lar   f o r m a o r   b o th   at  t h s a m ti m e.     A p ac h Dr ill   an d   Go o g le’ s   Dr e m el   ar b ased   up on   th e   in ter ac tiv e   a n al y s i s .     5 . 1 . 1 .   B ig   D a t a   T ec hn iqu es   B ig   d ata  r eq u ir es  o u t s tan d i n g   tech n iq u es  to   ef f icie n tl y   p r o ce s s   m as s iv v o l u m o f   d ata  w it h i n   t h li m ited   r u n   ti m es.    Fo r   ex a m p le,   to   ex p lo r p atter n s   f r o m   th eir   lar g v o lu m o f   tr a n s ac t io n   d ata ,   W al - Ma r t   ap p lies   s tatis tical   tec h n iq u es  an d   m ac h i n e   lear n i n g .   T h ese  p atter n s   g e n er ate  h i g h   co m p e tin g   in   ad v er tis i n g   ca m p aig n s   an d   p r icin g   s tr ateg ies.    T ao b ao   , A   C h i n e s co m p an y   lik e   eB a y o n   u s er s   b r o w s d ata  r ec o r d ed   o n   its   w eb s ite  a n d   ex p lo it s   g o o d   d ea o f   u s e f u   i n f o r m atio n   t o   s u p p o r th eir   d ec is io n - m a k i n g i w as  ad o p ted   a   m as s i v e   s tr ea m   d ata  m i n i n g   te ch n iq u es.   B ig   d ata  tec h n iq u es  in v o l v ed   in   n u m b er   o f   ar ea s   s u ch   a s   d ata  m i n i n g ,   s tatis t ics,  n e u r al  n e t w o r k s ,   m a ch in e   lear n i n g ,   s o cial   n et w o r k   an al y s i s ,   p atter n   r ec o g n itio n ,   s ig n al  p r o ce s s i n g ,   o p tim izatio n   m et h o d s   an d   v i s u aliza tio n   ap p r o ac h es.     5 . 2 .   Sta t is t ics   T o   co llect,   o r g an ize  an d   in te r p r et  th d ata  s tatis tics   tec h n iq u es  ar u s ed .   T o   ex p lo it  th ca s u al  r elatio n s h ip   an d   co r r elatio n   s h ip   a m o n g   d is ti n ct  o b j ec tiv es.  Au t h o r s   p r o p o s ed   ef f icien ap p r o x i m a te  alg o r ith m   f o r   lar g e - s ca le  m u l tiv ar iate  m o n o to n ic  r eg r e s s io n .   I is   an   ap p r o ac h   f o r   esti m atin g   f u n ctio n s   th at   ar m o n o to n ic  w it h   r esp ec t   to   in p u v ar iab les.  A n o t h er   tr en d   o f   d ata - d r iv e n   s tatis tical  a n al y s i s   f o cu s in g   on  s ca le  an d   p ar allel  i m p le m e n ta tio n   o f   s tatis tical   al g o r ith m s .     W ith   th h elp   o f   s tati s tics   n u m er ical  d escr ip tio n s   ar g en er ated   [ 6 ] .   Statis tical  le ar n in g   an d   Sta tis tica l   co m p u t i n g   ar t h t w o   h o t r esear ch   s u b - f ield s .       5 . 3 .   O pti m iza t io n M e t ho ds   T o   s o lv q u an t itati v p r o b le m s   i n   m a n y   ar ea s   s u c h   a s   b io lo g y ,   p h y s ic s ,   ec o n o m ics   an d   e n g i n ee r i n g   Op ti m izatio n   m et h o d s   ar a p p lied .   I n   [ 1 9 ] ,   v ar io u s   co m p u tat io n al  s tr ate g ies  ar ad d r ess ed   f o r   g lo b al  o p tim izatio n   p r o b le m s   s u ch   as  ad ap tiv s i m u lated   an n ea l in g ,   s i m u lated   an n ea li n g   g en etic  alg o r ith m   a n d   q u an t u m   an n ea li n g .   Sto c h asti o p ti m izatio n   in c lu d es  e v o l u tio n ar y   p r o g r a m m i n g g en e tic   p r o g r am m i n g   a n d   p ar ticle   s w ar m   o p ti m izat io n   ar u s e f u l.   Mo s t   o f   th e   r esear ch   w o r k s   ar d o n to   s ca le  u p   lar g e - s ca le   o p tim izatio n   b y   co - e v o lu tio n ar y   al g o r ith m s R ea l - ti m e   o p tim izat io n   is   ne ed ed   in   v ar io u s   B ig   Dat a   ap p licatio n ,   s u c h   as  I T Ss   an d   W SNs .     P ar alleliza tio n   an d   Data   r ed u ctio n   ar also   alter n ativ ap p r o ac h es  in   o p tim izatio n   p r o b le m s .     5 . 4.     D a t a   M ini ng   Data   m in in g   i s   a   co llectio n   o f   tech n iq u e s   to   e x tr ac t   u s ef u l   p atter n s   f r o m   d ata   su c h   a s   C las s if ica tio n   an d   C lu s ter i n g   an a l y s is ,   as s o ciatio n   r u le  m in i n g ,   an d   r eg r ess io n ,   d is cr i m in a te  an al y s i s .     I in v o lv es  th e   m et h o d s   f r o m   s tat is tic s   an d   m ac h in lear n in g .   W h en   co m p ar ed   to   co n v en tio n a d ata  m i n in g   al g o r ith m s   B ig   Data   m in in g   is   C h al len g i n g   is s u e.   Mo s t   o f   t h e x te n s io n s   u s u all y   r el ie s   o n   a n al y zin g   a   p ar ticu lar   a m o u n t   o f   s a m p les   o f   B i g   Data ,   a n d   v ar y   i n   h o w   t h s a m p le - b ased   r esu lt s   ar u s ed   to   d er iv e   p ar titi o n   f o r   th o v er al l   d ata.   C lu s ter i n g   al g o r ith m s   s u c h   as   C L AR A   ( C l u s ter i n g   L AR g A p p licatio n s )   alg o r ith m ,   C L AR A N S   ( C lu s ter in g   L ar g A p p licatio n s   b ased   u p o n   R A Nd o m ized   Sear ch ) ,   B I R C ( B alan ce d   I ter ativ R ed u ci n g   u s i n g   C l u s ter   Hier ar ch ies)   al g o r ith m ,   etc.   T o   r ef lect  th g o o d n ess   Ge n etic  al g o r ith m s   ar also   ap p lied   to   clu s ter i n g   as  o p ti m iza tio n   cr it er io n .   So cial  Net w o r k   A n a l y s i s   ( SN A )   is   e m er g ed   as a   k e y   t ec h n iq u i n   m o d er n   s o cio lo g y ,   v ie w s   s o cial  r elati o n s h ip s   in   ter m s   o f   n et w o r k   t h eo r y ;   it  co n s i s ts   o f   n o d es  an d   ties .   Vis u aliza tio n   A p p r o ac h es   ar e   th tec h n iq u e s   u s ed   to   cr ea te   d iag r a ms ,   ta b les,  i m a g es  a n d   o th er   in t u iti v d is p la y   w a y s   to   u n d er s ta n d   d ata.   Ma ch i n lea r n in g   is   a n   i m p o r tan s u b j ec o f   ar tif icia in te lli g en ce .   I t   i s   ai m ed   to   d esi g n   alg o r ith m s   t h at  allo w   co m p u te r s   to   ev o lv b eh a v io r s   b ased   o n   e m p ir ical  d ata.     B ig   Data   to o ls   f o r   b atch   p r o ce s s i n g   1)   Kar m asp h er Stu d io   an d   An al y s t   2)   J asp er   s o f t B I     3)   Sk y   tr ee   Ser v er     4)   P en tah o   B u s i n es s   A n a l y t ics   5)   A p ac h Ma h o u   6)   T ab leau     7)   T alen d   Op en   Stu d io   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ AA S   I SS N:  2252 - 8814           A   S tu d o n   B i g   Da ta   Tech n iq u es a n d   A p p lica tio n s   ( K .   R a d h a )   107   8)   A p ac h Had o o p   an d   m ap /r ed u ce   9)   Dr y ad     B ig   Data   to o ls   f o r   s tr ea m   p r o ce s s i n g   1)   Sto r m   2)   S4   3)   SQLstre a m   s - Ser v er   4)   Sp lu n k   5)   A p ac h Kaf k a   6)   S A P   Han a       6.         CO NCLUS I O N         I n   Di s tr ib u ted   S y s te m s   w o r l d ,   b ig   d ata  s tar ted   to   b ec o m m aj o r   ch allen g i n   t h la te  1 9 9 0 s   d u to   th i m p ac t   o f   w o r ld - w id w eb .   Data b ase  tec h n o lo g y   ( i n clu d in g   p ar allel  d atab ases )   w a s   co n s id er ed   f o r   t h e   task ,   b u w a s   f o u n d   to   b n eith er   w el l - s u ited   n o r   co s t - e f f ec t iv f o r   th o s p u r p o s es.  T h n ec ess it y   to   p r o ce s s   m as s i v q u a n titi e s   o f   d ata  h as  n e v er   b ee n   g r ea ter .   No t   o n l y   ter ab y te   an d   p etab y te   s c ale  d atasets   r ap id l y   b ec o m i n g   co m m o n   p lace .   Gar tn er   d ef in ed   B ig   Data   as  B ig   Data   is   Hig h   Velo cit y ,   Hi g h   Vo lu m a n d   Hig h   v ar iet y   i n f o r m atio n   ass et s   r eq u ir n e w   f o r m s   o f   p r o ce s s i n g   to   en ab le  e n h a n ce d   d ec is i o n   m a k in g ,   p r o ce s s   o p tim izatio n   a n d   in s i g h d i s c o v er y .   I n   t h co m m er cial  w o r ld ,   b u s in es s   i n telli g e n ce   g at h er s   t h d ata  f r o m   ar r ay   o f   s o u r ce s .   B ig   Data   an al y s i s   to o ls   lik Ma p   R ed u ce   o v er   Had o o p ,   HDFS ,   to   ass is to   o r g an izatio n s   b etter   u n d er s ta n d   th eir   m ar k et  p lace   an d   cu s to m er s   h o p ef u ll y   lead i n g   to   b etter   b u s i n es s   d ec is io n s   a n d   co m p eti tiv b e n e f its .   Fo r   e n g in ee r s   b u ild i n g   in f o r m at io n   p r o ce s s in g   to o ls   an d   ap p li ca tio n s ,   lar g a n d   h eter o g e n eo u s   d ataset s   w h ich   ar g en er atin g   co n ti n u o u s   f lo w   o f   d ata,   lead   to   m o r ef f ec ti v alg o r it h m s   f o r   w id r a n g o f   ta s k s .   W eb - b ase d   ap p licatio n s   ar en co u n ter   b ig   d ata  s u c h   as   s o cial  co m p u ti n g   ( in cl u d es o n li n e   co m m u n itie s ,   r ep u tatio n   s y s t e m s ,   s o cial  n et w o r k   an a l y s i s ,   p r e d ictio n   m ar k ets,  r ec o m m en d er   s y s te m s ,   I n ter n et  s ea r c h   i n d ex i n g .   T h er ar v ar io u s   ap p licatio n s   o f   th B ig   Da ta  s u ch   as  B i g   Data   i n   So ciet y   A d m i n is tr atio n ,   B ig   Data   i n   B u s i n ess   a n d   C o m m er ce ,   B ig   Data   in   s cie n ti f ic  r esear ch B ig   Data   to o ls   f o r   b atch   p r o ce s s i n g   s u c h   as  A p a ch Ma h o u T ab leau ,   T alen d   Op en   St u d io   an d   A p ac h Had o o p   an d   m ap /r ed u ce   an d   Dr y ad   B ig   Data   to o ls   f o r   s tr ea m   p r o ce s s   s u c h   as  Sp l u n k ,   S A P   Ha n a B ig   Data   T ec h n iq u es  s u c h   as   Statis t ical  tech n iq u e s ,   Op ti m i za tio n   Me th o d s   an d   Data   m i n in g   tec h n iq u es,   Ma ch in L e ar n in g   T ec h n iq u e s ,   C las s i f icatio n   a n d   C l u s ter i n g   tech n iq u es,  R eg r es s io n   An al y s is   tec h n iq u es,   etc  w er d is c u s s ed . A l g o r ith m   i s   d is cu s s ed   o n   B u ild i n g   i n d ex   f o r   w eb   p a g es  a v ailab le   o n li n e   an d   s ee   h o w   Ma p   a n d   R ed u c f u n ctio n s   ca n   b e   ex ec u ted .   I n p u t c an   b co n s id er ed   as a   s et  o f   d o cu m en ts .       RE F E R E NC E S   [1 ]   P u n e e S i n g h   Du g g a l,   S a n c h it a   P a u l,   Bi g   Da ta   A n a lys is Ch a ll e n g e a n d   S o l u ti o n s”,   In tern a ti o n a Co n f e re n c e   o n   Clo u d ,   Big   Da ta an d   T ru st,   RG P V .   N o v e m b e r   2 0 1 3 1 3 - 1 5 2 6 9 - 2 7 6 .   [2 ]   Je f r y   De a n   a n d   S a n jay   G h e m w a t ,   M a p Re d u c e A   F lex ib le  Da ta  P ro c e ss in g   T o o l,   Co m m u n ica ti o n s   o f   th e   A CM .   Ja n u a ry   2 0 1 0 5 3 ( 1 ):   72 - 7 7 .     [3 ]   Je f r y   De a n   a n d   S a n jay   G h e m w a t ,   M a p Re d u c e S im p li f ied   d a ta  p ro c e ss in g   o n   larg e   c lu ste rs,  Co m m u n ica ti o n o f   th e   A CM .   2 0 0 8 :   5 5 1 0 7 1 1 3 ,     [4 ]   X in d o n g   W u ,   X in g q u a n   Zh u ,   G o n g - Qin g   W u ,   W e Din g ,   Da ta   M in i n g   w it h   Big   Da ta” ,   IEE T ra n sa c ti o n On   Kn o wled g e   a n d   D a ta   En g i n e e rin g Ja n u a ry   2 0 1 4 2 6 ( 1 ):  97 - 1 0 7 .   [5 ]   IBM   W h a Is  Big   Da ta:  Brin g   Big   Da ta  to   th e   En terp rise ,   h tt p : // ww w - 0 1 . ib m . c o m / so f t w a r e /d a ta/b ig d a ta/,   IBM 2 0 1 2 .   [6 ]   C. L .   P h i li p   Ch e n ,   Ch u n - Ya n g   Z h a n g ,   Da ta - in ten siv e   a p p li c a ti o n s,  c h a ll e n g e s,  tec h n iq u e a n d   t e c h n o l o g ies su rv e y   o n   Big   Da ta” ,   In f o rm a ti o n   S c ien c e s,   ww w . e ls e v ier.co m /l o c a te/in s ,   Ja n u a ry   2 0 1 4 .   [7 ]   Eri c   S a v it z ,   G a rtn e r:  1 0   Crit ica Tec h   T re n d f o th e   Ne x F iv e Y e a rs,   Oc to b e r2 0 1 2   < h tt p :/ /w ww . f o rb e s.co m /sit e s/e ri c sa v it z /2 0 1 2 / 1 0 / 2 2 /g a rtn e r - 10 - c ri ti c a l - tec h - tren d s - f o r - th e - n e x t - f iv e   y e a rs/> .   [8 ]   Eri c   S a v it z ,   G a rtn e r:  T o p   1 0   S trate g ic  T e c h n o lo g y   T re n d f o 2 0 1 3 ,   Oc to b e 2 0 1 2 .                   < h tt p :/ /w ww . f o rb e s.co m /sit e s/e ri c sa v it z /2 0 1 2 / 1 0 / 2 3 /g a rtn e r - t o p -   10 - stra teg ic - tec h n o lo g y - tren d s - f o r - 2 0 1 3 />.   [9 ]   Do u g   L a n e y ,   3 d   Da ta  m a n a g e m e n t:   c o n tr o ll i n g   d a ta  v o lu m e ,   v e lo c it y   a n d   v a riet y ,   A p p l.   De li v e r y   S trate g ies   M e ta   G ro u p   (9 4 9 ( 2 0 0 1 ).   [1 0 ]   P a u Zi k o p o u l o s,  Ch r is  Eato n ,   P a u l.   Zi k o p o u lo s,  Un d e rsta n d i n g   Big   Da ta:  A n a l y ti c f o En terp rise   Clas s         Ha d o o p   a n d   S trea m in g   Da ta,  M c G ra w   Hill   P ro f e ss io n a l,   2 0 1 1 .   [1 1 ]   Ju n p i n g   Zh a n g ,   F e i - Yu e   W a n g ,   Ku n f e n g   W a n g ,   W e i - Hu a   L in ,   X i n   X u ,   C h e n g   Ch e n ,   Da ta - d r iv e n   in telli g e n t         tran sp o rtati o n   sy ste m s: a su rv e y ,   IEE T ra n s.  I n tell.   T ra n s.  S y st.   1 2   (4 )   (2 0 1 1 1 6 2 4 1 6 3 9 .   [1 2 ]   Ew a r y st T k a c z ,   A d rian   Ka p c z y n ´   sk i,   In tern e t:   T e c h n ica De v e lo p m e n a n d   A p p li c a ti o n s,  S p ri n g e r,   2 0 0 9 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8814   IJ AA S    Vo l.   5 ,   No .   2 J u n e   2 0 1 6   :   1 0 1     1 08   108   [1 3 ]   Ja m e M a n y ik a ,   M ich a e Ch u i,   Bra d   Bro w n ,   Ja c q u e B u g h i n ,   R ich a rd   Do b b s,   Ch a rles   R o x b u rg h ,   A n g e la  Hu n g         B y e rs,  Big   d a ta:  T h e           Ne x F ro n ti e f o I n n o v a ti o n ,   Co m p e ti ti o n ,   a n d   P ro d u c ti v it y ,   M c Kin se y   Glo b a I n stit u te,   2 0 1 2 .   [1 4 ]   Ra n d a E.   Bry a n t,   Da ta  In ten siv e   su p e rc o m p u ti n g T h e   Ca se   f o Disc .   T e c h n ica Re p o rt  CM U - CS - 07 - 1 2 8 ,             2 0 0 7 .   [1 5 ]   Ja m e M a n y i k a ,   M ich a e Ch u i,   Bra d   Bro w n ,   Ja c q u e Bu g h in ,   R ich a rd   Do b b s,  C h a rles   Ro x b u rg h , A n g e la  Hu n g   B y e rs,  Big   d a ta:  T h e   N e x F ro n t ier  f o   In n o v a ti o n ,   C o m p e ti ti o n ,   a n d   P r o d u c ti v it y ,   M c Kin s e y   Glo b a I n stit u te,   2 0 1 2 .   [1 6 ]   A le x a n d e S .   S z a lay ,   Ex tre m e   d a ta - in ten siv e   sc ien ti f ic co m p u ti n g ,   Co m p u t.   S c i.   En g .   2 0 1 1 :   1 3 (6 ): 34 4 1 .   [1 7 ]   F e i - Yu e   W a n g ,   Da n iel  Zen g ,   Ka th lee n   M .   Ca rley ,   Wen ji   M a o ,   S o c ial  c o m p u ti n g f ro m   so c ial        in f o rm a ti c to   so c i a in telli g e n c e ,   IEE E   In tell .   S y st 2 0 0 7 :   2 2 (2 ):   79 83.   [1 8 ]   Ja so n   M c De r m o tt ,   Ra m   S a m u d r a la,  Ro g e Bu m g a rn e r,   Kristin a .   M o n tg o m e r y ,   Co m p u tatio n a S y s tem Bio lo g y ,   Hu m a n a   P re ss ,   2 0 0 9 .   [1 9 ]   V ik a C.   Ra y k a r,   Ra m a n Du ra is w a m i,   Ba laji  Krish n a p u ra m ,   f a st  a lg o rit h m   f o lea rn in g   a   ra n k in g   f u n c ti o n   f ro m   larg e - sc a le d a ta se ts,   IEE T ra n s.   Pa tt e rn   An a l.   M a c h .   I n tell 2 0 0 8 :   3 0 ( 7 ) :   1 1 5 8 1 1 7 0 ,   2 0 0 .   [2 0 ]   M ich a e Isa rd ,   M i h a Bu d iu ,   Y u a n   Yu ,   A n d re w   Birrell,   De n n is  F e tt e rly ,   a n d   Dr y a d d istrib u ted   d a t a -   p a ra ll e l   p ro g r a ms   fro se q u e n ti a l   b u il d in g   b l o c k s ,   in :   E u ro S y ’0 7   P r o c e e d in g o f   th e   2 n d   A CM   S I G OP S /E u r o S y Eu ro p e a n   Co n f e re n c e   o n   Co m p u t e r   S y st e m s.  2 0 0 7 4 1 (3 ) : 59 7 2 .   Evaluation Warning : The document was created with Spire.PDF for Python.