I nte rna t io na l J o urna l o f   Adv a nces in Applie d Science s   ( I J AAS)   Vo l.   4 ,   No .   4 Dec em b er   201 5 ,   p p .   117 ~ 123   I SS N:  2252 - 8814          117       J o ur na l ho m ep a g e h ttp : //ia e s jo u r n a l.c o m/o n lin e/in d ex . p h p /I J AAS   M a chine Lea rnin g  in  Big  Data         L ido ng   Wa ng *,   G ua ng h ui  Wa ng **,   Chery l A nn   Alex a nd er ***   D e p a rt m e n o f   En g in e e rin g   T e c h n o lo g y ,   M issis sip p V a ll e y   S tate   Un iv e rsity ,   US A   * *   S t a te Ke y   L a b o ra to ry   o f   S e v e r e   W e a th e r,   Ch in e se   A c a d e m y   o f   M e teo ro l o g ica S c ien c e s,  Ch in a   * * *   T e c h n o lo g y   a n d   He a lt h c a re   S o lu ti o n s ,   USA       Art icle  I nfo     AB ST RAC T     A r ticle  his to r y:   R ec eiv ed   Sep   28 ,   2 0 1 5   R ev i s ed   No v   7 ,   2 0 1 5   A cc ep ted   No v   18 ,   2 0 1 5       M a c h in e   lea rn i n g   is  a n   a rti f icia in telli g e n c e   m e th o d   o f   d isc o v e rin g   k n o w led g e   f o m a k in g   in telli g e n d e c isio n s.  Big   Da ta  h a g re a i m p a c ts  o n   sc ien ti f ic  d isc o v e rie a n d   v a lu e   c re a ti o n .   T h is  p a p e in tro d u c e m e th o d in   m a c h in e   lea rn in g ,   m a in   tec h n o l o g ies   i Big   Da ta,  a n d   so m e   a p p l ica ti o n o m a c h in e   lea rn in g   in   Big   Da ta . C h a ll e n g e s o f   m a c h in e   lea rn in g   a p p l ica ti o n s i n   Big   Da ta  a re   d isc u ss e d .   S o m e   n e w   m e th o d a n d   tec h n o l o g y   p ro g re ss   o f   m a c h in e   lea rn in g   in   Big   Da ta are   a lso   p re se n ted .   K ey w o r d :   B ig   d ata   B ig   d ata   an al y tics   I n f o r m a tio n   tec h n o lo g y   Ma ch i n lear n i n g   Net w o r k s   S tr ea m   p r o ce s s i n g   Co p y rig h ©   201 5   In s t it u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   L id o n g   W an g ,   Dep ar t m en t o f   E n g i n ee r in g   T ec h n o lo g y ,   Miss i s s ip p i V alle y   State  U n i v er s it y ,   US A .   E m ail:  l w a n g 2 2 @ s t u d en ts . t n t ec h . ed u       1.   I NT RO D UCT I O N   Ma ch i n lear n in g   is   an   i m p o r t an ar ea   o f   ar ti f icia i n telli g e n ce .   T h o b j ec tiv o f   m ac h in e   l ea r n in g   i s   to   d is co v er   k n o w led g an d   m ak in telli g en d ec is io n s .   Ma ch in lear n i n g   a lg o r it h m s   ca n   b ca teg o r ized   in to   s u p er v i s ed ,   u n s u p er v i s ed ,   an d   s e m i - s u p er v is ed .   W h e n   b i g   d ata  i s   co n ce r n ed ,   it   is   n e ce s s ar y   to   s ca le   u p   m ac h in lear n i n g   al g o r it h m s   [ 1] [2 ] .   A n o t h er   ca teg o r izatio n   o f   m ac h i n lear n i n g   ac co r d in g   to   th o u t p u o f   m ac h in lear n i n g   s y s te m   i n cl u d es  clas s i f icatio n r e g r ess io n clu s ter i n g ,   a n d   d en s i t y   e s ti m atio n ,   etc.   Ma ch i n lear n in g   ap p r o ac h es  i n clu d d ec is io n   tr ee   lear n i n g ,   ass o c iatio n   r u le  lear n i n g ,   ar ti f icial   n eu r al  n et w o r k s ,   s u p p o r t v ec to r   m ac h in e s   ( SV M) ,   clu s ter in g ,   B a y e s ian   n et wo r k s ,   an d   g e n etic  al g o r ith m s ,   e tc. ,   [ 3 ] .          E x am p le s   o f   s u p er v is ed   l ea r n in g   alg o r it h m s   i n clu d N aïv B a y es,  b o o s tin g   alg o r it h m ,   s u p p o r v ec to r   m ac h i n es  ( S VM ) ,   an d   m ax i m u m   e n tr o p y   m e th o d   ( Ma x E NT ) ,   etc.   Un s u p er v i s ed   lear n i n g   tak e u n lab elled   d ata  a n d   class i f ie s   b y   co m p ar i n g   t h f ea t u r es  o f   d ata.   E x a m p les  o f   u n s u p er v is ed   alg o r ith m s   ar clu s ter i n g   ( k - m ea n s ,   d en s it y - b ased ,   an d   h ier ar ch ical,   etc. ) ,   s elf - o r g a n izi n g   m ap s   ( SO M) ,   an d   ad ap tiv r eso n an ce   t h eo r y   ( A R T )   [ 4 ] .   Ma ch i n lear n i n g   h a s   b ee n   u s ed   in   b ig   d ata.   B ig   d ata  is   a   m as s iv v o lu m o f   b o th   s tr u ctu r ed   an d   u n s tr u ct u r ed   d ata  th a is   s o   lar g t h at  it  i s   d i f f ic u lt   to   p r o ce s s   u s in g   tr ad itio n a d ata b ase  an d   s o f t w ar tech n iq u es.  B i g   d ata  tec h n o l o g ies  h a v g r ea t   i m p ac t s   o n   s cien t if ic   d is co v er ie s   a n d   v al u cr ea tio n   [ 5 ] - [ 7 ] .   Ma s s i v p ar allel - p r o ce s s in g   ( MP P),   d is tr ib u ted   f ile  s y s te m s ,   a n d   clo u d   co m p u ti n g ,   e tc.   ar s u p p o r tin g   tech n o lo g ies   o f   B i g   Data   [ 8 ] .   B esid es  g e n er al  clo u d   i n f r a s tr u ctu r s er v ice s ,   tec h n o lo g ie s   s u ch   as  Had o o p ,   Data b ase s /Ser v er s   SQ L ,   No S QL ,   an d   MP P   d atab ases ,   etc.   a r also   u s ed   to   s u p p o r t B ig   Data   [ 9 ] .     T h is   p ap er   in tr o d u ce s   m ac h i n lear n i n g ,   its   ap p licatio n s   in   B ig   Data ,   a n d   th c h all en g e s   an d   tech n o lo g y   p r o g r es s   o f   m ac h i n lear n i n g   in   B i g   Data .   T h o r g an izatio n   o f   t h is   p ap er   is   as  f o llo w s t h n ex t   s ec tio n   i n tr o d u ce s   m eth o d s   o f   m ac h i n lear n i n g   an d   b i g   d ata Sectio n   3   in tr o d u ce s   m ac h i n lear n i n g   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8814   IJ AA S    Vo l.   4 ,   No .   4 Dec em b er   201 5   :   1 1 7     1 2 3   118   ap p licatio n s   i n   b ig   d ata Secti o n   4   d is cu s s es   ch al len g es  o f   m ac h in lear n i n g   ap p licatio n s   in   b i g   d ata Sectio n   5   p r esen ts   tec h n o lo g y   p r o g r ess   o f   m ac h i n lear n in g   ap p licatio n s   in   b ig   d ata a n d   t h f i n al  s ec tio n   i s   co n clu s io n s .       2.   M E T H O DS O F   M ACH I NE   L E A RNIN G   AN B I G   DA T A   Su p er v i s ed   lear n i n g   ca n   b d iv id ed   in to   cla s s i f icatio n   an d   r eg r ess io n .   W h en   th c lass   attr ib u te  i s   d is cr ete,   it  is   ca lled   class i f ic atio n w h e n   t h clas s   attr ib u te  is   co n ti n u o u s ,   it  i s   r eg r es s io n .   Dec is io n   tr ee   lear n in g ,   n aiv e   B a y es  cla s s i f ier ,   k - n ea r est  n ei g h b o r   ( k N N)   class i f ier ,   an d   cla s s i f icat io n   w it h   n et w o r k   in f o r m atio n   ar class if ica tio n   m et h o d s .   L in ea r   r eg r e s s io n   an d   lo g i s tic  r eg r e s s io n   ar r eg r ess io n   m et h o d s .   Un s u p er v i s ed   lear n i n g   i s   th u n s u p er v is ed   d iv is io n   o f   in s ta n ce s   in to   g r o u p s   o f   s i m ilar   o b j e cts [ 1 0 ] .     C lu s ter i n g   ca n   b g r o u p ed   i n to   th r ee   ca te g o r ies.  T h e y   a r s u p er v i s ed ,   u n s u p er v is ed ,   an d   s e m i - s u p er v i s ed   [ 1 1 ] :   1.   Su p er v i s ed   clu s ter in g :   It   id en tif ie s   cl u s ter s   th at   h a v h i g h   p r o b a b ilit y   d en s ities   w it h   r es p ec to   in d iv id u al  cla s s e s   ( class u n if o r m   cl u s ter s ) .   I i s   u s ed   w h en   th er is   a   tar g et  v ar iab le  a n d   tr ain i n g   s et  t h a t   in cl u d es th v ar iab les to   clu s te r .   2.   Un s u p er v i s ed   clu s ter i n g :   It   m ax i m izes  t h in tr ac l u s ter   s i m i lar it y   an d   m i n i m ize s   th in ter clu s ter   s i m ilar it y   w h e n   s i m ilar it y / d is s i m ilar it y   m ea s u r is   g i v e n .   I u s es  s p ec if ic  o b j ec tiv f u n ctio n   ( e. g . ,   f u n ctio n   t h at  m in i m izes t h i n tr ac lass   d is ta n ce s   to   f i n d   ti g h clu s ter s ) .   K m ea n s   a n d   h ier ar ch ical  cl u s ter i n g   ar th m o s w id el y   u s ed   u n s u p er v is ed   cl u s ter i n g   tec h n iq u e s   in   s eg m e n tatio n .   3.   Se m i - s u p er v i s ed   clu s ter i n g :   I n   ad d itio n   to   t h s i m ilar it y   m ea s u r e,   s e m i - s u p er v i s ed   clu s ter in g   u tili ze s   o th er   g u id in g /ad j u s t in g   d o m a in   i n f o r m atio n   to   i m p r o v th cl u s ter i n g   r esu lt s .   T h is   d o m ai n   in f o r m atio n   ca n   b p air w is e   co n s tr ain t s   b et w ee n   t h o b s er v atio n s   o r   tar g et  v ar iab le s   f o r   s o m o f   t h o b s er v atio n s .     Dec is io n   tr ee s   cla s s i f y   e x a m p les  b ased   o n   th eir   f ea t u r v alu e s .   Dec is io n   tr ee s   ar co n s tr u cte d   r ec u r s iv e l y   f r o m   tr ain i n g   d ata  u s in g   to p - d o w n   g r ee d y   ap p r o ac h   in   w h ic h   f ea t u r es  ar s eq u en tial l y   s elec ted   [ 1 0 ] .   Dec is io n   tr ee   class i f ier s   o r g an ize  th tr ai n i n g   d ata  in to   tr ee - s tr u c tu r p la n .   Dec is io n   tr ee s   ar e   co n s tr u cted   b y   s tati n g   w it h   t h r o o n o d h a v in g   th e   w h o le   d ata  s et,   iter ati v el y   c h o o s in g   s p litt in g   cr iter ia  a n d   ex p an d in g   lea f   n o d es  w it h   p ar titi o n ed   d ata  s u b s ets  ac co r d in g   to   th s p li tti n g   cr iter ia.   S p litt in g   cr iter ia  ar e   ch o s en   b ased   o n   s o m e   q u ali t y   m ea s u r es   s u c h   as   in f o r m a tio n   g ai n ,   w h ic h   r eq u ir es   h a n d li n g   th e n tire   d ata  s e t   o f   ea ch   ex p a n d in g   n o d es.  T h is   m ak e s   it d if f ic u lt  f o r   d ec is io n   tr ee s   to   b ap p lied   to   b ig   d ata  ap p licatio n s   [ 1 2 ] .   Su p p o r v ec to r   m ac h i n ( SVM)   is   b in ar y   clas s i f ier   w h ic h   f i n d s   lin ea r   clas s i f ier   in   h ig h e r   d i m en s io n al   f ea tu r s p ac to   w h ic h   o r ig i n al  d ata   s p ac i s   m ap p ed .   SVM  s h o w s   v er y   g o o d   p er f o r m a n ce   f o r   d ata  s ets in   m o d er ate  s ize.   I h as i n h er e n t li m itat io n s   to   b ig   d ata  ap p licatio n s   [ 1 2 ] .   Dee p   m ac h i n lear n i n g   h as  b ec o m r esear c h   f r o n tier   i n   ar tific ial  i n telli g e n ce .   I t   is   m ac h in e   lear n in g   tec h n iq u e,   w h er m an y   la y er s   o f   in f o r m at io n   p r o ce s s in g   s ta g es  ar ex p l o ited   in   h ier ar ch ica l   ar ch itect u r es.  I co m p u tes  h ier ar ch ical  f ea tu r e s   o r   r ep r esen ta tio n s   o f   t h o b s er v atio n al  d ata ,   w h er t h h ig h er - lev el  f ea t u r es  o r   f ac to r s   ar e   d ef in ed   f r o m   lo w er - lev e o n e s .   Dee p   lear n i n g   alg o r it h m s   ex tr ac h ig h - le v el,   co m p le x   ab s tr ac tio n s   as  d ata  r ep r esen tatio n s   th r o u g h   h ier ar ch ical  lear n i n g   p r o ce s s .   W h il d ee p   lea r n in g   ca n   b ap p lied   to   lear n   f r o m   la b eled   d ata,   it  is   p r i m ar il y   attr ac tiv f o r   lear n i n g   f r o m   lar g a m o u n ts   o f   u n lab eled / u n s u p er v is ed   d ata,   m ak in g   it  attr ac ti v f o r   ex tr ac t in g   m ea n in g f u r ep r esen tatio n s   an d   p atter n s   f r o m   b ig   d ata.   Dee p   lear n in g   al g o r ith m s   a n d   ar ch itect u r es  ar m o r ap tl y   s u ited   to   ad d r ess   is s u es  r elate d   to   Vo lu m a n d   Var iet y   o f   B i g   d ata  an al y tics .   Dee p   m ac h i n lea r n in g   ca n   b ap p lied   to   b ig   d at a.   Ho w ev er ,   it  h a s   s o m r estrictio n s   i n   b ig   d ata  a p p licatio n s   b ec au s it r eq u ir e s   s ig n i f ican t a m o u n t o f   tr ain i n g   ti m [ 1 2 ] ,   [ 1 3 ] .   P ar allel  lear n er   f o r   ass e m b li n g   n u m er o u s   e n s e m b le  tr ee s   ( P L ANE T )   is   r eg r ess io n   tr ee   alg o r ith m   i m p le m en ted   w it h   s eq u e n ce   o f   Ma p R ed u ce   j o b s   th at   r u n   o n   t h b ig   d ata  f r a m e w o r k ,   H ad o o p .   I ca n   d ea w it h   b ig   v o lu m o f   d ata,   b u t is   n o t a p p licab le  to   d ata  w it h   ca t eg o r ical  attr ib u tes [ 1 2 ] .   On tr en d   i n   m ac h in lear n i n g   is   to   co m b in r es u lt s   o f   m u ltip le  lear n er s   to   o b tain   b etter   ac cu r ac y .   T h is   tr en d   is   co m m o n l y   k n o w n   as   E n s e m b le   L ea r n i n g .   T h er ar f o u r   m et h o d s   o f   co m b i n i n g   m u lt ip le   m o d el s : b ag g i n g ,   b o o s tin g ,   s ta ck in g ,   an d   er r o r - co r r ec tin g   o u t p u t [ 1 4 ] .   A   co m p ar i s o n   o f   s e v er al  m a ch in e   lear n i n g   al g o r ith m s   was  m ad i n   T ab le  1   [ 1 5 ]   ac co r d in g   to   alg o r ith m s   t y p e,   al g o r ith m s   t r ait,   lear n i n g   p o lic y ,   lear n in g   al g o r ith m s ,   a n d   cla s s i f icati o n   s tr ate g y .   So m e   f ea t u r es o f   m ac h i n e   lear n in g   a lg o r ith m s   w er co m p ar ed   in   T ab le  2   [ 1 6 ] .                    Evaluation Warning : The document was created with Spire.PDF for Python.
IJ AA S   I SS N:  2252 - 8814       Ma ch in Lea r n in g   in   B ig   Da t a   ( Lid o n g   W a n g )   119   T ab le  1 .   Su m m ar y   o f   s e v er al  m ac h in lear n i n g   al g o r ith m s   A l g o r i t h ms   A l g o r i t h ms   t y p e   A l g o r i t h ms   c h a r a c t e r i st i c   L e a r n i n g   p o l i c y   L e a r n i n g   a l g o r i t h ms   C l a ssi f i c a t i o n   st r a t e g y   D e c i si o n   t r e e   D i scri m i n a n t   C l a ssi f i c a t i o n   t r e e   R e g u l a r i z e d   max i mu l i k e l i h o o d   e st i mat i o n   F e a t u r e   se l e c t i o n ,   g e n e r a t i o n ,   p r u n e   IF - T H EN   p o l i c y   b a se d   o n   t r e e   sp i t t i n g   N o n - l i n e a r   su p p o r t   v e c t o r   mac h i n e   ( b a se d   o n   l i b sv m)   D i scri m i n a n t   S u p e r - p l a n e   se p a r a t i o n ,   k e r n e l   t r i c k   M i n i m i z i n g   t h e   l o ss o f   r e g u l a r   h i n g e ,   so f t   marg i n   max i mi z a t i o n   S e q u e n t i a l   mi n i mal   o p t i m i z a t i o n   a l g o r i t h ( S M O )   M a x i m u m   c l a ss o f   t e st   sam p l e s   L i n e a r   S V M   ( b a se d   o n   l i b l i n e a r )   D i scri m i n a n t   S u p e r - p l a n e   se p a r a t i o n   M i n i m i z i n g   t h e   l o ss o f   r e g u l a r   h i n g e ,   so f t   marg i n   max i mi z a t i o n   S e q u e n t i a l   d u a l   me t h o d   M a x i m u m   w e i g h t e d   t e st   samp l e   S t o c h a st i c   g r a d i e n t   b o o st i n g   D i scri m i n a n t   L i n e a r   c o mb i n a t i o n   o f   w e a k   c l a ss i f i e r   ( b a se d   o n   d e c i si o n   t r e e )   A d d i t i o n   mi n i mi z a t i o n   l o ss   S t o c h a st i c   g r a d i e n t   d e sce n t   a l g o r i t h m   L i n e a r   c o mb i n a t i o n   o f   w e i g h t e d   max i mu m w e a k   c l a ssi f i e r s   N a i v e   B a y e si a n   c l a ssi f i e r   G e n e r a t i v e   Jo i n t   d i st r i b u t i o n   o f   f e a t u r e   a n d   c l a ss ,   c o n d i t i o n a l   i n d e p e n d e n t   a ssu m p t i o n   M a x i m u m   l i k e l i h o o d   e st i mat i o n ,   M a x i m u m   p o st e r i o r   p r o b a b i l i t y   P r o b a b i l i st i c   c o mp u t a t i o n   M a x i m u m   p o st e r i o r   p r o b a b i l i t y       T ab le  2 .   C o m p ar in g   m ac h i n l ea r n in g   al g o r ith m s     D e c i s i o n   T r e e s   N e u r a l   N e t w o r k s   N a ï v e   B a y e s   k N N   S V M   R u l e -   l e a r n e r s   A c c u r a c y   i n   g e n e r a l   **   ***   *   **   ****   **   S p e e d   o f   l e a r n i n g   w i t h   r e sp e c t   t o   n u m b e r   o f   a t t r i b u t e a n d   t h e   n u mb e r   o f   i n st a n c e s   ***   *   ****   ****   *   **   S p e e d   o f   c l a ssi f i c a t i o n   ****   ****   ****   *   ****   ****   T o l e r a n c e   t o   mi ss i n g   v a l u e s   ***   *   ****   *   **   **   T o l e r a n c e   t o   i r r e l e v a n t   a t t r i b u t e s   ***   *   **   **   ****   **   T o l e r a n c e   t o   r e d u n d a n t   a t t r i b u t e s   **   **   *   **   ****   **   T o l e r a n c e   t o   h i g h l y   i n t e r d e p e n d e n t   a t t r i b u t e ( e . g .   p a r i t y   p r o b l e ms)   **   ***   *   *   ***   **   D e a l i n g   w i t h   d i s c r e t e / b i n a r y / c o n t i n u o u s   a t t r i b u t e s   ****   * * *   ( n o t   d i s c r e t e )   ***  ( n o t   c o n t i n u o u s)   ***  ( n o t   d i r e c t l y   d i s c r e t e )   **  ( n o t   d i s c r e t e )   ***  ( n o t   d i r e c t l y   c o n t i n u o u s)   T o l e r a n c e   t o   n o i se   **   **   ***   *   **   *   D e a l i n g   w i t h   d a n g e r   o f   o v e r f i t t i n g   **   *   ***   ***   **   **   A t t e mp t s fo r   i n c r e me n t a l   l e a r n i n g   **   ***   ****   ****   **   *   Ex p l a n a t i o n   a b i l i t y / t r a n sp a r e n c y   o f   k n o w l e d g e / c l a ssi f i c a t i o n s   ****   *   ****   **   *   ****   M o d e l   p a r a me t e r   h a n d l i n g   ***   *   ****   ***   *   ***   ( * * * *   s tar s   r ep r esen t t h b est  an d   *   s tar   t h w o r s t p er f o r m a n ce )       T h er ar s ev er al  f r a m e w o r k s ,   lik Ma p / R ed u ce Dr y ad L I NQ ,   an d   I B p ar allel  m ac h i n lear n in g   to o lb o x   th at  h a v ca p ab ilit ies t o   s ca le  u p   m ac h in lear n i n g   [ 1 ] .     Ma h o u t   is   an   o p en   s o u r ce   m a ch in e   lear n in g   l ib r ar y   f r o m   Ap ac h f o r   b ig   d ata   an al y s is .   I t   ai m s   to   b e   th m ac h i n lear n i n g   to o o f   ch o ice  w h e n   th co llectio n   o f   d ata  is   v er y   lar g [ 4 ] .   T h A p ac h Ma h o u p r o j ec ai m s   at  b u ild in g   a   s ca lab le  m a ch in e   lear n in g   l ib r ar y   o n   to p   o f   Had o o p .   T h Ma h o u m ac h in l ea r n i n g   lib r ar y   w a s   i n teg r ated ,   ad ap ted ,   an d   ex ten d ed   b y   d ev elo p in g   ad v a n ce d   m ac h i n lear n in g   al g o r it h m s   f o r   lar g s ca le   d ata.   Ma h o u m a y   s ig n i f ica n tl y   h elp   to w ar d s   g r o u p in g   s i m ilar   ite m s ,   id en ti f y in g   m ai n   o r   h o t”  to p ics,  ass i g n in g   ite m s   to   p r ed ef in ed   ca t eg o r ies,  r ec o m m e n d in g   i m p o r ta n d ata  to   d iv er s e   s tak e h o ld er s ,   an d   d is co v er in g   f r eq u e n t a n d   m ea n in g f u l p atter n s   i n   s p ec i f ic  d ec is io n - m ak i n g   s ett in g   [ 1 7 ] .   P iv o talR   is   p ac k a g f o r   m a ch in lear n i n g   o n   b ig   d ata.   P iv o talR   u tili ze s   th f u ll  p o w er   o f   p ar allel  co m p u tatio n   a n d   d is tr ib u t iv e   s to r ag e,   a n d   t h u s   g iv e s   t h n o r m al   R   u s er   ac ce s s   to   b ig   d ata  s to r ed   in   d is tr ib u ti v d atab ases   o r   Had o o p   d is tr ib u tiv f ile  s y s te m   ( HDFS) .   I p r o v id es  d ata - p ar al lel  i m p le m e n tatio n s   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8814   IJ AA S    Vo l.   4 ,   No .   4 Dec em b er   201 5   :   1 1 7     1 2 3   120   o f   m ath e m atica l,  s ta tis tica a n d   m ac h i n e - lear n i n g   al g o r ith m s   f o r   s tr u ct u r ed   an d   u n s tr u ctu r ed   d ata.   T h u s   P iv o talR   also   en ab le s   th u s er   to   ap p ly   m ac h i n lear n i n g   alg o r ith m s   o n   b ig   d ata  [ 1 8 ] .   T h er ar e   lo t   o f   tech n o lo g ies  s u p p o r tin g   B ig   Data   a n al y tic s   an d   ap p licatio n s .   T ab le  3   [ 1 1 ]   co m p ar es  a   n u m b er   o f   b ig   d ata  tech n o lo g ie s .   T h tab le  h i g h l ig h t s   t h d if f er en t y p e s   o f   s y s te m s   a n d   th ei r   co m p ar ati v s tr e n g th s   an d   w e ak n e s s e s .       T ab le  3 .   C o m p ar is o n   o f   B ig   D ata  T ec h n o lo g ies     In - me mo r y   d a t a b a se   M P P   d a t a b a se   B i g   D a t a   a p p l i a n c e   H a d o o p   N o S Q L   d a t a b a se   C o n si s t e n t     W   W   W   P   P   A v a i l a b l e   W   W   W   P   P   F a u l t   t o l e r a n t   W   W   P   W   W   S u i t a b l e   f o r   r e a l - t i me   t r a n sac t i o n s   W   W   W   F   F   S u i t a b l e   f o r   a n a l y t i c s   P   P   W   W   F   S u i t a b l e   f o r   e x t r e mel y   b i g   d a t a   F   P   P   W   W   S u i t a b l e   f o r   u n st r u c t u r e d   d a t a   F   F   P   W   W   W : M ee ts   w id el y   h e ld   ex p ec ta tio n s .     P : Po ten tiall y   m ee t s   w id el y   h e ld   ex p ec tatio n s .     F: Fails   to   m ee w id el y   h eld   e x p ec tatio n s .          3.   E XAM P L E S O F   M ACH I NE   L E ARN I N G   AP P L I CAT I O NS IN  B I G   DATA     T h co m b i n atio n   o f   s u p er v i s ed   an d   u n s u p er v is ed   m ac h i n lear n in g   tec h n iq u e s   f o r   ef f icien tl y   an al y z in g   b ig   v o l u m o f   cr i m d ata  w a s   p r o p o s ed .   T h c o m b i n atio n   in cl u d es  th r ee   s te p s d i m en s io n ali t y   r ed u ctio n ,   clu s ter i n g ,   an d   class if ica tio n .   R   s tatis t ical  s o f t w a r w a s   u s ed   b ec au s it  is   p o w er f u to o to   d ea w it h   b ig   d ata.   T h s p ec if ic  w o r k   is   o u tli n ed   as  f o llo w s   [ 1 9 ] :   1.   Me asu r co r r elatio n   b et w ee n   cr i m an d   s o cial  attr ib u tes.  T h is   m eth o d   r ed u ce s   d i m e n s io n alit y   o f   th cr i m d ata.   2.   Use  u n s u p er v i s ed   m ac h in le ar n in g   tech n iq u to   d iv id cr i m d ata  in to   g r o u p s u s k - m ea n s   clu s ter i n g   alg o r it h m   to   clu s ter   th cr i m d ata  i n to   d an g er o u s ,   av er ag e,   an d   s a f r eg io n s .   3.   Use  s u p er v is ed   m ac h i n lear n i n g   tec h n iq u to   p r ed ict  w h et h er   p a r ticu lar   r e g io n   is   d an g e r o u s   o r   s af e;  u s d ec is io n   tr ee   class if i ca tio n   alg o r it h m   to   p er f o r m   p r ed ictio n s .   An al y s i s   an d   m i n in g   o f   s o ci al  n et w o r k   d ata  f o r   s o ciet y   is s u es  w a s   co n d u cted   u s i n g   B ig   Data .        So cial  d ata  m in i n g   is   t h p r o ce s s   o f   an a l y zi n g ,   r ep r esen ti n g   as  w e ll  as  e x tr ac ti n g   ac tio n ab le  p atter n s   f r o m   s o cial  n et w o r k   d ata.   Ma ch in lear n in g   an d   s te m m in g   alg o r it h m s   w er u s ed   to   class if y   th t w ee t s .   T w ee t s   ar o f ten   i n   th p atter n   o f   b ig   d ata.   T h p r ed ictin g   f ea t u r es  f r o m   t w ee t s   w er ex tr ac ted   f r o m   co llectio n   o f   t w ee t s s to p p in g   w o r d s   w er r e m o v ed an d   all  k e y w o r d s   w er s elec ted .   A s   t w ee ts   ar v er y   s h o r an d   m a y   co n tain   i n co m p lete  s e n te n ce s ,   th m ea n in g   o f   t h t w ee ts   m a y   b am b i g u o u s .   I n   m ac h in e   lear n in g ,   s u p p o r v ec to r   m ac h i n es   ( SVM)   ar e   s u p er v i s ed   m o d el s   w i th   r el at ed   lear n in g   alg o r it h m s   th at   a n al y ze   all   th e   d ata  w h ic h   ar u s ed   f o r   class i f ica ti o n   o f   th t w ee t s .   Ste m m i n g   al g o r ith m   u s es  p r e - p r o ce s s i n g   task   i n   tex m i n i n g   an d   ca n   b u s ed   as  a   co m m o n   r eq u ir e m en o f   n at u r al  la n g u ag e   p r o ce s s in g   f u n c tio n s .   St e m m in g   a lg o r it h m   w a s   u s ed   to   ex tr ac th m ai n   k e y w o r d s   o r   r o o w o r d s   f r o m   t h t w ee t s .   T h s te m m in g   alg o r ith m   ca n   b e   ap p lied   to   p r ed ict  th k e y w o r d s   f r o m   t h t w ee t s .   A ll th k e y w o r d s   ar class i f ied   b y   t h SV alg o r ith m   [ 2 0 ] .       4.   CH AL L E N G E S O F   M ACH I NE   L E A RNIN G   AP P L I CA T I O NS  I B I G   DATA   Gen er al  c h alle n g e s   ab o u t   m a ch in e   lear n i n g   ar e:  ( 1 )   d esi g n in g   s ca lab le  a n d   f le x ib le  co m p u tatio n a l   ar ch itect u r es  f o r   m ac h i n lear n in g ( 2 )   th ab ilit y   to   u n d er s tan d   ch ar ac ter is tic s   o f   d ata  b ef o r ap p ly in g   m ac h in lear n i n g   al g o r ith m s   a n d   to o ls an d   ( 3 )   th ab ilit y   to   co n s tr u ct,   lear n   an d   i n f er   w i th   in cr ea s i n g   s a m p l e   s ize,   d i m e n s io n a lit y ,   a n d   ca te g o r ies o f   lab els [ 2 1 ] .     T h er ar m an y   s ca le  m ac h i n lear n in g   al g o r ith m s ,   b u m a n y   i m p o r tan s p ec if ic  s u b - f iel d s   in   lar g e - s ca le  m ac h in lear n in g ,   s u c h   as  lar g e - s ca le  r ec o m m e n d er   s y s te m s ,   n atu r al   la n g u a g p r o ce s s i n g ,   as s o ciatio n   r u le  lear n i n g ,   e n s e m b le  lear n i n g ,   s till   f ac th s ca lab ilit y   p r o b lem s   [ 1 ].   T h b asic  Ma p R ed u ce   f r a m e w o r k   co m m o n l y   p r o v id ed   b y   f ir s t - g e n er atio n   B i g   Data   an al y tics   p latf o r m s   lik Had o o p   lack s   an   ess e n tia f ea t u r f o r   m ac h i n lear n i n g   ( ML ) .   Ma p R ed u c d o es  n o s u p p o r iter atio n   /r ec u r s io n   o r   ce r tain   k e y   f ea t u r es  r eq u ir ed   to   ef f i cien tl y   iter ate  ar o u n d ”  Ma p R ed u ce   p r o g r a m .   P r o g r am m er s   b u ild in g   M L   m o d els  o n   s u c h   s y s te m s   ar f o r ce d   to   im p le m e n lo o p in g   in   a d - h o w a y s   o u ts id e   th co r Ma p R ed u ce   f r a m e wo r k .   T h is   m a k es  t h eir   p r o g r am m in g   ta s k   m u c h   h ar d er ,   an d   it  o f ten   a ls o   y ield s   in e f f ic ien p r o g r a m s   in   t h e n d .   T h is   lack   o f   s u p p o r h as   m o tiv ated   t h r ec en d ev elo p m e n o f   v ar io u s   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ AA S   I SS N:  2252 - 8814       Ma ch in Lea r n in g   in   B ig   Da t a   ( Lid o n g   W a n g )   121   s p ec ia lized   ap p r o ac h es  o r   lib r ar ies  to   s u p p o r iter ativ p r o g r a m m i n g   o n   lar g clu s ter s .   Me an w h ile,   r ec en t   Ma p R ed u ce   e x ten s io n s   s u c h   a s   Ha L o o p ,   T w i s ter ,   an d   P r I tr   ai m   at   d ir ec tl y   ad d r ess in g   th e   iter atio n   o u ta g i n   Ma p R ed u ce ; th e y   d o   s o   at  th p h y s ical  lev e l [ 2 2 ] .     Ma j o r   p r o b lem s   t h at  m a k th m ac h i n lear n i n g   ( M L )   tech n iq u es  u n s u i tab le  f o r   s o lv in g   b ig   d ata   class i f icatio n   p r o b lem s   ar e:  ( 1 )   A n   M L   tec h n iq u t h at  is   tr ain ed   o n   p ar ticu lar   lab ele d   d atasets   o r   d ata  d o m ai n   m a y   n o b s u i tab le  f o r   an o th er   d ataset  o r   d ata   d o m ai n     th a th e   clas s i f icatio n   m a y   n o b r o b u s t   o v er   d if f er en d ataset s   o r   d ata   d o m ain s ( 2 )   an   ML   tech n iq u is   in   g en er al  tr ain ed   u s i n g   a   ce r tain   n u m b er   o f   class   t y p es   an d   h e n ce   a   lar g e   v ar ietie s   o f   cla s s   t y p es   f o u n d   in   a   d y n a m icall y   g r o w in g   d ataset  w ill   lead   to   in ac cu r ate   clas s i f icatio n   r es u lt s a n d   ( 3 )   an   M L   tec h n iq u i s   d ev elo p ed   b ased   o n   a   s i n g le  lear n in g   tas k ,   a n d   th u s   th e y   ar n o s u itab le  f o r   t o d ay s   m u ltip le  lear n i n g   ta s k s   an d   k n o w led g tr a n s f er   r eq u i r e m en t s   o f   B ig   d ata  an al y tics   [ 2 3 ] .   T r a d itio n al  alg o r ith m s   i n   m ac h in lear n i n g   g en er all y   d o   n o s ca le  to   b ig   d ata.   T h m ai n   d if f ic u lt y   lies   w i th   th eir   m e m o r y   co n s tr ain t.  A l th o u g h   al g o r ith m s   t y p icall y   a s s u m t h at  tr ai n i n g   d ata  s a m p les  e x is i n   m ai n   m e m o r y ,   b i g   d ata  d o es   n o f it   i n to   it.  co m m o n   a p p r o ac h   to   lear n in g   f r o m   l ar g d ataset   is   d ata  d is tr ib u tio n .   B y   r ep laci n g   b at ch   tr ain in g   o n   t h o r ig i n al  tr a in i n g   d ata s et  w it h   s ep ar ated   co m p u tatio n s   o n   th e   d is tr ib u ted   s u b s et s ,   o n e   ca n   tr ain   a n   al ter n ati v p r ed ictio n   m o d el   at  a   s ac r i f ice  o f   ac c u r ac y .   An o th er   w a y   is   to   u s o n li n lear n in g ,   i n   w h ic h   m e m o r y   u s a g d o es  n o d ep en d   o n   t h s ize  o f   th d at aset.  Neit h er   o n li n e   lear n in g   n o r   d is tr ib u ted   lear n i n g   i s   s u f f icie n f o r   lear n in g   f r o m   b i g   d ata  s tr ea m s .   T h er ar t w o   r ea s o n s .   F ir s t   is   t h at  t h d ata  s ize  is   to o   la r g to   b r elax ed   b y   eit h er   o n li n o r   d is tr ib u ted   lear n in g .   Seq u en tial  o n lin e   lear n in g   o n   b i g   d ata   r eq u ir es   t o o   m u c h   ti m f o r   tr ai n in g   o n   s i n g le  m ac h in e.   O n   t h o t h e r   h a n d ,   d is tr ib u ted   lear n in g   w it h   lar g n u m b er   o f   m ac h i n e s   r ed u ce s   t h g ai n ed   ef f ici e n c y   p er   m ac h i n a n d   af f ec ts   th e   o v er all   p er f o r m a n ce .   T h s ec o n d   r ea s o n   is   th a co m b i n i n g   r ea l - ti m tr ai n in g   a n d   p r ed ictio n   h as  n o b ee n   s t u d ied .   Sin ce   b ig   d ata  is   t y p icall y   u s e d   af ter   b ein g   s to r ed   in   ( d is tr ib u ted )   s to r ag e,   th lear n i n g   p r o ce s s   also   ten d s   to   w o r k   i n   b atch   m an n er   [ 2 4 ] .     Scalin g   u p   b ig   d ata  to   p r o p er   d i m e n s io n alit y   is   c h alle n g e   th at   ca n   e n co u n ter   i n   m ac h i n lear n i n g   alg o r ith m s ; a n d   t h er ar ch all en g e s   o f   d ea li n g   w i th   v elo cit y ,   v o lu m an d   m an y   m o r f o r   all  t y p es o f   m ac h i n lear n in g   alg o r i t h m s .   Si n ce   b ig   d ata  p r o ce s s in g   r eq u ir es  d ec o m p o s itio n ,   p ar allelis m ,   m o d u lar it y   a n d /o r   r ec u r r en ce ,   in f le x ib le  b lack - b o x   t y p m ac h i n lear n i n g   m o d els f ailed   i n   an   o u ts et  [ 2 ] .   A p p l y in g   th d is tr ib u ted   d ata - p ar allelis m   ( DDP )   p atter n s   in   B ig   Data   B a y esia n   Net w o r k   ( B N)   lear n in g   f ac e s   s e v er al  c h alle n g es:   ( 1 )   ef f ec ti v el y   p r e - p r o ce s s in g   b i g   d ata  to   ev al u ate   its   q u alit y   an d   r ed u ce   th e   s ize  i f   n ec es s ar y ;   ( 2 )   d esig n i n g   w o r k f lo w   ca p ab le  o f   tak in g   Gi g ab y te s   o f   b i g   d ata  s et s   a n d   lear n i n g   B N s   w it h   d ec en t a cc u r ac y ; ( 3 )   p r o v id in g   ea s y   s ca lab ilit y   s u p p o r t t o   B lear n in g   al g o r ith m s   [ 1 4 ] .     Dee p   lear n in g   c h alle n g e s   in   b ig   d ata  an al y tic s   lie  in in cr e m en tal  lear n i n g   f o r   n o n - s tati o n ar y   d ata,   h ig h - d i m en s io n al  d ata,   an d   lar g e - s ca le  m o d el s   [ 1 3 ] .   B ec au s h ig h - le v el  d ata  p ar all el  f r a m e w o r k s ,   li k Ma p R ed u ce   d o   n o n a tu r all y   o r   e f f icie n t l y   s u p p o r m an y   i m p o r tan t d ata  m i n i n g   an d   m ac h in lear n i n g   al g o r ith m s   a n d   ca n   lead   to   in e f f icien t   lear n in g   s y s te m s ,   th Gr ap h L ab   ab s tr ac tio n   w as  i n tr o d u ce d .   I n atu r all y   e x p r ess e s   as y n c h r o n o u s ,   d y n a m ic,   g r ap h - p ar allel  co m p u tatio n   w h ile  en s u r in g   d ata  co n s is t en c y   a n d   ac h iev in g   h i g h   d eg r ee   o f   p ar allel  p er f o r m a n ce   i n   th s h ar ed - m e m o r y   s ett in g   [ 2 5 ] .         5.     T E CH NO L O G P RO G R E SS   O F   M ACH I NE   L E A RNI NG   AP P L I CA T I O N S IN  B I G   DA T A   Mo s o f   th ad v an ce s   f o r   s ca lab le  m ac h i n lear n i n g   ( e. g .   Ma d lib ,   A p ac h Ma h o u t,  etc. )   ar e   h ap p en in g   i n   th m a s s i v el y   p ar allel  d atab ase  p r o ce s s in g   co m m u n it y .   B etter   w o r k   ca n   b d o n in   t h B ig   Data   er b y   d esi g n in g   an d   i m p le m e n ti n g   m ac h i n e   lear n i n g   al g o r it h m s   w it h   s ca le - f r ie n d l y   p r ed ictiv f u n ctio n s .   T h f o llo w in g   m et h o d s   h a v b ee n   ex p lo r in g   a n d   ev al u ati n g   [ 2 1 ] ( 1 )   d ee p   lear n in g   al g o r ith m s   th at  a u to m a te  th e   f ea t u r en g i n ee r i n g   p r o ce s s   b y   lear n in g   to   cr ea te  an d   s if th r o u g h   d ata - d r iv e n   f ea t u r es,  ( 2 )   in cr e m en tal   lear n in g   al g o r ith m s   i n   as s o cia tiv m e m o r y   ar c h itect u r es  t h at   ca n   s ea m le s s l y   ad ap to   f u tu r d ata  s a m p le s   a n d   s o u r ce s ,   ( 3 )   f ac eted   lear n in g   t h at  ca n   lear n   h ier ar c h ical  s tr u ctu r in   th d ata,   an d   ( 4 )   m u lt i - tas k   lear n i n g   th a t   ca n   lear n   s e v er al  p r ed ictiv f u n ctio n s   in   p ar allel.     T h B ig   Data   class i f icatio n   r eq u ir es  m u lti - d o m ai n ,   r ep r esen tat io n - lear n i n g   ( MD R L )   tech n iq u e   b ec au s o f   it s   lar g a n d   g r o w i n g   d ata  d o m ain .   T h MD R L   tec h n iq u i n cl u d es   f ea t u r v ar iab le  lear n i n g ,   f ea t u r ex tr ac tio n   lear n in g ,   an d   d is tan ce - m etr ic  lear n i n g .   Sev er al  r ep r esen tatio n - lear n i n g   tech n iq u e s   h a v e   b ee n   p r o p o s ed   in   m ac h i n lea r n in g .   T h cr o s s - d o m ai n ,   r ep r esen tat io n - lear n i n g   ( C D R L )   tech n iq u is   m a y b e   s u itab le  f o r   th B ig   Data   cla s s if icatio n   alo n g   w it h   th s u g g es ted   n et w o r k   m o d el  [ 2 3 ] .   A   k e y   b en e f it  o f   d ee p   lear n in g   is   th an al y s i s   an d   lear n i n g   o f   m a s s i v a m o u n ts   o f   u n s u p er v is ed   d ata,   m ak in g   it  a   v al u ab le  to o f o r   B ig   Data   a n al y tics .   Ho w   d ee p   lear n in g   ca n   b u tili ze d   i n   B ig   Data   a n al y tics   w as   ex p lo r ed th is   i n cl u d es  ex tr ac tin g   co m p le x   p atter n s   f r o m   m ass i v v o l u m es  o f   d ata,   s e m a n tic  i n d ex i n g ,   d ata  tag g in g ,   f a s in f o r m a tio n   r etr iev al,   an d   s i m p li f y in g   d is cr i m i n ati v tas k s .   So m f u r th er   r esear ch   o f   d ee p   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8814   IJ AA S    Vo l.   4 ,   No .   4 Dec em b er   201 5   :   1 1 7     1 2 3   122   lear n in g   in   B ig   Data   w as  also   in v e s ti g ated th i s   in cl u d es  s tr e a m i n g   d ata,   h ig h - d i m en s io n a d ata,   s ca lab ilit y   o f   Dee p   L ea r n i n g   m o d els,  an d   d i s tr ib u ted   co m p u t in g   [ 1 3 ] .   As  an   i m p o r ta n m ac h i n lear n in g   tech n iq u e,   B ay e s ia n   Net w o r k   ( B N)   h as  b ee n   w id el y   u s ed   to   m o d el  p r o b ab ilis tic  r elatio n s h ip s   a m o n g   v ar iab les.  An   in te llig e n B ig   Data   p r e - p r o ce s s i n g   ap p r o ac h   an d   d ata  q u alit y   s co r w er p r o p o s ed   to   m ea s u r a n d   en s u r th e   d ata  q u alit y   an d   d ata  f ai th f u l n es s n e w   w ei g h t   b ased   en s e m b le  al g o r ith m   w a s   p r o p o s ed   t o   lear n   B s tr u ctu r f r o m   a n   en s e m b le  o f   lo ca r esu lt s .   Fo r   ea s il y   in te g r atin g   t h alg o r it h m   w i th   d is tr ib u ted   d ata - p ar allelis m   ( DDP )   en g in e s ,   s u c h   as  Had o o p ,   Kep ler   s cien tif i c   w o r k f lo w   w as  e m p lo y ed   to   b u ild   th w h o le  lear n i n g   p r o ce s s .   Ho w   Kep ler   ca n   f ac ili tate  b u ild in g   a n d   r u n n i n g   th B ig   Data   B lear n i n g   a p p licatio n   w as  a ls o   d e m o n s t r ated .   A   Sca lab le  B a y esia n   Net w o r k   L ea r n i n g   ( SB NL )   w o r k f lo w   w a s   d esi g n ed   th r o u g h   co m b i n in g   m ac h in lear n in g ,   d is tr ib u ted   co m p u t in g ,   a n d   w o r k f lo w   tech n iq u es.  T h w o r k f lo w   i n c lu d es  i n telli g e n B ig   Da ta  p r e - p r o ce s s i n g   a n d   ef f ec ti v B N   lear n in g   f r o m   B ig   Data   b y   le v er a g in g   e n s e m b le  l ea r n in g   an d   d is tr ib u ted   co m p u tin g   m o d el  [ 1 4 ] .     Fo r   s tr ea m   p r o ce s s i n g ,   o n e   m u s t   p r o ce s s   n e w   d ata   in   r ea l - ti m e   an d   in   m a n y   t i m e s ,   co n s id er s   th e   h is to r ical  d ata  as  w ell  to   g e n er ate  v alu e.   Mo s o f te n ,   s tr ea m   p r o ce s s in g   i n v o l v es  t h u s o f   p r ev io u s l y   tr ain ed   m o d els  to   av o id   to o   m u ch   p r o ce s s i n g   an d   u l ti m atel y   r ed u ce   r esp o n s tim e s .   A   n o v el  ar ch itect u r f o r   p er f o r m in g   m ac h i n lear n in g   o v er   b i g   d ata  s tr ea m s   was  p r o p o s ed .   T h ar ch itect u r p r o v id es  r eliab le  p er s is ten s to r ag o f   d ata  o v er   th Had o o p   Dis t r ib u ted   Fil S y s te m   ( HDF S)  an d   HB ase.   T h co r o f   th e   ar ch itect u r is   co m p r is ed   o f   t h b atch -   an d   s tr ea m - p r o ce s s i n g   m o d u le s .   I p r o v id es  m ac h in lear n i n g   to o ls   an d   alg o r it h m s   s o   th at  d e v elo p er s   ca n   ea s il y   ta k ad v an ta g o f   t h e m   to   ca r r y   o u tas k s   s u c h   as  p r ed ictio n ,   clu s ter i n g ,   r ec o m m e n d atio n ,   a n d   class i f icat io n ,   etc. ,   [ 2 6 ] .   d is tr ib u ted   s tr ea m in g   a lg o r ith m   w a s   p r o p o s ed   to   lear n   d ec is io n   r u les   f o r   r e g r ess io n   task s .   T h e   alg o r ith m   i s   a v ailab le  i n   Scal ab le  A d v an ce d   Ma s s i v O n li n An al y s i s   ( S A MO A ) ,   a n   o p en - s o u r ce   p latf o r m   f o r   m i n i n g   b i g   d ata  s tr ea m s .   I u s es  h y b r id   o f   v er t ical  a n d   h o r izo n tal  p ar allelis m   to   d is tr ib u te  A d ap tiv e   Mo d el  R u le s   ( A MR u les)  o n   clu s ter .   T h d ec is io n   r u le s   b u ilt  b y   AM R u les   ar co m p r eh en s ib le  m o d els.  S A MO A   is   f r a m e w o r k   t h at  ea s es  th d ev e lo p m en o f   n e d is tr ib u ted   m ac h in lear n in g   alg o r ith m s   a n d   th e   d ep lo y m en t   o f   th e s i m p le m en tatio n s   o n   to p   o f   s tate - o f   t h e - ar t   d is tr ib u ted   s tr ea m   p r o ce s s in g   e n g in e s   ( DSP E s ) .   I is   also   lib r ar y   o f   d is tr ib u ted   d ata  m i n i n g   a n d   m ac h in lear n in g   al g o r ith m s   t h at  allo w s   u s er s   to   u s o r   cu s to m ize  e x is ti n g   o n es   [ 2 7 ] .   Featu r s e lectio n   ( F S)  is   a n   i m p o r ta n to p ic  i n   m ac h i n lea r n in g   a n d   d ata  m i n i n g .   T h o b j ec tiv o f   f ea t u r s elec tio n   is   to   s elec t   s u b s et   o f   r ele v an f ea tu r es   f o r   b u ild in g   e f f ec tiv e   p r ed ictio n   m o d el s .   Var io u s   F m et h o d s   h a v b ee n   p r o p o s ed .   B ased   o n   th s e lectio n   cr iter i o n   ch o ice,   t h ese  m et h o d s   ca n   b r o u g h l y   d i v id ed   in to   th r ee   ca te g o r ies:   f ilter   m eth o d s ,   w r ap p er   m et h o d s ,   an d   em b ed d ed   m et h o d s   ap p r o ac h es.  Fi lter   m et h o d s   r elies  o n   th c h ar ac ter is t ics  o f   th d ata  s u c h   as  co r r elatio n ,   d is tan ce   a n d   in f o r m atio n ,   w it h o u i n v o lv i n g   an y   lear n in g   alg o r it h m .   W r ap p er   m et h o d s   r eq u ir o n e   p r ed eter m i n ed   lear n i n g   al g o r ith m   f o r   e v al u ati n g   t h e   p er f o r m a n ce   o f   s elec ted   f ea tu r es  s et.   E m b ed d ed   m et h o d s   ai m   to   in te g r ate  t h e   f ea t u r s e l ec tio n   p r o ce s s   i n to   th m o d el  tr ai n in g   p r o ce s s t h e y   ar f as ter   th a n   th w r ap p er   m et h o d s an d   s ti ll  p r o v id s u i t ab le  f ea tu r s u b s et   f o r   th lear n i n g   a lg o r it h m .   On lin f ea t u r s elec tio n   ( OF S)  f o r   m i n in g   b i g   d ata   w as   s t u d ied   to   s o lv t h f ea t u r e   s elec tio n   p r o b lem   b y   a n   o n li n lear n i n g   ap p r o ac h .   T h g o al   o f   o n lin e   f ea tu r s elec tio n   w a s   to   d ev elo p   o n lin e   class i f ier s   t h at  i n v o lv o n l y   s m al an d   f i x ed   n u m b er   o f   f ea tu r es.  R e s u lts   s h o w   th p r o p o s ed   alg o r ith m s   ar f air l y   ef f ec ti v f o r   f ea t u r s ele ctio n   tas k s   o f   o n l in ap p licati o n s ,   an d   s ig n i f ica n tl y   m o r e f f icie n a n d   s ca lab le   th an   s o m s tate - of - t h e - ar t b atc h   f ea t u r s elec t io n   tech n iq u [ 2 8 ] .       6.   CO NCLU SI O N   Sp litt in g   cr iter ia  o f   d ec is io n   tr ee s   ar ch o s e n   b ased   o n   s o m q u a lit y   m ea s u r es,  w h ic h   r eq u ir es   h an d li n g   th e n tire   d ata  s e o f   ea ch   ex p a n d in g   n o d es.  T h is   m ak e s   it  d i f f icu l f o r   d ec is io n   tr ee s   to   b u s ed   in   b ig   d ata  ap p licatio n s .   SVM  s h o w s   v er y   g o o d   p er f o r m an ce   to   d ata  s ets  in   m o d er ate  s i ze .   I h as  in h er en t   li m ita tio n s   to   b ig   d ata  ap p licat io n s .   Dee p   lear n i n g   is   s u ited   t o   ad d r ess   is s u e s   r elate d   to   v o l u m e   an d   v ar iet y   o f   b ig   d ata.   Ho w ev er ,   it   h a s   s o m r estrictio n s   i n   b ig   d ata  b ec au s i r eq u ir es   m u c h   tr ai n in g   t i m e.   P L ANE T   ca n   d ea w it h   b ig   v o lu m o f   d ata,   b u t is n o t a p p licab le  to   d ata  w i th   ca teg o r ical  a ttrib u tes.   Ma ch i n lear n i n g   ap p licatio n s   in   b ig   d ata  h as  m et  ch a llen g e s   s u c h   as  m e m o r y   co n s tr ai n t,  n o   s u p p o r ( in   iter atio n s )   f r o m   Ma p R ed u ce ,   d if f icu l t y   in   d ea lin g   w ith   b ig   d ata  d u to   V s   ( s u ch   as   h i g h   v elo cit y ,   v o l u m e,   an d   v ar iet y ,   etc. ) ,   an d   lear n i n g   tr a i n i n g   li m ited   to   ce r tain   n u m b er   o f   clas s   t y p e s   o r   p ar ticu lar   lab eled   d atasets ,   etc.   So m tech n o lo g y   p r o g r es s   h a s   b ee n   m ad s u c h   as  f ac eted   lear n in g   f o r   h ier ar ch ical  d ata  s tr u ctu r e ,   m u lti - tas k   lear n i n g   in   in   p ar allel,   m u lti - d o m a in cr o s s - d o m ai n   r ep r esen tatio n - lear n i n g ,   s tr ea m i n g   d ata   p r o ce s s in g ,   h ig h - d i m en s io n al  d ata   p r o ce s s in g ,   an d   o n li n f ea tu r s elec tio n ,   etc.   T h ese  ar ea s   an d   th ab o v e   ch alle n g e s   ab o u m ac h i n lear n in g   i n   b ig   d ata   also   ca n   b f u r th er   r esear ch   to p ics.     Evaluation Warning : The document was created with Spire.PDF for Python.
IJ AA S   I SS N:  2252 - 8814       Ma ch in Lea r n in g   in   B ig   Da t a   ( Lid o n g   W a n g )   123   RE F E R E NC E S   [1 ]   C.   L .   P .   Ch e n ,   C.   Y.  Zh a n g ,   Da ta - in ten siv e   a p p li c a ti o n s,  c h a ll e n g e s,  tec h n iq u e s an d   tec h n o l o g ies A   su rv e y   o n   Big   Da ta In fo rm a ti o n   S c ien c e s V o l .   2 7 5 ,   N o .   1 0 ,   p p .   3 1 4 - 3 4 7 ,   A u g u st 2 0 1 4 .   [2 ]   K.  M .   T a rw a n i,   S .   S .   S a u d a g a r,   H.  D.   M isa lk a r,   M a c h in e   L e a rn in g   in   Big   Da ta  A n a l y ti c s A n   Ov e r v ie w In ter n a t io n a J o u rn a o Ad v a n c e d   Res e a rc h   in   C o mp u ter   S c ien c e   a n d   S o ft wa re   En g i n e e rin g Vo l.   5 ,   N o .   4 ,   p p .   270 - 2 7 4 A p ril   2 0 1 5 .   [3 ]   h tt p s:/ /en . w ik ip e d ia.o rg /w ik i/ M a c h in e _ lea rn in g   [4 ]   U.  Ja s w a n a n d   P . N.  Ku m a r,   Big   Da ta  A n a l y ti c s:  A   S u p e rv ise d   A p p ro a c h   f o S e n ti m e n Clas sif ica ti o n   Us in g   M a h o u t:   A n   Ill u stra ti o n I n ter n a ti o n a J o u rn a o Ap p li e d   En g in e e rin g   Res e a rc h Vo l.   10 ,   No .   5 ,   p p .   1 3 4 4 7 - 1 3 4 5 7 2 0 1 5 .   [5 ]   Y.  De m c h e n k o ,   P .   G ro ss o ,   C.   De   L a a t ,   P .   M e m b re y ,   Ad d re ss in g   Bi g   D a ta   Iss u e i n   S c ien ti fi c   Da ta   In fra stru c t u re 2 0 1 3   I n tern a ti o n a Co n f e re n c e   o n   Co ll a b o ra ti o n   T e c h n o l o g ies   a n d   S y ste m (CT S ) ,   S a n   Die g o ,   CA ,   USA ,   p p .   4 8 - 55 ,   M a y   2 0 1 3 .   [6 ]   D.   E.   O' Lea r y ,   ' Bi g   Da ta ' ,   th e   ' I n tern e o f   T h in g s'   a n d   th e   ' In tern e o f   S ig n s' In telli g e n S y ste ms   in   Acc o u n ti n g ,   Fi n a n c e   a n d   M a n a g e me n t V o l.   2 0 ,   p p .   5 3 - 65 ,   2 0 1 3 .             [7 ]   H.   V .   Ja g a d ish ,   A .   L a b rin id is ,   Y.  P a p a k o n sta n ti n o u ,   e a l . ,   Big   Da ta  a n d   Its  T e c h n ica Ch a ll e n g e s Co mm u n ica ti o n s o th e   ACM Vo l .   57 ,   No .   7 ,   p p .   86 - 94 2 0 1 4   [8 ]   A .   Zas la v sk y ,   C.   P e re ra   a n d   D.  G e o rg a k o p o u l o s,  S e n si n g   a a   S e rv ice   a n d   Bi g   Da t a ”,   In tern a ti o n a Co n f e re n c e   o n   A d v a n c e s in   Clo u d   C o m p u ti n g   ( A CC) ,   Ba n g a lo re ,   In d ia,  p p .   1 - 8 ,   Ju ly   2 0 1 2 .           [9 ]   M .   T u rk ,   A   c h a rt  o f   th e   b ig   d a ta  e c o s y ste m tak e   2 ,   2 0 1 2 .   [1 0 ]   R.   Zaf a ra n i,   M .   A .   A b b a si,  H.  L iu .   S o c ial  M e d ia  M i n in g A n   In tro d u c ti o n ,   Ca m b rid g e   Un iv e rsity   P re ss ,   UK 2 0 1 4 .   [1 1 ]   J.  De a n ,   Big   Da ta,  D a ta  M in in g ,   a n d   M a c h i n e   L e a rn in g V a lu e   Cre a ti o n   f o Bu sin e ss   L e a d e rs  a n d   P ra c ti ti o n e rs Jo h n   W il e y   &   S o n s,  I n c . ,   2 0 1 4 .   [1 2 ]   K.  M .   L e e ,   G rid - b a se d   S in g le  P a ss   Clas sif ica ti o n   f o M ix e d   Big   Da ta In ter n a ti o n a J o u rn a o A p p li e d   En g i n e e rin g   Res e a rc h V o l .   9 ,   No .   2 1 ,   p p .   8 7 3 7 - 8 7 4 6 ,   2 0 1 4 .   [1 3 ]   M .   M .   Na jafa b a d i,   F .   V il la n u stre ,   T .   M   Kh o sh g o f taa r,   N.  S e li y a ,   R.   W a ld   a n d   E.   M u h a re m a g i c ,   De e p   lea rn in g   a p p li c a ti o n s an d   c h a ll e n g e s in   b ig   d a ta an a ly ti c s J o u rn a o Bi g   D a ta ,   Vo l.   2 ,   No .   1 ,   2 0 1 5 .   [1 4 ]   J.   W .   Wan g ,   Y.  T a n g ,   M .   Ng u y e n ,   I.   A lt in tas ,   S c a l a b le Da t a   S c ien c e   W o rk fl o Ap p ro a c h   f o r B i g   Da ta   B a y e sia n   Ne two rk   L e a rn in g BDC  ' 1 4   P r o c e e d in g o f   th e   2 0 1 4   IEE E /A CM   In tern a ti o n a S y m p o siu m   o n   B ig   Da ta   Co m p u ti n g ,     IE EE   Co m p u ter  S o c iety ,   W a sh in g to n ,   DC,  USA ,   p p .   16 - 25 ,   2 0 1 4 .   [1 5 ]   L .   L i,   Ex p e ri m e n tal  Co m p a riso n s o f   M u lt i - c las s Clas sif iers In fo rm a ti c a ,   Vo l.   3 9 ,   p p .   7 1 - 85 ,   2 0 1 5 .   [1 6 ]   S .   B.   Ko tsia n ti s,  S u p e rv ise d   M a c h in e   L e a rn in g A   Re v ie w   o f   Cla ss if ic a ti o n   T e c h n iq u e s In fo rm a t ica V o l.   3 1 ,   p p .   249 - 2 6 8 ,   2 0 0 7 .   [1 7 ]   N.  Ka ra c a p il id is,   M .   T z a g a ra k is   a n d   S .   C h rist o d o u l o u ,   On   a   m e a n in g f u e x p lo it a ti o n   o f   m a c h in e   a n d   h u m a n   re a so n in g   to   tac k le d a ta - in ten siv e   d e c isio n   m a k in g In telli g e n t   De c isio n   T e c h n o l o g ies Vo l.   7 ,   p p .   2 2 5 2 3 6 ,   2 0 1 3 .   [1 8 ]   H.  Qia n ,   P iv o talR:  A   P a c k a g e   fo M a c h in e   L e a rn in g   o n   Big   Da ta T h e   J o u r n a l Vo l.   6 ,   N o .   1 ,     p p .   5 7 - 67 ,   Ju n e   2 0 1 4 .   [1 9 ]   A .   Na srid in o v ,   Co m b in in g   U n su p e rv ise d   a n d   S u p e rv ise d   M a c h in e   L e a rn in g   to   A n a ly z e   Crim e   Da ta In ter n a t io n a J o u rn a o A p p li e d   En g i n e e rin g   Res e a rc h V o l .   9 ,   No .   2 3 ,   p p .   1 8 6 6 3 - 1 8 6 6 9 ,   2 0 1 4 .   [2 0 ]   S.   Ka n a g a v a ll i,   S .   V a ish a li ,   J.   L .   Je b a ,   A n a l y sis  a n d   M i n in g   o f   S o c ial  Ne tw o rk   Da ta  F o S o c iety   I ss u e B y   Us in g   Big   Da ta In ter n a ti o n a J o u rn a o A p p li e d   E n g i n e e rin g   Res e a rc h ,   Vo l.   10 ,   No .   4 ,   p p .   1 0 4 9 7 - 1 0 5 0 6 ,   2 0 1 5 .   [2 1 ]   S .   R.   S u k u m a r,   M a c h in e   L e a rn i n g   i n   t h e   Bi g   Da t a   Era Are   W e   T h e re   Y e t? ”,   A CM   Kn o w led g e   Disc o v e r y   a n d   Da ta  M in in g :   W o rk sh o p   o n   Da t a   S c ien c e   f o S o c ial  G o o d Oa k   Rid g e   Na ti o n a L a b o ra to ry ,   p p .   1 - 5 ,   De c e m b e r   2 0 1 4 .   [2 2 ]   Y.  Bu ,   V .   B o rk a r,   M .   J.  Ca re y ,   J.  Ro se n ,   N.  P o ly z o ti s,  T .   Co n d ie,   M .   W e ime r,   R.   Ra m a k rish n a n ,   S c a li n g   Da talo g   f o M a c h in e   L e a rn in g   o n   B ig   Da ta ,   M a rc h   2 0 1 2 .   [2 3 ]   S.   S u t h a h a ra n Big   Da ta   Clas si fica ti o n P ro b lem a n d   Ch a ll e n g e in   Ne t w o rk   In tru sio n   P re d icti o n   w it h   M a c h in e   L e a rn in g Per fo rm a n c e   Eva lu a ti o n   Rev iew Vo l.   41 ,   No .   4 ,   p p .   7 0 - 73 ,   M a rc h   2 0 1 4 .   [2 4 ]   S .   Hid o ,   S .   T o k u i,   S .   Od a ,   Ju b a tu s:  A n   Op e n   S o u rc e   P latf o rm   f o Distrib u ted   On li n e   M a c h in e   L e a rn in g T e c h n ica Re p o rt  o f   th e   Jo in Ju b a tu s   p ro jec b y   P re f e rre d   In f r a stru c tu re   In c . ,   a n d   NT T   S o f t wa re   In n o v a ti o n   Ce n ter,   T o k y o ,   Ja p a n ,   N I P S   2 0 1 3   W o r k s h o p   o n   B i g   L e a r n i n g ,   L a k e   T a h o e ,   p p .   1 - 6 ,   D e c e m b e r   2 0 1 3 .   [2 5 ]   Y.  L o w ,   J.  G o n z a lez ,   A .   K y ro la,  D.  Bick so n ,   C.   G u e strin ,   J.   M .   H e ll e rste in ,   Distrib u te d   Gr a p h L a b Fra me wo rk   fo M a c h i n e   L e a rn in g   a n d   Da t a   M in in g   i n   t h e   Clo u d T h e   3 8 t h   In ter n a ti o n a Co n f e re n c e   o n   Ve r y   Larg e   Da t a   Ba se s En d o w m e n t Vo l.   5 ,   No .   8 ,   p p .   7 1 6 - 7 2 7 ,   2 0 1 2 .   [2 6 ]   A .   B a ld o m in o s,  E.   A lb a c e t e ,   Y.   S a e z   a n d   P .   Isa si,  S c a la b le  M a c h in e   L e a rn i n g   On li n e   S e rv ice   fo Bi g   Da ta   Rea l - T ime   An a lys is 2 0 1 4   IEE S y m p o siu m   o n   Co m p u tatio n a In telli g e n c e   in   Big   Da ta  (CIBD):  p r o c e e d in g s pp.   1 - 8 ,   2 0 1 4 .   [2 7 ]   A .   T .   V u ,   G .   De   F .   M o ra les ,   J.  G a m a ,   A .   Bif e t,   Distrib u ted   A d a p ti v e   M o d e Ru les   fo M in in g   Bi g   Da ta   S tre a ms 2 0 1 4   IE EE   I n tern a ti o n a C o n f e re n c e   o n   B ig   Da ta ,   W a sh in g to n ,   D C,   p p .   3 4 5 - 3 5 3 ,   Oc t o b e 2 0 1 4 .   [2 8 ]   S.  HO I,   J.  W a n g ,   P .   Zh a o ,   a n d   R.   Jin ,   On li n e   Fea t u re   S e lec ti o n   f o r   M in in g   Bi g   Da ta Big M i n e   ' 1 2   P r o c e e d in g s o th e   1 st  I n tern a ti o n a W o rk sh o p   o n   Big   Da ta,  S trea m a n d   He tero g e n e o u S o u rc e   M i n in g A lg o ri th m s,  S y ste m s ,   P r o g ra m m in g   M o d e ls  a n d   A p p li c a ti o n s ,   A CM   Ne w   Yo rk ,   NY ,   USA ,   p p .   9 3 - 1 0 0 , 2 0 1 2 .   Evaluation Warning : The document was created with Spire.PDF for Python.