I nte rna t io na l J o urna l o f   I nfo r m a t ics a nd   Co mm u n ica t io n T ec hn o lo g y   ( I J - I CT )   Vo l. 8 ,   No . 1 A p r il   201 9 ,   p p .   39 ~ 49   I SS N:  2252 - 8776 ,   DOI : 1 0 . 1 1 5 9 1 /i j ict. v 8 i1 . p p 3 9 - 49          39     J o ur na l ho m ep a g e h ttp : //ia e s co r e. co m/jo u r n a ls /in d ex . p h p / I JI C T   Recent   tr ends   in   big   da ta   using   ha do o p       Chet na   K a us ha l,   Dee pi k a   K o un da l   De p a rtme n t   of   Co m p u ter   S c ien c e   a n d   E n g in e e rin g ,   C h it k a ra   Un iv e rsity ,   In d ia .       Art icle   I nfo     AB ST RAC T   A r ticle   his to r y:   R ec eiv ed   No v   9,   2018   R ev i s ed   Dec   25 ,   2 0 1 8   A cc ep ted   J an   11,   2 0 1 9     Big   d a ta   re f e r s   to   h u g e   se t   of   d a ta   w h ich   is   v e r y   c o m m o n   th e se   d a y s   due   to   th e   in c re a se   of   in tern e t   u ti li ti e s.   Da ta   g e n e ra ted   f ro m   so c ial   m e d ia   is   a   v e r y   c o m m o n   e x a m p le   f o r   th e   sa m e .   T h is   p a p e r   d e p icts   t h e   su m m a r y   on   b ig   d a ta   a n d   w a y s   in   w h ich   it   h a s   b e e n   u ti li z e d   in   a ll   a sp e c ts.   Da ta   m in in g   is   ra d ica ll y   a   m o d e   of   d e riv in g   th e   in d isp e n sa b le   k n o w led g e   f ro m   e x t e n siv e l y   v a st   f ra c ti o n s   of   d a ta   w h ich   is   q u it e   c h a ll e n g in g   to   be   in terp re ted   by   c o n v e n ti o n a l   m e th o d s.   T h e   p a p e r   m a in l y   f o c u se s   on   th e   issu e s   re lat e d   to   th e   c lu ste rin g   tec h n iq u e s   in   b ig   d a ta.   F o r   th e   c las si f ica ti o n   p u r p o se   of   th e   b ig   d a ta,   th e   e x isti n g   c las si f ica ti o n   a lg o rit h m s   a re   c o n c ise l y   a c k n o w led g e d   a n d   a f ter   th a t,   k - n e a re st   n e ig h b o u r   a lg o rit h m   is   d isc re e tl y   c h o se n   a m o n g   th e m   a n d   d e sc rib e d   a lo n g   w it h   an   e x a m p le.     K ey w o r d s :   B ig   D ata   C las s i f icatio n   C lu s ter i n g   Kn o w led g D i s co v er y   Min i n g   Co p y rig h t   ©   201 9   In stit u te   of   A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e .     All   rig h ts   re se rv e d .   C o r r e s p o nd ing   A uth o r :   C h et n a   Ka u s h a l   Dep ar t m en t   of   C o m p u ter   Scie n ce   an d   E n g i n ee r in g ,     C h i tk ar U n iv er s it y ,   P u n j ab ,   I n d ia         1.   I NT RO D UCT I O N   T h e   B ig   d ata   is   p r i m ar il y   d ef in ed   as   a   ter m   th at   g en er all y   d escr ib es   th e   lar g e   d i m e n s io n s   of   h ig h   v elo cit y ,   d i f f ic u lt   a n d   v ar iab le   d ata   th at   in v o lv e   in n o v a tiv e   t ec h n iq u es   a n d   eq u ip m e n t   to   f a cilitate   t h e   ca p tu r e,   s to r ag e,   s h ar i n g ,   ad m i n i s tr atio n ,   an d   an al y s is   of   t h e   d ata   or   i n f o r m atio n   [ 1 ] .   B ig   d ata   u lti m atel y   s u r p ass es   t h e   h an d li n g ab ilit y   of   tr ad itio n al   d atab ases   an d   is   to o   b ig   to   be   m a n ag ed   by   a   s in g le   m ac h i n e.   T h er ef o r e,   n o v el   an d   ad v an ce d   w a y s   ar e   m an d ato r y   to   p r o ce s s   a n d   s to r e   s u ch   an   e n o r m o u s   s ize   of   t h e   d ata.   T h ese   d ata   ar e   p r o d u ce d   f r o m   v ir t u al   tr an s ac tio n s ,   elec tr o n ic   m ail s ,   au d io s ,   v id eo s ,   p ictu r e s ,   to r r en ts ,   r e co r d s ,   p o s ts ,   s ea r ch   r eq u ests ,   f i tn e s s   r ec o r d s ,   s o cial   n et w o r k i n g   co n n ec tio n s ,   s cien ce   d ata,   s en s o r s   an d   ce ll - p h o n es   an d   th e ir   ap p licatio n s   [ 2 ] .   T h ey   ar e   d ep o s ited   in   d atab ases   t h at   r i s e   en o r m o u s l y   a n d   tu r n   o u t   to   be   c h alle n g i n g   in   o r d er   to   ca p tu r e,   ar r an g e,   s to r e,   m a n ag e,   s h ar e   an d   a n al y ze   t h e   d at ab ase   w ith   th e   u s e   of   s ta n d ar d   d atab ase   s o f t w ar e   to o ls .   Data b ase   Ma ch i n e   is   an   i m p o r tan t   p ar t   of   B ig   d ata   p r o ce s s in g .   T h e   id ea   of   th e   d atab ase   m ac h in e”   w a s   f ir s t   ap p ea r ed   in   th e   late   1 9 7 0 s,   it   is   an   eq u ip m e n t   th a t   w a s   s p ec iall y   b u ilt   f o r   th e   p u r p o s e   of   s to r ag e   an d   an al y s is   of   d ata.   A   s o le   m ai n f r a m e   n et w o r k   ar r an g e m e n t   tu r n ed   in s u f f icie n t   w i th   th e   i n cr e m en t   of   d ata   e x te n t   an d   th e   d ata   r ep o s ito r y .   W it h   th e   i n cr ea s i n g   d e m a n d   of   tec h n o lo g y ,   T er ad ata   s y s te m   e m er g ed   as   th e   lead in g   co m m er ciall y   ef f icie n t   d atab ase   w h ic h   w a s   ba s ed   u p o n   th e   p ar allel   s y s te m .   In   1986,   a   b r ea k th r o u g h   e v en t   h ap p en ed   w h i le   T er ad ata   in iti all y   b r o u g h t   th e   s y s te m   of   p ar allel   d atab ase   co m p r is i n g   t h e   ca p ac it y   of   s to r in g   d ata   f r o m   1 T B   up   to   Km ar t   in   o r d er   to   p r o v id e   co n v en i en ce   to   th e   r etail   co m p a n ies   at   lar g e - s ca le.   T h e   b en ef it s   of   th e   p ar allel   s y s te m   b ased   d atab ase   s to o d   b r o a d ly   ac k n o w led g ed   in   th e   d o m ai n   of   d atab ases ,   d u r in g   1 9 9 0 ' s   [ 3 ] .   Fig u r e   1   d ep icts   a   g en er aliz ed   ar ch itect u r o f   b ig   d ata .   Go o g le   f o r m u lated   p r o g r a m m i n g   p ar ad ig m s   lik e   Ma p R ed u ce   an d   G FS ,   to   co p e   up   w it h   t h e   tr ials   b r o u g h t   at   t h e   I n ter n et   by   d ata   ad m in is tr atio n   an d   in ter p r etatio n .   B esid es,   th e   lo ad   g en er ated   by   s en s o r s ,   clien ts ,   a n d   ad d itio n al   w o r ld w id e   r eser v o ir s   of   d ata,   f u r t h er   p o w er ed   t h e   o v er w h el m i n g   s tr ea m s   of   d ata   t h at   lac k ed   ce r tain   a m en d m en t   on   t h e   co m p u ti n g   s tr u ctu r e   an d   f ar - r ea c h i n g   d ata   p r o ce s s i n g   m ac h in e   [ 4 ] .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8776   IJ - I C T   Vo l.   8 ,   No .   1 ,   A p r il 2 0 1 9   :   39 49   40       Fig u r e   1.   An   o v er v ie w   of   b ig   d ata       P r ac tically ,   all   t h e   f o r e m o s t   e s tab lis h m e n t s   h a v e   in itiated   t h eir   in d i v id u al   d ev e lo p m en ts   co n ce r n i n g   th e   b ig   d ata   w it h i n   a   f e w   f o r m er   y ea r s ,   co m p r i s in g   Go o g le,   Face b o o k ,   Mic r o s o f t,   E MC,   Am az o n ,   Or ac le,   an d   I B M,   etc.   L ik e w i s e,   s e v er al   n atio n - w id e   g o v er n m en ts   h av e   also   p aid   ab u n d an t   d e v o tio n   to   b ig   d ata   an d   m ad e   m illi o n s   of   f u n d s   to   i n itiate   t h e   P r o j ec t   r eg ar d in g   th e   An al y s i s   an d   A d v a n ce m en t   of   th e   B ig   Data   [ 5 ].   T h e   co n clu d i n g   o b j ec tiv e   of   b ig   d ata   s ta n d s   to   d eliv er   th e   p r o d u cti v it y   as   s o m e   co m m er cial   r eso lu tio n s   t h at   can   co m f o r t   a   co m p an y   to   g ai n   p r o f ess io n al   s o l u tio n s .     Fo r   in s ta n ce ,   a n y   co m p an y   c an   be   b en e f ited   if   t h e y   co u ld   u n d er s tan d   t h at   if   cl ien t   p u r ch ase s   X”   th en   it   is   p r o b ab le   th at   h e/ s h e   m i g h t   al s o   be   in ter ested   in   b u y i n g   Y”.   T h is   t y p e   of   an al y s is   at   r u n - ti m e   ca n   g r ea tl y   b e n ef it   by   i n cr ea s i n g   b u s i n ess .   T h e   w eb   ac co u n ts   ar e   an al y s ed   by   th e   o n li n e   s i tes   o f f er in g   h u m a n   in ter ac tio n   in   o r d er   to   p r o p o s e   s o m e   p r ef er en ce s   to   th e   u s e r s   b ased   u p o n   th eir   v ested   i n t er ests .   B ig   d ata   also   tar g ets   on   r e m ar k ab le   r ed u ctio n   in   e x p en s es   a n d   n ec es s ar y   d ev elo p m e n ts   [ 6 ] .   T h er e   ar e   th r ee   m ai n   k e y s   f o r   b ig   d ata,   also   k n o w n   as   3   V’ s   of   b ig   d ata .   [ 7 ]   i.   Vo lu m e   -   P r esen t l y   t h e   d ata   s ize   is   m u c h   lar g er   in   co m p a r is o n   to   p ast   d ata   s izes,   i.e .   e x ce ed in g   -   ter ab y te s   a n d   p eta   b y tes.   T h e   s tr ik i n g   r a n g e   an d   g r ad u al   s u r g e   in   th e   d ata   s ize   ta g s   it   v i g o r o u s l y   h ar d   to   s av e   an d   r e v ie w   by   e m p lo y in g   t h e   co n v e n tio n al   ap p r o ac h es.   Fo r   in s ta n ce ,   Face b o o k   co n s u m e s   ap p r o x im a tel y   500 - ter ab y te s   of   d ata   on   a   d ail y   b asis .   ii.   Velo cit y   -   T h e   u tili za t io n   of   t h e   b ig   d ata   is   m u s t   as   it   s tr ea m s   t h e   d ata   to   o b tain   th e   o p ti m u m   u s e   of   its   v al u e   f o r   ti m e   r estricte d   p r o ce s s es.   iii.   Var iet y   - Or i g in a tio n   of   t h e   b ig   d ata   is   p r i m ar il y   b ased   on   t h e   d iv er s it y   of   s o u r ce s .   T h e   C o n v e n tio n al   s y s te m s   of   d atab ases   w er e   p r o p o s ed   to   m ar k   lo w er   ex te n ts   of   clas s i f ied   d ata,   s m all er   am o u n t   u p d ates   or   a   s tead y   a n d   f ea s ib le   d ata   ar r an g e m e n t.   Ho w ev er ,   th e   s p atial   d ata,   3 - D   d ata,   au d io - v id eo ,   an d   th e   clu tter ed   m an u s cr ip t,   co m p r is in g   ac co u n t   f i les   an d   s o cial   m ed ia   ar e   also   co n s id er ed   as   b ig   d ata.   B ig   Data   tec h n o lo g y   p er m its   t h e   co llectio n   a n d   p r o ce s s i n g   of   lar g e   ex te n t s   of   d ata,   i n cl u d in g   p er s o n al   in f o r m atio n   or   in f o r m atio n   t h at   can   r ec o g n ize   an   i n d iv id u al.   P r esen tl y ,   t h e   d ata   h as   tr an s f o r m ed   as   an   i m p er ativ e   co n s tit u e n t   th a t   co u ld   be   an alo g o u s   to   r ea l   ass e ts   an d   in d i v id u al   r eso u r ce s .   Gen er all y ,   t h er e   ar e   f i v e   cu s to m   w a y s   t h r o u g h   w h ich   t h e   b ig   d ata   ca n   be   u s ed   [ 8 ] .   First,   it   can   cr ea te   i n f o r m atio n   m o r e   cr y s tal   clea r   an d   r ap id l y .   Seco n d ,   t h e   estab lis h m e n t s   ca n   a s s e m b le   a n d   ex a m i n e   f u r th er   d i g ital   d at a,   p r ec is el y .   T h ir d ,   th e   u tili za tio n   of   s u c h   d ata   can   g en er ate   m u c h   m o r e   ac c u r atel y   p er s o n alize d   g o o d s   or   f ac ilit ies   f o r   co n s u m er s .   Fo u r th ,   p o o led   w ith   th e   p r ec is e   an al y tic s   a n d   Data   Di s cip li n e,   th e   p r o ce s s   of   d ec i s io n - m ak in g   co n s id er ab l y   tu r n s   i n to   m o r e   p r o f icie n t.   F if th ,   it   ca n   be   u tili ze d   to   m e n d   t h e   s u cc ee d in g   g e n er atio n   of   a m en ities   an d   y ield s   f o r   a   co m p an y s clie n t   b ase.   C u r r en tl y ,   b ig   d ata   h a s   b ee n   u til ized   in   p r ac ticall y   e v er y   s in g l e   f ield   [ 9 ] .   So m e   of   th e   f ield s   th a t   ar e   co n s u m i n g   b ig   d ata   s er v ices   ar e   d ef i n ed   b elo w :   i.   R etail:   T h e   f o r e m o s t   tas k   of   b u s i n es s   in d u s tr y   is   b u ild in g   cli en t   r elatio n s h ip   w it h   t h e   as s o ciatio n s   or   o r g an izatio n s .   T h e   o p ti m u m   w a y   to   g r asp   a n d   d o m i n ate   clien t s   is   co n d u ct   d ea li n g s   a n d   tactic s   ef f icien tl y   in   o r d er   to   p r o cu r e   b ac k   th e   u n s u cc e s s f u l   g o o d s   an d   p r o g r ess io n   of   t h e   p r e m i u m   g o o d s .     ii.   Ma n u f ac t u r i n g :   T h e   co m p a n i es   can   i m p r o v e   t h e   s u p er io r it y   an d   e f f icie n c y   of   t h e   m a n u f ac tu r ed   g o o d s   by   m i n i m izi n g   t h e   lef t o v er   w it h   t h e   a w ar e n es s   in f o r m atio n   d eli v er ed   by   b ig   d at a.   Sev er al   co m p a n i es   ar e   p r esen tl y   p r o v i d in g   s tr ess   to   a n al y tics - b ased   p o licy   f o r   r eso lv i n g   d if f ic u lt   a n d   f le x ib le   d ec is io n   m a k i n g .     iii.   E d u ca tio n :   E d u ca tio n   co m p le tel y   e x a m in e s   t h e   d ata   o cc u p ied   f r o m   t h e   s c h o o l   f ac u lt y   a s s o ciatio n   can   cr ea te   d o m i n a n t   i m p ac t   on   o r g a n izin g   e n d an g er ed   lear n er s   a n d   o b s er v i n g   th e   s u f f icie n t   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - I C T     I SS N:  2252 - 8776       R ec en tr en d s   in   b ig   d a ta   u s in g   h a d o o p   ( C h etn a   K a u s h a l)   41   i m p r o v e m en t   of   s t u d en t s .   A s s ess m e n t   of   t h e   s tu d e n t’ s   d ev elo p m e n t   ca n   be   m ad e   w it h   t h e   s c h o o l   f ac u lt y   s y n c h r o n izatio n   en h an ce d   s y s te m .   iv .   Hea lth ca r e:   Mi s ce lla n eo u s   p atien t   r ec o r d s ,   tr ea t m e n t   d ata   an d   p r o ce s s es   f o r   th er ap y   ar e   ac co m p li s h ed   ef f ec tiv e l y   w i th   th e   a w ar en es s   of   i n f o r m atio n ;   h ea lt h   ca r e   p r o v id er s   can   co m p r e h e n d   an d   p r o f icien tl y   r ec o v er   p atien t s   f it n ess .   v.   Me d ia/en ter tai n m e n t:   Fro m   t h e   p ast   f iv e   y ea r s ,   t h e   i n d u s tr y   of   s o cial   m ed ia/en ter tai n m e n t   h a s   s h i f t ed   to   t h e   d ig ita l   m ea n s   of   p r o d u ctio n ,   r ec o r d in g ,   an d   cir cu latio n   is   cu r r e n tl y   ac c u m u lat in g   en o r m o u s   a m o u n t s   of   u s er s   o b s er v i n g   ac tio n s   a n d   th e   r ich   co n ten t.   v i.   L i f e   s c ien ce s :   Nea r l y   to n n e s   of   in f o r m a tio n   ( m ea s u r ed   in   t er r a - b y tes)   ar e   p r o d u ce d   by   l ess er   p r ice   DN A   s eq u e n ci n g   w h ic h   is   r eq u ir ed   to   be   ex a m i n ed   in   o r d er   to   s ca n   t h e   h er ed itar y   m o d i f ic atio n s   a n d   p o s s ib le   p r o f icien c y   of   th e   c u r e.   v ii.   Vid eo   s u r v eilla n ce :   Vid eo   s u r v eilla n ce   is   d ev elo p in g   f r o m   C C T V   to w ar d   I PT V   r ec o r d in g   s y s te m s   an d   ca p tu r i n g   d e v ices   li k e   ca m er as   t h at   ar e   u s ed   by   t h e   o r g an izat io n s   as   p er   t h e   n ee d   to   an al y s e   p atter n s   of   ac ti v itie s   an d   ac tio n s   ( en h a n ce m e n t   of   s er v ice   a n d   s ec u r it y ) .   v iii.   T r an s p o r tatio n ,   u tili tie s ,   s er v ices,   telec o m m u n icatio n   a n d   lo g is tics :   At   h i g h   r ate   s en s o r   d ata   is   g en er ated   f r o m   t h e   GP S   tr an s ce iv er s ,   s m ar t   m eter s   a n d   m o b ile   d ev ices   ( ce ll   p h o n es)   w h i ch   is   t h e n   u s ed   f o r   o p tim izin g   th e   o p er atio n s   an d   f i n d   th e   r elatio n s h i p   b etw ee n   th e   d ata   w h ic h   f o r m   r ele v a n t   in f o r m atio n   f o r   b u s i n es s   in te l lig e n ce   ( B I )   to   m ak e   t h e   ap p r o p r iate   d ec is io n s   f o r   d if f er e n t   b u s i n ess   o p p o r tu n itie s .       2.   DATA   M I NIN G   B ig   d ata   on   clo u d   co n tain s   all   th e   r a w   d ata   w h ic h   is   g a th er ed   in   cl u s ter s   on   t h e   b as is   of   t h eir   r elatio n s h ip .   B u t   t h e   u s er   or   o r g an izat io n   n ev er   w a n ted   to   w a s te   t h eir   ti m e   in   g ath er i n g   th e   d ata   d etails   an d   cr ea tin g   s tr u c tu r al   i n f o r m atio n   as   it   tak e s   a   lo t   of   t i m e.   He n c e,   Data   Min i n g   is   r e f er r ed   as   tak in g   out   in f o   f r o m   v ast   g r o u p s   of   r ec o r d s   of   d ata.   In   o th er   w a y ,   t h e   p r o ce s s   of   d ata   m i n in g   is   to   m i n e   k n o w led g e   f r o m   t h e   d atab ase   [ 1 0 ] .   T h er e   is   a   v a s t   q u an tit y   of   d ata   ex i s ti n g   in   IT   I n d u s tr y .   S u c h   d ata   ca n n o t   be   u tili ze d   f u r th er   f o r   p r o ce s s in g ,   u n les s   th at   d ata   is   tr an s f o r m ed   in to   v al u ab le   in f o .   It   is   in d is p en s ab le   to   an al y ze   en o r m o u s   v o l u m e   of   d ata   an d   m i n e   th e   v al u ab l e   in f o r m atio n   f r o m   t h e   d ata.   Min i n g   of   t h e   i n f o r m atio n   is   n o t   o n l y   p r o ce d u r e   w h ic h   is   p ar tic u lar l y   r eq u ir ed   to   be   p er f o r m ed ;   t h er e   ar e   als o   o th er   p r o ce s s es   th a t   ar e   in v o lv ed   in   d ata   m i n i n g   lik e   Data   C lea n i n g ,   Data   Sele ctio n ,   Data   I n te g r atio n ,   Da ta   T r an s f o r m atio n ,   Da ta   Min in g ,   Data   P r esen tatio n   an d   P atter n   E v al u atio n   is   d es cr ib ed   in   F i g u r e   2   [ 1 1 ] .   On c e   all   th e s e   j o b s   ar e   co m p lete l y   ter m i n ated ,   th i s   in f o r m atio n   co u ld   be   ad ap ted   f u r th er   in   v ar io u s   ap p licatio n s   as   Fra u d   E x p o s u r e,   Ma r k e t   A n al y s is ,   Scien ce   E x p lo r atio n   an d   C o n tr o l   in   P r o d u ctio n   etc.   [ 1 2 ].           Fig u r e   2 .   Data   m i n in g   in   Kn o w led g e   Dis co v er y   p r o ce s s   [ 1 3 ]       Data   m i n in g ,   o f te n   r ef er r ed   to   Kn o w led g e   d is co v er y   ( KD D)   in v o l v es   m in in g   of   i n f o r m atio n   or   k n o w led g e   as   it s   p r i m ar y   a n d   th e   u t m o s t   c h alle n g i n g   a n d   in tr i g u in g   s tep   [ 1 3 ] .   No r m all y ,   d ata   m i n i n g   d is clo s es   t h e   in tr i g u in g   p att er n s   a n d   i n f er e n ce s   th a t   ar e   co n ce aled   co v er tl y   i n s id e   a   lar g e   v o lu m e   of   u n a n al y s ed   or   p r i m ar y   d ata,   an d   th e   o u tco m e s   w h ic h   ar e   ca r r ied   o u t   m a y   p o s s ib l y   s u p p o r t   f u tu r e   o b s er v at io n s   in   th e   ac t u al   w o r ld .     Data   m in in g   h a s   b ee n   ex p lo ited   by   an   ex te n s i v e   v ar iet y   of   ap p licatio n s   i.e .   b u s in e s s ,   d r u g ,   s cien c e   an d   en g i n ee r i n g .   A lt h o u g h ,   th e   d ata   m i n in g   is   m ain   p h a s e   in   k n o w led g e   d is co v er y   p r o ce s s   th er ef o r e   it   is   also   u s ed   as   a   s u b s tit u te   f o r   en tire   p r o ce s s   of   tak i n g   o u t   u s ef u l   i n f o   f r o m   d atab ases .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8776   IJ - I C T   Vo l.   8 ,   No .   1 ,   A p r il 2 0 1 9   :   39 49   42   B u t   s ti ll   in   tec h n ical   e n v ir o n m en t   ( in d u s tr y ) ,   in   th e   d atab ase   r esear ch   a n d   in   m ed ia,   d at a   m i n i n g   is   b ec o m i n g   ex tr ap r ev ale n t.   T h e r e   ar e   n u m b er   of   s tep s   i n v o lv ed   in   th e   e n tire   p r o ce s s   of   k n o w led g e   d i s co v er y   f r o m   d atab ases   w h ic h   is   d escr ib ed   in   F ig u r e   2   [ 1 4 ] .   T h e   f ig u r e   r ep r esen ts   th e   s eq u en ce   of   th e   in d iv id u al   s tep   w it h i n   t h e   p r o ce s s   an d   is   b r ief l y   d escr ib ed   in   th e   te x t   b elo w :     Data   I n teg r atio n     th e   m u ltip l e   d ata   f r o m   d i s ti n ct   s o u r ce s   ar e   in itiall y   j o in ed .     Selectio n   of   d ata   th e   ap p r o p r iate   d ata   as   p er   th e   an al y s i s   of   t h e   tas k   is   s elec ted   f r o m   m u l tip le   d ata   s o u r ce s .     Data   P r e - P r o ce s s in g     t h e   n o i s e   an d   in co n s i s ten c y   of   t h e   d at a   is   eli m in ated .     Data   T r an s f o r m at io n     d ata   is   co n v er ted   or   m er g ed   i n to   s u ch   f o r m s   t h at   ar e   ap p licab le   f o r   m in i n g   by   ca r r y i n g   o u t   s u m m ar y   or   b len d ed   p r o ce d u r es.     Data   Min i n g   in tellect u al   p r o ce d u r es   ar e   ad ap ted   to   a b s tr ac t   th e   p atter n s   of   d ata.     E v alu a tio n   of   P atter n   e v alu a t io n s   of   d ata   p atter n s   w h ic h   ar e   ab s tr ac ted .     Kn o w led g e   P r esen ta tio n   In   C o n cl u s io n ,   k n o w led g e   is   r ep r esen ted .     2 . 1 .     Cha lleng es   in   B ig   Da t a   M ini ng   T h e   f o r em o s t   ch alle n g e s   th a t   ar is e   in   b ig   d ata   m i n i n g   ar e   b r ief l y   d e f in ed   in   th e   f o llo w in g   p o in ts   at   T ab le  1   [ 1 5 ] :       T ab le   1.   C h allen g es   in   t h e   B ig   Data   Min i n g   C h a l l e n g e s   D e scri p t i o n   S h i e l d i n g   p r i v a c y   a n d   c o n f i d e n t i a l i t y   P r i me   f o c u s   on   g e n e r a t i n g   t h e   t e c h n i q u e s   t h a t   w i l l   n e v e r   d i scl o se   t h e   d e si g n s   a n d   a l so   e n su r e   safe t y   a n d   p r i v a c y   M a n a g i n g   t h e   i n a d e q u a t e   i n f o r mat i o n   A b se n t   v a l u e s   t h a t   r e l a t e s   to   d e f i c i e n c y   of   f e a t u r e s,   is   a r g u e d   c o mp r e h e n s i v e l y   f o r   o f f l i n e ,   st a t i c   se t t i n g s   U n d e f i n e d   d a t a   M o st   a p p l i c a t i o n s   do   n o t   p o sse ss   su f f i c i e n t   d a t a   f o r   a r i t h me t i c   p r o c e d u r e s.   H e n c e   a p p r o a c h e s   a r e   r e q u i r e d   to   h a n d l e   u n d e f i n e d   d a t a   v a l u e s   in   a   p r e c i se   a n d   q u i c k   w a y .   D i v e r si t y   of   d a t a   S o c i a l   si t e   is   t h e   mo st   c a p t i v a t i n g   i mm i n e n t   a p p l i c a t i o n   of   d a t a   st r e a m   c l u st e r i n g   l i k e   v i d e o ,   i m a g e s,   t e x t   a n d   a u d i o .   S y n o p si s   a n d   su m marie s   S y n o p si s   r e f e r s   to   c o mp r e sse d   st a t i st i c s   a r r a n g e me n t s   w h i c h   l e t   d a t a   su mm a r i z a t i o n   f o r   a d v a n c e   q u e st i o n i n g   l i k e   t h e   h i s t o g r a ms,   w a v e l e t s   f o r ms   a n d   sam p l e s   d e f i n e   t h e   e n o r mo u s   i n f o r mat i o n   in   t h e   c o mp r e sse d   w a y .   D i st r i b u t e d   s t r e a ms   In   a p p l i c a t i o n s   s u c h   as   c e n t r a l i z e d   r e su l t s   b r i n g   t o g e t h e r   i n t e r r u p t i o n s   in   e v e n t   r e c o g n i t i o n   a n d   r e sp o n se   t h a t   can   c r e a te   m i n i n g   sy st e ms   u n s u c c e ssf u l   Ev a l u a t i o n   of   d a t a   st r e a m   p r o c e d u r e s   Ex i st i n g   t o o l s   su c h   as   i d e a   i m p l i c a t i o n ,   r e st r i c t e d   p r o c e ssi n g   i n t e r v a l ,   a u t h e n t i c a t i o n   d o r man c y ,   mu l t i p l e   st r e a m   st r u c t u r e s   a r e   i n a d e q u a t e   in   t h e   d a t a   s t r e a m   d a t a b a se s   d u e   to   c e r t a i n   p r o b l e ms   I n d e p e n d e n t   a n d   se l f - d i a g n o si s   K n o w l e d g e   d i sco v e r y   in   d a t a b a se s   n e e d   t h e   s k i l l s   f o r   p r o g n o st i c   se l f - d i a g n o si s.   A   me a n i n g f u l   a n d   b e n e f i c i a l   i n t e l l e c t u a l   f e a t u r e   is   d i a g n o st i c s   in   si t u a t i o n   of   f a i l u r e   o c c u r r e n c e   a n d   a l so   p r o g n o st i c   a n d   c o n s u l t a t i v e .   T h e   e v o l u t i o n   of   t h e se   t y p e s   of   se l f - o r g a n i z i n g ,   se l f - e n h a n c i n g ,   a n d   se l f - r e st o r i n g   sy st e ms   is   f o r e mo st   c h a l l e n g e .   M e r g i n g   o f f l i n e   a n d   o n l i n e   mo d e l s   R e a l - t i me   a n d   b a t c h   l e a r n i n g   a r e   f r e q u e n t l y   c o n si d e r e d   as   se p a r a t e d   i d e n t i t i e s   a c c o r d i n g   to   t h e i r   a c t i o n ,   but   t h e i r   g r o u p i n g   mi g h t   b o o st   t h e   d a t a   v a l u e .   In   l a mb d a   f r a me w o r k   t h e   t w o   mo d e l s   can   be   c o mb i n e d   f o r   p l a n n i n g   b i g   d a t a   mo d e l s.       3.   H ADO O P   Had o o p   is   an   o p en - s o u r ce   f r a m e w o r k   w h ic h   p er m its   to   ac c u m u late   a n d   r u n   b ig   d ata   in   a   d is tr ib u ted   ar r an g e m en t   in   t h e   n et w o r k   of   co m p u ter s   co n s u m in g   m o d est   p r o g r am m i n g   m o d els.   T h is   w h o le   p r o ce s s   s ca les   up   f r o m   s o litar y   s er v e r s   to   th o u s a n d s   of   m ac h i n es,   co llectiv el y   p u t   f o r w ar d   lo ca l   m an ip u latio n   an d   s to r in g .   Had o o p   ex ec u tes   th e   ap p licatio n s   v ia   Ma p R ed u ce   alg o r ith m ,   w h er e   on   d i v er s e   C P U   n o d es;   i n f o   is   s o r t   o u t   in   p ar allel.   In   a   n u ts h ell,   Had o o p   f r a m e w o r k   is   p r o f icien t   to   en co u r a g e   ap p licatio n s   t h at   ar e   q u alif ied   of   ex ec u tin g   on   t h e   g r o u p   of   m ac h i n es   an d   all   co u ld   d eliv er   f u ll y   s tati s tical   i n ter p r etatio n   f o r   i m m e n s e   v o lu m es   of   d ata   [ 1 6 ] .   T h e   ap p licatio n   w h ich   is   d ep en d en t   on   Had o o p   f r a m e w o r k   r u n s   in   an   e n v ir o n m e n t   wh ich   g iv e s   d is tr ib u ted   s to r ag e   an d   co m p u tatio n s   on   t h e   g r o u p   of   m ac h i n es   in   t h e   n et w o r k .   E x ten s io n   of   Had o o p   co u ld   be   n u m er o u s   s er v er s ,   each   g iv i n g   th e   n ati v e   co m p u tatio n   an d   s t o r ag e   s er v ice.   In   F ig u r e   3,   Had o o p   A r ch itect u r e   is   d ef i n ed   w h ic h   p r i m ar il y   in clu d e s   s u b s eq u e n t   m o d u les   [ 1 7 ] :   i.   Had o o p   C o m m o n :   Had o o p   co m m o n   co n s is t   of   lib r ar ies   of   J av a   a n d   s er v ices   n ee d ed   by   o t h er   Had o o p   elem e n ts .   T h ese   lib r ar ies   o f f er   OS   lev e l   ab s tr ac tio n s ,   f ile s   s y s te m   an d   co m p r i s e s   es s en t ial   J av a   lib r ar ies   an d   s cr ip ts   r eq u i r ed   to   in itialize   Had o o p .   ii.   Had o o p   YA R N:   It   is   k in d   of   s tr u ctu r e   f o r   s ch ed u lin g   of   j o b   an d   clu s ter   r eso u r ce   m a n ag in g .   iii.   Had o o p   Dis tr ib u ted   File   S y s te m   ( HD FS ) :   It   is   f i le   ar ch i tectu r e   th at   o f f er s   r i g h t   to   u s e   th e   a p p licatio n   d ata.   iv .   Had o o p   Ma p R ed u ce :   T h is   is   a   s y s te m   b ased   on   Y AR N   f o r   p ar allel   p r o ce s s in g   of   b ig   s et s   of   d ata.   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - I C T     I SS N:  2252 - 8776       R ec en tr en d s   in   b ig   d a ta   u s in g   h a d o o p   ( C h etn a   K a u s h a l)   43   Sin ce   2012,   th e   co n ce p t   " Had o o p "   r e p ea ted ly   m e n tio n s   to   be   th e   b ase   u n it s   a n d   to   th e   v ar iet y   of   o th er   s o f t w ar e   s et s   t h at   can   be   m o u n ted b esid e   Had o o p ,   lik e   A p ac h e   Hiv e,   A p ac h e   P ig   etc.           Fig u r e   3.   A r ch itectu r e   of   Had o o p   [ 1 6 ]       3 . 1 .     H a do o p   Dis t ribute d   F il e   Sy s t e m   ( H DF S)   T h e   Had o o p   Dis tr ib u ted   File   S y s te m   ( HDF S)   is   ce n tr ed   on   th e   Go o g le   File   S y s te m   ( G FS )   an d   o f f er s   f ile   s y s te m   w h ich   is   d is tr ib u ted   in   n at u r e   t h at   is   in te n d ed   to   ex ec u te   on   lar g e   g r o u p   of   co m p u ter   in   th e   n et w o r k   in   a   co n s i s ten t   a n d   er r o r - r ec ep tiv e   m a n n er   [ 1 8 ] .   In   co n tr a s t   to   t h e   ad d itio n al   d is tr ib u ted   s y s te m s ,   HDFS   is   ex ce ed i n g l y   f a u lt   i n d u lg e n t   a n d   d esi g n ed   w it h   lo w   co s t   h ar d w ar e.   HDF S   g r asp s   v er y   h u g e   a m o u n t   of   d ata   a n d   o f f er s   co m f o r tab le   ac ce s s .   T h e   f ile s   ar e   s to r ed   ac r o s s   s e v er al   m ac h in e s   in   o r d er   to   p r o tect   s u c h   a   h u g e   d ata.   T h ese   f ile s   ar e   k ep t   in   a   r ep etitiv e   m an n er   to   r ec o v er   d ata   lo s s es   in   th e   s y s te m   in   ev e n ts   of   f ai lu r e.     HDFS   p r i m ar il y   ad ap ts   t h e   m aster / s la v e   d esi g n .   In   th i s   d esig n   t h e   m aster   co m p r is es   a   s i n g le   Na m eNo d e   th at   m a in ta in s   th e   m e tad ata   an d   s lav e   co m p r is e s   m u ltip le   Data No d es   th at   p r eser v e   th e   o r ig i n al   d ata.   In   t h e   F ig u r e   4,   ar ch i tectu r e   of   H DFS   is   s h o w n   an d   is   d i v id ed   in to   d ata   n o d es.   A   f i le   in   r ef er r ed   as   HDFS   n a m esp ac e   is   d i v id ed   in to   a   n u m b er   of   b lo ck s .   T h ese   in d iv id u al   b lo ck s   ar e   k ep t   in   a   clas s   of   Data No d es.   [ 1 9 ] .   T h e   Data No d es   ar e   r esp o n s ib le   f o r   t h e   r ea d in g   a n d   w r iti n g   p r o ce d u r e   of   th e   f ile   s y s te m .   T h ey   f u r t h er   ar e   r esp o n s ib le   f o r   th e   b lo ck   f o r m u lat io n ,   ter m i n atio n ,   a n d   d u p licatio n   as   p er   th e   in s tr u ctio n s   p r o v id ed   by   Na m e No d e.   T h e   HDFS   r en d er s   a   s h el l   s i m ilar l y   to   m a n y   o t h er   f ile   s y s te m   ( m eta   d ata) an d   a   lis t   of   in s tr u ctio n s   ar e   p r ep ar ed   to   co m m u n icate   to   th e   f ile   s y s te m .           Fig u r e   4.   A r ch itectu r e   of   H DF S   [ 1 8 ]       4.   C L US T E RIN G   A L G O RI T H M   C lu s ter i n g   is   th e   j o b   of   d iv is i o n   of   th e   p o p u latio n /d ata   p o in ts   in   g r o u p    n u m b er   lik e   d at a   p o in ts   in   s i m ilar   g r o u p   t h at   ar e   s a m e   as   an o th er   d ata   p o in t s   in   s i m ilar   g r o u p   as   co m p ar ed   to   th e   a n o th er   g r o u p s .   It   ca n   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8776   IJ - I C T   Vo l.   8 ,   No .   1 ,   A p r il 2 0 1 9   :   39 49   44   also   be   s aid   th at   t h e   o b j ec tiv e   of   cl u s ter i n g   is   to   s ep ar ate   th e   g r o u p   in   s a m e   tr aits   an d   allo ca te   t h e m     in   cl u s ter   f o r m .   C l u s ter i n g   ca n   be   cla s s i f ied   in to   t w o   al g o r i th m s ,   n a m el y ,   K - m ea n   a n d   K - m ed o id s   cl u s ter i n g .   T h e   ex p lan atio n   of   t h e   s a m e   is   g iv e n .     4 . 1 .     K - m ea ns   a lg o rit h m   T h e   m o s t   g e n er al   alg o r it h m   u tili ze s   an   iter at iv e   r e f in e m e n t   m eth o d .   B ec au s e   of   i ts   u b iq u it y ,   it   f r eq u en tl y   ter m ed   as   K - m ea n s   alg o r ith m   or   as   L lo y d s   al g o r ith m .   C o n s id er   K - m ea n   in i tial   s et/   C en tr o id s ,   t h e   alg o r ith m   h as   b ee n   d iv id ed   in t o   t w o   s tep s   [ 2 0 ] :   Ass i g n m e n t   Step :   Ass i g n in g   ev er y   o b s er v atio n   to   th e   cl u s ter   h av i n g   th e   clo s e s t   m ea n   [ th at   is   t h e   p ar titi o n   of   th e   o b s er v at io n   as   p er   Vo r o n o i   d iag r am   p r o d u ce d   by   t h e   m ea n s .     R i ( q ) = { a j : a j n i q a j n i q for   all   i = 1 , , l }       Up d ate   s tep :   C o m p u te   t h e   n o v el   m ea n   to   be   ce n tr o id   of   th e   c lu s ter   o b s er v atio n     n i ( q + 1 ) = 1 | R i q | a j a j R i ( q )       T h e   K - m ea n s   al g o r ith m   is   b eliev ed   to   be   m ee t   w h e n   th e   a s s i g n m e n t   d o esn t   c h an g e   f o r   lo n g   [ 2 1 ] .       4 . 2 .     K - m edo id s   a lg o rit h m   K - m ed o id   alg o r ith m   is   ass o ci ated   to   th e   K - m ea n   al g o r ith m   w it h   th e   m ed o id s h i f t   alg o r ith m .   T h e   K - m ed o id   an d   th e   K - m ea n   al g o r ith m   k n o w n   as   P ar titi o n al   al g o r ith m s .   K - m ea n   les s en s   th e   to tal   s q u ar ed   er r o r   an d   th e   K - m ed o id s   r ed u ce s   t h e   am o u n t   of   d is s i m ilar i ties   a m o n g   p o in ts   lab eled   to   be   in   clu s ter   w i th   t h e   p o in t   s elec ted   as   th e   cl u s ter   ce n tr e .   K - m ed o id s   s e lects   th e   d ata   p o in ts   as   t h e   ce n tr es   w it h   r esp ec t   to   K - m ea n   alg o r ith m .   It   is   a   p ar titi o n i n g   m et h o d   f o r   cl u s ter i n g   t h e   d at a   s ets   of   m   o b j ec ts   in   k - cl u s t er s   by   K   ter m ed   as   P r io r i.   T h e   ef f ec tiv e   to o l   to   m ea s u r e   is   S ilh o u ette   [ 2 2 ] .   It   m a y   be   m o r e   v i g o r o u s   to   n o is e   an d   t h e   o u tlier s   by   m ea n s   of   k - m ea n s   as   it   r ed u ce s   a   a m o u n t   of   n o r m al   p air   w i s e   d is s i m ilar itie s   th a n   s q u ar ed   E u clid ea n   d is ta n ce   s u m .    T h e   m ed o id   by   m ea n s   of   f in ite   d ataset   is   th e   d ata   p o in t   f o r m   t h e   s et   h av i n g   a v er ag e   d is s i m ilar it y   to   each   d ata   p o in t   is   less   m ea n s   it   is   co n s id er ed   as   lik el y   to   th e   ce n tr all y   lo ca te d   p o in t   s et.   Gen er al   r ea lizatio n   of   k - m ed o id   clu s ter i n g   is   P A M   ( P ar titi o n in g   A r o u n d   m ed o id )   alg o r ith m   a n d   is   d ef in ed   b elo w   [ 2 3 ] :   i.   I n itialize:   A r b itra r il y   s elec ted   K   of   m   d ata   p o in ts   as   m ed o id s .   ii.   Ass i g n m e n t   s tep :   C o n n ec t   ev e r y   d ata   p o in t   to   t h e   clo s est   m e d o id .   iii.   Up d ate   s tep :   f o r   ev er y   m ed o id   an d   f o r   ev er y   d ata   p o i n t   p,   li n k ed   to   n   s w ap   n   an d   p   an d   ca l cu late   th e   to tal   co n f i g u r atio n   co s t.   C h o o s e   th e   m ed o id   p   w ith   le s s   co n f ig u r at io n   co s t.       5.   CL AS SI F I CAT I O N   AL G O RIT H M   C las s i f icatio n   h a s   w id e   r a n g e   of   m et h o d s   to   ca te g o r ize   th e   d ata   in to   th e   g r o u p   of   cl u s te r s . T h er e   is   u tter   n ee d   of   t h e   clas s i f icatio n   p r o ce s s   as   t h e   h u g e   v o lu m e   of   d ata   is   ca teg o r ized   i n to   th e   g r o u p   b ased   on   t h e   r elatio n   b et w ee n   th e   d ata   o b j ec ts .   Hen ce ,   alg o r ith m s   ar e   r eq u ir ed   w h ich   h as   tr ain i n g   d ata - s ets   i n b u il t   ac co r d in g   to   h u m a n   p er ce p tio n   of   d ata   c lass if ica tio n .   C la s s i f icatio n   is   a   t y p ical   d ata   m in i n g   m e th o d th a t   is   d ep en d en t   on   m ac h in e   lear n i n g   [2 4 ].   B asicall y   cla s s i f icatio n   is   n ee d ed   to   class i f y   ea c h   o b ject   in to   a   p ar tic u lar   class .   C la s s i f icat io n   is   f u r th er   d iv id ed   in to   Su p er v is ed   an d   U n s u p er v is ed   cla s s i f icatio n .   Su p er v i s ed   lear n in g   is   in   w h ich   th e   tr ai n in g   s et   of   p r ec is el y   r ec o g n ized   d ataset   o b s er v atio n s   ar e   ac ce s s ib le.   W h er ea s ,   in   t h e   u n s u p er v is ed   lear n in g   ta k es   th e   ch an ce   i ts el f   by   g r o u p in g   d ata   on   th e   b asi s   of   s i m ilar   m ea s u r es   of   in h er en t   s i m ilar it y .   T h er e   ar e   n u m er o u s   m et h o d s   in   th e   s u p er v is ed   lear n i n g   h o w e v er   ac co r d in g   to   th e   p r ev io u s   s t u d ies   KNN   is   t h e   b est   m e th o d   f o r   cl ass i f icatio n   in   t h e   ca s e   of   b i g   d ata   an d   g iv e   b etter   r es u lts   w h en   u s ed .   Her e   af ter ,   KNN   alg o r it h m   is   d ef i n ed   an d   h o w   clas s i f icatio n   is   d o n e   w it h   t h e   h elp   of   KN N   alg o r it h m   is   p r esen ted   in   s u b s ec tio n   [ 2 5 ] .     5 . 1 .     K NN   Alg o rit h m   T h e   K - n ea r est   n ei g h b o u r   p r o c ed u r e   ( KNN)   is   a   w a y   f o r   cla s s i f icatio n   of   e n titi e s   on   t h e   b asis   of   th e   ad jo in in g   tr ain i n g   s p ec i m en s   in   f ea t u r e   s p ac e   [2 6 ].   T h e   p r i m e   in ten t io n   of   t h e   k   Nea r est   Neig h b o u r s   ( KNN)   p r o ce s s   is -   to   u s e   t h e   d atab ase   w h er ein   t h e   d ata   ar e   d iv id ed   i n to   a   n u m b er   of   is o lated   class es   to   p r o g n o s ticate   th e   clas s i f icatio n   of   a   n e w   s a m p le   p o in t.   KNN   clas s if icatio n   d is tr ib u tes   t h e   d ata   i n to   test   s et   an d   tr ai n i n g   s ets.    T h en   th e   K   n ea r est   tr ain in g   s et   o b j ec ts   ar e   o r ig in ated   f o r   ev er y   s i n g le   r o w   of   th e   te s t   s et ,   an d   th e   p r o ce s s   or   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - I C T     I SS N:  2252 - 8776       R ec en tr en d s   in   b ig   d a ta   u s in g   h a d o o p   ( C h etn a   K a u s h a l)   45   task   of   c lass if ica tio n   is   p er f o r m ed   by   p r ed o m in a n ce   v o t e   w it h   co n n ec tio n s   w h ic h   ca n   be   b r o k en   at   a n y   m o m e n t.           Fig u r e   5 .   W o r k in g   s tep s   of   K NN   alg o r ith m       In   th e   F i g u r e   5,   T h e   K - n ea r est   n eig h b o u r   alg o r it h m   ( K NN)   is   s u m m ar is ed   as:     i.   A   + v e   n u m b er   k   is   s ta ted ,   w it h   a   n e w   s a m p le     ii.   T h e   k   ite m s   ar e   s elec ted   f r o m   th e   d atab ase   th at   ar e   n e x t   to   n e w   s a m p le      iii.   T h e   u t m o s t   m u tu a l   class if icati o n   of   s elec ted   en tr ie s   is   d eter m i n ed .   iv .   R es u lted   C la s s i f icatio n   is   o f f e r ed   to   th e   n e w   s a m p le.   In   KNN   clas s i f icatio n ,   th e   o u t p u t   is   a   cla s s   m e m b er s h ip .   An   o b j ec t   is   class i f ied   th r o u g h   t h eb u lk   v o te   f r o m   th e   n ea r b y   n ei g h b o u r s ,   w it h   en tit y   b ei n g   allo ca ted   to   class   m o s t   m u t u al   a m o n g   t h e   en titi e s   k   ad j o in in g   n eig h b o u r s .   If   k   =   1,   th e   o b ject   is   ass ig n ed   to   class   of   th at   s o le   n ea r est   n eig h b o u r .   A   p ec u liar it y   of   KNN   alg o r ith m   is   t h at   it s   s e n s i tiv i t y   to   lo ca l   s tr u ctu r e   of   d ata   [2 7 ].   Ass u m e,   tr ain i n g   s et   D   i.   Ob j ec t   to   be   test ed   x   =   ( x _ ,   y _ ) ,     ii.   Af ter   th a t   alg o r it h m   ca lc u lat es   th e   s i m i lar it y   b et w ee n   z   an d   all   tr ain i n g   o b j ec ts   to   co n clu d e   its   n ea r est - n e ig h b o u r   lis t   i.e .   Dz.   T r ain in g   o b j ec ts   =( x ,   y)     D   iii.   x   =   d ata   of   a   tr ain i n g   o b j ec t,   y=   is   it s   clas s .     iv .   Si m i lar l y ,   x_   =   d ata   of   th e   test   o b j ec t     y _ =   is   its   cla s s   T h e   class if icatio n   of   test   o b j ec t   is   d o n e   on   th e   b asis   of   m aj o r it y   clas s   of   its   n ea r est   n eig h b o u r s   w h ic h   is   d escr ib ed   in   th e   eq u at io n   b elo w :       Ma jo rit y   V oting : y = a rgm a x v   I ( v = y i ) , ( x i , y i ) ϵ D z   ( 1 )     In   th e   ab o v e   eq u atio n ;   v   =c las s   lab el   y i=c las s   lab el   f o r   i   th   n ea r est   n eig h b o u r s   I   (·)=   in d icato r   f u n ctio n   w h ic h   r etu r n s   t h e   v a lu e   1   if   its   ar g u m e n t   =   tr u e   a n d o th er w i s e   0   is   r etu r n ed   as   a   v al u e.   An   E x a m p le   of   th e   k - NN   clas s if ica tio n   h a s   b ee n   ex p lai n ed   b r ief l y   alo n g   w it h   F i g u r e   6.   T h F ig u r e   6   d em o n s tr ated   t h at   t h e   tes t   m o d el   ( i.e .   g r ee n   co lo u r ed   cir cle)   can   be   class i f ied   eit h er   to   f i r s t   class   of   t h e   b lu e   co lo u r ed   s q u ar es   or   to   th e   o th er   class   of   r ed   co lo u r ed   tr ian g les.   If   k   =   3,   ( co n s id er in g   s o li d   lin e   cir cle)   th en   th e   te s t   m o d el   is   allo ca ted   to   t h e   s ec o n d   clas s   as   t h er e   ar e2   t r ian g le s   i n s id e   th e   i n n er   c ir cle   an d   o n l y   1   s q u ar e.   W h er ea s ,   if   k   =   5,   ( co n s id er in g   t h e   d as h ed   li n e   cir cle) ,   t h e   t est   m o d el   is   a llo tted   to   t h e   f ir s t   clas s   s i n ce   t h er e   ar e   3   s q u ar es   in s id e   th e   o u ter   cir cle   an d   o n ly   2   tr ian g le s .   T h e   allo ca tio n   is   b ased   on   th e   m aj o r ity   v o te   of   its   n eig h b o u r   [ 2 8 ] .     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8776   IJ - I C T   Vo l.   8 ,   No .   1 ,   A p r il 2 0 1 9   :   39 49   46       Fig u r e   6.   k - NN   class if ica tio n       E u clid ea n   Di s ta n ce   can   be   ca l cu lated   by   u s i n g :       D ( x , y ) = ( x i y i ) 2 n i = 1     ( 2 )     K - Nea r est   Ne ig h b o u r   can   be   p r ed icted   by   e m p lo y in g   t h e   f o ll o w i n g   eq u atio n :     y = 1 k y i x i = 1   ( 3 )     In   th e   ab o v e   eq u atio n ,   y i   ith   c ase   of   test   m o d el ;   =   o u tco m e   of   th e   q u er y   p o in t.     I n   clas s i f icatio n   p r o b lem s ,   o n   v o ti n g   s c h e m t h K NN  p r ed ictio n s   ar e   b ased   a n d   t h e   w i n n er   is   u s ed   to   lab el   th e   q u er y .   T h e   k - NN   al g o r ith m   ac c u r a c y   can   be   s tr ictl y   d e g r ad ed   w it h   th ee x i s ten ce   of   n o is y   f ea tu r es,   i n co n s is te n f ea t u r s ca les  etc.   A   lo t   of   r ese ar ch   e f f o r t   is   p u t   in to   ch o o s i n g   or   s ca li n g   f ea t u r es   to   i m p r o v e   th e   p er f o r m a n ce   of   cla s s i f icatio n .   T h e   ac cu r ac y   le v el   of   t h e   K NN   alg o r it h m s   en d   r es u lt   ca n   be   ca lcu lated   by   u s in g   t h e   f o llo w in g   eq u atio n .       A ccu ra cy = ( No . of   co r r e ct ly   cl a s s i fi e d   e x a mp les No . of   e x a mp les ) × 100   ( 4 )     P s eu d o - co d e   f o r   k - n ea r est   n ei g h b o u r   cla s s i f icatio n   alg o r it h m   [2 9 ]   k n u m b er   of   n ea r est   n e ig h b o r s   f o r   each   o b j ec t   X   in   th e   test   s e t   do   C alcu late   th e   d is tan ce   D( X,   Y)   b et w ee n   X   a n d   ev er y   o b j ec t   Y   in   t h e   tr ain i n g   s et   Neig h b o r h o o d th e   k   n ei g h b o u r s   in   th e   tr ai n i n g   s e t   clo s est   to   X   X. class Select C las s ( n ei g h b o r h o o d )   en d   f o r     So m eti m es   f u ll   d escr ip tio n   of   th e   p er f o r m an ce   of   cla s s i f ica tio n   al g o r ith m   is   r eq u ir ed   an d   d etailed   co n ce p tio n   is   a   tab le   en t itled   as   th e   n a m e   of   co n f u s io n   m atr i x .   T h e   r o w s   d en o te   t h e   r ea l   class   of   t h e   test   ca s es,   w h er ea s ,   co lu m n s   s y m b o lis e s   th e   p r ed ictio n   of   class i f ier s .   T h e   title   co n f u s io n   m atr i x   ar is e s   f r o m   o b s er v atio n   w h er e   th e   al g o r ith m   g e ts   co n f u s ed .   Ass u m e   th e   d atab ase   c o n tain s   100   p lay er s   f r o m   th e   w o m e n   g y m n ast s ,   b ask etb all   a s s o ciatio n   a n d   m a r ath o n .   T h e   e v al u atio n   of   clas s if ier   is   d o n e   w i th   10 - f o ld   cr o s s   v alid atio n .   T h e   r esu lt s   of   t h is   te s t   ar e   as   s h o wn   in   T ab le  2   [ 2 9 ] :       T ab le   2.   R esu lts   of   10 - Fo ld   C r o s s - Va lid atio n     G y mn a st s   B a s k e t b a l l   P l a y e r s   M a r a t h o n e r s   G y mn a st s   83   0   17   B a s k e t b a l l   P l a y e r s   0   92   8   M a r a t h o n e r s   9   16   75         Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - I C T     I SS N:  2252 - 8776       R ec en tr en d s   in   b ig   d a ta   u s in g   h a d o o p   ( C h etn a   K a u s h a l)   47   T h e   ac tu al   class   of   ea c h   ex a m p le   is   d en o ted   by   r o w s ;   t h e   cla s s   an ticip ated   by   o u r   class i f ier   is   d en o ted   by   co lu m n s .   So   ta k en   ex a m p le,   83   =   co r r ec tly   cla s s i f ied   g y m n asts   17   =   m is c lass if ied   as   m ar at h o n er s .   92=   co r r ec tly   cla s s i f ied   b ask e t b all   p lay er s     8   =   m i s clas s i f ied   as   m ar at h o n er s .   75=   co r r ec tly   cla s s i f ied   m ar ath o n er s     9   =   m i s clas s i f ied   as   g y m n a s ts     16   =m i s clas s if ied   as   b ask etb al l   p lay er s .   T h e   co n f u s io n   m atr ix   d ia g o n a l   r ep r esen ts   in s ta n ce s   w h ic h   wer e   class if ied   co r r ec tly .   In   th i s   ca s e   t h e   ac cu r ac y   of   th e   alg o r ith m   is :       83 + 92 + 75 300 =   250 300 = 83 . 33%         6.   RE L AT E D   WO RK   W u ,   X.   et   al,   p r esen ted   a   c o m p r eh en s i v e   s t u d y   r eg ar d in g   th e   to p m o s t   10   alg o r ith m s   of   d ata   m in i n g   [2 5 ].   T h e   alg o r ith m s   w h o s e   co m p r e h en s iv e   ap p r o ac h   w as   m e n tio n ed   w er e:    C 4 . 5 ,   SV M,   k - Me a n s ,   EM,   A p r io r i,   A d aB o o s t,   Naiv e   B ay es,   C AR T   an d   k NN.   T h ese   alg o r ith m s   i n cl u d ed   all   clu s te r in g ,   clas s i f icatio n ,   ass o ciatio n   an a l y s is ;   s ta tis tica l   lear n i n g   a n d   las t   li n k i n g   th a t   w er e   tr ea ted   as   t h e   m o s t   s i g n if ica n t   to p ics   in   t h e   r esear ch   of   d ata   m i n i n g .    T h e   i m p ac t   of   alg o r it h m s   h as   b ee n   d is cu s s ed ;   co m p ar is o n   w a s   d o n e   on   th e   b asis   of   w h ic h   f u tu r e   f o r ec ast   h as   b ee n   d eli v er ed .   In   t h e   later   y ea r ,   B ak s h i,   K. ,   et   al,   f o c u s ed   on   an a l y s is   of   u n s tr u ct u r ed   d ata   w h ic h   r e f er s   to   t h e   i n f o r m atio n   w h ic h   m a y   d o es   n o t   co n tai n   p r ev io u s l y   d ef in ed   d ata   m o d el   or   w as   n o t   s u i tab le   to   f it   in   r elatio n al   tab les   [2 9 ].   T h er e   w er e   m a n y   m eth o d s   to   tack le   t h e   p r o b le m   of   u n s tr u ct u r ed   d ata.   T h e   m et h o d s   s h ar ed   m u t u al   f ea tu r e s   of   elasticit y ,   h i g h   ac ce s s ib ilit y   a n d   s ca le - o u t.   Map   R ed u ce   in   u n i f icatio n   w i th   H ad o o p   f ile   s y s te m   w h ich   is   m ai n l y   d i s tr ib u ted   an d   H - B as e   d atab ase,   p ar t   of   A p ac h e   Had o o p   p lan   w h ic h   h elp ed   in   a n al y s i n g   t h e   u n s tr u c tu r ed   d ata.   P r iy ad h ar s i n i,   C . ,   et   al,   p r esen ted   an   ex ten s i v e   s tu d y   on   m et h o d s   of   d ata   m in in g   a n d   also   s u m m ar y   of   d atab ase   r elate d   to   k n o w led g e   d i s co v er y   [ 1 1 ] .   T h e   m ain   f o c u s   w as   on   th e   i s s u es   r elate d   to   th e   d ata   m i n in g .   R o d r íg u ez - Ma za h u a   L.   et   a l,   p r esen ted   a   r ev ie w   of   B ig   Data   w o r k s   f o r   id en tif icatio n   of   t h e   ch ie f   p r o b lem s ,   to o ls ,   ap p licatio n   ar ea   an d   d ev elo p in g   s t y le s   of   B ig   Data   [ 1 5 ] .   To   m e et   th e   o b j ec tiv e,   au t h o r s   h av e   s tu d ied   457   p ap er s   to   clas s if y   th e   t h eo r ies   r elate d   to   B ig   Data .   T h is   a n al y ze d   wo r k   o f f er ed   r elate d   m ater ial   to   r esear ch er s   r e g ar d in g   k e y   w o r k in g   in   s tu d y   a n d   B ig   Data   ap p licatio n   in   d iv er s e   p r ac tical   ar ea s .   L ater ,   S h i k h a   Si n g h , D. et   a l,   d is c u s s ed   th e   c h alle n g e s   t h at   ex p an d   t h e   u tili t y   of   lar g e   d ata   th o u g h   a tte m p ti n g   to   g r a s p   th e   ap p r o p r iate   s tr ateg y   to   p r o cu r e   p r ev io u s   k n o w led g e   f r o m   lar g e   d ata   s t ac k [ 2 ] .   T h er e   w as   y et   a   d is p u te   co n ce r n in g   t h e   m ec h a n is m s   a n d   estab lis h ed   m an a g e m e n t   s tr u c tu r es   w h ic h   w er e   in e f f icie n t   w it h   B ig   Data .   It   h ig h l ig h ted   s u ch   d o cu m en t s   an d   s ev er al   n e w   tech n o lo g ies   t h at   r ev ea l   t h e   c h allen g es   b ased   on   th e   id ea   of   B ig   Data .   A la m , A . ,   et   al,   d ef in ed   th e   a r ch itect u r e   an d   th e   ch alle n g e s   of   H A DOOP   [ 1 7 ] .   T h e   m ai n   p r o b lem   ar ea   w h ich   h as   b ee n   m e n tio n e d   w as   t h e   iter ati v e   r u n n i n g   of   m ap - r ed u ce   p r o ce s s e s   f r o m   t h e   b eg in n i n g   e v en   in   little   m i n o r   alter atio n   in   i n p u t.   It   w a s   n o t   a   g o o d   ap p r o ac h   as   ev er y   ti m e   in   t h e   b ig   d ata   clo u d   th e   en tr ies   ar e   ad d ed   or   d elete d in   th e   b u l k   a m o u n t,   t h e   p r o ce s s in g   s p ee d   n ee d s   to   be   at   its   u t m o s t   le v el.   In   th e   s o lu t io n ,   ca ch in g   s ch e m e   w a s   d escr ib ed   at   s m a ll   le v el   w h ich   h elp ed   in   m an a g i n g   th e   ac tiv ities   v er y   w ell   in   m ap   r ed u ce   f u n ctio n s .   Ke s a v ar aj , G. , et   al,   s p ec if ied   t h e   ad v an ta g e s   an d   d r a w b ac k s   of   t h e   d i f f e r en t   clas s i f icatio n   alg o r ith m s   a n d   th e   b est   alg o r i th m s   ac co r d in g   to   p r ev io u s   s t u d ies   w as   KNN   [2 4 ].   T h e   av er ag e   ac cu r ac y   h a s   b ee n   ca lcu lated   a n d   th e   g e n eti c   alg o r ith m   h as   t h e   b est   ac c u r ac y   r ate   w it h   4 6 . 6 7 %.   T h e   ef f icien c y ,   p r ec is io n ,   ac cu r ac y ,   s e n s iti v it y   of   t h e   class i f icatio n   alg o r it h m s   h as   b ee n   co m p ar ed   an d   th e   n eu r al   h as   ac h ie v ed   th e   s ec o n d   h ig h es t   6 2 . 8   af ter   t h e   b ac k - p r o p ag atio n   al g o r ith m   ac co r d in g   to   p r ev io u s   s t u d ies . So k o lo v a, M. , et   al,   p r esen ted   t h e   a n al y s is   of   t h e   m ac h in e   lear n in g   cla s s i f icatio n   ta s k s   w h ic h   w er e   b in ar y ,   m u lti - cla s s ,   h ier ar ch ical   an d   m u lti - lab ell ed   [2 8 ].   Dif f er en t   ch a n g es   in   t h e   co n f u s io n   m atr i x   on   v ar io u s   w ell - k n o w n   m ea s u r es   h av e   b ee n   r ev ie w e d   an d   co m p ar ed .   Gan d h i    et   al.   h av e   i m p le m e n ted   th e   e x is t in g   K - m ea n ,   K - m ed o id s   an d   t h e   p r esen ted   M o d if ied   K - m ed o id   alg o r ith m s .    T h e   K - m ed o id   is   b ein g   e x ec u ted   h a s   p er f o r m ed   b etter   as   co m p ar ed   to   K - m ea n   an d   ex i s ti n g   K - me d o id s   on   h u g e   d ata   s ets   f o r   ex ec u tio n   ti m e   an d   clu s ter i n g   q u alit y   in   t h e   e x p er i m e n tal   o u tco m e s .   T h e   au th o r   h a s   ca lc u lated   Du n n s   i n d ex ,   to tal   ti m e,   d av ies   b o u ld in   in d ex ,   Kr za n o w s k i   an d   L ai,   C ali n s k iHar ab asz   i n d ex   f o r   th e   v er i f icatio n   of   t h e   m o d i f i ed   K - m ed o id s   w it h   ex is i tin g   K - m ed o id s   an d   K - m ea n   p er f o r m a n ce .   It   h as   b ee n   co n cl u d ed   f r o m   t h e   r es u lt   th at   t h e   m o d i f ied   k - m ed o id s   h a s   p er f o r m ed   b etter   [ 3 1 ] .   A r o r a   et   al.   h as   o b tai n e d   en h a n ce d   r es u lt s   of   cl u s ter i n g   by   u ti lizin g   t w o   clu s ter i n g   al g o r ith m s   by   m ea n s   of   v ar ied   cl u s ter s   b ei n g   f o r m ed   a n d   by   m ea n s   of   d is ta n c e   m etr ic.   C l u s ter in g   alg o r ith m s ,   li k e,   K - m ea n   an d   K - m ed o id s   ha   b ee n   u s ed   on   t h e   d ataset   tr an s ac tio n   10k   of   K E E L .   T h e   in p u t   h a s   b ee n   ar b itra r ily   d i s p en d ed   d ata   p o in ts   an d   ac co r d in g l y ,   s i m i lar it y   cl u s ter s   h as   b ee n   p r o d u ce d .   It   can   be   d r aw n   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8776   IJ - I C T   Vo l.   8 ,   No .   1 ,   A p r il 2 0 1 9   :   39 49   48   f r o m   t h e   r esear ch   t h at   th e   w h en   t h e   d is ta n ce   m etr ic   ch an g es,   t h e   o u tco m e   of   clu s ter i n g   alg o r it h m     ch an g es   [ 3 1 - 34 ].         7.   CO M P ARIS O N   OF   E XIS T I NG   WO RK     T h is   s ec tio n   d ep icts   t h e   co m p ar is o n   of   th e   w o r k   of   [ 3 0 ]   an d   [ 3 1 ] .   Fro m   th e   liter at u r e   s t u d y ,   t h e   co m p ar is o n   h as   b ee n   m ad e   on   t h e   b asis   of   ex ec u tio n   ti m e   on   b ig   d ata   cl u s ter i n g   f o r   d if f er e n t   cl u s ter i n g   ap p r o ac h es.   T h e   r esu lts   h a v e   b ee n   s h o w n   b elo w   in   t h e   f o r m   of   T ab le  3   an d   Fig u r 7 .       T ab le   3 .   C o m p ar is o n   of   E x ec u tio n   T im e   o f   B ig   Data   C lu s ter i n g   K - m e a n   ( Ex e c u t i o n   t i me   ( se c s) )   K - m e d o i d   ( Ex e c u t i o n   t i me   ( se c s) )   G o p i   G a n d h i   a n d   R o h i t   S r i v a st v a   [ 3 1 ]   P r e e t i   A r o r a   et   a l .   [ 3 0 ]   G o p i   G a n d h i   a n d   R o h i t   S r i v a st v a   [ 3 1 ]   P r e e t i   A r o r a   et   a l .   [ 3 0 ]   0 . 2 0 1 4   0 . 0 3 5 8   0 . 2 2 2 3   0 . 0 3 8 4             Fig u r e   7.   C o m p ar is o n   of   cl u s t er in g   ap p r o ac h es   of   [ 3 0 ]   an d   [ 3 1 ]       A b o v e   tab le   an d   g r ap h   d ep ict s   th e   co m p ar is o n   of   b ig   d ata   clu s ter i n g   of   ex ec u tio n   ti m e   of   [ 3 0 ]   an d   [ 3 1 ] .   T h e   co m p ar is o n   h as   b ee n   m ad e   on   th e   b asis   of   K - m e an   a n d   K - m ed o id   ap p r o ac h es.    T h e   au t h o r   Go p i   Gan d i   an d   R o h it   Sriv a s t v a   h as   u s ed   Si m ilar it y   i n d ex   w it h   K - m ed o id s   clu s ter in g   tec h n i q u e   to   en h an ce   th e   p er f o r m a n ce   of   cl u s ter i n g .   So ,   th e   ex ec u t io n   ti m e   in   t h eir   w o r k   is   less   as   co m p ar ed   to   th e   w o r k   of   P r ee ti   A r o r a   et   al.   As   s h o w n   in   th e   g r ap h   an d   tab le,   t h e   v al u e   of   e x ec u tio n   ti m e   f o r   [ 3 1 ]   is   0 . 2 0 1 4   an d   f o r   [ 3 0 ] ,   it   is   0 . 0 3 5 8   f o r   K - m ea n   ap p r o ac h .   Si m i lar l y ,   in   ca s e   of   k - m ed o id s ,   th e   v al u e   in   ca s e   of   [ 3 1 ]   is   0 . 2 2 2 3   an d   f o r   [ 3 0 ] ,   it   is   0 . 0 3 8 4 .   T h e   b lu e   b ar   in   t h e   g r ap h   is   d ep icti n g   t h e   w o r k   of   Go p i   Ga n d h i   a n d   R o h it   S r iv ast v a   a n d   r ed   b a r   is   d ep ictin g   t h e   w o r k   of   P r ee ti   ar o r a   et   al.   T h e   X - a x is   is   f o r   th e   ap p r o ac h es   b ei n g   u t ilized   f o r   th e   co m p ar is o n   an d   Y - a x is   is   s h o w in g   t h e   v al u es   of   t h e   ex ec u tio n   ti m e   in   s e co n d s .       8.   CO NCLU SI O N   An   o v er v ie w   of   b ig   d ata   is   p r esen ted   alo n g   w it h   b ig   d ata   u s a g es   a n d   s ev er al   ch a llen g e s   th at   ar e   ass o ciate d   w it h   b i g   d ata.   T h is   p ap er   co v er s   th e   s tu d y   on   d ata   m i n i n g   an d   k n o w led g e   d is c o v er y   in   d atab ases   ( KDD)   w ith   all   t h e   s tep s   t h at   ar e   in v o l v ed   in   t h e   KDD   p r o ce s s .   T h e   is s u e s   r elate d   to   t h e   c lu s ter i n g   tec h n iq u es   in   d ata   m i n i n g   ar e   al s o   d is c u s s ed   b r ief l y .   T h e   co m p lete   ar ch itectu r e   of   Had o o p   an d   HDFS   is   al s o   s t u d ied   an d   d is cu s s ed .   Fo r   class i f icatio n   of   th e   d ata,   s e v er al   tr ad itio n al   m et h o d s   s u c h   as   r u le   b ased ,   d ec is io n   tr ee , r an d o m   f o r ests ,   b o o s tin g ,   q u ad r atic   class i f ier s   a s s o ciate d   w it h   cl ass i f icatio n   ar e   b r ief l y   s t u d i ed   an d   th en   KNN   class i f icatio n   al g o r ith m   is   s el ec ted   f o r   th e   d ata   m in i n g   a n d   d escr ib ed   in   t h is   p ap er . A n   e x a m p le   is   tak e n   to   p r o v e   th e   ac cu r ac y   of   KNN   alg o r ith m   w h ich   is   m ea s u r ed   to   be   8 3 . 3 3 %.   A   co m p ar is o n   h as   b ee n   m ad e   on   clu s ter i n g   al g o r ith m s ,   n a m el y ,   K - m ea n   a n d   K - m ed o id   f o r   ex ec u tio n   ti m e   of   th e   ex i s ti n g     w o r k   of   [ 3 0 ]   an d   [ 3 1 ] .         Evaluation Warning : The document was created with Spire.PDF for Python.