I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   6 ,   No .   6 Dec em b er   201 6 ,   p p .   30 4 7 ~ 30 5 1   I SS N:  2088 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v 6i 6 . 1 1 2 0 7           3047       J o ur na l ho m ep a g e h ttp : //ia e s jo u r n a l.c o m/o n lin e/in d ex . p h p /I JE C E   Is sues   o K  Mea n s Clusteri ng  Whil e Mig ra ting  t o  M a p Reduce   Para dig m   w ith  Bi g  Data Surv ey       K.   R.   Nir m a l ,   K.   V.   V.   Sa t y a na ra y a na     Ko n e ru   L a k sh m a i a h   Ed u c a ti o n   F o u n d a ti o n   (KL U) ,   In d ia       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   Ma y   9 ,   2 0 1 6   R ev i s ed   Sep   2 0 ,   2 0 1 6   A cc ep ted   Oct   4 ,   2 0 1 6     In   re c e n ti m e Bi g   Da ta  A n a l y si a re   i m m in e n a e ss e n ti a a re a   i n   th e   f ield   o f   Co m p u ter  S c ien c e .   Tak in g   o u o f   sig n if ic a n in f o rm a ti o n   f ro m   Big   Da ta   b y   s e p a ra ti n g   th e   d a ta  in   to   d isti n c g ro u p   is  c ru c ial  tas k   a n d   it   is  b e y o n d   th e   sc o p e   o f   c o m m o n l y   u se d   p e rso n a m a c h in e .   It  is  n e c e ss a r y   to   a d o p t h e   d istri b u ted   e n v ir o n m e n sim il a t o   m a p   re d u c e   p a ra d ig m   a n d   m ig r a te  th e   d a ta  m in in g   a lg o rit h m   u sin g   it .   In   Da ta  M in in g   th e   p a rti ti o n   b a se d   M e a n Clu ste rin g   is  o n e   o f   th e   b r o a d ly   u se d   a lg o rit h m f o g ro u p i n g   d a ta  a c c o rd in g   to   t h e   d e g re e   o f   sim il a rit ies   b e t w e e n   d a ta.  It  re q u ires   t h e   n u m b e o f   a n d   in it ial  c e n t ro i d   o f   c lu ste a in p u t .   By   su rv e y in g   th e   p a ra m e ters   p re fe rre d   b y   a lg o rit h m   o o p ted   b y   u se in f lu e n c e   th e   f u n c ti o n a li ty   o f   A l g o rit h m .   It  is  th e   n e c e ss it y   to   m ig r a te  th e   m e a n s   Clu ste rin g   o n   M a p Re d u c e   a n d   p re d icts  th e   v a lu e   o f   k   u sin g   m a c h in e   lea rn in g   a p p ro a c h .   F o se lec ti n g   th e   i n it ial  c lu ste th e   e ff icie n m e th o d   is  t o   b e   d e v ise d   a n d   u n it e d   w it h   it .   T h is  p a p e is   c o m p rise d   th e   su rv e y   o f   s e v e r a m e th o d f o p re d icti n g   th e   v a lu e   o f   in   m e a n Clu ste rin g   a n d   a lso   c o n tai n th e   s u rv e y   o f   d iff e re n m e th o d o lo g ies   to   f in d   o u in it ial  c e n ter  o th e   c lu ste r.   A lo n g   w it h   in it ial  v a lu e   o k   a n d   in it ial   c e n tro id   se lec ti o n   t h e   o b jec ti v e   o p ro p o se d   w o rk   is   to   c o m p a c w it h   a n a ly si o f   c a teg o rica d a ta.   K ey w o r d :   B ig   d ata   C ateg o r ial  d ata  s et   C lu s ter i n g   Data   m i n i n g   I n itial c e n tr o id   s elec tio n     m ea n s   cl u s ter i n g   Ma p   r ed u ce   p ar ad ig m   P ar am eter   k   i n   k - m ea n s   Co p y rig h ©   2 0 1 6   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   K.   R.   Nir m al,   Dep ar t m en t o f   C o m p u ter   Scie n ce   &   E n g in ee r i n g ,   KL   U n i v er s it y ,     Vad d es w ar a m - 522502 Gu n tu r   Dis t.,   A . P ,   I n d ia .   E m ail:  k h y ati n ir m al @ g m ail. c o m       1.   I NT RO D UCT I O N   B ig   d ata  is   a   ter m   in d icate s   t h r is i n   t h v o l u m o f   d ata  th at  ar ch alle n g in g   to   s to r e,   p r o ce s s ,   an d   an al y ze   t h r o u g h   tr ad itio n al  d a tab ase  tech n o lo g ie s .   B ig   Data   is   g e n er ated   o n   a   n o tab le  r ate   o n   d ail y   b asi s .   An   I n ter n atio n al  Data   C o r p o r atio n   ( I DC )   r ep o r p r ed icts   th at  f r o m   2 0 0 5   to   2 0 2 0 ,   th d ig ital  u n i v er s w ill  g r o w   b y   a   f ac to r   o f   3 0 0 ,   f r o m   1 3 0   E x ab y te  to   4 0   0 0 0   E x ab y te   an d   th at   f r o m   n o w   u n t il  2 0 2 0   w ill   ab o u d o u b le   ev er y   t w o   y ea r s ”  [ 1 ] T h f o r m   o f   Data   co llected   f r o m   d if f er en s o u r ce s   li k m ed ia,   s en s o r   n o d es,  b an k in g   tr an s ac tio n ,   I o T   b ased   d ev ices  etc.   ar h av in g   m aj o r   d is s i m i lar ities .   Xin d o n g   W u   et.   al  h a s   p r o p o s a   HA C E   th eo r e m   to   m o d el  B i g   Data   c h ar ac ter is tic s .   B ig   Data   s tar ts   w it h   lar g e - v o lu m e,   h eter o g e n eo u s ,   au to n o m o u s   s o u r ce s   w it h   d is tr ib u ted   an d   d ec en tr alize d   co n tr o l,  an d   s ee k s   to   ex p lo r co m p lex   an d   ev o lv i n g   r elatio n s h ip s   a m o n g   d ata.   T h ese  ch ar ac ter is tics   m ak it  a n   ex tr e m ch all en g f o r   d is co v er in g   u s e f u k n o w led g f r o m   th e   B ig   Data   [ 2 ] .   Or d in ar ily   s o f t war to o ls   ar n o t su f f icie n t e n o u g h   to   s to r e,   ca p tu r an d   an al y ze   th d ata .     T h ese  w ill  e x te n th n e w   d ir ec tio n   in   r esear ch .   I n   a n y   co m p u ter ized   ap p licatio n   th s a f d ec is io n   m ak in g   i s   b ased   o n   th i s   co lle cted   d ata  s o   o n l y   s to r i n g   a n d   m ai n tai n in g   o f   d ata  i s   n o ad e q u ate.   T h er is   th e   n ec es s it y   to   id en t if y   t h s i g n i f ica n d ata  w it h   p r o p er   s e m a n tic  m ea n i n g ,   f i n d i n g   o u t h p atter n   f r o m   d ata  o r   s ep ar atin g   t h d ata  in   g r o u p s .       E x tr ac tin g   o r   m in i n g "   k n o wled g f r o m   lar g a m o u n ts   o f   d ata  is   d ef i n ed   as  Data   Mi n i n g   [ 3 ] .   T o   s p lit  u p   th d ata   ac co r d in g   to   th eir   s i m ilar itie s   b ased   o n   m u ltip le  c h ar ac ter is tic   is   k n o wn   as   clu s ter i n g .   T h e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E    Vo l.  6 ,   No .   6 Dec em b er   201 6   :   30 4 7     30 5 1   3048   w ell - d e f in ed   clu s ter i n g   w ill   d ep en d   o n   t h a lg o r it h m   s e lect ed   f o r   t h g r o u p in g .   K   Me a n s   C lu s ter in g   is   th e   m o s co m m o n l y   u s ed   a lg o r it h m   b u t h i n co r r ec p ar a m eter s   f o r   in it ial  v al u es  w ill  d e g r ad th e   p er f o r m a n ce .   T h is   p ap er   ad d r ess   th is s u e s   r elate d   to   Me an s   C l u s ter i n g   b y   r ela tiv s u r v e y .   E s s e n ti al  T ec h n o lo g ies  f o r   m i g r atin g   Me a n s   o n   m ap   r ed u ce   ar d escr ib ed   in   Sectio n   2 ,   Fu r th er m o r i n   Sectio n   3   it   co n tain s   t h e   co m p ar ati v s t u d y   o f   d i f f er e n m et h o d o lo g ies  u s ed   f o r   m i g r atin g   m ea n s   C l u s ter i n g   o n   Ma p   R ed u c e   p ar ad ig m   an d   w h a v id en ti f ied   is s u e s   r elate d   to   Me an s   C lu s ter in g   an d   Sectio n   4   co n tain s   o u r   p r o p o s ed   o b j ec tiv o u tli n to   ad d r ess   all  th is s u e s   r elate d   w it h   Me an s   C lu s ter i n g   a n d   Sectio n   5   i s   co n clu s io n   o f   o u r   w o r k .       2.   E SS E N T I A L   T E CH NO L O G I E S   C lu s ter i n g   is   t h p r o ce s s   o f   g r o u p in g   th d ata  in to   class es  o r   clu s ter s ,   s o   th at  o b j ec ts   w ith i n   clu s ter   h av h ig h   s i m ilar it y   in   co m p ar is o n   to   o n an o th e r   b u ar v er y   d is s i m ilar   to   o b j ec ts   in   o th er   clu s ter s   [ 3 ] .   Dis s i m ilar i ties   b et w ee n   o b j ec ts   ca n   b ca lcu lated   b y   th v ar iet y   o f   attr ib u te s   ass o ciate d   with   th o b j ec ts .   I n   g en er al  cl u s ter i n g   alg o r it h m   is   ca teg o r ized   in to   P ar titi o n   b ased ,   Hier ar ch ical  m et h o d ,   Den s it y   b ased   m et h o d s ,   Gr id   b ased   m e th o d s ,   Mo d el  b ased   m eth o d s   etc.   I n   p ar titi o n   b ased   clu s ter in g   k   m ea n s   clu s ter i n g   an d   it s   v ar iatio n s   ar m o s w id el y   u s e d .     2 . 1 .   K   M ea ns   Clus t er ing   a lg o rit hm   T h co r o b j ec tiv o f   Me a n s   clu s ter i n g   alg o r it h m   is   to   d i v id g iv e n   n   n u m b er   o f   d ata   o b j ec ts   in to   k   n u m b er   o f   cl u s ter   s u c h   t h at  i n tr clu s ter   s i m i lar it y   is   h i g h   b u t t h i n ter   clu s ter   s i m i lar it y   is   lo w .   T h d etailed   alg o r ith m   is   a s   b elo w :     Alg o rit h m :     T h k - m ea n s   al g o r ith m   f o r   p ar titi o n i n g ,   w h er ea c h   clu s ter s   ce n ter   i s   r ep r esen ted   b y   th e   m ea n   v al u e   o f   th o b j ec ts   in   th cl u s ter .     I np ut:   k   : th n u m b er   o f   cl u s ter s ,   D   : a   d ata  s et  co n tain i n g   n   o b j ec ts .     O utput A   s et  o f   k   clu s ter s .     M e t ho d:   ( 1 )   ar b itra r ily   c h o o s k   o b j ec ts   f r o m   as t h in itial c l u s ter   c en ter s ;   ( 2 )   r e p ea t   ( 3 )   ( r e) ass ig n   ea ch   o b j ec to   th cl u s ter   to   w h ich   t h o b j ec is   t h m o s t   s i m ilar   b ased         o n   th e   m ea n   v al u o f   th o b j ec ts   in   th cl u s ter ;.   ( 4 )   u p d ate  th clu s ter   m ea n s ,   i.e . ,   ca lcu late  th m ea n   v al u o f   th o b j ec ts   f o r   ea ch   clu s ter ;   ( 5 )   u n til n o   c h a n g e;[ 3 ]     T h is   alg o r ith m   is   r ea s o n ab l y   p r o f icien f o r   lar g d ata s ets b ec au s t i m co m p lex it y   is   O( n k t ) ,   w h er n   is   n u m b er   o f   o b j ec ts   in   d ata  s et,   k   is   th n u m b er   o f   cl u s ter   an d   is   th n u m b er   o f   iter atio n s .   No r m all y ,   k n     an d     t ≤ n .         2 . 2 .   M a pReduce  P a rdig m   T h p ar allel  p r o g r am m i n g   o n   s i n g le  m ac h in is   n o ef f i cien f o r   p r o ce s s in g   th B ig   Data .   Fo r   P ar allel  p r o g r am m i n g   f r a m w o r k   o n   m u ltip le  m ac h i n es   Ma p R ed u ce   is   a n   e s s e n tial  p r ef er en ce .   Ma p R ed u ce   is   p r o g r a m m in g   m o d el  f o r   B ig   d ata  an al y zin g   a n d   p r o ce s s i n g .   T h co r id ea   is   to   d iv i d b u lk y   tas k s   i n to   m an y   s m all  ta s k s   an d   co n q u e r   th e m   a f ter   p r o ce s s ed .   Ma p   an d   R ed u ce   ar t w o   p h a s es  o f   th p r o g r a m m i n g   p ar ad ig m .   T h co m p u tat io n   ta k es  s et  o f   i n p u k e y / v al u p air s ,   an d   p r o d u ce s   s et  o f   o u tp u k e y / v al u p air s .   Th u s er   o f   th Ma p R ed u ce   li b r ar y   ex p r es s es t h co m p u ta ti o n   as t w o   f u n c tio n s m ap   an d   r ed u ce .   Ma p   Fu n ctio n   is   co m p o s ed   b y   t h u s er   a n d   ac ce p ts   in p u a s   < k e y ,   v al u e>   p air   a n d   p r o d u ce s   s et   o f   in ter m ed iate  <k e y ,   v al u e>   p air s .     Fro m   all  t h in ter m ed i ate  <k e y ,   v alu e>   p air s   v alu e s   ass o ciate d   w ith   t h s a m e   in ter m ed iate  k e y   ar c o m b i n ed   < k e y ,   lis t   o f   v al u e>   an d   p ass e s   to   t h r ed u ce   f u n ctio n .   T h r ed u ce   f u n ctio n ,   al s o   co m p o s ed   b y   t h u s er ,   ac ce p ts   an   i n ter m ed i ate  r esu lt  < k e y ,   lis o f   v a lu e >.   I m er g es   th e s e   v alu e s   to g et h er   to   f o r m   co n ce iv ab l y   r ed u ce d   s et  o f   v a l u es.  T h in ter m ed iate  v al u es   ar s u p p lied   to   th u s er s   r ed u ce   f u n ctio n   v ia  an   iter ato r .   T h is   allo w s   u s   to   h an d le  lis t s   o f   v al u es  t h at  ar to o   lar g to   f it  in   m e m o r y   [ 4 ].   Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2088 - 8708       I s s u es o f K Mea n s   C lu s teri n g   W h ile  Mig r a tin g   to   Ma p   R ed u ce   P a r a d ig w ith   B ig   Da ta   . . . .   ( K .   R .   N i r ma l)   3049   3.   RE L AT E WO RK   B ig   d ata  an a l y s is   n ee d s   m er g in g   o f   tec h n iq u e s   f o r   B ig   Data   an d   Ma c h i n L ea r n in g .   Me a n s   C lu s ter i n g   is   th e   o n e   o f   s u c h   alg o r ith m   o f f er in g s   in   to g e th e r   th f ield s .   Ma n y   r e s ea r ch   s t u d ies  h a v alr ea d y   d o n o n   th is   ar ea   ,   th is   s ec tio n   s u r v e y ed   o n   it  an d   m o s tl y   f o c u s   o n   th r ee   is s u e s   r elate d   to   K   Me an s   C l u s ter i n g   w h ile  m ig r ati n g   o n   Ma p   R ed u ce   w ith   B ig   d ata    Selectio n   o f   I n itial  Valu o f   K,   I n itial  C en tr o id   Selectio n ,   Ma n ag in g   t h ca teg o r ical  d ata .   1.   Yu j j ex u   et. al  [ 5 ]   h as  p r o p o s ed   E f f icien k - m ea n s   ++   A p p r o x i m atio n   w it h   Ma p R ed u ce ,   c h o o s th i n itial   to   ac h ie v a   s o lu tio n   th a i s   p r o v ab ly   clo s to   o p ti m al   o n e.   Her o n l y   o n Ma p R ed u ce   j o b   is   u s ed   to   in itial ize  k   ce n ter s   ,   t h at   av o i d s   m u ltip le  r o u n d   o n   Ma p R e d u ce   j o b   o n   m a n y   m ac h i n e.   Her th i n it ial   v alu e   o f   k   i s p u o n   a s   p r er eq u is i t o f   a lg o r it h m   ,   s o   i m p r o p er   v alu o f   k   w ill   m a y   a f f ec th co m p le x it y   o f   alg o r ith m .   2.   Keh W u   et. al  [ 6 ]   h a v d o n r esear ch   an d   i m p r o v m ea n s   alg o r it h m   b ased   o n   Had o o p   an d   co m o u t   w it h   t h s o lu tio n   to   d ef in i n i tial  ce n tr o id .   Usi n g   C o n v e x   h u ll  an d   o p p o s it C h u n g   p o in ts   th in itial  t w o   clu s ter   ce n ter s   ar d ef in ed .   T h o p tim al  n u m b er   o f   clu s ter   k   is   d ec id ed   u s in g   d is tan ce   co s f u n ctio n .   T h tex f ile s   ar u s ed   to   ex p er i m en t h al g o r ith m ,   s o   in   r ea t i m ap p licatio n   th e   n e w   s tr at eg y   h a s   to   b d ev elo p   th at  w i ll  w o r k   f o r   h et er o g en eo u s   d ata  s et.   3.   An u p a m C h ad h a n d   S u r es h   Ku m ar   [ 7 ]   h as   p r esen ted   A n   i m p r o v ed   K -   m ea n s   C l u s ter i n g   A lg o r it h m s tep   f o r w ar d   f o r   r e m o v al  o f   d ep en d en c y   o n   K.   T h m o d i f ied   K   m ea n s   al g o r ith m   d o es  n o r eq u ir e   n u m b er   o f   cl u s ter   ( k )   a s   i n p u t.   I n i tiall y   it   s elec ts   th e   t w o   ce n tr o id s   w h ic h   ar e   f ar t h est   ap ar t,  an d   co n s id er ed   as  t w o   i n itia ce n tr o id s .   T h v al u o f   k   is   d ec id ed   b y   u s i n g   o u tlier s   w h ic h   ar o r ig in ated   d u r in g   th ca lcu latio n   o f   E u cl id ea n   d is tan ce   b et w ee n   e v er y   tu p le  an d   n e w   m ea n s   o f   th c lu s ter   ce n ter s .   A cc u r ac y   ac co m p l is h ed   b y   th i s   alg o r it h m   i s   b etter   th a n   t h o r ig in a l K - m ea n s   al g o r ith m .   T h d o w n s id o f   th is   al g o r ith m   i s   th a t it  is   n o t d esig n ed   f o r   m ap   r ed u ce   p ar ad ig m   a n d   it  w o r k s   o n l y   f o r   n u m er ic  d atasets .     4.   P r a j esh   An ch alia   [ 8 ]   h as   i m p r o v ed   k - m ea n s   cl u s ter i n g   al g o r ith m   b y   i n tr o d u cin g   co m b in er .   T h co m b in er   r ea d s   th o u tp u p r o d u ce d   b y   m ap p er   an d   ca lcu late s   th c en tr o id   f o r   ea ch   m ap p er .   No w   t h r ed u ce r   ca lcu late  t h g lo b al  ce n tr o id   u s i n g   th v alu o f   lo ca ce n tr o id   r ea d   f r o m   ea c h   m ap p er .   T h p er f o r m an c e   o f   Had o o p   ca n   b in cr ea s ed   b y   c u tti n g   d o w n   th r ea d   an d   w r ite  o p er atio n   f r o m   m ap p er   an d   r ed u ce r   r esp ec tiv el y .   Her Sar t u p   alg o r ith m   i s   u s ed   to   ca lcu late  th in itial  s e o f   ce n tr o id   w h ic h   ag ain   r eq u ir e s   th n u m b er   o f   cl u s ter   ( k )   as in p u t.    5.   A r s h ad   M.   Me h ar   et. al   [ 9 ]     h a s   i n tr o d u ce d   k   m ea n s   cl u s ter i n g   al g o r ith m   f o r   d eter m i n i n g   o p ti m al  v al u o f   k . Mo s tl y   d is tan ce   b ased   m eth o d   ar u s ed   to   ca lcu late  th v alu o f   k .   I n   co n tr ast  w i th   o th er   m et h o d o lo g ies  i n   t h i s   al g o r it h m   t h j o in p r o b ab ilit y   is   u s ed .   T h f u n d a m e n tal   id ea   i s   to   an al y ze   t h e   m o v e m e n t o f   o b j ec ts   b et w ee n   clu s ter s .   T h d iag o n all y   d o m i n an t   p r o b ab ilit y   m atr i x   i s   p r o d u ce d   u s in g   t h e   m o v e m e n t o f   m e m b er s h ip   w il l b u s ed   to   d ec id th s et  o f   r an g e   o f   o p ti m al  v al u f o r   k   cl u s ter s .   Her t h e   alg o r ith m   f o cu s   o n   s y n th e tic   d ata  s et  f o r   t w o   d i m e n s io n s   an d   it  i s   n o p r o p o s ed   f o r   Ma p   R ed u ce   p r o g r am m i n g .   6.   J in g   Z h a n g   et.   al  [1 0 h as  d esig n ed   2   tier   clu s ter in g   alg o r ith m   w it h   Ma p - R ed u ce   f o r   d is tr ib u ted   clu s ter i n g   e n v ir o n m e n t.  T h e n tire   p r o ce d u r is   d is tr ib u ted   i n   f o u r   p ar ts .   Sp lit   p h ase   d iv id es th e   in p u f ile   in   m   p ar ts ,   w h er m   is   u s er   d ef i n ed .   T h o n s p lit  clu s ter i n g   u s i n g   k   m ea n s   alg o r it h m   i s   p er f o r m ed   in   m ap   p h ase  f o r   ea ch   m ap p er   an d   in ter m ed iate  r es u lt  i s   g en er ated .   T h in ter m ed iate  r esu lt  ar ag a i n   p ar titi o n ed   in to   r   r eg io n   i n   P ar titi o n   p h ase  a n d   as s ig n ed   to   r ed u ce r .   Fin al  r es u lt  i s   ca lcu l ated   in   r ed u ce r   p h ase  b y   u s i n g   i n te g r atio n   s tr ateg y   o f   t w o   tier   clu s ter in g .   He r also   th s ize  o f   r   is   d ef in ed   b y   u s er .     7.   Mo h a m m ad   Ka k o o ei  an d   Ha d S.Sh a h h o s ein [1 1 h av p r esen ted   p ar allel  k - m ea n s   c lu s ter i n g   i n itial   ce n ter   s e lectio n   an d   d y n a m ic   ce n ter   co r r ec tio n   o n   GP U.     I n   t h i s   al g o r ith m   in itiall y   g r o u p   o f   i n itia l   ce n ter s   ar e   s elec ted   w h ic h   s h o u ld   b les s   t h a n   t h p ar allel   s tr ea m   e x ec u t io n   p r o v id ed   b y   m ac h in e.   I ca lcu late s   t h i n n er   d is ta n ce   b et w ee n   d ata   p o in ts   an d   ce n ter   o f   ea c h   g r o u p .   T h g r o u p   h a v in g   m in i m u m   d is tan ce   is   s elec ted   a s   i n it ial   ce n ter .   Fo r   th e   m ain   cl u s ter i n g   t h al g o r ith m   ap p lies   t w o   as y n c h r o n o u s   s tr ea m s .   T h in n er   d is ta n ce   o f   m ai n   cl u s ter i n g   is   ca lc u late d   b y   f ir s s tr ea m   a n d   o th er   s t r ea m   ca lc u lates   th i n n er   d is ta n ce   o f   n e w   i n iti al  ce n ter s .   T h e n   t h ese   t w o   d is tan ce s   ar co m p ar ed   an d   i f   n e w l y   g e n er ated   d is tan ce   is   les s   th a n   m ai n   d is t an ce   th e n   m ai n   clu s ter   an d   n ew l y   g e n er ated   clu s ter s   ar co m b in ed   i n to   o n e   g r o u p .   T h s tr ea m   o f   m ain   cl u s ter i n g   p r o ce d u r g o es  o n   co n ti n u o u s l y .   I n   th i s   alg o r it h m   i n itial  t h v al u e   o f   k   is   s elec ted   ar b itra r y ,   t h i m p r o p er   s elec tio n   f o r   v al u o f   k   w ill  m a y   b d eg r ad th p er f o r m a n ce .     8.   P o o n am   G h u li  et.   al  [1 2 h as  d o n co m p r eh e n s i v s u r v e y   o n   ce n tr o id   s elec tio n   s tr ateg ies  f o r   d is tr ib u ted   k -   m ea n s   clu s ter i n g   al g o r ith m .   T h ex ec u tio n   is   d iv id ed   in to   f o u r   m o d u le s .     I n   So r tin g   Mo d u le  th d ata  s e t is p r o ce s s ed   an d   s i m p li f y   it  f o r   s elec ti n g   th i n itial c e n tr o id .   Her f o r   i n itiali za tio n   o f   ce n tr o id   th r ee   d if f er en t   s tr ateg ies   ar p r o p o s ed .   1 )   W eig h ted   Av er ag e   So r tin g   m o d u l ca lcu la te  t h e   s co r es  u s i n g   u n i f o r m l y   a s s i g n ed   w eig h t s   to   attr ib u tes  o f   d a taset.  T h s o r tin g   o f   d ata  p o in ts   i s   d o n in   r ed u ce r   ac co r d in g   to   th e   av e r ag v alu e   an d   w r ite  r es u lt   i n to   i n ter m ed iate   f ile.   2 )   He u r is tic  So r ti n g   Mo d u le,   I n   th i s   m o d u le   t h at tr ib u te  h av in g   h i g h est   r ag   i s   s elec ted   a n d   r ed u ce r   s o r ts   th e   d ata  p o in t s   i n   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8708   I J E C E    Vo l.  6 ,   No .   6 Dec em b er   201 6   :   30 4 7     30 5 1   3050   in cr ea s i n g   o r d er   an d   w r ites   r esu lt s   i n   in ter m ed iate  f ile.   3 )   P r in cip al  C o m p o n e n An al y s i s ,   I n   th i s   v al u e   th attr ib u te  h a v i n g   h i g h est   v ar ian ce   is   s elec ted   an d   t h r ed u ce r   s o r ts   t h d ata  p o in t s   i n   i n cr ea s i n g   o r d er   o f   v ar ian ce   an d   w r ites   t h r esu lts   i n   in ter m ed iate  f ile.   I n it ia ce n tr o id   s elec tio n   m o d u le  s p lits   th d ata  s et  in to   k   s u b s e ts .   No w   m ed ian   o f   t h e   d ata  s et   is   ca lc u lated   a n d   th at   w il ac t   as   an   in itial   ce n t r o id .   T h is   w i l l   ac t a s   in p u f ile   to   Ma p   R ed u c A lg o r it h m .   I ter ati v C lu s ter i n g   an d   clu s ter   a s s i g n m e n t   m o d u le  w il l a ct   i n   r eg u lar   m a n n er   to   d i v id an d   c ateg o r ize  th e   d ataset  i n to   k   cl u s t er s .   A ll o v er   ag ai n   I n   s ec o n d   m o d u le  t h k   is   n o t a u to m ated   an d   s t ill it is  u s er   d ep en d ed .   9.   Mu g d h J ain   an d   C h ak r ad h ar   Ver m   [1 3 ]   h as  ad o p ted   k - m ea n s   f o r     clu s ter in g   in   B i g   Dat a.   Her d ataset   is   r ep r esen ted   u s in g   m atr i x   w h er d ata  p o in ts   ar r ep r esen ted   b y   r o w s   an d   attr ib u tes   o f   d ata  p o in ts   r ep r esen ted   b y   co lu m n s .   I n   t h s it u atio n   w h er s o m at tr ib u te  v al u f o r   d ata  p o in is   m is s i n g ,   m atr i x   w i ll  n o d ef i n a n y   v al u es.  Data   p o in ts   ar ar r a n g ed   ac co r d in g   t o   d ec r ea s in g   o r d er   o f   p r io r it y   o f   d i m en s io n s   an d   v ar ia n ce   o f   d i m e n s io n s   i s   ca lcu lated .   A s s ig n m e n o f   d ata  s et  ac co r d in g   to   p r im ar y   d i m e n s io n   is   f o llo w ed   b y   all  s ec o n d ar y   d im en s io n s   an d   o u tlier s   ar ca lcu lated .   Dis ta n ce   b et w ee n   ce n t r o id   an d   o u tlier   is   u s ed   to   ca teg o r ize  th d ata  s et  in to   cl u s ter s .   T h n u m b er   o f   clu s ter   k   is   p r ed ef in ed   it  i s   n o th p ar o f   alg o r ith m   a n d   t h p r io r ities   ar d ec id ed   b y   u s er   i n s tead   m a ch in e   lear n i n g   ap p r o ac h   ca n   b in te g r ated   to   d ec id p r io r ities .   10.   Yiu - Mi n g   C h e u n g   [1 4 h as  p r o p o s ed   k * - m ea n s n e w   g en er alize d   k - m ea n s   cl u s ter i n g   al g o r ith m .   T h i s   alg o r ith m   ac h ie v es  i m p r o v ed   clu s ter i n g   w it h o u t   p r ed eter m i n in g   p r ec is c lu s ter   n u m b er   i n   t w o   s tep s .   B y   ass i g n in g   s ee d   p o in t   to   ev er y   cl u s ter   a n d   u s in g   lear n in g   r u le  w it h   p an el ized   m ec h an is m   t h i n p u i s   ca teg o r ized   in   p ar ticu lar   clu s ter .   T h e   s h o r tco m i n g   o f   th alg o r ith m   is   t h at  it  i s   n o d es ig n ed   f o r   Ma p   R ed u ce   p ar ad ig m .       4.   P RO P O SE O B J E CT I VE   T h p r o p o s ed   o b j e ctiv o f   t h is   p ap er   is   to   ap p ly   cl u s ter i n g   o n   B ig   Da ta  s et  u s i n g   Ma p   R ed u ce   P ar ad ig m .   W h ile  co n s id er in g   ab o v m e n tio n ed   i s s u es,   o u tlin i s   p lan n ed .   T h b elo w   F ig u r 1   d is p la y s   o u tlin o f   th p r o p o s ed   o b j ec ti v e.             Fig u r e   1 .   Ou tli n o f   t h p r o p o s ed   Ob j ec tiv e       P r ep r o ce s s in g A all  ti m e s   th B ig   d ata  is   al w a y s   in   t h f o r m   o f   ca teg o r ical  d ata.   Stan d ar d   k   m ea n s   w il m a y   d eg r ad in   p er f o r m an ce   w h e n   co n s id er ed   f o r   m u ltid i m e n s io n al  d ata  s o   P r P r o ce s s in g   o n   ca teg o r ical  d ata  s et  is   ta k en   i n to   th p r o p o s ed   o b j ec tiv e.     Ma p   R ed u ce   P ar a d ig m T o   h an d le  th B ig   Data   Ma p   R ed u ce   p ar ad ig m   i s   ad o p ted   to   i m p r o v i n   p er f o r m a n ce   a n d   to   i m p r o v s ca lab ilit y   o f   d ata.   s elec tio n   m o d u le:  T h tim e   co m p le x it y   o f   k   m ea n s   al g o r ith m   is   d ep en d ed   o n   p r e d icate d   n u m b er   o f   cl u s ter ,   s o m et i m e s   i m p r o p er   s elec tio n   o f   v alu e   o f   k   w i ll  d eg r ad t h p er f o r m an ce   s o   it  i s   es s e n tial  to   au to m ate  i t.   C en tr o id   Selectio n   Mo d u le:  An o th er   is s u w h ile  ad o p tin g   k   m ea n s   is   to   s elec i n itial  ce n tr o id ,   w h ic h   w il h u d d le  to   ad o p k   m ea n s   cl u s ter i n g .   I n   p r o p o s ed   o b j ec tiv th in it ial  c en tr o id   w il b d ec id ed   in   alg o r ith m   o n l y .               Evaluation Warning : The document was created with Spire.PDF for Python.
I J E C E     I SS N:  2088 - 8708       I s s u es o f K Mea n s   C lu s teri n g   W h ile  Mig r a tin g   to   Ma p   R ed u ce   P a r a d ig w ith   B ig   Da ta   . . . .   ( K .   R .   N i r ma l)   3051   5.   CO NCLU SI O N   Me an s   C l u s ter in g   is   ef f icie n alg o r it h m   to   ca teg o r ize  th e   B ig   Data   in   to   ap p r o p r iate  c lu s ter s .   K   Me an s   cl u s ter   h a s   s o m i s s u es  li k i n itial  n u m b er   o f   clu s ter ,   in it ial  s elec tio n   o f   ce n t r o id s .   T h is   ar ticle  p r esen ts   s o m is s u es  to   s o lv t h ese  is s u e s   w h ic h   ar h elp f u t o   p r e d ef in th d ec lar ed   p ar a m eter s .   F u r th er   th is   s tu d y   a ls o   ad d r ess es  th i s s u e s   to   ad o p k   m ea n s   cl u s ter i n g   f o r   ca teg o r ical  d atasets   an d   b ased   o n   th is   s tu d y   o n o u tlin o f   o b j ec ti v es  is   p r o p o s ed .   P r o p o s ed   m o d el  w il ap p ly   s elec ted   s tr ateg ie s     to   p r ed ef in th p ar am eter s   w h i le  h a n d lin g   t h e   ca teg o r ical  d ata  s et.       RE F E R E NC E S   [1 ]   G a n tz   J .   a n d   Re in se D. ,   T h e   d ig it a u n iv e rse   in   2 0 2 0 Big   d a ta,  b ig g e d ig it a sh a d o ws ,   a n d   b ig g e st  g ro w th   in   th e   f a e a st ,”   IDC i Vi e w:  IDC A n a lyz e   th e   fu t u re ,   v o l.   2 0 0 7 ,   p p .   1 - 6 2 0 1 2 .     [2 ]   W u   X . e a l . ,   Da ta  m in in g   w it h   b ig   d a ta ,”   Kn o wled g e   a n d   Da t a   En g in e e rin g IEE T ra n sa c ti o n o n ,   v o l/ issu e :   2 6 ( 1 ) ,   p p .   97 - 1 0 7 2 0 1 4 .   [3 ]   J .   Ha n   a n d   M .   Ka m b e r,   Da ta M in in g C o n c e p ts  a n d   T e c h n iq u e s ,   2 nd   Ed it io n ,   p u b li s h e d   b y   El se v ier .   [4 ]   De a n   J .   a n d   G h e m a wa S . ,   M a p Re d u c e sim p li f ied   d a ta  p ro c e ss in g   o n   larg e   c lu ste rs ,”   Co mm u n ica ti o n o th e   ACM ,   v o l/ issu e 5 1 (1 ) ,   p p .   1 0 7 - 13 2 0 0 8 .     [5 ]   X u   Y . e a l. ,   Ef f icie n t - m e a n s + +   A p p ro x im a ti o n   w it h   M a p Re d u c e ,”   Pa r a ll e a n d   Distrib u ted   S y ste ms ,   IEE E   T ra n sa c ti o n o n ,   v o l/ iss u e 2 5 (1 2 ) ,   p p .   3 1 3 5 - 44 2 0 1 4 .     [6 ]   W u   K . e a l. ,   Re se a rc h   a n d   i m p ro v e   o n   K - m e a n a lg o rit h m   b a se d   o n   h a d o o p ,”   i n   S o ft w a re   En g i n e e rin g   a n d   S e rv ice   S c ien c e   ( ICS ES S ),   2 0 1 5   6 th   IEE E   In ter n a ti o n a C o n fer e n c e   o n ,   p p .   3 3 4 - 3 3 7 ,   2 0 1 5 .     [7 ]   Ch a d h a   A .   a n d   Ku m a S . ,   A n   imp ro v e d   K - M e a n c lu ste rin g   a lg o ri th m A   ste p   f o rwa rd   f o re m o v a o f   d e p e n d e n c y   o n   K ,”   i n   Op t imiza ti o n ,   Rel ia b il t y ,   a n d   I n fo rm a ti o n   T e c h n o lo g y   ( ICROIT ),   2 0 1 4   I n ter n a ti o n a C o n fer e n c e   o n ,   p p .   136 - 1 4 0 2 0 1 4   [8 ]   A n c h a li a   P P. ,   Im p ro v e d   M a p Re d u c e   k - M e a n Clu ste rin g   A lg o rit h m   w it h   Co m b in e r ,”   in   Co m p u ter   M o d e ll i n g   a n d   S im u la ti o n   ( UKS im),   2 0 1 4   U KS im - AM S S   1 6 th   I n ter n a ti o n a C o n fer e n c e   o n ,   p p .   3 8 6 - 3 9 1 2 0 1 4 .   [9 ]   M e h a A M . e a l. ,   De ter m i n in g   a n   o p t im a v a lu e   o i n   K - m e a n c lu ste rin g ,”   i n   Bi o in fo rm a t ics   a n d   Bi o me d icin e   ( BIB M ),   2 0 1 3   IEE In ter n a t io n a C o n fer e n c e   o n ,   p p .   5 1 - 55 2 0 1 3 .   [1 0 ]   Zh a n g   J . e a l. ,   A   2 - ti e c lu st e rin g   a lg o rit h m   w it h   m a p - re d u c e ,”   i n   Ch in a Gr id   Co n fer e n c e   ( Ch i n a Gr id ) ,   2 0 1 0   Fi ft h   An n u a l ,   p p .   1 6 0 - 1 66 2 0 1 0 .   [1 1 ]   Ka k o o e M .   a n d   S h a h h o se in H S. ,   A   p a ra ll e k - m e a n c lu ste r in g   in it ial  c e n ter  se lec ti o n   a n d   d y n a m ic  c e n ter   c o rre c ti o n   o n   G P U ,”   i n   El e c trica l   En g in e e rin g   ( ICEE ),   2 0 1 4   2 2 n d   Ira n ia n   C o n fer e n c e   o n ,   p p .   2 0 - 25 2 0 1 4 .   [1 2 ]   G h u li   P . e a l. ,   A   Co m p re h e n siv e   S u rv e y   o n   Ce n tro id   S e lec ti o n   S trate g ies   f o Distrib u t e d   K - m e a n Clu ste rin g   A l g o rit h m ,”   In ter n a ti o n a J o u rn a o C o mp u ter   Ap p li c a t io n s ,   v o l/ is su e 1 2 5 (5 ) 2 0 1 5 .   [1 3 ]   Ja in   M .   a n d   V e rm a   C. ,   A d a p ti n g   k - m e a n f o Clu ste rin g   in   Big   Da ta ,”   In ter n a ti o n a J o u rn a o f   Co mp u ter   Ap p li c a ti o n s ,   v o l /i ss u e 1 0 1 (1 ) ,   p p .   19 - 24 2 0 1 4 .     [1 4 ]   Ch e u n g   Y M. ,   k - M e a n s:  A   n e w   g e n e r a li z e d   k - m e a n c lu ste rin g   a lg o rit h m ,”   Pa tt e rn   Rec o g n it io n   L e tt e rs ,   v o l/ issu e 2 4 (1 5 ) ,   p p .   2 8 8 3 - 93 2 0 0 3 .           Evaluation Warning : The document was created with Spire.PDF for Python.