I nte rna t io na l J o urna l o f   E lect rica l a nd   Co m p ute E ng in ee ring   ( I J E CE )   Vo l.   8 ,   No .   3 J u n e   201 8 ,   p p .   1711 ~ 1 7 1 9   I SS N:  2088 - 8708 DOI : 1 0 . 1 1 5 9 1 / i j ec e . v 8 i 3 . p p 1 7 1 1 - 1719     1711       J o ur na l ho m ep a g e h ttp : //ia e s co r e . co m/ jo u r n a ls /in d ex . p h p / I JE C E   A Nov el Ap p ro a ch f o r Cl ustering   Big  Data  b a sed o M a pReduce       G o ura v   B a t hla 1 H im a n s h u Ag g a r w a l 2 Rink le  Ra ni 3   1, 2 De p a rtem e n o f   Co m p u ter E n g i n e e rin g ,   P u n jab i   Un iv e rsity   P a ti a la ,   In d ia   3 De p a rte m e n o f   Co m p u ter S c ien c e   a n d   En g in e e ri n g ,   T h a p a Un iv e rsit y   P a ti a la ,   I n d ia       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   Dec   1 1 ,   2 0 1 7   R ev i s ed   Mar   2 0 ,   2 0 1 8   A cc ep ted   Ma r   2 8 ,   2 0 1 8     Clu ste ri n g   is  o n e   o f   th e   m o st  im p o rtan a p p li c a ti o n s   o f   d a ta  m in in g .   It  h a a tt ra c ted   a tt e n ti o n   o f   re se a rc h e rs   in   sta ti stics   a n d   m a c h in e   lea rn in g It  is  u se d   in   m a n y   a p p li c a ti o n s   li k e   in f o rm a ti o n   re tri e v a l,   i m a g e   p ro c e ss in g   a n d   so c ial   n e tw o rk   a n a l y ti c e tc.   It  h e lp th e   u se to   u n d e rsta n d   th e   sim il a rit y   a n d   d issim il a rit y   b e t w e e n   o b jec ts.   Clu ste a n a l y sis  m a k e th e   u se rs   u n d e rsta n d   c o m p lex   a n d   larg e   d a ta  s e ts  m o re   c lea rl y .   T h e re   a re   d iff e r e n t y p e o c lu ste rin g   a lg o rit h m a n a l y z e d   b y   v a rio u re se a rc h e rs.  Km e a n i th e   m o st   p o p u lar  p a rti t io n in g   b a se d   a lg o ri th m   a s   it   p ro v i d e g o o d   re su lt b e c a u se   o a c c u ra te  c a lcu latio n   o n   n u m e ric a d a ta.  Bu Km e a n g iv e   g o o d   re su lt f o n u m e rica l   d a ta   o n ly .   Big   d a ta  is  c o m b in a ti o n   o f   n u m e rica a n d   c a teg o rica l   d a ta.  Kp ro t o ty p e   a lg o rit h m   is   u se d   to   d e a w it h   n u m e rica a w e ll   a s   c a teg o rica d a ta.  K p ro t o ty p e   c o m b in e t h e   d ista n c e   c a lcu late d   f ro m   n u m e ric   a n d   c a teg o rica d a ta.   W it h   t h e   g ro w th   o f   d a ta  d u e   to   so c ial  n e tw o rk in g   w e b sites ,   b u sin e ss   tran sa c ti o n s,   sc ien ti f ic  c a lcu latio n   e tc.,   t h e re   is  v a st   c o ll e c ti o n   o f   stru c tu re d ,   se m i - stru c tu re d   a n d   u n str u c tu re d   d a ta.  S o ,   th e re   i n e e d   o f   o p ti m iza ti o n   o f   Kp ro to t y p e   so   th a th e se   v a rieties   o f   d a ta  c a n   b e   a n a ly z e d   e ff ici e n t ly . In   th is  w o rk ,   Kp r o to ty p e   a lg o rit h m   is  im p lem e n ted   o n   M a p Re d u c e   in   th is  p a p e r.   Ex p e rim e n ts  h a v e   p ro v e d   th a K p ro t o ty p e   im p le m e n ted   o n   M a p re d u c e   g iv e b e tt e p e rf o r m a n c e   g a in   o n   m u l ti p le  n o d e s   a c o m p a re d   to   sin g le  n o d e .   C P e x e c u ti o n   ti m e   a n d   s p e e d u p   a re   u se d   a e v a lu a ti o n   m e tri c s   f o c o m p a ris o n . I n telleg e n sp li tt e is  p r o p o se d   in   th is   p a p e w h ich   sp li ts  m ix e d   b ig   d a ta  in t o   n u m e rica a n d   c a teg o rica d a ta.   Co m p a riso n   w it h   trad it io n a a l g o rit h m s   p ro v e th a p ro p o se d   a lg o rit h m   w o rk s b e tt e f o larg e   sc a le o f   d a ta.   K ey w o r d :   B ig   d ata   C lu s ter i n g   K m ea n s   Kp r o to ty p e   Ma p r ed u ce   Co p y rig h ©   2 0 1 In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   Go u r av   B ath la,     Dep ar te m en t o f   C o m p u ter   E n g in ee r i n g ,   P u n j ab Un iv er s it y ,   P atiala,   I n d ia.   E m ail:  g o u r av b at h la @ g m ai l.c o m       1.   I NT RO D UCT I O N   L ar g s ca le  o f   d ata  ar p r o d u ce d   b y   s o cial  n et w o r k i n g   w eb s i tes,  d ata  s er v er s   d ail y .   Di g ital  tr ac es  ar also   lef b y   u s er s   o n   w eb   s p ac e.   T h is   in f o r m atio n   ca n   b v er y   u s e f u i f   it  is   ex tr ac ted   an d   an al y ze d   p r o p er ly .   T h is   lar g s ca le  o f   d ata  i.e .   B ig   d ata  ca n n o b p r o ce s s ed   w it h   tr ad itio n al  co m p u t in g .   Ma n ag e m e n o f   th is   h u g v o l u m e   o f   d ata  is   v er y   ti m co n s u m i n g .   T h er is   n ee d   o f   m in in g   a lg o r it h m   w h i ch   i s   d is tr ib u ted   o n   d if f er e n n o d es.  C l u s ter i n g   ca n   b u s ed   o n   b i g   d ata  to   co m b in lar g s ca le  o f   d ata  in   co m p ac f o r m at  w h ic h   w il b e   h ig h l y   i n f o r m ati v [ 1 ] .   I n ter   C l u s ter   o b j ec ts   s h o u ld   h av e   h i g h   d is s i m ilar it y   a n d   in tr clu s ter   o b j ec ts   s h o u ld   h a v h ig h   s i m ilar it y .   T r a d itio n al  clu s ter in g   al g o r it h m s   ar ca te g o r ized   b ased   o n   t h eir   f o r m atio n   o f   clu s ter s .   T h ese  ar d iv id ed   in to   ca te g o r ies  l i k p ar titi o n   b ased   KM ea n s ,   P AM ,   C L AR A   a n d   FC M,   h ier ar ch ical   b ased -   B I R C H,   d en s it y   b ased -   DB SC AN,   O PT I C S,  g r id   b ased -   C L I QUE   an d   m o d el  b a s ed -   Evaluation Warning : The document was created with Spire.PDF for Python.
      I SS N :   2088 - 8708   I n t J   E lec   &   C o m p   E n g ,   Vo l.  8 ,   No .   3 J u n e   201 8   :   1 7 1 1     1719   1712   E M, C OB W E B .   B ig   d ata  clu s t er in g   is   an al y ze d   b y   v ar io u s   r esear ch er s .   Ma n y   tec h n iq u es   an d   f r a m e w o r k s   ar e   g iv e n   i n   t h ese  s t u d ies  f o r   co m b in in g   s i m i lar   d ata  o b j ec ts   in   o n clu s ter   [ 2 ] .   I n   th is   p ap er ,   w h av h i g h lig h ted   p ar allel  clu s ter i n g   al g o r ith m s     Km ea n s   a n d   Kp r o to ty p o n   Ma p r ed u ce .   K m ea n s   is   t h m o s i m p o r ta n t   p ar titi o n   b ased   alg o r ith m .   K m ea n s   cl u s ter i n g   alg o r it h m   i s   w id el y   u s ed   to   co m b in o b j ec ts   w it h   s i m ilar i t y   b ased   o n   d is ta n ce   m etr ics  [ 3 ] .   I u s e s   d is ta n ce   m ea s u r es  l ik co s in d is tan ce ,   m a n h at tan   d i s tan ce   etc.   I ts   m a i n   ad v an ta g i s   t h s i m p l icit y .   I ca lcu late s   d is ta n ce   w i th   k   cl u s ter s   an d   b ased   o n   ce n tr o id   v al u it   s tar t s   m ak i n g   clu s ter s .   W h en   t h cl u s ter i n g   is   in i tialized ,   k   is   c h o s e n   b ef o r th cl u s ter i n g .   T h ese  s ele ctio n s   o f   k   clu s ter s   h av e f f ec o n   t h r u n n in g   ti m a n d   ef f icie n c y   o f   t h i s   al g o r ith m .   T h is   p ap er   p r o p o s es   an   al g o r ith m   w h ic h   ca lcu late s   k   b ased   o n   th i n f o r m atio n   u p d ate   w h ile  ca lc u lat i n g   cl u s ter s .     W h en   K m ea n s   i s   m i g r ated   to   b ig   d at a,   it  d o es  n o p er f o r m   w ell  a s   co m p ar ed   to   o th er   clu s ter i n g   alg o r ith m s   [ 4 ] .   T h m ai n   r ea s o n   is   t h at  K m ea n s   is   s eq u e n tial  a n d   it  co m p u t es  t h cl u s ter s   in   iter at io n s K m ea n s   w o r k s   o n   n u m er ical   d ata  w it h   g o o d   ac cu r ac y .   W ith   ca teg o r ical  a ttrib u te s ,   t h is   alg o r i t h m   ca n   n o t   ca lcu late  t h ce n tr o id   d ir ec tl y .   B ig   d ata  is   co m b i n atio n   o f   n u m er ical  a n d   ca teg o r ical  d at [ 2 ] .   Km ea n s   ca n   an al y ze   n u m er ical  d ataset  w i th   it s   p r o v en   ac c u r ac y .   B u th is   alg o r it h m   ca n   n o cl u s te r   ca teg o r ical  d ata Kp r o to ty p al g o r ith m   is   u s ed   to   r e m o v th i s   d r a w b ac k   o f   K m ea n s .   Kp r o to t y p al g o r ith m   ca n   h an d le   n u m er i c   as  w ell  as  ca te g o r ical  d ata  ef f ec tiv el y .   W h av also   i m p le m en ted   Kp r o to ty p o n   Ma p r e d u ce   s o   th at  it  ca n   h an d le  lar g s ca le  o f   d ata  a s   w ell.   As  p er   o u r   k n o w led g e,   v er y   f e w   r esear c h   w o r k s   h a v e   b ee n   ca r r ied   o u to   f o cu s   o n   en h a n ce   th e f f ec tiv e n es s   o f   Kp r o to t y p alg o r ith m .   B ig   d ata  is   co m b in a tio n   o f   s t r u ctu r ed ,   u n s tr u c tu r ed   an d   s em s tr u ctu r ed   d ata.   T h is   r esear ch   w o r k   co v er s   b ig   d ata  ch ar ac ter is tic s   lik v o lu m e,   v e lo cit y   a n d   v ar iet y .   Vo lu m is   i m p o r tan c h ar ac ter is tic  o f   b i g   d ata  as  t h is   r eq u ir es  c h an g es   in   s to r ag ar ch itectu r [ 1 ] .   V elo cit y   i s   an o t h er   c h ar ac ter is t ic  w h ic h   s h o u ld   b m an a g ed   b y   cl u s ter i n g   alg o r it h m   a s   d ata  f lo w s   in   s p ee d   an d   r esp o n s ti m s h o u ld   b ac cu r ate.   Var iet y   is   t h ir ch ar ac ter is tic  w h ic h   is   co m b i n atio n   o f   s tr u ct u r ed ,   s e m s tr u ctu r ed   an d   u n s tr u ct u r ed   d ata.   T h is   r esear ch   w o r k   co v er s   t h ese  c h ar ac ter is t ics  w it h   th e   u s o f   b ig   d ata  tec h n o lo g ies.  I n   K m ea n s   alg o r it h m   w it h   th e   u s o f   h ad o o p   p latf o r m   b i g   d ata  ca n   b p r o ce s s ed   ef f ec ti v el y .   ( Ke y , Val u e)   p air s   o f   cl u s ter ed   d at is   p r o ce s s ed   w it h   th u s o f   Ma p   [ 5 ] .   R ed u ce   c o m b i n es  th r es u lt  o f   t h ese  p air s   o f   d if f er e n clu s ter s .   T h is   ap p r o ac h   r ed u ce s   ti m co m p le x it y   o f   cl u s ter i n g .   W h en   K m ea n s   is   d is tr ib u ted   o n   d if f er en cl u s ter s ,   r u n n i n g   t i m f o r   ca lcu lati n g   clu s ter s   r ed u ce s   s i g n if ican t l y .   I n   Sectio n   2 ,   s ev er al  r ese ar ch   w o r k s   ar d escr ib ed   as  liter atu r s u r v e y .   C lu s er in g   al g o r ith m s   w it h   K m ea n s   a n d   Kp r o to ty p e s   d etail ed   d escr ip tio n   is   i n   Sect io n   3 .   P r o p o s ed   tech n iq u e   is   p r esen ted   in   Sectio n   4 .   E x p er im e n tal  a n al y s is   i s   elab o r a ted   in   Sectio n   5 .   P a p er   is   c o n clu d ed   in   Sectio n   6   w it h   f u tu r d ir ec tio n s .       2.   L I T E R AT U RE   SU RVE Y   T h er ar lo o f   r esear ch   w o r k s   w h ic h   ar e   b ein g   ca r r ied   o u in   cl u s ter i n g   o f   b ig   d ata.   A   F ah ad   et  a l   [ 1 ]   in tr o d u ce s   ca teg o r izatio n   f r a m e w o r k   f o r   clu s ter i n g   a lg o r ith m s .   I n   t h i s   r esear ch   wo r k ,   au th o r s   h a v e   ca teg o r ized   d if f er en clu s ter in g   alg o r ith m s   b ased   o n   d esi g n e r   p er s p ec tiv e.   P a r titi o n   b ased ,   h ier ar ch ical  b ased ,   d en s it y   b ased ,   g r id   b ased   an d   m o d el  b ased   a lg o r ith m   ar e x p lain ed   i n   t h is   p ap er .   M.   Haj   Kac em   et  a [ 2 ]   i m p r o v es  b ig   d ata  clu s ter i n g   b y   p r o p o s in g   Ma p r ed u ce   b ased   K - P r o to ty p es  ( MR - KP ) .   I n   th i s   w o r k ,   it  is   d ef in ed   t h at  b i g   d ata  i s   co llect io n   o f   n u m er ical   an d   ca te g o r ic al  d ata.   I n   v ar io u s   r esear c h   w o r k s ,   f e w   cl u s ter i n g   m et h o d s   ca n   d ea w i th   m ix e d   t y p e. P r o p o s ed   MR - KP   ca n   p r o ce s s   n u m er ical  a s   w e ll  a s   ca te g o r ical  d ata.   E x p er i m e n ts   w er co n d u cted   o n   m an y   i n s tan ce s   o f   c h e s s   d ataset.   I is   p r o v ed   in   t h i s   r esear ch   w o r k   t h at   p r o p o s ed   K - P r o to ty p s h o w s   g o o d   ac cu r ac y   a n d   s ca lab ili t y X.   W u   et   al  [ 3 ]   d em o n s t r ates  1 0   alg o r ith m s   w h ic h   ar m o s in f l u e n tial  b y   I E E E   I n ter n atio n al  C o n f er e n c o n   Data   Min in g   ( I C DM ) . C 4 . 5 ,   K - m ea n s ,   SVM,   A p r io r i,  E M,   P ag eRan k ,   A d a B o o s t,  k NN,   Naïv B ay es,  an d   C AR T   alg o r ith m s   ar ex p la in ed   in   t h i s   r esear ch   w o r k .   W.   Z h ao   et  al  [ 4 ]   h av e   p r o p o s ed   p ar allel  K m ea n s   alg o r ith m   b ased   o n   Ma p R ed u ce .   I n   th is   r esear ch   w o r k   s p ee d u p ,   s ize u p   an d   s ca l eu p   is   s h o w n   as   b etter   w it h   t h u s o f   P KM ea n s   al g o r ith m .   Ma p r ed u ce   is   u s ed   to   i m p le m en m ac h in lear n i n g   an d   d ata  m i n i n g   al g o r ith m s   in   [ 6 ] .   Had o o p   an d   Ma p r ed u ce   f r a m e w o r k   ar e   ex p lain ed   i n   t h i s   p ap er .   Km ea n s ,   E etc.   d ata  m i n i n g   al g o r ith m s   ar i m p le m e n t ed   in   p ar allel  u s i n g   Ma p r ed u ce   in   th is   p ap er .   C u i   et  a [ 7 ]   p r o p o s ed   n o v e p r o ce s s in g   m o d el  to   r e m o v e   th e   d ep e n d en ce   o n   iter atio n s .   I n   Ma p r ed u ce   t h er is   li m i tatio n   o f   r es tar tin g   j o b s .   I n   t h is   w o r k ,   t h i s   is   r e m o v ed   an d   r es u lt ed   i n   h ig h   p er f o r m an ce .   I n   [ 8 ] ,   au t h o r s   h a v u s ed   d is s i m ilar it y   m ea s u r es  b et w ee n   p r o to t y p o f   clu s ter s   a n d   d ata  o b j ec ts .   Fo u r   d atasets   ar u s e d   f o r   co m p ar is o n   o f   p r o p o s ed   m et h o d   an d   tr ad itio n al  tec h n i q u es.  A .   Ah m ad   et   al   [ 9 ]   p r o p o s ed   c o s f u n cti o n   b ased   o n   co - o cc u r r en ce   o f   v al u es.  T h is   co s f u n ctio n   im p r o v es  t h clu s ter   ce n ter   ac cu r ac y   f o r   k - m ea n s   cl u s ter i n g .             Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec   &   C o m p   E n g   I SS N:  2088 - 8708     A   N o ve l A p p r o a ch   fo r   C lu s teri n g   B ig   Da t a   b a s ed   o n   Ma p R e d u ce   ( Go u r a B a th la )   1713   3.   CL US T E RIN G   A L G O RI T H M S   T h er ar d if f er e n cl u s ter in g   alg o r ith m s   h av i n g   s p ec if ic   ap p licatio n s   in   t h f ield   o f   d ata  m i n in g .     I n   Fi g u r 1 ,   ca teg o r ies o f   clu s ter i n g   al g o r ith m s   ar e x p lain ed   with   ex a m p le.           Fig u r 1 .   C ateg o r ies o f   cl u s ter in g   al g o r it h m       P ar titi o n   B ased : I n   t h e s t y p e s   o f   al g o r ith m s ,   d ata  o b j ec ts   ar d iv id ed   in to   d if f er en t p ar titi o n s .   T h ese  d i f f er en t   p ar titi o n s   ar clu s ter s   w h er d ata  o b j ec ts   ar h av in g   h i g h   in t r a - s i m ilar it y .   K m ea n s   w h ich   i s   p ar titi o n   b ased   alg o r ith m   w h ic h   d ec id e s   clu s t er   m e m b er s h ip   b y   ca lcu latin g   ce n t r o id   v alu e s .     Hier ar ch ical  B ased C o m p let d ata  s et  is   ass u m ed   as  o n e   clu s ter .   T h is   d ata  s et  is   d i v i d ed   in to   clu s ter s   i n   h ier ar ch ical  m a n n er   ( u p to   k   n u m b er   o f   cl u s ter s ) .   Den s i t y   B ased : D ata  o b j ec ts   ar ass ig n ed   in to   cl u s ter s   b ased   o n   d en s it y   o r   co n n ec ti v it y.   Gr id   B ased : I n   th ese  t y p e s   o f   alg o r ith m s ,   cl u s ter s   ar ass i g n ed   to   d ata  o b j ec ts   b ased   o n   s tatis tical  v al u es.   Mo d el  B ased : I n   th ese  t y p es o f   alg o r it h m s ,   cl u s ter s   ar as s ig n ed   to   d ata  o b j ec ts   b ased   o n   p r ed ef in ed   m o d el.   I n   o u r   w o r k ,   p ar ti tio n   b ased   a lg o r it h m   i s   u s ed .   K m ea n s   w h ich   i s   p ar titi o n   b ased   al g o r ith m   as s i g n s   d ata  attr ib u ted   to   d if f er en cl u s ter s   b ased   o n   co s f u n ctio n .   E u clid ea n   d is ta n ce   is   u s ed   f o r   c alcu lati n g   d is tan ce   f u n ctio n .   T h d r a w b ac k   o f   k m ea n s   i s   t h at  it   ca n   w o r k   o n l y   f o r   n u m er ic   d ata.   Fo r   ca teg o r ical  d ata,   K m ea n s   ca n   n o w o r k   as  th er i s   n o   E u clid ea n   s p ac f o r   t h is   t y p e   o f   d ata.   K - p r o to t y p i s   u s ed   f o r   ca lcu la tin g   co s t   f u n ctio n   f o r   ca teg o r ical  d ata ,   w h ic h   is   e x p lain ed   i n   n e x t s u b s ec tio n .       3 . 1 .   K m ea n s   a nd   k pro t o t y pe   K m ea n s   i s   t h m o s t   p o p u lar   clu s ter i n g   m et h o d   to   ch ec k   o b jects  s i m i lar it y   [ 1 ] .   T h o b j ec t s   w it h   i n   a   clu s ter   h a v h i g h   s i m ilar it y   a n d   d if f er e n cl u s ter s   h av e   h ig h   d is s i m ilar it y .   I cla s s i f y   o b j ec ts   b ased   o n   k   v al u e   w h ic h   ar f ix ed   b ef o r clu s ter in g ,   I n   v ar io u s   r esear ch   w o r k   i is   p r o v ed   th at  r esu lts   co n v er g to   lo ca s o lu ti o n   an d   n o o n   g lo b al  s o l u tio n   [ 4 ] .   T h is   alg o r ith m   ca lc u late s   ce n tr o id   v alu i n   iter ati v w a y .   I n   f ir s s tep ,   r an d o m   o b j ec ts   ar ass i g n ed   to   cl u s te r s .   T h en   n e x s tep   ca lcu lates  n e w   ce n tr o id   v al u b ased   o n   p r e v io u s   s tep .   T h v alu o f   k   ce n tr o id s   ch a n g u n til  las s tep   w h e n   th er is   n o   ch an g in   v al u o f   ce n tr o id .   T h is   i s   f i n al  ce n tr o id s   v alu a n d   o b j ec ts   ass ig n ed   to   clu s ter s   [ 6 ] .   In   al g o r ith m ,   s tep   2   ta k es   m ax i m u m   ti m e.   I n   th i s   s tep ,   d ata  i s   tr av er s ed   f o r   ass ig n i n g   to   cl u s ter .   T h r u n n i n g   ti m ca n   b r ed u ce d   b y   u s in g   o u r   tech n iq u e.   O n l y   s o m i   d i m e n s io n s   c h an g e s   v al u af ter   s o m e   iter atio n .   T h er is   n o   n ee d   to   ca lcu late  d i m en s io n s   in   e v er y   iter atio n .   I n   t h is   o p ti m iz ed   ap p r o ac h ,   o n ly   i   d i m en s io n s   o u o f   d i m en s i o n s   ar s elec ted .   T h ese  i   d i m en s io n s   ar r elev a n t.  T h ese  d im en s io n s   ar g i v en   th f i x ed   p r io r it y .   O n l y   d i m e n s io n s   w h ic h   ar e   g i v e n   p r io r it y   ar u s ed   in   ca lcu latio n   o f   E u clid ea n   d is ta n ce   f r o m   ce n tr o id .   T h is   r ed u ce s   ti m co m p le x it y   o f   d er iv i n g   cl u s ter s   f r o m   b i g   d ata.   Ou r   tec h n iq u e   i s   ch o o s i n g   k   clu s ter s   an d   af ter   s o m iter ati o n   s elec ti n g   o n l y   o b j ec ts   w h i ch   ch a n g e s   clu s ter s .   T h er is   n o   n ee d   to   co m p u t e   th e   ce n tr o id   v a lu e   f o r   t h o b j ec ts   w h o   r e m ain   i n   s a m e   cl u s ter s   a f ter   s o m f i x ed   iter ati o n s .   I r ed u ce s   t h e   co m p u tatio n   w h e n   t h er is   la r g s ca le   o f   d ata -   s tr u ct u r ed   as   w ell  u n s tr u ctu r ed   d ata.     Evaluation Warning : The document was created with Spire.PDF for Python.
      I SS N :   2088 - 8708   I n t J   E lec   &   C o m p   E n g ,   Vo l.  8 ,   No .   3 J u n e   201 8   :   1 7 1 1     1719   1714   Alg o rit h m   1 :   K m ea ns     D ata  : D ata  s et  N=   {n 1 …… …. . n n ); K   n u m b er   o f   clu s ter s   R es u lt   : C lu s ter   C e n tr o id s   : C 1 …………. C K   b eg in            Select  K   p o in ts   i n   n -   E u clid ea n   s p ac f o r   in t ial  ce n tr o id s       r ep ea t                  P lace   d ata  o b j ec ts   in   th e s K   p o in ts   u s i n g                            d is tan ce   m ea s u r es.                  R ec alcu late  ce n tr o id s   v a lu b y   tak in g   m ea n   o f                    d ata  o b j ec ts         u n ti l     th er is   n o   ch an g i n   ce n tr o id   p o s itio n s .         e nd     I n   u n s tr u ct u r ed   d ata  th er ar n u m er ical  at tr ib u tes   as  w el a s   ca teg o r ical  attr ib u tes.  I n   t h is   p r o p o s e d   w o r k ,   co s f u n ctio n   w ill  b d ef i n ed   as  t h co m b i n atio n   o f   d is tan ce   m ea s u r es  o f   n u m er ic al  v al u es  a s   w ell   as   ca teg o r ical  v al u es.  C ate g o r ic al  v alu e s   ar n o ca lcu lated   as  b in ar y   v a lu e s   o r   d is cr ete  v alu e s ,   r ath er   it  is   ca lcu lated   b ased   o n   o v er all   d is tr ib u tio n   o r   co - o cc u r r en ce   w ith   o th er   attr ib u tes.  T h s i m i lar it y   an d   d is s i m ilar it y   o f   o b j ec ts   d ep en d   o n   h o w   clo s e   t h eir   v al u es  ar f o r   all   attr ib u te s .   Fo r   n u m er i ca d ata  it  i s   ea s ier   to   ca lcu late   t h d is ta n ce   b et wee n   o b j ec ts   b ased   o n   E u clid e an   d is tan ce .   I t   is   d if f ic u lt   f o r   ca teg o r ical  d ata  to   co m p u te  t h clo s en e s s   b et w e en   o b j ec ts .   B in ar y   d is ta n ce   m ea s u r es  i s   n o ap p r o p r iate  f o r   ca teg o r ical  d ata,   it  s h o u ld   g i v s o m e   v al u to   ca teg o r ies o f   d ata  [ 5 ] .   C o n v er s io n   o f   ca teg o r ical  d ata   to   n u m er ical  d ata:   a.   T h n u m er ical  d is tan ce   ca n   b e   ap p lied   af ter   co n v er s io n   o f   ca teg o r ical  attr ib u ted   i n to   n u m er ical ,   attr ib u te s   b u t it  is   v er y   d if f ic u lt .   b.   Nu m er ical  d ata  ca n   b d is cr etize d   to   ca teg o r ical  d ata.     T h d is tan ce   b et w ee n   d ata  o b j ec t a n d   clu s ter   ce n ter   is   t h s u m m atio n   o f   t h d is ta n ce s   b et w ee n   it s   n u m er ic  a n d   ca teg o r ical  attr ib u te  v a lu e s .   Fo r   n u m er ic  attr ib u tes,  w ta k t h E u clid ea n   d is tan ce   b et w ee n   th e   o b j ec t’ s   attr ib u te  v a lu a n d   th m ea n   v al u o f   t h ce n te r .   Fo r   ca teg o r ical  attr ib u tes,   all  v al u e s   h a v a   p r o p o r tio n al  p r esen ce   in   t h d ef i n itio n   o f   clu s ter   ce n ter .   I is   p r esen ted   in   m a n y   s t u d ies  th at  K m ea n s   ca n   p r o ce s s   n u m er ical  d ata  o n l y .   K p r o to t y p is   ab le  to   r e m o v t h is   li m ita tio n   [ 2 ] Kp r o to ty p is   p r o p o s ed   in   [ 1 0 ]   to   r em o v t h li m itat io n   o f   K m ea n s   al g o r ith m .   Kp r o to ty p i s   co m b i n atio n   o f   K m ea n s   a n d   K m o d es  al g o r it h m s .   K p r o to t y p al g o r ith m   ca n   h an d le   n u m er ica an d   ca teg o r ical  d ata   [ 1 1 ] .   E u clid ea n   d i s tan ce   i s   u s ed   f o r   ca lcu lati n g   s i m ilar it y   f o r   n u m er ica attr ib u te s .   Ha m m i n g   d is ta n ce   i s   u s ed   f o r   ca lcu lat in g   s i m ilar it y   f o r   ca te g o r ical  attr ib u te s .   Sp li t h d at i n to   n u m er ical   an d   ca teg o r ical  v al u e.                        (             )     (             )           (                         )                           ( 1 )     I n   th i s   eq u a tio n ,   d is ta n ce   b et wee n   attr ib u te   v al u        an d   n u m er ic  ce n ter          is   ca lcu lated .   Nu m er ical  v alu e s   d i s tan ce   is   ca lc u lated   b y   u s i n g   m ea n s   o f   d ata  o b j ec ts   allo tted   to   cl u s ter .   T h e n   t h ese   cl u s ter s   ar u p d ated   b ased   o n   iter atio n s .   A l s o ,   d is tan ce   b et w ee n   att r ib u te  v al u          an d   ca teg o r ical  ce n ter          is   ca lcu lated .   C ate g o r ical  v al u e s   d is tan ce   is   ca lc u lated   b y   u s in g   m o s f r eq u en tl y   o cc u r r in g   v al u as  cl u s te r   ce n ter .   Dif f er en t d is ta n ce   m ea s u r es c a n   b u s ed   f o r   n u m er ic al  as  w e ll a s   ca te g o r ical  d ata.   Nu m er ical  a n d   ca te g o r ical  d at is   s ep ar ated   as  s h o w n   in   A l g o r ith m   2 .   I n itial   v a lu e s   ar s elec ted   an d   th en   s i m i lar it y   is   ca lcu la ted   u s in g   E q u a tio n   ( 1 ) .   T h ese  iter a tio n s   ar ca r r ied   o u u n t il  t h e r is   n o   ch a n g i n   clu s ter s   v al u es i. Old   ce n ter   C   is   eq u al  to   u p d ated   ce n ter   C u .   K m ea n s   a n d   K p r o to t y p al g o r ith m   w o r k s   o n   s m all  s ca le  o f   d ata  w i th   g o o d   ac cu r ac y .   B u w h e n   it  i s   d ep lo y ed   o n   b ig   d ata,   it  tak es  u n r ea li s tic  d u r atio n   to   p r o c ess   th i s   lar g s ca le  o f   d ata.   W h av d ep lo y ed                K p r o to ty p o n   Ma p r ed u ce   in   th is   p ap er .   I n   th i s   w o r k ,   in t ellig e n f r a m e w o r k   i s   also   p r o p o s ed   f o r   b ig   d ata  clu s ter i n g .   Dif f er en v ar ieties   o f   m i x ed   d ata  ar s ep ar ate d   in to   n u m er ical  a n d   ca teg o r ical  d ata.   T h en   th ese   d if f er e n t d ata   o b j ec ts   ar ass i g n ed   cl u s ter s   o n   d i f f er en t   Ma p   an d   R ed u ce   p h a s e.   Deta iled   p r o p o s ed   f r a m e w o r k   is   ex p lai n ed   in   n ex s ec tio n .     Alg o rit h m   2 :   K p ro t o t y pe   Data :   Data s et  {x 1   …. x n )   an d   clu s ter   y n   f o r   n u m er ica l a n d   y f o r   ca teg o r ical  d ata   R es u lt:  C l u s ter   C e n ter   C   f o r   n u m er ica l a n d   ca teg o r ical  d ata   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec   &   C o m p   E n g   I SS N:  2088 - 8708     A   N o ve l A p p r o a ch   fo r   C lu s teri n g   B ig   Da t a   b a s ed   o n   Ma p R e d u ce   ( Go u r a B a th la )   1715     b eg in       Select  K   p o in ts   i n   n -   E u clid ea n   s p ac f o r         in tial c e n tr o id s   f o r   n u m er ical  d ata  an d   p o in ts   f o r   h a m m i n g   d is ta n ce   f o r   ca teg o r ical  d ata       r ep ea t         C o m p u te  d is tan ce   u s in g   co s                       f u n ctio n   p r o p o s ed .         Up d ate  C lu s ter   v al u es C   to   C u       u n t il       C =C u          en d       4.   P RO P O SE T E CH NI Q U E   B ig   d ata  is   co llectio n   o f   n u m er ical  an d   ca te g o r ical   d ata.   T r ad itio n al  K m ea n s   ca n   n o w o r k   o n   th e s e   t y p es  o f   d ata  ef f icien tl y .   It   wo r k s   o n   n u m er ical   d ata  w ith   p r o v en   ac cu r ac y .   I ca lcu late s   ce n tr o id   v alu o f   o b j ec ts   f o r   clu s t er i n g .   Di s tan c is   ca lcu lated   b et w ee n   n - d i m en s io n al  v ec to r s   u s i n g   E u clid ea n   d is tan ce .   T h en   ce n ter   i s   ca lc u lated   f o r   d if f e r en cl u s ter s   c1 ,   c2   …c k .   a n d   av er a g d i s tan ce   is   m ea s u r ed   u s in g   s a m p le   p o in ts . C o s i n d is ta n ce ,   E u clid ea n   d is tan ce   a n d   P ea r s o n   co r r elatio n   ar u s ed   f o r   ca lcu latio n   o f   s i m ilar it y   [ 1 3 ] T h ese  d is tan ce   m ea s u r es   w o r k s   f o r   n u m er ical  d ata  w it h   a cc u r ac y   b ec a u s n u m er ical  d ata  h a v o r ig i n   i n   C ar tesi a n   co o r d in ate s   v al u e.   Ma p r ed u ce   [ 1 2 ]   ca n   p r o ce s s   d ata  in   p ar allel  b y   th e   u s o f   m ap   an d   r ed u ce   p h ase.   K m ea n s   i s   d ep lo y ed   o n   Ma p r ed u ce   w it h   p ar allel  ca lcu latio n   o f   clu s ter s   f o r   p r o ce s s in g   lar g s ca le  o f   d ata  [ 4 ] ,   [1 4] ,   [ 1 5 ] .     Si m i lar it y   b et w ee n   d ata  o b j ec ts   an d   cl u s ter s   ar d if f er e n f o r   ev er y   o b j ec t.  So ,   d is tan ce   ca n   b ca lcu lated   in   p a r allel  b y   t h u s o f   m ap   a n d   d is tan ce   f r o m   ea ch   n o d es   is   co m b i n ed   to   f o r m   g lo b al   r esu lt i n   r ed u ce .                                             Fig u r 2 C lu s ter in g   o f   n u m er i ca l d ata     As  ex p lai n ed   in   Fig u r e   2 ,   o n l y   n u m er ical  p ar o f   b ig   d ata   ca n   b ass ig n ed   in   o n clu s ter   u s in g   K m ea n s   o n   Ma p r ed u ce .   I f   C l u s ter s   v al u es   d o   n o   c h a n g e   t h en   clu s ter s   ar f in al ized ,   o th er w i s m ap   a n d   r ed u ce   p h ase  is   r ep ea ted   in   n ex ite r atio n .   I n   th is   w o r k ,   th li m i tatio n   o f   K m ea n s   u s i n g   n u m er ical  d ata  o n ly   is   r e m o v ed   b y   u s i n g   p r o p o s ed   f r a m e w o r k .     C ateg o r ical  d ata  ca n   b co n v e r ted   in to   n u m er ical  f o r m   a s   p r o v ed   b y   v ar io u s   r esear c h   w o r k s .   B u it   r esu lt s   in   lo o f   ti m co n s u m p tio n   an d   lo s s   o f   i n f o r m atio n .   I n   t h is   p r o p o s ed   f r a m e w o r k ,   in te lli g en t   alg o r ith m   is   u s ed   w h ich   c h e ck   t y p o f   d ata  in   f ir s p h a s e.   T h en   d ataset  is   d ep lo y ed   o n   m ap   o n l y   a f ter   d ec id in g   t y p o f   d ata.   Sp litt er   p r o p o s ed   in   th is   w o r k   s ep ar ate  m ix ed   d ataset  an d   th e n   ass i g n   it  to   co r r ec s p lit  as  s h o w n   in   F i g u r 3 .   K p r o to t y p alg o r ith m   ca n   ca lcu late  s i m ilar it y   b et w ee n   o b j ec ts   f o r   b ig   d ata  b y   u s in g   e u clid ea n   d is ta n ce   an d   h a m m i n g   d is ta n ce .   T h is   alg o r it h m   r e m o v e s   th d r a w b ac k   o f   k m ea n s   al g o r ith m   w h ic h   Evaluation Warning : The document was created with Spire.PDF for Python.
      I SS N :   2088 - 8708   I n t J   E lec   &   C o m p   E n g ,   Vo l.  8 ,   No .   3 J u n e   201 8   :   1 7 1 1     1719   1716   is   w o r k i n g   o n l y   o n   n u m er ical   d ata.   T h is   alg o r ith m   p r o d u ce s   v er y   i n ter esti n g   r es u lts   o n   m i x ed   d ata.   I n   o u r   p r o p o s ed   f r a m e w o r k ,   t h is   al g o r ith m   i s   d ep lo y ed   o n   Ma p R ed u ce   m o d el   to   m a n ag lar g e   s ca le  d ata I n   th i s   alg o r ith m ,   ca lc u latio n   o f   o b j e ct  w it h   cl u s ter   ce n ter   i s   i n d ep en d en o f   a n o th er   o b j ec ca lc u latio n   o f   d is ta n ce   w it h   r ele v an cl u s er   ce n ter .   S o ,   Kp r o t o ty p al g o r ith m   f its   w ell  to   b i m p le m e n ted   in   p ar allel  o n   Ma p r ed u ce .   I n   Fi g u r e   4 ,   it  i s   clea r l y   ex p lain ed   t h at  m ix ed   d ata  i s   d is tr ib u ted   in   n u m er ical  a n d   ca t eg o r ical  d ata.   On   n u m er ical  p ar t,  E u cl id ea n   d is t an ce   is   u s ed   f o r   ca lcu lat in g   d i s tan ce   w i th   ce n ter .   O n   ca te g o r ical  p ar t,  h a m m i n g   d is tan ce   m ea s u r e   is   u s ed .   T h en   r es u lt s   o f   b o th   n u m er ical  a n d   ca te g o r ical  d at ar co m b i n ed   to   f o r m   c lu s ter   ce n ter s .         Fig u r 3 .   Sp litt er   f o r   d is tr ib u ti n g   n u m er ical  a n d   ca teg o r ical  d ata  o n   clu s ter s             Fig u r 4 .   P r o p o s ed   f r am e w o r k   f o r   clu s ter i n g   m i x ed   d ataset  o n   Ma p r ed u ce       I n   m ap   p h a s o b j ec d is tan ce   w it h   cl u s ter   ce n ter   is   ca lc u lated   an d   i n   r ed u ce   p h ase  r esu lt s   ar e   co m b i n ed .   E x is tin g   ap p r o ac h es  u s m ap   an d   r ed u ce   f o r   n u m er ical  d ata  an d   th e n   a f ter   g e ttin g   in p u f r o m   it,   d is tan ce   i s   ca lcu lated   f o r   ca t eg o r ical  d ata.   Ou r   p r o p o s ed   ap p r o ac h   r u n s   p ar allel  f o r   p a r allel  co m p u tatio n .   Nu m er ical  a n d   C a tr g o r ical  d a ta  clu s ter s   ar ca lcu lated   i n   p ar allel  an d   i n   th e s p r o ce s s e s ,   clu s ter   ce n ter s   ar e   ca lcu lated   i n d iv id u all y   u s i n g   m ap   an d   r ed u ce   a ls o .   Sp litt er   ch ec k s   t h m i x ed   d ataset  a n d   s en d s   d ata  to   clu s ter   s et  w h ic h   is   ap p r o p r iate.   T h is   r ed u ce s   p r o ce s s in g   ti m as  in itial l y   m ap p er   h as  co r r ec d ata  to   p r o ce s s .   On   m ap p er ,   d is tan ce   ca lcu latio n   i s   s ep ar ate  f o r   ca teg o r ical  an d   n u m er ical  d ata.   W h e n   clu s ter s   ar f in alize d   a f ter   u s i n g   E q u atio n   ( 1 ) ,   p r o p o s ed   tech n iq u co m b i n es t h clu s ter .       Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec   &   C o m p   E n g   I SS N:  2088 - 8708     A   N o ve l A p p r o a ch   fo r   C lu s teri n g   B ig   Da t a   b a s ed   o n   Ma p R e d u ce   ( Go u r a B a th la )   1717   5.   RE SU L T A ND  AN AL Y SI S   A   k e y   m o ti v atio n   f o r   th i s   ex p er im e n i s   to   p r o v e   th at  K p r o to ty p w o r k s   b etter   w it h   t h u s o f   h ad o o p   an d   Ma p r ed u ce .   T h is   s ec tio n   p r o v es   th a o n   b ig   d a ta,   p r o p o s ed   w o r k   g iv e s   ac cu r ate  r es u lts   f o r   clu s ter i n g .   T h i m p o r tan p ar am eter s   f o r   ch ec k in g   t h p er f o r m an ce   ar s ca leu p ,   s p ee d u p   a n d   C P u ti lizatio n .   E x p er i m e n ts   p r o v t h at  p r o p o s ed   alg o r ith m   s ati s f ies  th e s p ar a m eter s   w i th   cl u s ter   ac cu r ac y .   W h en   th is   p r o p o s ed   alg o r ith m   i s   d ep lo y e d   o n   m u l tip le  n o d es th e n   p er f o r m an ce   i m p r o v es i n   ter m s   o f   r esp o n s ti m e.   T h is   s ca leu p   i s   i m p r o v ed   b y   co m p ar in g   K 1   w it h   K m W h av u s ed   C h es s   d ataset   w h ich   h as  co m b in a tio n   o f   n u m er ical  as  w ell  a s   ca teg o r ical  attr ib u tes.  T h is   d at aset  i s   co m b in atio n   o f   ch e s s   p o s it io n s   as  s h o w n   i n     Fig u r 5 .       D a t a se t   S t a t i s t i c s   N u mb e r   o f   d a t a   o b j e c t s   2 8 0 5 6   N u me r i c a l   A t t r i b u t e s   6   C a t e g o r i c a l   A t t r i b u t e s   10                    Fig u r 5 .   C h es s   d ataset  s tatis t i cs       I n   o u r   e x p er i m e n t,  h ad o o p   1 . 2 . 1   u s i n g   VM W ar is   u s ed .   R esu lt s   s h o w   th a cl u s ter   ac cu r ac y   i s   v er y   g o o d   w h e n   o u r   p r o p o s ed   tech n iq u is   i m p le m en ted   o n   Ma p r ed u ce .   Usi n g   h ad o o p   p latf o r m ,   th i n p u d ata  is   p r o ce s s ed   o n   Ma p .   T h en   u s i n g   HD FS ,   Kp r o to ty p e   w o r k s   o n   s e m is tr u ct u r ed   an d   u n s tr u ctu r ed   d ata.   P ar t - 0 0 0 0 0   f ile  co n tain s   th f i n al  cl u s ter s   f r o m   b i g   d ata.     Ma p r ed u ce   p r o ce s s   th is   lib r ar y   as  f o llo w s   [ 1 6 ] ,   [ 1 7 ] :   I n p u -     T h is   lib r ar y   i s   d iv id ed   in to   s ev er al  d ata  b lo ck s   f o r   w o r k in g   o n   m ap   f u n ctio n .   a b s tr ac class es a r d ef i n ed   at  th is   s tep   o f   p r o ce s s in g .   Ke y - Val u p air -     I n   th i s   s tep   <k e y , v a lu e>   p air   i s   d ef i n ed   f o r   ea ch   k e y - v al u p air s .   Sh u f f le -       I n   th i s   s tep   all  i n p u t o f   < k e y , v alu e>   p air s   ar s o r ted .   R ed u ce -       I n   r ed u ce   s tep ,   <k e y , {l is t}>   p air s   ar tr av er s ed   to   <k e y , v a lu e> .   Ou tp u -     T h is   s tep   co m b in es t h o u tp u o f   d if f er en t c l u s ter s   an d   co m b i n es  f i n al  o u tp u t.            Fig u r 6 .   C o m p ar is o n   o f   Kp r o to t y p o n   1 ,   3   an d   5   clu s ter s       I n   Fi g u r 6 ,   it  is   elab o r ated   th at  Kp r o to t y p i s   d ep lo y ed   o n   s i n g le  n o d an d   m u l tip le   n o d es  to   an al y s t h d if f er en ce   i n   C P ti m e.   I i s   clea r   th at  w h e n   it  is   d ep lo y ed   o n   m u lt ip le  n o d es  u s i n g   in telli g en s p litt er   o f   o u r   p r o p o s ed   ap p r o ac h ,   C P ti m r ed u ce   s ig n i f ic an tl y .       S p ee d u p   is   also   u s ed   to   p r o v b etter   r esu lts   f r o m   o u r   p r o p o s e d   ap p r o ac h     Sp ee d u p                           ( 2 )     Evaluation Warning : The document was created with Spire.PDF for Python.
      I SS N :   2088 - 8708   I n t J   E lec   &   C o m p   E n g ,   Vo l.  8 ,   No .   3 J u n e   201 8   :   1 7 1 1     1719   1718   w h er T 1   is   s p ee d   o n   s in g le  n o d an d   T m   is   s p ee d   o n   m   n o d es.               Fig u r 7 .   Kp r o to ty p s p ee d u p   o n   m u ltip le  n o d es       Fro m   Fi g u r 7 ,   it  is   clea r   t h at  w h e n   t h is   p r o p o s ed   tech n iq u is   d ep lo y ed   o n   m u ltip le  n o d es ,   s p ee d u p   is   g ai n ed   w it h   th i n cr ea s o f   n u m b er   o f   n o d es.  E x p er i m e n t s   p r o v th at  lin ea r   s p ee d u p   is   n o g ai n ed   as  s o m C P ti m i s   co n s u m ed   in   d ata   tr an s f er   an d   f i n al  r es u lt a f ter   m er g i n g   o f   d ata  f r o m   d i f f er en t   n o d es .       6.   CO NCLU SI O N   C lu s ter i n g   i s   u s ed   in   o u r   w o r k   to   p r o ce s s   b ig   d ata  e f f icien tl y .   D if f er en t y p es  o f   clu s ter i n g   alg o r ith m s   ar ex p lai n ed   in   t h is   p ap er .   K m ea n s   w h ic h   i s   p ar titi o n in g   b ased   al g o r ith m   i s   elab o r ated   in   th i s   p ap er .   Km ea n s   ca n   w o r k   f o r   n u m er ical  d ata  b u it  ca n   n o w o r k   w ell  f o r   ca teg o r ical   d ata.   B ig   d ata  is   co m b i n atio n   o f   d if f er en v ar i ties   o f   d ata  lik n u m er ical  a n d   ca teg o r ical.   Kp r o to ty p is   u s ed   in   o u r   w o r k   w h ic h   ca n   an al y s n u m er ical   as  w ell  as  ca te g o r ical  d ata.   Kp r o to ty p is   d ep lo y ed   o n   b ig   d ata  b y   u s i n g   Ma p r ed u ce .   C P ex ec u tio n   ti m an d   s p ee d u p   ar i m p r o v ed   s ig n i f ica n tl y   w h ich   is   al s o   p r o v ed   in   e x p er i m e n t   s ec tio n .   W h av p r o p o s ed   in tellig e n s p lit ter   w h ic h   ch ec k s   th v ar iet y   o f   d ata,   s p lits   it  i n to   n u m er ical  a n d   ca teg o r ical  an d   d ep lo y   t h d ata  to   its   co r r ec t   m ap   an d   r ed u ce .   Usi n g   h ad o o p   an d   M ap r ed u ce ,   b ig   d ata  v elo cit y ,   v ar iet y   -   s tr u ct u r ed ,   u n s tr u ct u r ed   an d   s e m s tr u ct u r ed ,   an d   v o lu m   h u g q u an tit y   o f   d ata,   ar e   m an a g ed   an d   p r o ce s s ed   v er y   ef f ec ti v el y .   I n   f u t u r w o r k ,   m o r d is ta n ce   m ea s u r e s   ca n   b u s ed   th at  ca n   b co m p ar ed   w it h   th i s   p r o p o s ed   t ec h n iq u e   o f   ca te g o r ical  d ata  clu s ter i n g .       RE F E R E NC E S   [1 ]   A .   F a h a d ,   N.  A lsh a tri ,   Z.   T a ri,   A .   A l a m ri,   I.   Kh a li l,   A . Y.  Zo m a y a ,   S .   F o u f o u   a n d   A .   Bo u ra s,  S u rv e y   o   Clu ste rin g   A lg o rit h m s   f o Big   D a ta:  Tax o n o m y   a n d     Em p iri c a An a ly sis ,   IEE T ra n sa c ti o n o n   Eme rg in g   t o p ics   in   Co m p u t in g ,   v o l.   2   n o .   3,   p p .   2 6 7 - 2 7 9 ,   2 0 1 4 .   [2 ]   M .   Ha jKa c e m ,   C.   Be n   N’  c ir   a n d   N.  Esso u ss i,   M a p Red u c e - b a se d   K - Pro to typ e Clu ste rin g   M e th o d   fo Bi g   Da ta ,   In   P r o c e e d in g s o f   In tern a ti o n a C o n f e re n c e   o n   DSA A ,   IE EE ,   p p .   1 - 7,   2 0 1 5 .   [3 ]   X .   W u ,   V .   K u m a r,   J.  Ro ss   Qu i n i a n ,   J.  G h o s h ,   Q.   Ya n g ,   H.   M o to d a ,   G . J.  M c L a c h lan ,   A .   Ng .   B.   L iu ,   P . S .   Yu ,   Z.  Zh o u ,   M .   S tein b a c h ,   D.J.  Ha n d   a n d   D.   S tei n b e rg ,   T o p   1 0   a lg o r it h m in   d a ta  m in in g ,   Kn o wled g e   a n d   I n f o rm a ti o n   S y ste ms ,   v o l.   1 4 ,   no.   1 ,   p p .   1 - 3 7 ,   2 0 0 7 .   [4 ]   W .   Zh a o ,   H.  M a   a n d   Q.  He ,   P a ra ll e K - M e a n Cl u ste rin g   Ba se d   o n   M a p Re d u c e ,   in   Cl o u d   C o m   L NCS  5 9 3 1 ,     p p .   6 7 4 - 6 7 9 ,   2 0 0 9 .   [5 ]   J.  He e a n d   S .   Ka n d e l,   I n tera c ti v e   a n a ly sis o f   b ig   d a ta” ,   XR DS   AC M ,   v o l.   1 9   n o .   1 ,   p p .   5 0 - 5 4 ,   2 0 1 2 .   [6 ]   K.  S h im ,   M a p Re d u c e   A lg o rit h m f o Big   Da ta  A n a l y sis” ,   Da ta b a se in   Ne two rk e d   I n fo rm a ti o n   S y ste ms ,   L NCS ,   v o l.   7 8 1 3 ,   p p .   4 4 - 4 8 ,   2 0 1 3 .   [7 ]   X .   Cu i,   P .   Z h u ,   X.  Ya n g ,   K.  L a n d   C.   Ji,  Op ti m ize d   b ig   d a ta  K - m e a n c lu ste rin g   u sin g   M a p Re d u c e ,   J o u rn a o f   S u p e rc o m p u ti n g   S p rin g e r v o l.   7 0   n o .   3 ,   p p .   1 2 4 9 - 1 2 5 9 ,   2 0 1 4 .   [8 ]   M .   Ha jKa c e m ,   C.   N’c ir  a n d   N.  Esso u ss i,   P a ra ll e K - P r o to ty p e f o Clu ste rin g   Big   Da ta” ,   ICCCI  L NCS   9 3 3 0   p p .   6 2 8 - 6 3 7 ,   2 0 1 5 .   [9 ]   A .   A h m a d   a n d   L .   D e y ,   k - m e a n   c lu ste rin g   a lg o rit h m   f o m i x e d   n u m e ric  a n d   c a te g o rica d a ta” ,   J o u rn a o d a ta   a n d   k n o w led g e   e n g i n e e rin g   ACM ,   v o l.   6 3   n o .   2 ,   p p .   5 0 3 - 5 2 7 ,   2 0 0 7 .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J   E lec   &   C o m p   E n g   I SS N:  2088 - 8708     A   N o ve l A p p r o a ch   fo r   C lu s teri n g   B ig   Da t a   b a s ed   o n   Ma p R e d u ce   ( Go u r a B a th la )   1719   [1 0 ]   Hu a n g ,   Clu ste rin g   larg e   d a tas e ts  w it h   m ix e d   n u m e ric  a n d   c a teg o rica v a lu e s” ,   in   Pro c e e d in g o c o n fer e n c e   o n   Kn o wled g e   d isc o v e ry   a n d   d a ta   mi n in g ,   p p .   2 1 - 3 4 ,   1 9 9 7 .   [1 1 ]   J.  Ji,  T .   B a i,   C.   Zh o u ,   C.   M a   a n d   Z.   W a n g ,   A n   i m p ro v e d   k - p ro to t y p e s   c lu ste rin g   a l g o rit h m   f o m i x e d   n u m e ric  a n d   c a teg o rica d a ta” ,   Ne u ro c o mp u ti n g   El se v ier ,   v o l.   1 2 0 ,   p p .   5 9 0 - 5 9 6 ,   2 0 1 3 .     [1 2 ]   J.  De a n   a n d   S .   G h e m a wa t,   M a p Re d u c e S im p li f ied   Da ta  P r o c e ss in g   o n   L a r g e   Clu ste rs” ,   Co mm u n ica ti o n o f   th e   ACM ,   v o l.   5 1 ,   n o . 1 ,   p p .   1 0 7 - 1 1 3 ,   2 0 0 8 .   [1 3 ]   R.   X u   a n d   D.  W u n sc h ,   S u rv e y   o f   Clu ste rin g   A lg o rit h m ,   IEE T ra n sa c ti o n o n   Ne u ra Ne tw o rk s v o l.   1 6 ,   n o .   3 ,   2 0 1 5 .   [1 4 ]   Z.   Hu a n g ,   f a st  c lu ste rin g   a lg o rit h m   to   c lu ste v e r y   l a rg e   c a te g o rica d a tas e ts  in   d a ta  m in in g ,   Res e a rc h   issu e s o n   d a t a   min in g   k n o w led g e   d isc o v e ry ,   p p .   1 - 8 ,   1 9 9 8 .   [1 5 ]   K.R .   Nirm a a n d   K. V . V   S a ty a n a ra y a n a ,   Iss u e o f   M e a n c lu ste in g   w h il e   m i g ra ti n g   to   M a p   R e d u c e   p a ra d ig m   w it h   Big   Da ta:  A   S u rv e y ,   IJ ECE ,   v o l.   6   n o .   6 ,   p p .   3 0 4 7 - 3 0 5 1 ,   2 0 1 6 .   [1 6 ]   X .   Ya n ,   Z .   W a n g ,   D.  Ze n g ,   C.   Hu   a n d   H.   Ya o ,   De sig n   a n d   a n a ly sis  o f   p a ra ll e M a p Re d u c e   b a se d   k n n - jo i n   a lg o rit h m   f o Big   Da ta Cl a s sif i c a t io n ,   IJ EE C S ,   v o l.   1 2   n o .   1 1   ,   p p .   7 9 27 - 7 9 3 4 ,   2 0 1 4 .   [1 7 ]   S . A . T h a n e k a r,   K.  S u b ra h m a n y a m   a n d   A . Ba g w a n ,   stu d y   o n   M a p Re d u c e Ch a ll e n g e a n d   Tren d s” ,   IJ EE CS ,   v o l.   4   n o .   1 ,   p p .   1 7 6 - 1 8 3 ,   2 0 1 6 .       B I O G RAP H I E S   O F   AUTH O R S       M r .   G o u r a v   B a th la   is  P h stu d e n in   De p a rtm e n o f   Co m p u ter  En g in e e rin g ,   P u n jab Un iv e rsity ,   P a ti a la.  He   h a 1 0   y e a rs  o f   t e a c h in g   a n d   re se a rc h   e x p e rien c e . He   h a p u b li sh e d   p a p e rs  i n   in tern a ti o n a c o n f e re n c e a n d   jo u rn a ls.   His  a re a   o f   in tere st  is  Big   Da ta,  Da ta  m in in g ,   P r o g ra m m in g   lan g u a g e s.  He   is  m e m b e o f   IEE E   c lo u d   c o m p u ti n g ,   CS a n d   IS T E.         Dr .   H i m a n s h u   Ag g a r w a l,   Ph . D . ,   is  c u rre n tl y   se r v in g   a s   P ro f e ss o in   De p a rtm e n o f   Co m p u ter  En g in e e rin g   a P u n jab i   Un iv e rsity ,   P a ti a la.  He   h a m o re   th a n   2 2   y e a rs  o f   tea c h in g   e x p e rien c e   a n d   se rv e d   a c a d e m ic   in stit u ti o n su c h   a T h a p a In stit u te  o f   En g in e e ri n g   &   T e c h n o lo g y ,   P a ti a la,  G u ru   Na n a k   De v   En g in e e rin g   Co ll e g e ,   L u d h ian a   a n d   T e c h n ica T e a c h e r’s  T ra in in g   In stit u te,   Ch a n d ig a rh .   He   is  a n   a c ti v e   re se a rc h e r   w h o   h a su p e rv ise d   m o re   th a n   3 0   M . T e c h .   Diss e rtatio n s   a n d   c o n tri b u ted   8 0   a rt icle in   v a rio u Re se a rc h   Jo u r n a ls.   He   is  g u id in g   P h t o   8   sc h o lars   a n d   F iv e   h a c o m p lete d   h is  P h D.  He   is  o n   t h e   Ed it o rial  Bo a rd   o f   9   Jo u rn a ls  a n d   Re v iew   Bo a rd o f   5   Jo u rn a ls   o f   re p u te.  His  a re a s   o f   in tere st  a re   S o f t w a re   En g in e e rin g ,   Co m p u ter  Ne tw o rk s,  In f o rm a ti o n   S y ste m s,  ERP   a n d   P a ra ll e C o m p u ti n g .   Him a n sh u   Ag g a r wa c a n   b e   c o n tac ted   a t :   h im a n sh u . p u p @g m a il . c o m         Dr .   Rin k le   Ra n i   is   w o rk in g   a A ss istan P ro f e ss o in   Co m p u ter  S c ien c e   a n d   En g in e e rin g   D e p a rtme n t,   T h a p a Un iv e rsit y ,   P a ti a la  sin c e   2 0 0 0 .   S h e   h a d o n e   h e P o st  g ra d u a ti o n   f ro m   BI T S ,   P i lan a n d   P h . D.  f ro m   P u n jab U n iv e rsit y ,   P a ti a la  in   t h e   a re a   o f   Co m p u ter  Ne t w o rk s.  S h e   h a m o re   th a n   1 8   y e a r o f   tea c h in g   e x p e rie n c e .   S h e   h a su p e rv ise d   3 4   M . T e c h .   Diss e rtatio n s   a n d   c o n tri b u te d   5 0   a rti c les   in   Co n f e re n c e a n d   4 1   p a p e rs  in   Re se a rc h   Jo u rn a ls.   He r   a re a s   o f   in tere st  a re   Co m p u ter   Ne tw o rk a n d   Big   d a ta  m in in g   a n d   P r o c e ss in g .   S h e   is  m e m b e r   o f   p ro f e ss io n a b o d ies A CM ,   IEE E,   IS T a n d   CS I.   S h e   m a y   b e   c o n tac ted   a ra g g a rwa l@th a p a r. e d u .     Evaluation Warning : The document was created with Spire.PDF for Python.