I nte rna t io na l J o urna l o f   Adv a nces in Applie d Science s   ( I J AAS)   Vo l.   4 ,   No .   4 Dec em b er   201 5 ,   p p .   130 ~ 134   I SS N:  2252 - 8814          130       J o ur na l ho m ep a g e h ttp : //ia e s jo u r n a l.c o m/o n lin e/in d ex . p h p /I J AAS   Ev a lua tion o h -   a nd g - indic es o Sc ientif ic  Au thors  u sing   M o dified  K - M ea ns Cluste ring  Alg o rith m       S.  G o v ind a   Ra o * ,   A.   G o v a rd ha n **     D e p a rt m e n o f   CS E,   G o k a ra ju   Ra n g a ra ju   In stit u te  o f   En g in e e rin g   &   T e c h n o lo g y ,   In d ia   * *   S c h o o o f   In f o rm a ti o n   T e c h n o lo g y ,   JN T U H y d e r a b a d ,   In d ia       Art icle  I nfo     AB ST RAC T     A r ticle  his to r y:   R ec eiv ed   Sep   1 5 ,   2 0 1 5   R ev i s ed   No v   1 6 ,   2 0 1 5   A cc ep ted   No v   2 5 ,   2 0 1 5       In   th is  p a p e w e   p ro p o se d   m o d if ied   K - m e a n a lg o rit h m   to   a ss e s s   sc ien ti f ic   a u th o rs   p e rf o rm a n c e   b y   u sin g   th e ir  h , g - in d ice v a lu e s.  K - m e a n su ff e rs  f ro m   p o o c o m p u tatio n a sc a li n g   a n d   e ff icie n c y   a th e   n u m b e o c lu ste rs  h a to   b e   su p p l ied   b y   th e   u se r.   He n c e ,   i n   th is  w o rk ,   w e   in tro d u c e   a   m o d if ic a ti o n   o f   K - m e a n a lg o rit h m   th a e ff icie n tl y   se a r c h e th e   d a ta  to   c lu ste p o i n ts  b y   c o m p u te  th e   su m   o f   sq u a re w it h in   e a c h   c lu ste w h ich   m a k e th e   p ro g ra m   to   se lec th e   m o st  p ro m isin g   su b se o f   c las se f o c lu ste rin g .   T h e   p ro p o se d   a lg o rit h m   wa tes ted   o n   IRIS   a n d   ZOO  d a ta  se ts  a w e ll   a o n   o u l o c a l   d a tas e c o m p risin g   o f   h -   a n d   g - in d ice s,  w h ich   a re   th e   p ro m in e n m a rk e rs  f o r   sc ien ti f ic  e x c e ll e n c e   o f   a u th o rs  p u b li sh i n g   p a p e rs  in   v a rio u n a ti o n a a n d   in tern a ti o n a j o u r n a ls.   Re su lt s f ro m   a n a l y sis re v e a th a th e   m o d if ie d   k - m e a n s   a lg o rit h m   is  m u c h   f a st e a n d   o u tp e rf o rm th e   c o n v e n ti o n a a lg o rit h m   in   term s o f   c lu ste rin g   p e rf o r m a n c e ,   m e a su re d   b y   th e   d a ta d isc re p a n c y   f a c to r.   K ey w o r d :   g - in d e x   h - in d e x   M o d if ied   k - m ea n s   cl u s ter in g     Co p y rig h ©   201 5   In s t it u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts  re se rv e d .   C o r r e s p o nd ing   A uth o r :   Dh ee p th i M   Dep ar t m en t o f   C SE ,   Go k ar aj u   R an g ar aj u   I n s ti t u te  o f   E n g in ee r i n g   &   T ec h n o lo g y ,   I n d ia.   E m ail:  g o v i n d s a m p a th ir ao @ g m ail. co m       1.     I NT RO D UCT I O N   T h ex is te n ce   o f   j o u r n als  to   p u b lis h   s cie n ti f ic  r esear c h   o r   r ev ie w s   o n   s p ec if ied   to p ic  h as  b ee n   i n   p lace   s in ce   m a n y   y ea r s ,   w h ic h   r aised   t h alar m   to   b u ild   d atab ases   to   d is s e m i n ate  li ter atu r in f o r m a tio n   t o   ev er y o n [ 1 ] .   T h n u m b er   o f   p ap er s   p u b lis h ed   in   j o u r n als  t h at  h a v b ee n   i n cr ea s ed   f r o m   m an y   y ea r s   an d   t h at   ca n   b af f iliated   o n   ac co u n o f   th eir   citatio n s   b y   s cien tis t s   w o r ld w id e.   T h c o n s tan an d   in cr ea s ed   v o lu m o f   s cien t if ic   liter at u r an d   t h e   ass o r t m e n t   o f   i n ter - d is cip li n ar y   f ield s   o f   s cie n ce   h a v e   cr ea ted   w ea lt h   o f   k n o w led g u s e f u to   m a n y   s c ien ti s ts   [ 2 ] - [ 3 ]   w h ic h   i n te n d   t o   s o lv m a n y   p r o b le m s .   At  t h s a m e   ti m e,   t h e   s cien t if ic  f ield   h a s   also   s ee n   g r ad u al  in cr ea s i n   th n u m b er   o f   o p en   ac ce s s   j o u r n als  t h at  p u b lis h   s p ec i f ic  s tr ea m s   o f   s t u d y   [ 4 ] - [ 5 ] .   T h b est  p o s s ib le  w a y   to   ev a lu ate   an y   j o u r n al   is   to   f o llo w   t h n u m b er   o f   citatio n s   w it h   r esp ec to   t h e   n u m b er   o f   p ap er s   p u b lis h ed   i n   a   y ea r ,   w h ic h   i s   r e f er r ed   as  I m p ac t   F ac to r   [ 6 ] .   Si m ilar l y ,   co n s id er in g   t h i m p o r tan ce   o f   au th o r s h ip   o f   an y   w o r k   b ein g   c ited   b y   o t h er   w o r k s ,   h - i n d ex   h as   b ee n   in tr o d u ce d   b y   Hir s c h   [ 7 ] ,   [ 1 6 ] .   T h is   h - in d e x   e v alu ate s   t h s co r g en er ated   f r o m   th p ap er s   p u b lis h ed   b y   t h e   s p ec if ic  au th o r   as  w ell  as  t h e   n u m b er   o f   p ap er s   p u b lis h ed   s in ce   t h f ir s p u b licatio n   [ 8 ] .   Ho w ev er ,   h - i n d ex   d o es  n o co n s id er   t h s p ec if ic   f ie ld   o f   w o r k ,   f o r   i n s ta n ce ,   a n   a u t h o r   m ig h t   p u b lis h   p ap er s   o n   tex t   m i n in g ,   co m p u ter   ar ch itect u r e‟ ,   n et wo r k in g   m et h o d s   etc.   I n   s u c h   ca s e,   h - i n d ex   i s   g i v e n   f o r   all  p ap er s   p u b lis h ed   b y   th au t h o r   b u n o r elate d   to   s p ec if ic  f ield   [ 9 ] .   T h e   h   i n d ex   is   m o s tl y   u s ed   to   m ea s u r th s cien tific   ac h iev e m e n f o r   in d i v id u al  r esear ch er s ,   an d   al s o   to   m ea s u r t h s cie n ti f ic  o u tp u o f   r esear ch   g r o u p s .   Ho w e v er ,   in   o r d er   to   g iv m o r w ei g h t to   h i g h l y   cited   ar ticle s .   L eo   E g g h s a y s   th g - i n d ex   [ 10 ].     K - m ea n s   clu s ter i n g   i s   an   ite r ativ clu s ter in g   p r o ce d u r an d   it  w o r k s   as  g r ee d y   al g o r ith m   f o r   p ar titi o n in g   t h n   s a m p le s   i n t o   k   clu s ter s   a n d   p r ed ef in es  t h n u m b er   o f   clu s ter s .   T h a lg o r ith m   b eg in s   b y   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ AA S   I SS N:  2252 - 8814       E va lu a tio n   o f h -   a n d   g - in d ices o f S cien tifi A u th o r s   u s in g   Mo d ified   K - Mea n s   C lu s teri n g   ( S .   Go vin d a   R a o )   131   d ef in i n g   ce n tr o id s ,   w h ic h   ar p o in ts   i n   t h d ataset   th a ev e n t u all y   ap p ea r   at  th ce n ter   o f   e ac h   cl u s ter .   A   v er y   co m m o n   tas k   i n   d ata  an al y s is   is   th a o f   g r o u p in g   s e o f   o b j ec ts   in to   s u b s ets  s u c h   t h at  all   ele m e n ts   w i th in   a   g r o u p   ar m o r e   s i m ilar   a m o n g   t h e m   t h a n   t h e y   ar to   t h e   o th er s .   K - m ea n s   s u f f er s   f r o m   p o o r   co m p u tatio n al   s ca lin g   a n d   ef f icien c y   as  t h e   n u m b er   o f   clu s ter s   h as  to   b s u p p lied   b y   t h u s er .   T h er ef o r e,   th p r i m ar y   o b j ec tiv o f   th is   s t u d y   i s   to   ca lcu late  h -   an d   g - i n d ices  o f   au th o r s   a n d   clu s ter   th e m   u s i n g   m o d i f ied   K - m ea n s   alg o r ith m   a n d   co m p ar th e f f icie n c y   w it h   co n v en t io n al  k - m ea n s   cl u s ter i n g   alg o r it h m   [ 1 0 ] .   Hen ce ,   i n   th is   p ap er ,   w e   i n tr o d u ce   m o d i f i ca tio n   o f   K - m ea n s   al g o r ith m   th at  e f f icie n tl y   s ea r c h es   d ata  to   clu s ter   p o in ts   b y   co m p u te  t h s u m   o f   s q u ar es   w it h i n   ea c h   cl u s ter ,   w h ic h   m ak es  th e   p r o g r a m   to   s elec th m o s t   p r o m is i n g   s u b s et  o f   class e s   f o r   cl u s ter i n g .   T h h -   a n d   g -   in d ice s   o f   f e w   a u th o r s   w h o   h a v p u b lis h ed   s c i en ti f ic  p ap er s   o f   e x ce lle n ce   i n   th e   f ield s   o f   co m p u ter   s cie n ce   [ 1 1 ]   ar e   s eg r eg ated .   I n   o r d er   to   co lle ct  an d   ca lcu l ate  m an u all y ,   r eliab le  to o f r o m   Go o g le  Sch o lar   [ 1 2 ]   w as  u s ed   to   p er f o r m   th tas k .   Go o g le  C h r o m h as  d ev e lo p ed   an   in tu i tiv H - i n d ex   ca lcu lato r   ad d - o n   to   C h r o m b r o w s er .       2 .     M AT E RIAL S AN M E T H O DS   2 . 1 .     h -   a nd   g - ind ices    T h h -   a n d   g -   in d ice s   o f   f e w   a u th o r s   w h o   h a v p u b lis h ed   s c i en ti f ic  p ap er s   o f   e x ce lle n ce   i n   th e   f ield s   o f   co m p u ter   s cie n ce   ar e   s e g r eg ated .   I n   o r d er   to   co llect  a n d   ca lc u late  m a n u al l y ,   w h ich   is   a   m o r ted io u s   p r o ce s s   th a n   e x p ec ted a   m o r r eliab le  to o f r o m   Go o g le   C h r o m w as   u s ed   to   p er f o r m   t h e   tas k .   Go o g le  C h r o m h as d e v elo p ed   an   in t u itiv H - i n d ex   ca lc u lato r   ad d - on .             Fig u r 1 .   I n d ex   v a l u es c o m p u t ed   b y   th ca lc u lato r       B o th   th h -   a n d   g - i n d ices  ar e   co n s eq u e n ce   to   s o m s co p b y   th e   n u m b er   o f   p ap er s   p u b l is h ed   i n   a   j o u r n al.   A   j o u r n al  th at  p u b li s h es  lar g er   n u m b er   o f   p ap er s   h as  h ig h er   p o s s ib ilit y   to   m ak e   h ig h er   h -   a n d   g - in d ices   s i n ce   e v er y   ar ticle  p r e s en t s   a n o th er   c h a n ce   f o r   citati o n s   [ 1 6 ] .   T h v al u f o r   t h i n d ices d ep en d s   o n   t h e   r an g o f   p ap er s   b ein g   e x a m i n ed ,   an d   h o w   co m p r eh e n s iv e l y   t h citatio n s   f o r   ea ch   h a v e   b ee n   in d ex ed .   T h m ai n   in te n s it y   o f   th h - in d e x   i s   th at  it  m ea s u r es  q u a n ti t y   a n d   im p ac b y   t h m ea n s   o f   s i n g le  in d icato r .   E g g h [ 1 3 ] [ 1 6 ]   s ay s   g - in d e x   is   t h e   h i g h er   r an k ,   s u ch   t h at  t h to p   g   p ap er s   h av e   at  lea s g 2   citat io n s .   I al s o   m ea n s ,     th at  t h to p   g   1   h av les s   th a n   ( g   1 ) 2   p ap er s ”.   T h g - in d e x   is   al w a y s   g r ea ter   th a n   o r   eq u al    to   h - i n d ex .   Da t a   s et s :     I r is   is   s e o f   to tal  1 5 0   d ata,   ea ch   h a v i n g   f o u r   attr ib u tes,  s u c h   a s   s ep tal   len g t h   a n d   b r ea d th   a n d   p ed al‟   le n g t h   an d   b r ea d th   [ 1 4 ] .   T h d ataset  is   d iv id ed   in to   th r ee   class   lab els  ( e. g . ,   ir is   s et o s a;  ir is   v er s ico lo r ;   an d   ir is   v er g i n ica)   ea ch   h av in g   eq u al  d ata  d is tr ib u tio n s ,   i.e . ,   f ir s 5 0   b elo n g s   to   ir is   s eto s a ,   n ex 5 0   ar ir is   ve r s ico lo r ,   an d   t h r e m ai n i n g   5 0   d ata  b elo n g   to   ir is   ve r g in ica ).     2 . 2 .     P a ra m et er s   t o   M e a s ure  t he  Clus t er ing   P er f o r m a nce   Da t a   dis cr epa ncy   f a ct o ( DDF ) :   Data   d is cr ep an cy   i s   m ea s u r ed   b y   n o ti n g   th p o s itio n al  d is cr ep an cies  a m o n g   t h d ata  p o in ts   d u r in g   cl u s ter i n g .   I is   co m p u ted   b y   ad d in g   t h n u m b er   o f   ( i)   w r o n g   d ata  p o in ts   g r o u p ed   in s id ( W I ) ,   ( ii)  th co r r ec t‟   d ata  p o in ts   l y i n g   o u ts id ( W O)   o f   an y   k th   c l u s ter   an d   ( iii)   n u m b er   o f   d ata  p o in ts ,   w h i ch   co u ld   n o b clu s ter ed   i . e.   th o u tlier s   ( O L )   w h en   m atc h ed   w ith   t h e   r ep r esen tativ d ata  ( C k ) .   Fi n all y ,   it  is   ex p r ess ed   as  p er ce n tag o f   t h to tal  n u m b er   o f   d ata  p o in ts   ( N) .   I d ea lly ,   t h DDF  m u s b 0 %,  i.e .   a ll  th d ata  p o in ts   ar clu s ter ed   as  it  s h o u ld   b an d   th er is   n il  o u t lier .   I ts   s ig n i f ica n ce   is   to   e v al u ate  th u n d er   a n d   o v er   f itt in g   o f   t h d ata.   A n   e x a m p le  o f   D DF c o m p u tat io n   i s   g i v e n   in :       Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8814   IJ AA S    Vo l.   4 ,   No .   4 Dec em b er   201 5   :   1 3 0     1 3 4   132   Co m pu t a t io na T i m e:   T h co m p u tatio n al  ti m e,   th a i s ,   an   a v e r ag e   u s er   ti m v al u es   o f   o r ig i n al   v er s u s   m o d i f ied   K - Me a n s   alg o r ith m   h a v b ee n   co m p ar ed   w h ile  ca r r y i n g   o u cl u s ter i n g   o f   th th r ee   d ataset s   u s ed   in   t h s t u d y   i n   C o r i3 ,   6 4 - b it o p er atin g   s y s te m   w it h   4 GB   R A a n d   2 . 2   GHz   p r o ce s s o r .       3 .     RE SU L T S AN D I SCU SS I O N   K - m ea n s   s u f f er s   f r o m   d r a w b a ck   o n   t h n u m b er   o f   cl u s ter s   k   as  an   i n p u p ar a m eter .   T h is   is   b ec au s e   o f   an   in ap p r o p r iate  ch o ice  o f   k   w h ic h   m i g h y ield   s p u r io u s   r esu lt s .   He n ce ,   it  i s   al w a y s   a n   i m p o r tan t   tas k   to   r u n   d ia g n o s tic  c h ec k s   w h e n   u s in g   k - m ea n s   cl u s t er i n g   to   r es o lv t h n u m b er   o f   cl u s ter s   i n   th g i v en   d ataset.   Mo r eo v er ,   ap p ly i n g   k - m ea n s   v alu e   w it h   v al u es   r an g i n g   f r o m   k =2 ,   3 ,   4   o r   5   d ep en d s   o n   t h n u m b er   o f   o b j ec ts   in   th d ataset  a n d   to   av o id   ex p ec ted   clu s ter s   o f   s i m ilar   s ize ,   s o   th at  th ass ig n m en o f   o b j ec ts   to   th n ea r est   clu s ter   ce n ter   o r   ce n tr o id   w ill  r esu lt i n   co r r ec t c lu s ter s .     Alg o rit h m :   K - M ea ns   1.   I n itializatio n : c h o o s k   in itial  ce n tr o id s   ar b itra r il y   ( o r   r an d o m l y ) .   2.   Ass i g n   ea ch   d ata  p o in t to   th c en tr o id   th at  is   clo s er   to   it.   3.   C o m p u te  th d is ta n ce   b et w ee n   th ce n tr o id s   an d   o b j ec ts   u s i n g   th E u clid ea n   D is ta n ce   eq u a tio n     4.   Up d ate  all  th ce n tr o id s   an d   t h n e w   ce n tr o id   o f   clu s ter   is   th m ea n   o f   all   th e   p o in ts   w it h in   th a t   clu s ter .   5.   R ep ea t p o in ts   2   an d   3   u n t il th e   n e w   ce n tr o id s   ar th s a m a s   th p r ev io u s   ce n tr o id s .   C lu s ter i n g   b y   k - m ea n s   alg o r it h m   w ill  r es u lt  i n   d if f er en r u n s   ea ch   ti m t h p r o g r a m   is   r u n .   T h o u g h   th d if f er en ce   i s   n e g li g ib le,   it   s h o u ld   b n o ted   th at  t h clu s ter   ass ig n m e n ts   c h an g s li g h tl y   f o r   ea ch   ti m t h alg o r ith m   i s   r u n .   T h is   is   b ec au s k - m ea n s   tr ie s   to   f in d   th lo ca ll y   o p ti m al  s o l u tio n ,   b u n o t   g lo b ally   o p ti m al  o n e.   Hen ce ,   th k - m ea n s   al g o r ith m   w as r u n   m o r n u m b er   o f   ti m e s   to   r ea lize  co n s is te n tl y   o p tim a l so lu tio n .     B u th p r o b le m   s ti ll  ex i s ts ,   t h at  is ,   h o w   to   ch o o s t h b est  s o lu tio n   a m o n g   t w o   cl u s ter i n g   s o lu tio n s ?   Hen ce ,   m o d if ied   k - m ea n s   al g o r ith m   w a s   p r ese n ted   w h er m etr ic  w as  u s ed   to   ca lc u late   th s u m   o f   s q u ar e s   w it h i n - cl u s ter   to   c h o o s t h b est  o n e.   T h s u m   o f   s q u ar es  w it h i n   t h c lu s ter   r ep r esen ts   th e   s u m   o f   al l   d is tan ce s   b et w ee n   ea c h   d ata  p o in t a n d   t h ce n tr o id   o f   its   c lu s ter .   T h s m aller   t h v al u e,   th m o r co m p ac t a n d   g o o d   is   t h c lu s ter .   T h er ef o r e,   f o r   g i v en   d ataset,   clu s ter s   w it h   th e   s m aller   s u m   o f   s q u ar es  w it h i n   a   cl u s ter   ar r eg ar d ed   as g en er all y   b ette r .   T h ti m r eq u ir ed   to   p er f o r m   b o th   th al g o r it h m s   ar r ep o r ted .   M o dified  K - M ea ns   Alg o rit h m :   1.   I n itializatio n : c h o o s k   in itial  ce n tr o id s   ar b itra r il y   ( o r   r an d o m l y ) .   2.   Ass i g n   ea ch   d ata  p o in t to   th c en tr o id   th at  is   clo s er   to   it.   3.   C o m p u te  th d is ta n ce   b et w ee n   th ce n tr o id s   an d   o b j ec ts   u s i n g   th E u clid ea n   D is ta n ce   eq u a tio n     4.   Up d ate  all  th ce n tr o id s   an d   t h n e w   ce n tr o id   o f   clu s ter   is   th m ea n   o f   all   th e   p o in ts   w it h in   th a t   clu s ter .   5.   C o m p u te  th s u m   o f   s q u ar es  w it h i n - cl u s ter   to   o b tain   d is tan ce   v al u b et w ee n   ea ch   d ata   p o in an d   th ce n tr o id   o f   its   clu s ter .   6.   R ep ea k - m ea n s   clu s ter in g   n   ti m es  ( n =5 )   an d   r etu r n   t h clu s ter i n g   w it h   th s m allest  s u m   o f   s q u ar es  w it h i n - clu s ter .   7.   Up d ate  th ce n tr o id s .   8.   Sto p   th p r o ce s s   w h e n   n e w   ce n tr o id s   ar s a m as t h p r ev io u s   ce n tr o id s .   Oth er w i s e,   g o   to   s tep   3 .     3 . 1 .     Clus t er ing   P er f o r m a nce   o n I RIS   D a t a s et   Da t a   dis cr epa ncy   f a ct o ( D DF ) :   An   atte m p w a s   m ad t o   test   t h p er f o r m a n ce   o f   m o d if ied   K - m ea n s   al g o r ith m ,   w h ile  ca r r y i n g   o u clu s ter i n g   o n   I R I [ 1 0 ]   an d   h - in d e x   an d   g   in d e x es.  B o th   I R I as  w el as   h   an d   g   i n d ices  d ataset s   is   id ea ll y   cl u s ter ed   i n to   th e ir   r esp ec tiv g r o u p s .   T h r esu l ts   ar g i v en   in   T ab le  1   an d   2.     T ab le  1 .   DDF  ca lcu latio n   o n   I R I S d ataset  u s i n g   k - m ea n s   alg o r ith m     C l u st e r   D a t a     P o i n t s   T a r g e t   O b se r v e d   #   W r o n g   d a t a   p o i n t s   OL   P r o p o se d     D D F   ( %)   C o n v e n t i o n a l     D D F   ( %)   1   1 - 50   50   61   14   0   {1 4 + 0 + 3 + 1 / 1 5 0 }* 1 0 0 = 1 2 %   1 1 + 1 + 1 1 + 1 / 1 5 0 } * 1 0 0 = 1 6 %   2   51 - 1 0 0   50   49   0   1   3   1 0 1 - 150   50   39   3   0     T ab le  2 .   DDF  ca lcu latio n   o n   I R I S d ataset  u s i n g   k - m ea n s   m o d if ied   alg o r ith m     C l u st e r   D a t a     P o i n t s   T a r g et   O b se r v e d   #   W r o n g   d a t a   p o i n t s   OL   P r o p o se d     D D F   ( %)   C o n v e n t i o n a l     D D F   ( %)   1   1 - 50   50   49   0   1   {0 + 1 4 + 2 + 1 / 1 5 0 }* 1 0 0 = 1 1 . 3 3 %   1 + 1 2 + 1 2 + 1 / 1 5 0 }* 1 0 0 = 1 7 . 3 3 %   2   51 - 1 0 0   50   62   14   0   3   1 0 1 - 150   50   38   2   0   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ AA S   I SS N:  2252 - 8814       E va lu a tio n   o f h -   a n d   g - in d ices o f S cien tifi A u th o r s   u s in g   Mo d ified   K - Mea n s   C lu s teri n g   ( S .   Go vin d a   R a o )   133   On o f   t h cl u s ter   q u a lit y   m ea s u r es  is   t h DDF  co m p u tat io n .   I is   ca lc u lated   u s i n g   a n   eq u at io n   g iv e n   ab o v e.   DDF  is   th m o s i m p o r tan m ea s u r a m o n g   all  o th er   m ea s u r es  to   j u d g th p er f o r m an ce   o f   an y   clu s ter i n g   tec h n iq u e.   C o n v e n t io n all y ,   g o o d   clu s ter in g   i s   as s ess ed   b y   co u n ti n g   to tal  n u m b er   o f   d ata  p o in ts   w it h i n   cl u s ter .   I f   th n u m b er   eq u als  to   th n u m b er   o f   d es ir ed   d ata  p o in ts   an d   th cl u s ter   is   s aid   to   b p er f ec t   [ 1 5 ] .   T h g o o d n ess   o f   th clu s ter i n g   tec h n iq u es  m u s n o b j u d g ed   b ased   o n   o n l y   th d ata  co u n in s id a   clu s ter ,   r at h er   t h e   g o o d n es s   o f   a   clu s ter   m u s t   b te s ted   b y   s u m m i n g   u p   t h d ata   p o in ts   wh ich   ar ( i)   p r ese n t   w it h i n   clu s ter   w h er it  s h o u ld   n o b an d   v ice  v er s an d   ( ii)  n o clu s ter ed   i.e .   o u tlier s   ( OL ) .     Fro m   T ab le   an d   4 ,   it  is   ev id e n ce d   th at  m o d if ied   k - m ea n s   alg o r it h m   p r esen ted   i n   th is   p ap er   p er f o r m e d   w ell  t h a n   n o r m a l   alg o r ith m .     3 . 2 .     Co m pu t a t io na l Ti m e   P er f o r m a n ce   o f   th e   m o d i f ied   K - m ea n s   al g o r it h m   w as  a s s ess ed   b y   co m p u ti n g   t h ti m e   tak e n   to   co m p lete  t h r u n   u s i n g   I R I S a n d   h - g   i n d ices d ataset s .   T h r esu lt s   ar s u m m ar ized   in   T ab le   3   an d   4 .       T ab le  3 .   C o m p u ta tio n al  ti m e v alu a tio n   o f   r e g u lar   a n d   m o d if ied   k - m ea n s   al g o r ith m   D a t a se t   K - m e a n s o r i g i n a l   ( R u n   t i me   i n   se c s)   M o d i f i e d   K - me a n s (R u n   t i me   i n   se c s)   I R I S   R u n 1 :   5 . 8 2   R u n 2 :   5 . 6 6   R u n 3 :   5 . 6 4   R u n 1 :   3 . 4 9   R u n 2 :   3 . 3 0   R u n 3 :   3 . 4 7   h - g   i n d i c e s   R u n 1 :   1 5 . 2 1   R u n 2 :   1 4 . 2 5   R u n 3 :   1 5 . 2 2   R u n 1 :     0 . 4 0   R u n 2 :   0 . 3 7     R u n 3 : 0 . 3 7       T ab le  4 .   C o m p ar is o n   o f   ti m co m p le x it y   o f   k - m ea n s   o r ig in al   an d   m o d if ied   al g o r ith m   w h ile   v ar y i n g   n u m b er   o f   clu s ter s   D a t a se t   N o .   o f   c l u st e r s   K - m e a n s o r i g i n a l   ( R u n   t i me   i n   se c s)   M o d i f i e d   K - me a n s (R u n   t i me   i n   se c s)   I R I S   1   2 . 4 4   2 . 8 1   2   3 . 5 2   3 . 0 6   3   6 . 6 3   3 . 3 0   4   7 . 7 0   3 . 7 2   5   8 . 8 4   4 . 1 1   H - G   i n d i c e s   1   2 . 1 0   0 . 1 2     2   6 . 1 6   0 . 1 6     3   1 5 . 2 1   0 . 3 7     4   1 6 . 2 0   0 . 3 9     5   1 6 . 2 2   0 . 3 6             Fig u r 2 .   An   I m a g s h o w in g   ti m co m p le x it y   an al y s is   o f   I R I S d ataset   Fig u r 3 .   An   I m a g s h o w in g   ti m co m p le x it y   an al y s is   o f   h   a n d   g   i n d ices d ata       4 .     CO NCLU SI O N   K - m ea n s   i s   o n o f   t h ea s ie s u n - s u p er v i s ed   lear n i n g   al g o r ith m s   t h at  r eso l v t h n o to r io u s   clu s ter in g   alg o r ith m .   T h p r o g r am   class if ies  g i v en   d ataset  in to   p r ed e f i n ed   clu s ter s   co r r esp o n d in g   to   th ce n tr o id s .   C o n s id er in g   t h i m p o r tan ce   o f   h -   a n d   g - in d ice s   f o r   ea ch   au th o r   as  p ar am eter   to   ass ess   t h q u alit y   o f   T i m e   C o m p l e x i ty   A n a l y s i s   o I R I d a ta s e t 0 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 N o .   o C l u s te r s T i m e   i n   s e c o n d s k-m e a n s   a l g o ri t h m m o d i f i e d   k-m e a n s Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8814   IJ AA S    Vo l.   4 ,   No .   4 Dec em b er   201 5   :   1 3 0     1 3 4   134   p u b lis h ed   p ap er s   in   v ar io u s   jo u r n als,  m o d if ied   k - m ea n s   alg o r ith m   w as  i m p le m e n ted   t o   s tu d y   th o b j ec ts   u s ed .   An al y s is   r e v ea led   th a t th m o d if ied   k - m ea n s   al g o r it h m   is   m u c h   f aster   a n d   o u tp er f o r m s   t h co n v e n tio n a l   alg o r ith m   b o th   i n   ter m s   o f   c o m p u tatio n al  ti m an d   cl u s te r in g   p er f o r m an ce ,   m ea s u r ed   b y   d ata  d is cr ep an c y   f ac to r .       RE F E R E NC E S   [1 ]   h tt p : // ww w . sa g e p u b . c o m /u p m - d a ta/ 2 9 9 8 6 _ Ch a p ter3 . p d f   [2 ]   G .   Ch a rle Ba b u   a n d   Dr.  A .   G o v a rd h a n ,   M in in g   S c ien ti f ic  Da ta   f ro m   P u b - M e d   Da tab a se ,   In ter n a ti o n a J o u rn a l   o A d v a n c e d   C o mp u ter S c ien c e   a n d   Ap p li c a ti o n s   ( IJ ACS A) V o l .   3 ,   No .   4 ,   2 0 1 2 .   [3 ]   Rich a rd   V a n   No o rd e n ,   Op e n   a c c e ss T h e   tru e   c o st o f   sc ien c e   p u b l i sh in g Na t u re ,   V o l .   4 9 5 ,   p p .   4 2 6 4 2 9 2 0 1 3 .   [4 ]   S o lo m o n   D.   J. ,   a n d   Bj ö rk   B.   C.   J. ,   Am.   S o c .   I n f.   S c i.   T e c h n o l V o l.   6 3 ,   p p .   1 4 8 5 1 4 9 5 .     [5 ]   Je rr y   A .   Ja c o b a n d   S c o tt   F rick e l,   In terd isc ip li n a rit y A   Crit ica A s se ss m e n t ”,   An n u a Rev iew  o S o c io lo g y V o l.   35,   p p .   43 - 65 ,   2 0 0 9 .   [6 ]   h tt p : // e n . w ik ip e d ia.o rg /w ik i/ I m p a c t_ f a c to r   [7 ]   Hirsc h   J.  E. ,   " A n   in d e x   to   q u a n ti fy   a n   in d iv id u a l' sc ien ti f ic  r e se a r c h   o u t p u t" ,   PNA S ,   Vo l.   1 0 2 ,   No .   46 ,   p p .   1 6 5 6 9 - 1 6 5 7 2 2 0 0 5 .   [8 ]   Ja c so   P. ,   T h e   p ro s an d   c o n s o f   c o m p u ti n g   th e   h - i n d e x   u sin g   G o o g le S c h o lar ”,   On li n e   In fo rm a t io n   R e v iew V o l.   32 No .   3 ,   p p .   4 3 7 4 5 2 2 0 0 8 .   [9 ]   Jin   B. ,   h - In d e x A n   e v a lu a ti o n   in d ica to p ro p o se d   b y   sc ien ti st ”,   S c ien c e   Fo c u s V o l.   1 ,   No .   1 ,   p p .   8 9 2 0 0 6 .   [1 0 ]   J.  B.   M a c Qu e e n ,   " S o me   M e th o d s fo c la ss if ica ti o n   a n d   A n a lys is  o M u lt iva ria te  Ob se rv a ti o n s ,   P ro c e e d in g o f   5 - th   Be rk e le y   S y m p o siu m   o n   M a th e m a ti c a S tatisti c a n d   P ro b a b il i ty " ,   Be rk e le y ,   Un iv e r sit y   o f   Ca li f o rn i a   P re ss ,   Vo l.   1 ,   p p .   2 8 1 - 297 1 9 6 7 .   [1 1 ]   S .   A lo n so ,   F .   J.  Ca b re riz o ,   E.   He rre ra - V ied m a ,   F .   H e rre ra ,   h - In d e x re v ie w   f o c u se d   in   it v a ria n ts,   c o m p u tatio n   a n d   sta n d a rd iza ti o n   f o d if f e re n sc ien ti c   e ld s ”,   J o u rn a o I n fo r me trics ,   V o l.   3 ,   p p .   2 7 3 2 8 9 2 0 0 9 .   [1 2 ]   G o o g le S c h o lar,   h t tp :/ /sc h o lar.g o o g le.co m / .   [1 3 ]   Eg g h e   L. ,   T h e o ry   a n d   p ra c ti se   o th e   g - in d e x ”,   S c ien to me trics V o l .   69 ,   No .   1 ,   p p .   1 3 1 1 5 2 2 0 0 6 .   [1 4 ]   F ish e R.   A . ,   T h e   u se   o f   m u lt ip le  m e a su re m e n ts  in   tax o n o m ic   p ro b lem s” An n a ls  o E u g e n ics ,   V o l.   7 ,   p p .   1 7 9 - 1 8 8 1 9 3 6 .   [1 5 ]   P a n d a   S . ,   S a h u   S . ,   Je n a   P .   K. ,   Ch a tt o p a d h y a y   S . ,   Co mp a r in g   Fu zz y - me a n s a n d   - me a n s Cl u ste rin g   T e c h n iq u e s: a   Co mp re h e n siv e   S t u d y ”,   I n   P ro c e e d in g o f   2 n d In tern a ti o n a l   Co n f e re n c e   o n   Co m p u ter  S c ien c e ,   En g in e e rin g   &   A p p li c a ti o n s A d v a n c e s in   In telli g e n a n d   S o f Co m p u ti n g   (A IS C) ,   Vo l.   1 6 6 ,   p p .   4 5 1 - 4 6 0 ,   2 0 1 2   [1 6 ]   S .   G o v in d a   Ra o ,   Dr .   A .   G o v a rd h a n ,   A ss e ss in g   h -   a n d   g -   i n d ice o f   sc ien ti f ic  p a p e rs  u sin g   k - m e a n c lu ste rin g ,   In ter n a t io n a J o u rn a o C o mp u ter   Ap p l ica ti o n s ,   Vo l.   1 0 0 N o .   11,   A u g u st 2 0 1 4 .   Evaluation Warning : The document was created with Spire.PDF for Python.