I A E S  I n t e r n at io n al  Jou r n al  of  A r t if ic ia I n t e ll ig e n c e  ( I J - AI )   V ol .   14 , N o.   5 O c to be r  2025 , pp.  3681 ~ 3692   I S S N 2252 - 8938 ,   D O I 10.11591/ ij a i. v 14 .i 5 .pp 3681 - 3692          3681       Jou r n al  h om e page ht tp : // ij ai . ia e s c or e .c om   O p t i m i z i n g d i a b e t e s p r e d i c t i on :  u n ve i l i n g p at i e n t  s u b gr ou p t h r ou gh  c l u st e r i n g       R it a G an gu ly 1 ,   D h ar m p al  S in gh 2 ,   R a j e s h  B os e 2   1 D e pa r t m e nt  of  C om put e r  A ppl i c a t i ons , D r .   BC   R oy A c a de m y of  P r of e s s i ona l  C our s e s , D ur ga pur ,   I ndi a   2 D e pa r t m e nt  of  C om put e r  S c i e nc e F a c ul t y of  E ngi ne e r i ng a nd T e c hnol ogy J I S  U ni ve r s i t y, K ol ka t a , I ndi a       A r t ic le  I n f o     A B S T R A C T   A r ti c le  h is to r y :   R e c e iv e J ul  17, 2024   R e vi s e J un 24, 2025   A c c e pt e J ul  13, 2025       Diabetes  is  a   significant  global   health  concern,   leading  to   numerous  deaths  annually   and  affecting  many  indivi duals   who  remain   undiagno sed.  As  its  prevalence  rises,  the  importance  of   early  detection   becomes  incre asingly  vital.  The  rising  diabetes  epidemic  demands  data - driven  strategies   to   catch  health  problems  sooner  and  identify  them  clearly.  This  study  utiliz es  the  Pima  Indians  diabetes  dataset  (PIDD)  to  compare  three   powerful  c lu stering  schemes  such   as  k - means,   fuzzy  C - means,  and   hierarchical.  Uncon troll ed  diabetes,  arising  from  the  body' struggle  to  manage  blood   sugar  due  to  insulin  deficienc y,  can   lead  to   devastating   complications.   Early  de tection  and  intervention  are  the   cornerstones  of   effective  management   and  im proved  patient  outcomes.  This  study  breaks  new  ground   by  meticulously  eval uating  the  performance  of  each  clustering  algorithm  using  advanced  metri cs  like  silhouette  score  and  adjusted   Rand  index.  The   goal  is   to  identify  the   method  that  generates  the  most  accurate  and  well - defined  clusters  for  di abetes - related  attributes This,  in  turn,  has  the  potential   to  revolution ize  di abetes  diagnosis,  enabling  earlier  interventions   and  ultimately  leading   to   better  disease  management  and  patient   care.  By  providing   compreh ensive  compariso of  these  clusteri ng  techniqu es,   this  research  offers   sign ificant  contribu tion t o the fi ght agai nst di abetes.   K e y w o r d s :   C lu s te r in g m e th od   D ia be te s   F uz z y C - m e a ns   H ie r a r c hi c a c lu s te r in g   K - m e a ns   P im a  di a be te s  da ta s e t   S il houe tt e  s c or e   This is an  open  acce ss artic le unde r the  CC BY - SA   license.     C or r e s pon di n g A u th or :   R it a  G a ngul y   D e pa r tm e nt  of  C om put e r  A ppl ic a ti ons , D r . B C  R oy  A c a de m y o f  P r of e s s io na C our s e s   F ul jh or e , D ur ga pur  ( P a c c hi m  B ur dw a n) 713206, I ndi a   E m a il ga ngul y.r it a @ gm a il .c om       1.   I N T R O D U C T I O N   H e a lt hc a r e a   c or ne r s to ne   of   s o c ie ta w e ll - be in g,  is   unde r goi ng  tr a ns f or m a ti ve   c ha nge s   dr iv e by  te c hnol ogi c a a dva nc e m e nt s A m ong  th e   m yr ia he a lt c ha ll e nge s   f a c e to da y,  di a be te s   e m e r ge s   a s   a   s ig ni f ic a nt   gl oba c onc e r n,  la r ge ly   in f lu e nc e d   by  li f e s ty le   c h a nge s   a nd  in c r e a s in pr e va le nc e T hi s   s tu dy  e xpl or e s   in nova ti ve   te c hnol ogi c a s ol ut io ns p a r ti c ul a r ly   da ta   e xt r a c ti on  a nd  f uz z lo gi c a im e a e nha nc in di a be te s  di a gnos i s   [ 1] . D ia be te s  i s  c ha r a c te r iz e d by poor  gl uc os e  r e gul a ti on, r e s ul ti ng f r om  i na de qua te  i ns ul in   pr oduc ti on  or   in e f f e c ti ve   in s ul in   r e s pon s e l e a di ng  to  c hr oni c   hi gh  bl ood  s uga r   l e ve ls   ( hype r gl yc e m ia ) .   W hi le   di a be te s   r e m a in s   in c ur a bl e ,   e f f e c ti ve   m a n a ge m e nt   s tr a te gi e s   c a s ig ni f ic a nt ly   im pr ove   pa ti e nt   out c om e s   [ 2] T he   e s c a la ti ng  in c id e nc e   of   di a be te s   ne c e s s it a te s   ne w   te c hnol o gi c a in te r ve nt io ns   to   f a c il it a te   e a r ly   de te c ti on  a nd  tr e a tm e nt M a c hi ne   le a r ni ng  ( M L )   of f e r s   pr om is in o ppor tu ni ti e s   to   a dva nc e   e xi s ti ng  he a lt hc a r e   te c hnol ogi e s   w it hi th e   br oa de r  c ont e xt   of   th e   f our th   in dus tr ia r e vol ut io n,  w hi c e nc om pa s s e s   th e   in te r ne of   th in gs   ( I oT ) a r ti f ic ia in te ll ig e nc e   ( A I ) da ta   m in in g,  a nd  ne ur a ne twor ks D e s pi te   pr e vi ous   r e s e a r c h   e f f or ts e a r ly   di a be te s   de te c ti on  r e m a in s   c ha ll e ngi ng,  w it tr a di ti ona m e th ods   of te f a ll in s hor in   pr ovi di ng   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  5 O c to be r  2025 3681 - 3692   3682   c om pr e he ns iv e   s ol ut io ns T hi s   dr iv e s   our   in ve s ti ga ti on  in to   da t a - dr iv e a ppr oa c he s f oc u s in on  d a ta   m in in a nd f uz z y l ogi c , t o e nha nc e  di a gno s ti c  a c c ur a c [ 3] .   T hi s   r e s e a r c a ddr e s s e s   th e   c r it ic a is s ue   of   e a r ly   di a be te s   di a gnos is   th r ough  th e   in tr oduc ti on  o f   a   nove c lu s te r in m e th od,  e va lu a te a ga in s e s ta bl is he a lg or it hm s T he   s tu dy  c ont r ib ut e s   to   th e   f ie ld   in   two   s ig ni f ic a nt  w a ys :     C om pr e he ns iv e   a na ly s is it   pr e s e nt s   a   de ta il e c om pa r is on  o f   e xi s ti ng  c lu s te r in te c hni que s   us e in   di a be te s   pr e di c ti on, highl ig ht in g t he ir  s tr e ngt hs  a nd l im it a ti ons .  T hi s  c om pa r a ti ve  a na ly s is  w il s e r ve  a s  a   va lu a bl e  r e s our c e  f or  gui di ng f ut ur e  r e s e a r c h.     I nnova ti ve   c lu s te r in m e th od th e   s tu dy  in tr oduc e s   a   n e w   c lu s te r in m e th od  s pe c if ic a ll de s ig n e f or   di a be te s  di a gno s is , de m ons tr a ti ng ma r ke d i m pr ove m e nt s  i n a c c ur a c y ove r  c onve nt io na te c hni que s .   T he   li te r a tu r e   r e vi e w   is   ope ne w it th e   w or of   I br a hi m   e al .   [ 4] w hi c pr opos e s   a   ne w   hybr id   a ppr oa c th a c om bi ne s   a ggl om e r a ti ve   hi e r a r c hi c a c lu s te r in ( H C )   w it a   de c is io tr e e   c la s s if ie r   to   im pr ov e   a c c ur a c y,  a tt a in in a 80.8%   r a ti ng   a s   oppos e to   th e ir   c ons i de r e ty pi c a de c is io tr e e   c la s s if ie r   w it a n   a c c ur a c r a ti ng  of   76.9% D ong  e al .   [ 5]   c ont r ib u te a   pr oc e dur e   us in f uz z m ode in   H C   th a id e nt if ie s   c lu s te r s   of   c om pl e a nd  in tr ic a te   s ha pe s T ha a lg or it hm   r e ve r e out s ta ndi ng  pe r f or m a nc e   s pe c if ic a ll to   hi gh - di m e ns io na a nd  la r ge   da ta s e ts P a dm a ja   e al .   [ 6]   ha ve   t a ke in to   c ons id e r a ti on  th e   ta s of   id e nt if yi n g   hi gh - qua li ty   c lu s te r s   a nd  m a d e   a   de e a na ly s is   of   di f f e r e nt   a lg or it hm s   f or   c lu s te r in g.  G hos e al .   [ 7]   c ont r ib ut e d t o t h e  e f f e c ti ve ne s s  of  t h e   a g gr e ga ti on ph e r om on e  c l us te r i ng ( A P C )   a l gor it hm  by  s ho w in g t h a it  i s   m uc h be tt e r   c o nc e r ni ng   th e   qua li ty  of   c l us t e r in g a nd   s pe e of  pr oc e s s i ng  f or   a ll   th e   da t a s e t s   t a ke n . B a gi r o [ 8]   pr opos e d a  gl oba k - m e a ns   ( K M )   a lg or i th m  t ha s how e d i ts  e f f e c ti ve ne s s  by be in g t e s te d on 14 da ta s e ts  us in g   num e r ic a e xpe r im e nt s th ough   it   c on s um e m or e   c om put a t io na ti m e F in a ll y,  N it hya   e al [ 9]   ha v e   c onduc te a   c om pa r a ti ve   s tu dy  on   H C d e ns it y - ba s e d   s p a ti a c lu s te r in of   a ppl ic a ti ons   w it noi s e   ( D B S C A N ) a nd  s im pl e   K M   s c he m e   a nd  f ound  th a th e   KM   a lg or it hm   w or ks   be s on  th e   d ia be te s   da ta s e t.   C e be c a nd  Y il di z   [ 10]   a ls f ound  th e   K M   a lg or it hm   to   be   f a s te r   in   e xe c ut io a s   c om pa r e to   th e     f uz z C - m e a ns   ( F C M )   te c hni que   f or   a ll   th e   da ta s e ts   t e s te d,  i nde pe nde nt   of   th e   ty pe   of   pa tt e r in   th e   b a s e   da ta s e t.   T hi s   te nde n c to w a r ds   th e   K M   s c he m e   w a s   f ur th e r   c onf ir m e by  B ir a da r   a nd  M uga li   [ 11 ] w ho   a ppl ie di f f e r e nt   to ol s   to   th e   di a be te s   da ta s e t Q e al .   [ 12]   d e s ig ne a a ppr oa c to   im pr ove   c lu s te r in by   c hoos in in it ia c e nt e r s   w it h   gr e a c a r ts th e r e by  s ubs ta nt ia ll y   i m pr ovi ng  th e   li ke li hood  of   obt a in in opt im a lo c a s ol ut io ns S a r a va na na th a a nd  V e lm ur uga n   [ 13]   f oc us e on  a na ly z in th e   e xe c ut io ti m e   of   bot K M   a nd F C M   te c hni que s , w it h K M  c on s is te nt ly  out pe r f or m in g F C M  i n t e r m s  of  e xe c ut io n t im e   I s um m a r y th e   r e s e a r c p r o vi d e d   a   c om pr e h e n s iv e   e v a l u a t io of   c l u s te r i ng   a lg or it hm   p e r f or m a n c e ,   u n d e r s c o r i ng  t h e   hy br id  m od e l' s   pr om i s i n ou tc o m e s   a n th e   s u s ta i n e d   e f f ic i e n c of   t he  K M   t e c hn iq u e ,  m a ki ng  i t   t h e   p r e f e r r e c h oi c e   f o r   l a r g e   d a t a s e t s .   A d di ti o n a ll y ,   it   e m p h a s iz e d   th e   i m p or t a n c e   o f   i d e n ti f yi n h ig h - qu a li ty   c l u s t e r s  a s  a   m e a n s   t o   a u gm e n c lu s t e r i n g a l g or i t hm  e f f e c t iv e ne s s .   O r a b e al .   [ 1 4]   i nt r o du c e s  a n e a r ly   p r e d ic ti v e   s y s t e m   f or   d i a b e te s   m e ll it u s   b i n te gr a ti ng   d a t a   m i ni ng   t e c hn iq ue s ,   de m on s tr a t in im pr ov e pr e di c ti on   a c c ur a c t hr o ug h   t a i l or e d   pr e pr o c e s s in g   a n d   c l a s s i f i c a t io n   m e th o d s P a ti l   e t   al [ 15 ]   p r o po s e   a   hy br i d   pr e d i c t io n   m od e l   f or   t y p e - 2   d i a b e te s   t h a c om bi n e s   d e c i s i o t r e e s   a n a d a pt iv e   n e ur o - f u z z y   i nf e r e nc e   s y s te m s   ( A N F I S ) yi e ld in g   s u p e r io r   p e r f o r m a n c e   c om p a r e t s t a n da lo n e   m o d e l s Z ha e t   a l [ 16]   c o nt r i bu te   t t h e   e v a lu a ti on  of   c lu s t e r i n g   q u a li ty   by   pr e s e n ti n a   s um - of - s q u a r e s - b a s e d   c lu s te r   v a li di ty   in d e x   w i th   s ig ni f i c a n c e   a na ly s i s ,   e n a b li n g   b e t t e r   a s s e s s m e nt  a nd  s e l e c t io o f  c l u s t e r i ng r e s u lt s B a h m a n e al [ 17]   a dd r e s s   t h e  s c a l a b il it y c ha ll e ng e s  i n c l u s t e r in l a r g e   d a ta s e t s   th r o u gh   a n   o pt im i z e d   k - m e a n s + +   a l g or i th m ,   a c h ie v i ng   f a s t e r   e x e c ut io ti m e s   w hi l e   m a in t a i ni n g   h i gh   c l u s t e r in a c c u r a c y K a r e g ow d a   e al .   [ 18 ]   e xp lo r e   a   c a s c a di n a p pr o a c h   t h a in t e g r a t e s   k - m e a n s   c lu s t e r i n g   w i th   k - ne a r e s t   n e ig hb or   c l a s s if ic a ti on   f or   c a t e go r i z in g   d ia b e t i c   p a ti e nt s ,   h ig hl ig h ti ng   i m pr o v e c la s s if i c a ti o n   p r e c i s io t hr ou g a   t w o - s t a g e   p r o c e s s i n f r a m e w or k T h a kk a r   e al .   [ 19 ]   c o m p a r e da t a   m in i ng  a nd  f u z z l og i c   t e c hn iq u e s   f o r   di a be t e s   pr og no s i s no ti ng   t h a t   d a t a   m i ni ng   m e t h od s   l ik e   d e c i s io tr e e s   a nd   s up po r t   v e c t or   m a c hi n e s   ( S V M )   pr ov id e   h ig a c c u r a c b ut   l im it e d   i nt e r pr e t a b il i t y.   I n   c o nt r a s t f u z z y   l og i c   h a n dl e s   u n c e r t a in ty   w e l a nd  o f f e r s  t r a n s pa r e n t,  r ul e - b a s e d  r e a s o ni n a li gn e w it c li ni c a pr a c t i c e .   T he   s tr uc tu r e   of   th is   pa pe r   is   a s   f ol lo w s s e c ti on  de ta il s   th e   m e th odol ogy,  out li ni ng  th e   c om pa r a ti ve   s tu dy  of   e xi s ti ng  pr oc e dur e s   a nd  th e   pr opos e n e w   m e th od.  S e c ti on  pr e s e nt s   th e   c om pa r is on  r e s ul ts f ol lo w e by  a   th or ough  di s c us s io of   th e   f in di ngs F in a ll y,  s e c ti on  s um m a r iz e s   ke in s ig ht s ,   e m pha s iz in th e   im pl ic a ti ons   a nd  c ont r ib ut io ns   of   th e   nove m e th od  w hi le   s ugge s ti ng  a ve nu e s   f or   f ur th e r   r e s e a r c h a nd de v e lo pm e nt  i n di a be te s  di a gno s is  t e c hnol ogy.       2.   M E T H O D   T he   obj e c ti ve   of   th is   r e s e a r c is   to   pr opos e   a   de c i s io n - m a ki ng  c lu s te r in a ppr oa c f or   ha ndl in di a be te s - r e la te a tt r ib ut e s   in   th e   P im a   I ndi a ns   di a be te s   da ta s e t   ( P I D D ) .   T hi s   s e c ti on  out li ne s   th e   s ys te m a ti c   m e th odol ogy  e m pl oye to   c la s s if di a be te s   a tt r ib ut e s   f or   th e   in it ia de te c ti on  a nd  pr e di c ti on   of   d ia be te s de ta il in g t he  e xpe r im e nt a pr oc e dur e s  f ol lo w e d t o e ns ur e  r e pr o duc ib il it y.   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       O pt imi z in g di abe te s  pr e di c ti on:  unv e il in g pati e nt  s ubgr oup s  t hr ough c lu s te r in g   ( R it a G anguly )   3683   2.1.  Dat a p r e - p r oc e s s in g   T he r e  a r e  t w o m e th ods  f or  da ta  pr e pr oc e s s in g:     2.1.1. Dat a e xt r ac t io n  an d  c le an in g   T he   P I D w a s   e xt r a c te d   a nd  e xa m in e f or   qua li ty .   M is s in va lu e s   w e r e   a ddr e s s e d   us in g   s e v e r a im put a ti on  te c hni que s .   T he s e   in c lu de m e a or   m e di a im put a ti on,  f or w a r a nd  ba c kw a r f i ll m ul ti pl e   im put a ti on, a nd mode l - ba s e d i m put a ti on.     2.1.2. Nor m al iz at io n  an d  s c al in g   T pr e ve nt   bi a s   to w a r a tt r ib ut e s   w it la r ge r   va lu e s nor m a li z a ti on  w a s   p e r f or m e on  a ll   da ta s e t   a tt r ib ut e s . T he  nor m a li z a ti on e qua ti on u s e d w a s :     X n o r m =       w he r e   X   is   th e   or ig in a a tt r ib ut e   va lu e X m in   a nd  X m a x   a r e   t he   lo w e s a nd  e xt r e m e   v a lu e s   of   th e   a tt r ib ut e   r e s pe c ti ve ly a nd X nor m  i s  t he  nor m a li z e d a tt r ib ut e  va lu e .     2.2.  Com p ar at iv e  an al ys is  o f  c lu s t e r in g al gor it h m s   T hr e e   popula r   c lu s te r in a lg or it hm s   a r e   s e le c te f or   a na ly s is K M F C M ,   a nd  H C E a c c lu s te r in g   a lg or it hm   is   a ppl ie to   th e   pr e - pr oc e s s e da ta s e to   c r e a te   c lu s te r s   of   di a be te s - r e la te a tt r ib ut e s T he   f unda m e nt a pr in c ip le s  of  e a c h c lu s te r in g a lg or it hm  a r e  s tu di e a nd unde r s to od.     2.2.1. K - m e an s  c lu s t e r in g   K - m e a ns   s e e k s   to   gr oup  da ta   s th a poi nt s   in   th e   s a m e   c lu s te r   a r e   a s   c lo s e   a s   pos s ib le   to   th e ir   c lu s te r s  c e nt e r O bj e c ti ve  f unc ti on:     = | |   | | n i = 1 = 1 2       w he r e   th e   num be r   of   c lu s te r s   is   r e pr e s e nt e by  K da ta   poi nt s   in   th e   it c lu s te r   is   n i ;   jt da ta   poi nt   in   th e   i th   c lu s te r  i s  X   j [ i ] a nd c e nt r oi d of  t he  i th  gr oup is  µ i .     2.2.2. F u z z y C - m e an s  c lu s t e r in g   F uz z y C - m e a ns  a ll ow s  pa r ti a m e m be r s hi p of  da ta  poi nt s  i n m u lt ip le  c lu s te r s O bj e c ti ve  f unc ti on:      =   | |   | | 2 = 1 = 1       w he r e   is   th e   da ta   poi nt s th e   num be r   of   c lu s te r s   is   k;   th e   m e m be r s hi de gr e e   of   X i   in   th e   jt h   c lu s te r   is   U ij th e  f uz z in e s s   e xpone nt  i s  m it h da ta  poi nt  i s  X i M id - poi nt  of  t he  j th  c lu s te r  i s  C j .     2.2.3.  H ie r ar c h ic al   c lu s t e r in g   HC   f or m s  a  t r e e - li ke  s tr uc tu r e  ( de ndr ogr a m )  of  ne s te d c lu s te r s L in ka ge  f unc ti on:     d ( A , B ) = 2 | |   | | | |   + | |   | |   | | 2       w he r e   A   a nd  B   a r e   two  c lu s te r s |A a nd  |B a r e   th e   s iz e s   of   c lu s te r s   A   a nd  B   s e p a r a te ly a nd           a r e   th e  c e nt r oi ds  of  c lu s te r s  A  a nd  B  s e p a r a te ly .     2.3.  Valu at io n  m e t r ic s   N um e r ous  ke y m e tr ic s  a r e  ut il iz e d   to  c a l c ul a te  t he  c lu s te r in g a lg or it hm s  pe r f or m a nc e :     S il houe tt e  s c or e  de te r m in e s  t he  f ir m ne s s   a nd c lu s te r  s e pa r a ti on.     = ( , )       w he r e  r e gul a r   in tr a - c lu s te r  di s ta nc e  i s  a a nd t ypi c a a dj a c e nt - c l us te r  di s ta nc e  i s  b.     A dj us te R a nd  in de ( A R I )   s c or e   c om pa r e s   th e   s im il a r it be twe e tr ue   c la s s   la be l s   a nd  c lu s te r   a s s ig nm e nt s .     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  5 O c to be r  2025 3681 - 3692   3684   =  |  | |  | |  |       w he r e   th is   f oc us e s   on  th e   c onc e pt   of   |  |   a s   a   m e a s ur e   of   how   w e ll a nd  th e   R a nd  in de ( RI )   is   e xpe c te d t o pe r f or m  on a ve r a ge .     N or m a li z e d m ut ua in f or m a ti on ( N M I )   s c or e th e  N M I  qua nt if i e s  t he  a gr e e m e nt  be tw e e n t r ue  c la s s  l a be ls   a nd c lu s te r  a s s ig nm e nt s , a c c ount in g f or  e nt r opy.      ( , ) = 2 ( ; ) ( ) + ( )       w he r e   th e   M I   a m id   c lu s te r s   U   a nd  V   is   I   ( U V ) a nd  th e   r a ndomne s s   of   c lu s te r s   U   a nd  V   a r e   H ( U )   a nd  H ( V )  r e s pe c ti ve ly .     D a vi e s - B oul di in de x ( D B I )   s c or e de f in e s  t he   c lu s te r  s upe r io r i ty  ba s e d on the  di s ta n c e  be twe e n c lu s te r s .     = 1     = 1 (  +  ) (  ,  )       w he r e   S i   a nd  S j   is   th e   ty pi c a di s ta nc e   be twe e e a c poi nt   in   c l us te r   a nd  th e  c e nt r oi C i a nd  d( C i   ,   C j )   is   th e   c e nt r oi d di s ta nc e   be tw e e n C i   a nd C j .   T he s e   e va lu a ti on  m e a s ur e s   h e lp   r e s e a r c h e r s   de te r m in e   how   w e ll   th e   c lu s te r s   r e pr e s e nt   th e   unde r ly in da ta   pa tt e r ns B c om pa r in th e   r e s ul ts   a c r os s   di f f e r e nt   m e th ods ,   th e c a s e le c th e   c lu s te r in a ppr oa c th a t   pr ovi de s  t he  m os a c c ur a te   a nd me a ni ngf ul  gr oupi ng, a s  de pi c te d i n F ig ur e  1.           F ig ur e  1. E va lu a ti on me tr ic s       2.4.  I n n ovat iv e  c lu s t e r in g m e t h od  f or m u la t io n   A  n ov e c l u s te r in g m e t hod  e m e r g e s  f r o m  t he  c om p a r a ti ve  a na ly s i s   a n e v a lu a t io n   m e tr i c s .   T hi s   m e th od   is   d e s ig n e d   to   opt im i z e   th e   c l u s t e r in of   di a be t e s   a tt r i but e s   a nd   e nh a n c e   th e   a c c ur a c of   di s e a s e   pr e d ic ti o n .   I t   pot e nt ia ll y  d oe s   s o b in t e gr a t in g   e le m e nt s  f r om   e xi s ti ng  a l gor i th m s  or   in tr od uc in g  e nt ir e l ne w   a p pr o a c he s .     2.5.  As s e s s m e n t  an d  ou t c om e s   T he   ne w ly   de ve lo p e c lu s te r in m e th od  is   im pl e m e nt e a nd  be nc hm a r ke a ga in s K M F C M a nd   H C   us in th e   P I D D I ts   pe r f or m a nc e   is   a s s e s s e u s in s ta nda r d   e va lu a ti on  m e tr ic s T h e s e   m e tr ic s  a r e   us e to   de m ons tr a te  t he  e f f e c ti ve ne s s  of  t he  pr opos e d m e th od.     2.6.  I m p li c at io n s  an d  ap p li c at io n s   T he   s tu dy  c on s id e r s   th e   po s s ib il it ie s   f or   th e   e a r ly   a nd  c or r e c t   di a gnos is   of   di a be te s   by  im pr ovi ng  c lu s te r in te c hni que s   f or   a tt r ib ut e s   r e la te to   di a be te s I in ve s ti ga te s   how   in nova ti ve   a lg or it hm s   of   c lu s te r in c oul be   put   in to   a c ti on  to   a c hi e ve   opt im a li ty .   T h e s e   im pr ove m e nt s   a im   to   s uppor s tr a te gi e s   f or   e f f e c ti ve   he a lt h de c is io n - m a ki ng a nd dis e a s e  m a na ge m e nt .     2.7.  Hi gh li gh t e d  i m p ac t   T he   c ha ll e ng e   of   di a be te s   is   e m e r gi ng  a nd  is   be in a ddr e s s e d   th r ough  da ta - dr iv e a na ly ti c s   in   th e   r e s e a r c h.  I h a s   c om e   up   w it a   ne w   te c hni que   of   c lu s te r in a nd  ha s   c om pa r e it   w it ot he r   m e th ods   to   id e nt if th e   ga ps   in   th e   e a r ly   di a gnos is   of   di a be te s E xt e ns iv e   e xpe r im e nt s   a r e   be in c onduc te to   c om e   up  w it a   di a be te s   a tt r ib ut e   c lu s te r in te c hni que   b e tt e r   th a th e   one s   e xi s ti ng  [ 20] T hr ough  th is   s tr uc tu r e Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       O pt imi z in g di abe te s  pr e di c ti on:  unv e il in g pati e nt  s ubgr oup s  t hr ough c lu s te r in g   ( R it a G anguly )   3685   m e th odol ogy,  th e   r e s e a r c a im s   to   a ddr e s s   th e   c ha ll e ng e   of   di a be te s   e a r ly   de te c ti on  a nd  m a na ge m e nt ,   de m ons tr a ti ng  th e   pow e r   of   da ta - dr iv e a ppr oa c he s   in   he a lt hc a r e   a na ly ti c s B f ol lo w in th e s e   s te ps f ut ur e   r e s e a r c he r s  c a n r e pl ic a te  t he  e xp e r im e nt s  a nd buil d upon the f in di ngs  pr e s e nt e d i n F ig ur e  2.           F ig ur e  2. P r opos e d f r a m e  w or k f or  c lu s te r in g       3.   R E S U L T S  A N D  D I S C U S S I O N   3.1.   I d e n t if yi n g gap s  i n   p r e vi ou s  r e s e a r c h   T hi s   s tu dy   in v e s ti ga t e s   th e   pe r f or m a nc e   of   va r i ous   c lu s t e r in a lg or it hm s KM F C M a nd   HC in   th e   c o nt e x of   e a r ly   di a be t e s   di a gno s is W hi l e   pr io r   r e s e a r c h a s   e xpl or e th e   e f f ic a c of   c l us t e r in t e c h ni qu e s   in   he a lt hc a r e   da t a m a n ha v e   not   e x pl ic it ly   a ddr e s s e how   th e s e   m e t hod s   c a be   opt i m iz e f or   da ta s e ts   w i th   im ba la nc e d c l a s s e s   a nd  m is s in g  va lu e s .   T hi s  ga p i s  pa r t ic ul a r ly  r e le v a nt  i n  pr e di c ti ng  di a be t e s   out c om e s .     3.2.   S u m m ar iz in g k e y f in d in gs   I th is   r e s e a r c w or f in di ngs   in di c a te   th a KM   c lu s te r in pr oduc e th e   hi ghe s a c c ur a c m e tr ic s a c hi e vi ng  a   pe r f e c s c or e   a c r os s   m ul ti pl e   e va lu a ti on  pa r a m e t e r s I c ont r a s t,   F C M   e xhi bi te a   s ig ni f ic a nt ly   lo w e r   pe r f or m a nc e pa r ti c ul a r ly   in   s e n s it iv it a nd  s p e c if ic it y,  s ugge s ti ng   it s   li m it a ti ons   in   c le a r   bounda r y   de li ne a ti on  a m ong  ove r la ppi ng  c lu s te r s HC   de m ons tr a te m ode r a te   e f f e c ti ve ne s s   but   s tr uggl e w it la r ge   da ta s e ts  du e  t o i ts  c om put a ti ona in te ns it y.     KM c e nt r oi d a na ly s i s .     F C M m e m be r s hi p va lu e  a n a ly s is .     V is ua li z a ti on:   vi s ua li z in g c lu s te r s  i n r e duc e d - di m e ns io na s pa c e .     F e a tu r e  i m por ta nc e f e a tu r e s  w it h l a r ge r  pe r f or m a nc e  c ha nge s  u pon pe r m ut a ti on a r e  m or e  i nf lu e nt ia l.     C ont in uous   im pr ove m e nt to   e nha nc e   a lg or it hm   a da pt a bi li ty r e tr a in   w it ne w   da ta us e   in c r e m e nt a le a r ni ng t e c hni que s , a nd moni to r  da ta  di s tr ib ut io n f or  pe r io di c  m ode r e tr a in in g.   U nve il in da ta ' s   hi dde p a tt e r ns   de m a nd s   th e   p e r f e c c lu s te r in f it R e s e a r c h e r s   m a tc d a ta s e t   tr a it s   a nd  a na ly s is   goa l s   to   th e   id e a a lg or it hm C lu s te r   di s ta nc e s   a nd  e s ta bl is h e m e tr ic s   gui de   th e   c hoi c e ,   a lo ngs id e   dom a in   knowle dge V is u a li z in th e   c lu s te r s   pr ovi de s   a   f in a th um bs - up  on  th e ir   qua li ty   a nd   e f f e c ti ve ne s s .   T he   d a ta ba s e   de s c r ip ti on  a nd   th e   c lu s te r in m e c h a ni s m   a r e   c o ve r e in   th is   s e c ti on.  K M ,   F C M ,   a nd   H C   a lg or it hm s   a r e   us e f or   th e   a na ly s is   a nd  to   obt a in   th e   hi ghe s a c c ur a c w it th e   pr e di c te m ode l.     T he   pr opos e m e th od  is   im pl e m e nt e us in P yt hon   ve r s io 3. 11.3,  I nt e ( R )   C or e   ( T M )   i. 7020  you   C P U   @ 2. 30 G H z  w it h 8 G B  R A M .     3.2.1.  D at as e t   H e r e th e   P I D D   is   us e d,  w hi c c ont a in s   in f or m a ti on  on   768  pa ti e nt s A m ong  th e   768  pa ti e nt s onl y   268  pa ti e nt s   ( 34.9% )   w e r e   c la s s if ie a s   ha vi ng  pos it iv e   di a be t e s .   T he   da t a s e h a s   8   a tt r ib ut e s   w it h   one   c l a s s   a tt r ib ut e   w he r e   th e   c la s s   v a lu e   be lo ng s   to   a nd  1.  T a bl e   1   p r e s e nt s   th e   a tt r ib ut e s   a nd   th e ir   c or r e s ponding  num be r  of  m is s in g va lu e s .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  5 O c to be r  2025 3681 - 3692   3686   T a bl e  1 C onf ig ur a ti on of   d a ta s e t   A t t r i but e s   T ot a l  no of  m i s s i ng va l ue   P r e g   0   P l a s   5   P r e s   28   S ki n   192   I ns u   140   M a s s   11   P e di   0   A ge   0   C l a s s   0       3.3.  I n t e r p r e t in g r e s u lt s :  c om p ar i s on  w it h   ot h e r  s t u d ie s   T he   a s s e s s m e nt   of   pe r f or m a nc e   in c lu de s   th e   c om put a ti on  o f   s e ve r a m e tr ic s   s uc a s   a c c ur a c y,  s e ns it iv it y,  pr e c is io n,  s pe c if ic it y,  F 1 - s c or e a nd  e r r or   r a te A c c ur a c is   de te r m in e by  m e a s ur in th e   a m ount   of  a ppr opr ia te ly  pr ophe s ie d i ll us tr a ti ons  out  of  t he  t ot a in s ta nc e s .     A c c ur a c y:  t he  r a ti o of  a ll  pr e c is e ly  f or e c a s te s a m pl e s  t o t he  t ot a num be r  of  s a m pl e s a s   e xpr e s s e d i n ( 1)      =  +   +  +  +    ( 1)       S e ns it iv it y:  c a te gor iz a ti on of  pos it iv e  s a m pl e s T hi s  i s  m a th e m a ti c a ll y e xpr e s s e d i n ( 2)      =  (  +  )   ( 2)       P r e c is io n:   th e   pr opor ti on  of   th e   num be r   of   pr e c is e ly   f or e c a s te in s ta nc e s   to   th e   to ta num be r   of   pos it iv e   s a m pl e s T hi s  i s  m a th e m a ti c a ll y e xpr e s s e d i n ( 3)      =  (  +  )   ( 3)       S pe c if ic it y:  c a te gor iz e s  ne ga ti ve   s a m pl e s T hi s  i s  m a th e m a ti c a ll y e xpr e s s e d i n ( 4)      =  (  +  )   ( 4)       F1 - s c or e ha r m oni c  m e a n of  s e ns it iv it y a nd pr e c is io n.  T hi s  i s  m a th e m a ti c a ll y e xpr e s s e d i n ( 5)     1  = 2 × ( × ) ( + )   ( 5)     C onf us io m a tr ix   di s ti ngui s he s   be twe e c or r e c tl c la s s if ie a n m is c la s s if ie s a m pl e s r e pr e s e nt e in  a  2× 2 c onf us io n m a tr ix  a s  s how n i n T a bl e  2.  I in c lu de s i)  t r ue  pos it iv e  ( T P ) ,   a c c ur a te ly  c la s s if ie d pos it iv e   in s ta nc e s ii )   tr ue   ne ga ti ve   ( T N ) ,   c or r e c tl c la s s if ie ne ga ti ve   in s ta nc e s ii i)   f a ls e   pos it iv e   ( F P ) ,   ne ga ti ve   s a m pl e s   w r ongl id e nt if ie a s   po s it iv e a nd  iv )   f a ls e   n e ga ti ve   ( F N ) ,   pos it iv e   in s ta nc e s   a r e   e r r one ous ly   la be ll e d a s  ne g a ti ve . T he   a s s e s s m e nt  out li ne  i s  m e a s ur e d w it h di f f e r e nt  m e tr ic s , a s  s how n i n T a bl e  3.       T a bl e  2. C onf us io n m a tr ix     P r e di c t e pos i t i ve   P r e di c t e ne ga t i ve   A c t ua l   pos i t i ve   TP   FN   A c t ua l   ne ga t i ve   FP   TN       T a bl e   3.   C onf ig ur a ti on of   d a ta s e t   A l gor i t hm   S e ns i t i vi t y   S pe c i f i c i t y   P r e c i s i on   A c c ur a c y   F1 - s c or e   KM   1   1   1   1   1   F C M   0.25   0   1   0.25   0.4   HC   0.47396   0.7838   0.6869   0.6289   0.5609       F ig ur e   s how s   th e   pe r f or m a nc e   c om pa r is on  c ha r f or   th e   s il houe tt e   s c or e   r a nge   va lu e   of   th e   th r e e   a lg or it hm s   onc e   th e   da ta   poi nt s   w e r e   gr oupe u s in th r e e   di f f e r e nt   c lu s te r in m e th ods .   F ig ur e   s ho w s   th e   pe r f or m a nc e   c om pa r is on  c ha r f or   th e   A R I   s c or e   r a nge   va lu e   of   th e   th r e e   a lg or it hm s   onc e   th e   da ta   poi nt s   w e r e   gr oupe us in th r e e   di f f e r e nt   c lu s te r in m e th ods .   I F i gur e   5,  it   pr e s e nt s   a   pe r f or m a nc e   c om pa r is on   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       O pt imi z in g di abe te s  pr e di c ti on:  unv e il in g pati e nt  s ubgr oup s  t hr ough c lu s te r in g   ( R it a G anguly )   3687   c ha r t,   il lu s tr a ti ng  th e   r a nge   of   D B I   s c or e s   f or   th e   th r e e   a lg or it h m s   a f te r   c lu s te r in th e   da ta   poi nt s .   T hi s   c ha r pr ovi de s  a  vi s ua r e pr e s e nt a ti on of  how  t he s e  a lg or it hm s  pe r f or m  on t he  c lu s te r e d da ta .   F ig ur e   s how s   th e   pe r f o r m a nc e   c om pa r is on  c ha r f o r   th e   N M I   s c or e   r a nge   va lu e   of   th e   th r e e   a lg or it hm s   onc e   th e   da ta   poi nt s   w e r e   gr oupe u s in th r e e   di f f e r e nt   c lu s te r in m e th ods .   F ig ur e   s ho w s   th e   pe r f or m a nc e   c om pa r is on  c ha r f or   th e   c lu s te r   di s ta nc e   of   th e   th r e e   a lg or it hm s   onc e   th e   da ta   poi nt s   w e r e   gr oupe us in th r e e   di f f e r e nt   c lu s te r in m e th ods .   C e r ta in ly he r e ' s   a   c om pa r is on  be twe e th e   tr a di ti ona c lu s te r in g m e c ha ni s m  a nd pr opos e d m e th od ba s e d on va r io us  k e y e va lu a ti on me tr ic s .           F ig ur e  3 .   P e r f or m a nc e  c om pa r is on   of   s il houe tt e  s c or e           F ig ur e  4 P e r f or m a nc e  c om pa r is on   of   A R I   s c or e           F ig ur e  5 .   P e r f or m a nc e  c om pa r is on   of   D B I   s c or e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  5 O c to be r  2025 3681 - 3692   3688       F ig ur e  6 .   P e r f or m a nc e  c om pa r is on   of   N M I   s c or e           F ig ur e  7. P e r f or m a nc e  c om pa r is on a c c or di ng t o c lu s te r  di s t a nc e       O bs e r vi ng   th e   T a b le   4,   th e   p r o pos e d   m e th od   c o ns is te n tl y   o ut p e r f o r m s   t r a d it io na l   a lg o r it hm s   a c r os s   m u lt ip le   e va l ua t io m e tr ic s T he   s i lh oue tt e   s c o r e in di c a ti ng  c lu s te r   s e pa r a ti on,  a nd  th e   A R I   s c o r e ,   r e f le c ti ng  s im il a r it t tr ue   l a be ls bo th   e xh ib it   hi ghe r   v a l ue s   f o r   t he   p r o pos e m e t hod   c o m pa r e d   t o   tr a di ti ona a lg or it hm s M o r e ove r ,   t he   D B I   s c o r e ,   a s s e s s in g   c lu s t e r in q ua l it y,   c o ns is te n tl r e m a in s   l ow e r   f o r   th e   p r op os e d   m e th od,   i m p ly i ng   i m p r ov e c lu s te r   s e pa r a ti on.   T he   N M I   s c o r e ,   qu a nt i f y in g   m ut ua l   in f o r m a ti on   be twe e t r ue   la be ls   a nd  c lu s te r s ,   a ls a tt a in s   hi g he r   va lu e s s u gge s ti ng  th e   p r o pos e m e t hod ' s   pot e nt ia f o r   g e ne r a ti n g   h ig h e r   q ua li ty   c l us te r s   w it e nh a nc e a c c u r a c y,   pa r ti c ul a r ly   f o r   e a r ly   di a be t e s   di a g nos is  a nd  p r e d ic t io n.       T a bl e   4 .   P e r f or m a nc e  a s s e s s m e nt  of  m e tr ic   M e t r i c   K - m e a ns   F uz z y   C - m e a ns   H i e r a r c hi c a l   c l us t e r i ng   P r opos e m e t hod   S i l houe t t e   s c or e   0.45   0.37   0.39   H i gh  va l ue   A R   i nde x s c or e   0.31   0.25   0.27   H i gh  va l ue   D B I   s c or e   1.45   1.52   1.30   L ow   va l ue   B M I   0.55   0.50   0.48   H i gh  va l ue       L e t' s  de lv e  i nt o how K M , F C M , a nd H C  s ta c k up. I n F ig ur e s  8  a nd 9 KM , t he  hi ghe r  s il houe tt e  s c or e   in di c a te s   w e ll - s e p a r a te c lu s t e r s e s p e c ia ll e f f e c ti ve   f or   K = o r   K = 3.  O th e   ot he r   s id e   in   F C M th e y e xpe c t   lo w e r   s il houe tt e   s c or e s   du e   to   th e   pr oba bi li s ti c   na tu r e S ti ll   pr oduc e s   m e a ni ngf ul   c lu s te r s   in   da ta s e ts   w it hout   s tr ic bounda r ie s   a nd  in   H C   m ig ht   h a ve   lo w e r   s il houe tt e   s c or e s gi ve it s   te nde n c to   f or m   hi e r a r c hi c a l   s tr uc tu r e s  w it hout  e xpl ic it  c lu s te r  de f in it io ns .   T he   a na ly s i s   r e ve a le th a K M   c lu s t e r in e xc e ll e ( hi gh  A R I )   a m a tc hi ng  th e   da ta ' s   na tu r a gr oups   to   tr ue   c la s s   la be ls F C M   pe r f or m a nc e   c a va r de pe ndi ng  on  th e   da ta w hi le   H C ' s   us e f ul ne s s   r e li e s   on  a li gnm e nt   w it th e   t r ue   c la s s   s tr uc tu r e K M   c lu s te r in a c hi e ve a   f a vor a bl e   D B I   in   th is   da ta s e t,   in di c a ti ng  w e ll - s e pa r a te a nd  c om pa c c lu s te r s T he   F C M   m a f lu c tu a te   due   to   ove r la ppi ng  c lu s te r s   a nd  th e   d e gr e e   of   f uz z in e s s T h e   H C   m a be   in te r pr e te w it h   c a ut io n,  a s   it   m ig ht   not   pr ovi de   r e li a bl e   in s ig ht s   [ 21 ] [ 25] .   S in c e   c lu s te r in a lg or it hm   pe r f or m a nc e   c a va r gr e a tl de pe ndi ng  on  th e   da ta e va lu a ti ng  w it m ul ti pl e   m e tr ic s   a nd i nc or por a ti ng doma in  knowle dge  i s  e s s e nt ia l.   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       O pt imi z in g di abe te s  pr e di c ti on:  unv e il in g pati e nt  s ubgr oup s  t hr ough c lu s te r in g   ( R it a G anguly )   3689   V is ua li z a ti on  of   c lu s t e r s   a nd  qu a li ty   a s s e s s m e nt   r e m a in s   c r uc i a f or   unde r s ta ndi ng  e a c h   a lg or it hm ' s   e f f e c ti ve ne s s   c om pr e he ns iv e ly .   I KM   c lu s te r in g,  s e ns it iv it a na ly s is   of   th e   s il houe tt e   s c or e   s how s   a   d e c li ne   a s   th e   num be r   of   c lu s te r s   in c r e a s e s w it K = or   K = r e c om m e nde f or   w e ll - de f in e c lu s te r s T he   D B I   is   m in im iz e a K = 2,  in di c a ti ng  th a t   th is   is   w he r e   opt im a c lu s t e r in oc c ur s F or   F C M   c lu s te r in g,  s e n s it iv it a na ly s is  w a s  va r ie d w it h t he  pa r a m e te r  f or  f uz z in e s s , m , a nd i s how e d t ha s il houe tt e  s c or e   de c r e a s e d w it h a in c r e a s e f uz z in e s s   pa r a m e te r th us   gi vi ng  le s s   w e ll - de f in e c l us te r s   a hi ghe r   va lu e s   of   m G e ne r a ll y,  in   th e   c a s e   of   HC th e r e   is   a   de c r e a s in s il houe tt e   s c or e   f or   a   hi ghe r   num be r   of   c lu s te r s K th us opt im a c lu s te r in g   oc c ur r e a K = or   K = 3.  T he   D B I   a ls o   in di c a te s   th a it s   lo w e s va lu e   c or r e s pond s   to   K = or   K = 3,  th u s   in di c a ti ng  be tt e r   c lu s te r in g.  S e ns it iv it y   a na ly s is   ta lk s   a bout   th os e   s e tt in gs   th a br in out   th e   be s in   pa r a m e te r s F or   K M   a nd  H C K = or   K = i s   r e c om m e nde d,  a nd  in   F C M a   s m a ll e r   f uz z in e s s   p a r a m e te r   is   be tt e r   f or   th e   P I D D .   E ve nt ua ll y,  th e   be s c lu s te r in m e th od  a n pa r a m e te r s   w il ha ve   to   be   de te r m in e ba s e on  da ta s e c ha r a c t e r is ti c s   a nd  th e   pr obl e m E xa m in a ti on  of   ot he r   e va lu a ti on  m e tr ic s   a nd  dom a in   knowle dge   w il a ll ow   m a ki ng  a   w e ll - in f or m e c hoi c e T he s e   c om put a ti on a ti m e   c om pl e xi ti e s   r e pr e s e nt   in ve s tm e nt s   in   th e   r unni ng  of   a lg or it hm s T he   c om pl e xi ty   of   KM   is   dr iv e by  th e   num be r   of   it e r a ti ons I c lu s te r s K da ta   poi nt s N a nd  f e a tu r e s d,  s it   c om e s   to   be   O ( I × K × N × d) F C M   ha ve   a   s im il a r   s tr uc tu r e   of   c om pl e xi ty   gi ve n   by  O ( I × c × n × d) w he r e   c   a ga in   r e f e r s   to   th e   num be r   of   c lu s te r s HC   nor m a ll ha s   qui te   a   la r ge r   ti m e   c om pl e xi ty of   th e   or de r   of   O ( N 3 ) e s s e nt ia ll due   to   de ndr ogr a m - bui ld in g.  N ot e   th a t   th is   i s   a n   a ppr oxi m a te   c om pl e xi ty ,   w hi c h   m a va r y   a c c or di n to   im pl e m e nt a t io n   de ta i l s ,   d i s ta n c e   m e tr ic   u s e d a n d   d a t a s e t   pr op e r t ie s I m pl e m e nt a t io n s  u s u a ll pr o vi d e   opt im i z a ti o n s  f or  i nc r e a s e d p r a c ti c a e f f i c i e n c y  i n  r e a l - w o r ld  s c e n a r i os .           F ig ur e  8 .   S e ns it iv it a na ly s is   of  K M  a nd F C M           F ig ur e  9 .   S e ns it iv it a na ly s is  of  H C   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll , V ol 14 , N o.  5 O c to be r  2025 3681 - 3692   3690   S e tt in up  ha r dw a r e   a nd  s of twa r e   to   im pl e m e nt   th e   pr opos e r e s e a r c in   c lu s t e r in a lg or it hm s   f or   a tt r ib ut e   c lu s te r in in   di a be te s   is   s how n   a s   f ol lo w s C on s e que nt ly th e   r e s ul t s   in   hypothe s is   te s ti ng,  s pe c if ic a ll in   a n a ly s is   of   va r ia nc e   ( ANOVA ) c oul b e   in te r pr e te a s   f ol lo w s .   i)   H 0,  th e r e   a r e   no   di f f e r e nc e s   in   pe r f or m a nc e   m e tr ic s   a m ong  th e   th r e e   s ta te m e th ods K M F C M a nd  H C   a nd  ii )   a lt e r na ti ve   hypothe s is   ( H 1) th e r e  a r e  di f f e r e nc e s  i n pe r f or m a nc e  m e tr ic s  a m ong the  t hr e e  s ta te d m e th ods .   T he   A N O V A   te s ge ne r a te s   a F - s ta ti s ti c   a nd  a   c or r e s ponding  p - va lu e T he   F - s ta ti s ti c   in di c a te s   th e   r a ti of   va r ia nc e   be tw e e gr oups   to   va r ia nc e   w it hi gr oups ;   hi g he r   va lu e s   s ig na w e ll - s e pa r a te d   c lu s te r s ,   w it m or e   va r ia ti on  be twe e gr oups   th a n   w it hi th e m T h e   p - va lu e   m e a s ur e s   th e   pr oba bi li ty   th a th e   ob s e r ve di f f e r e nc e s  oc c ur r e d by c ha nc e a nd a  ve r y l ow  va lu e  ( of te n < 0. 05)  s ugge s ts  r e je c ti ng t he  nul hypothe s is .   I nt e r pr e ti ng  th e   r e s ul ts th e   F - s ta ti s ti c   of   6.53  s ugge s ts   a   s ubs ta nt ia di f f e r e nc e   in   th e   a ve r a ge   va lu e s   be twe e th e   gr oups   be in g c om pa r e d. T he r e   i s   a   r e l a ti ve ly   la r ge  va r ia ti on  be twe e th e   gr oups   c om p a r e to   th e   va r ia ti on  w it hi e a c gr oup  it s e lf T he   p - va lu e   of   0.0075  ( le s s   th a 0.05,  a   c om m onl us e th r e s hol d)   pr ovi de s  s tr ong e vi de nc e  a g a in s th e  pos s ib il it y t ha th is  di f f e r e nc e  a r os e  by r a ndom c ha n c e . T hi s  l ow  p - va lu e   a ll ow s  us  t o r e je c th e  nul hypothe s is  w hi c h of te n a s s um e s  e qu a m e a ns  i n t he  gr oups .   S in c e   th e   p - va lu e   i s   be lo w   th e   s ig ni f ic a nc e   le ve l,   w e   r e je c t   th e   nul hypothe s i s T he r e f or e w e   c onc lu de   th a a le a s one   c lu s te r in a lg or it hm   s ig ni f ic a nt ly   out pe r f or m s   th e   ot he r s   a c r os s   th e   e va lu a te d   m e tr ic s H ow e ve r A N O V A   a lo ne   doe s   not   id e nt if w hi c s pe c if ic   gr oups   a r e   di f f e r e nt it   on ly   in di c a te s   th a t   th e r e  i s  a  di f f e r e nc e  s om e w he r e   a m ong the  gr oups . W or kf lo w   s te ps :   i)   L oa d a nd pr e - pr oc e s s  t he  P I D D  us in g pa nda s  a nd  N um P y .   ii)   I m pl e m e nt  K M , F C M , a nd H C   a lg or it hm s  us in g s c i - ki t - le a r n or  c us to m  i m pl e m e nt a ti ons .   iii)   R un t he  a lg or it hm s  on t he  pr e - pr oc e s s e d d a ta s e a nd c ol le c th e   r e s ul ts .   iv )   C om put e  e va lu a ti on me tr ic s  s u c h a s   s il houe tt e  s c or e , A R I , a nd  ot he r s  us in g a ppr opr ia te  f unc ti ons .   v)   V is ua li z e  t he  r e s ul t s  a nd e va lu a ti on me tr ic s  us in g M a tp lo tl ib  a nd S e a bor n.   vi )   I f  pr opos in g a  nove a lg or it hm , de ve lo p a nd i m pl e m e nt  i ba s e d on your  r e s e a r c h i ns ig ht s .   vi i)   R un t he  pr opos e d a lg or it hm  on t he  da ta s e a nd e va lu a te  i t s  pe r f or m a nc e .   vi ii )   C om pa r e  t he  r e s ul ts  of  t he  a lg or it hm s  a nd dr a w  c on c lu s io ns  ba s e d on the  e va lu a ti on me tr ic s .   ix )   D oc um e nt   th e   e nt ir e   pr oc e s s ,   in c lu di ng  th e   m e th odol ogy,  e xpe r im e nt a s e tu p,  r e s ul t s a nd  a na ly s i s in   a   r e s e a r c h pa pe r .   T hi s   ne w   m e th od  out pe r f or m e tr a di ti ona a lg or it hm s   li ke   KM F C M a nd  HC a c hi e vi ng  a   s e ns it iv it of   0.947  a nd  a   s pe c if ic it o f   0.884.   T he s e   r e s ul ts   e n a bl e e a r ly   in te r ve nt io a nd  l if e s ty le   c ha nge s r e duc in s e ve r e   c om pl ic a ti ons   f or   a t - r is in di vi dua ls .   T he   a lg or it hm ' s   pe r f or m a nc e   is   va li da te on  th e   P im a   da ta s e t,   w hi c m a y   not   f ul ly   r e pr e s e nt   br oa de r di ve r s e   popu la ti ons A ddi ti ona ll y,  th e   m ode l' s   r e li a n c e   on   c e r ta in  f e a tu r e s  m ig ht  l e a d t o r e duc e d a c c ur a c y w he n a ppl ie d t o  di f f e r e nt  da ta s e ts .   F ur th e r   s tu di e s   a r e   ne e de d   to   va li da t e   th e   a lg or it hm   a c r os s   m or e   di ve r s e   popula ti ons   a nd  da t a   s our c e s .   E xpl or in w a ys   to   in te gr a te   th is   m e th od  w it h   r e a l - ti m e   he a lt m oni to r in s ys te m s   c oul d   e nha nc e   it s   e f f e c ti ve ne s s  i n br oa de r  a ppl ic a ti ons . A ddi ti ona ll y, i nc or por a ti ng mor e  pa ti e nt - s pe c if ic   f a c to r s  c oul d i m pr ov e   di a gnos ti c   pr e c is io n.   T he   nove a lg or it hm   s how s   pr om is in g   r e s ul ts   in   e a r ly   di a be te s   de te c ti on,  but   it s   li m it a ti ons   hi ghl ig ht   th e   ne e d   f or   f ur th e r   r e f in e m e nt   a nd  v a li da ti on.  I ts   s uc c e s s f ul   a ppl ic a ti on   of f e r s   hope   f or   m or e  t a r ge te d a nd pr e ve nt iv e  he a lt hc a r e  m e a s ur e s .       4.   C O N C L U S I O N   S e l e c ti n t he   e f f e c ti v e   c l u s t e r in g   a l go r i th m   f o r   d i a b e t e s   pr e di c t io n   hi ng e s   on   bo t d a t a   c ha r a c t e r i s ti c s   a n d e s ir e ou t c o m e s D i s t a n c e   m e a s ur e s e v a lu a ti on  m e t r i c s a n do m a i e x p e r ti s e   a l c o n tr i b ut e  t c ho o s i n g t h e   m o s e f f e c t i ve   a p pr oa c h.   V i s ua li z in c lu s t e r s   f ur th e r   a i d s   i a s s e s s i n p e r f o r m a n c e T h i s   s t u dy  c om p a r e K M F C M ,   a n H C B e yo n s t a n d a r m e tr i c s   li k e   a c c ur a c y ,   t h e   a n a ly s i s   i n c l ud e d   s i lh ou e tt e   s c o r e ,   A R I ,   N M I a nd  D B I KM   c o n s i s t e n tl y e m e r g e d   a s   t he   m o s r o bu s t , a c h ie vi n h i gh  a c c ur a c y   a n f or m i ng w e l l - s e pa r a t e d c l u s t e r s .   T h i s  t r a n s l a t e s   to  b e tt e r  p a t i e n s u bgr o up  i d e n ti f i c a t io f or  t a r g e t e d   in te r v e nt io n s K M   a pp e a r  t b e   a   v a l u a b l e   to ol   f or   i m p r o vi n di a b e t e s   p r e d ic ti o a c c u r a c y   a n u nd e r s t a n di ng   di s e a s e   pr og r e s s i on ,   l e a d in g   t b e t t e r   p a ti e nt   c a r e H o w e v e r a lg or it hm   c ho i c e   s h ou l a l w a y s   b e   t a il or e t t h e   s pe c if i c   da t a pr e - pr o c e s s i ng  s t e p s a nd  r e s e a r c h   g o a l s :  i )  p a r a m e t e r   op ti m i z a t io n:   e m pl o op ti m i z a t i on  t e c h n iq u e s  s u c h  a s   gr i d   s e a r c h , r a nd o m   s e a r c h,  o r   B a y e s i a o p ti m i z a t io n   t f i nd   th e   b e s p a r a m e t e r   s e tt i ng s   f or   e a c h   c lu s t e r in g   m e th o d;   i i)   e n s e m b le   c l u s te r i ng i nv e s ti ga t e   t h e   u s e   of   e n s e m b le   c l u s t e r i ng   t e c h n iq u e s   th a c o m bi n e   m u lt ip le   m e t ho d s   t a c h i e v e   m or e   r o bu s a nd   r e li a b l e   r e s ul t s ;   i ii )   f e a t ur e   s e le c ti on   a n e ng in e e r in g:   e x pl or e   th e   i m p a c t   o f   f e a tu r e   s e l e c t io a nd   e n gi n e e r i ng   t e c hn iq u e s   t o   i m pr o ve   c l u s t e r i ng   q u a l it by   r e m o vi ng   ir r e l e va nt   or   r e d un d a n t   f e a t ur e s   a nd   c r e a ti n m or e   i nf or m a ti v e   on e s ;   i v)   d a t a   v i s u a li z a t io n:   u ti li z e   d a t a   vi s u a l iz a ti on   t e c h n iq u e s   t ga i d e e p e r   in s i gh t s   i nt c lu s t e r i n r e s u lt s   a n d   r e la ti o n s h ip s   b e tw e e da t a   po in t s   in   h ig h - di m e n s io n a s p a c e v)   d e n s i ty - b a s e d   c l u s t e r in g:   e x p e r i m e n w i th   d e n s it y - ba s e c lu s t e r i n a l g or i t hm s   l ik e   D B S C A N   to   ha n dl e   c lu s t e r s   o f   v a r yi ng   s h a p e s   a nd   d e n s i ti e s w hi c h   m i gh b e   m or e   s ui t a b l e   f o r   c e r t a i d a t a s e t s ;   v i)   s e m i - s up e r vi s e o r   tr a n s f e r   l e a r ni n g:   c o n s i d e r   i nt e gr a t in g   s e m i - Evaluation Warning : The document was created with Spire.PDF for Python.