I AE I nte rna t io na l J o urna l o f   Art if icia l In t ellig ence   ( I J - AI )   Vo l.   8 ,   No .   2 J u n e   201 9 ,   p p .   1 68 ~ 1 7 4   I SS N:  2252 - 8938 ,   DOI : 1 0 . 1 1 5 9 1 /i j ai. v 8 .i 2 . p p 1 68 - 1 7 4        168       J o ur na l ho m ep a g e h ttp : //ia e s co r e . co m/o n lin e/in d ex . p h p /I J A I   Predic tion o ba n k r uptcy usi ng  big da ta a na ly tic  ba sed o n f u zz y   c - m ea ns a lg o rith m       Arup  G uh a ,   N.   Vee ra nja ney ulu   V ig n a n ’s   F o u n d a ti o n   f o S c ien c e ,   T e c h n o lo g y   a n d   Re se a rc h ,   V a d la m u d i,   In d ia       Art icle  I nfo     AB ST RAC T   A r ticle  his to r y:   R ec eiv ed   F eb   18 ,   2 0 1 9   R ev i s ed   A p r   14 ,   2 0 1 9   A cc ep ted   M ay   16 ,   2 0 1 9       T h is  p a p e h a su g g e ste d   a n   o p ti m iza ti o n   a p p ro a c h   o f   th e   c lu ste r - b a se d   sa m p li n g   u sin g   F u z z y   c   m e a n a lg o rit h m   to   th e   c las si f ier  in   o rd e to   se lec t   th e   m o st  a p p r o p riate   in sta n c e o f   b a n k ru p tcy .   T h is  m e th o d   w a e x a m in e d   w it h   th e   h e lp   o f   a   c lu ste rin g   m e th o d   a n d   G A   b a se d   a rti f ici a n e u ra n e tw o rk   in   o r d e t o   so lv e   th e   e x isti n g   d a ta  im b a lan c e   issu e .   T h e   o b jec ti v e   o f   th is  p a p e is t o   o p ti m ize   th e   se le c ted   d e sig n   m o d e o f   GA - A N N b y   u sin g   F u z z y   C   m e a n a lg o rit h m   to   p re d ict  c o rp o ra te  b a n k ru p tcie b y   c o n sid e rin g   d iff e re n t   f in a n c ial  ra ti o o f   c o m p a n ies   a c r o ss   se v e ra in d u stries   w it h in   th e   p e rio d   f ro m   1 9 9 4   t o   2 0 1 4 .   Ef f e c ti v e n e ss   o f   th is  m e th o d   w a p ro v e d   b y   c o m p a rin g   it s   a c c u ra c y   ra te  w it h   th e   re su lt s   o f   e x isti n g   m e th o d .   F r o m   th e   p e rf o r m a n c e   re su lt   th e   a c c u ra c y   ra te  o f   th is  m e th o d   w a f o u n d   t o   b e   7 8 . 2 %   a n d   m is c las si f ica ti o n   ra te t o   b e   0 . 2 1 7 8 .   K ey w o r d s :   A r ti f icial  n e u r al  n et w o r k   C lu s ter - b a s ed   s a m p li n g   Fu zz y   m ea n s   cl u s ter i n g   Gen etic  al g o r ith m   Ma ch i n lear n i n g   Un d er - s a m p li n g   tech n iq u e   Co p y rig h ©   2 0 1 9   In stit u te o A d v a n c e d   E n g i n e e rin g   a n d   S c ien c e   Al rig h ts re se rv e d .   C o r r e s p o nd ing   A uth o r :   A r u p   Gu h a ,   Vig n an s   f o u n d atio n   f o r   Scien ce ,   T ec h n o lo g y   a n d   R esear ch ,   Vad la m u d i,   I n d ia.   E m ail:  g u h a. ar u p @ g m ail. co m       1.   I NT RO D UCT I O N     I n cr ea s in g   a m o u n t   o f   d ata  h as  led   to   t h e   ev o l u tio n   o f   d ata  s cie n ce   a n d   it s   ap p licatio n   to   s o lv e   co m p le x   cla s s i f icat io n   i s s u es  in   s et  o f   d ata  to   ta k i m p o r tan m a n ag er ial  d ec i s io n s   [ 1 ] .   T h is   p ap er   is   b ased   o n   an   o p ti m izatio n   ap p r o ac h   in   A NN  ( ar ti f icial   n e u r al  n et wo r k )   u s i n g   t h co n ce p o f   Fu z z y   cl u s ter i n g   w h ic h   is   t y p o f   s a m p l in g   tech n iq u f o r   ex tr ac ti n g   ap p r o p r i ate  in f o r m atio n   f r o m   t h r an d o m   d ata  s et  [ 2 ] .   C lu s ter i n g   i s   o n o f   th e f f e ctiv f o r m   o f   d ata  m i n in g   t ec h n iq u es  t h at  ar w id el y   u s ed   f o r   p er f o r m in g   d escr ip tiv lear n i n g   tech n iq u in   an al y tic s   f o r   p r ed ictin g   th co r p o r ate  b an k r u p tc y   [ 3 ] .   T h is   tech n iq u i s   b ased   o n   t h d eter m i n atio n   o f   s i m ilar   g r o u p s   w it h   id en tic al  f ea t u r es  a m o n g   h u g r a n d o m   d ata   s et.   T h is   m et h o d   is   p o p u lar l y   u s ed   s a m p lin g   tec h n iq u i n   t h ca s o f   i m b ala n ce   d ata  w it h i n   t h s et  o f   r a n d o m   d ata   b ec au s it  is   v er y   d i f f icu lt  to   i d en tify   p atter n s   a m o n g   d ata  c o m p r i s in g   o f   o d d   d ata  v alu es,   eith er   v er y   h i g h   o r   v er y   lo w   [ 4 ] .   T h m eth o d   o f   h an d li n g   s u ch   i m b alan ce   s et  o f   d ata  is   i m p o r tan p r io r   to   m o d el  d ev e lo p m en t   b ec a u s i f   t h d if f er en ce   in   d ata  s ize  is   to o   lar g o r   to o   s m all,   t h e n   th e   ca s es   o f   b an k r u p tc y   ar i g n o r ed   in   th an al y s is .   T h b asic  m e th o d s   th at  w er co n s id er ed   in   th i s   b an k r u p tc y   p r ed ictio n   w er b ased   o n   ap p ly in g   u n d er s a m p li n g   tec h n iq u to   th m aj o r ity   g r o u p   an d   o v er - s a m p lin g   to   th m i n o r it y   cla s s .   T h p ap er   is   b ased   o n   ap p licatio n   o f   Gen et ic  al g o r ith m   ( GA )   a n d   it s   co m b i n atio n   w it h   A r ti f icial   Neu r al  Net w o r k   ( A NN)   i.e   G A - ANN  m o d elli n g   tech n i q u [ 5 ] .   C o n d u cti n g   cla s s i f i ca tio n   tas k s   u s i n g   u n b ala n ce d   d ata  u s u al l y   d eter i o r ates  th class i f ica tio n   p er f o r m an ce .   I f   th d if f er e n ce   o f   th e   d ata  s ize  b et w ee n   th t w o   ca te g o r ies  is   g r ea ter ,   m o s o f   th d ata  is   s tr o n g l y   class i f ied   as  th m aj o r it y   cl ass   to   d ec r ea s th e   o v er all  m is cla s s i f ica tio n   [ 4 ] .   T h er ef o r e,   h an d lin g   u n b a lan ce d   d ata  m a y   b cr u cial  p r o ce d u r in   m o d el   d ev elo p m en t.  T h is   r e m ain s   t o   b m aj o r   d r a w b ac k   i n   th class i f icatio n /p r ed ictio n   tec h n iq u es.  T h ab o v d r a w b ac k   w i ll  d ef i n ite l y   h a v an   i m p ac o n   cla s s i f ica tio n   p er f o r m an ce .   T h p er f o r m a n ce   m etr ics,  lik th A U R O C ,   th AR ,   o r   th e   H - m e asu r h ad   n o   d ef i n ite  cr iter ia  t o   p r o d u ce   ev id en ce   f o r   ev al u a tin g   t h ex ce l len c e   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - AI     I SS N:  2252 - 8938       P r ed ictio n   o f b a n kru p tcy  u s in g   b ig   d a ta   a n a lytic  b a s ed   o n   f u z z c - mea n s   a lg o r ith m . . .   ( A r u p   Gu h a )   169   o f   th m o d el  p er f o r m an ce .   R e f i n in g   th d ata  w ill  ad d   to   th p er f o r m a n ce   i m p r o v e m e n o f   A N as  it  ca n   k ee p   ch ec k   o n   t h co m p u ta tio n   ti m a n d   al s o   r ed u ce   s p en d i n g   ex tr co m p u ti n g   r eso u r ce s   o n   tr ain i n g   A NN s   [ 5 ] .   Op ti m izi n g   th r eq u ir ed   d ata  w il aid   in   p r o v id in g   i m p r o v e d   class if icatio n   ac c u r ac y   a n d   th er eb y   en h a n ci n g   th r esu lts   o f   p r ed ictio n .   T h p r o p o s ed   m eth o d   is   ap p li ed   to   th p r o b lem   o f   b an k r u p tc y   p r ed ictio n s   u s i n g   t h f i n a n cial  d ata  th at  w er co llected   in   o r d er   t o   f o cu s   o n   t h p r o p o r tio n   o f   th s m all  an d   m ed iu m - s ca le   b an k r u p tc y   f ir m s .   T h in te n tio n   o f   th e   s tu d y   i s   to   clar if y   a n d   i n v e s ti g a te  h o w   m ac h in e   lear n in g   tech n iq u ca n   b e x p lo ited   w it h i n   t h f ie ld   o f   ec o n o m ic s .   Mo r s p ec if icall y ,   ai m   o f   t h r esear ch   is   to   r ef i n h o w   t h m ac h i n lear n in g   s tr ateg ie s   co u ld   b h ar n ess ed   to   p r ed ict  co r p o r ate  b an k r u p tc ies.  W in ten t   to   ap p l y   a n   ap p r o ac h   f o r   s elec tin g   th o p ti m al  tr ain in g   d ata  s et  an d   f o u n d   p r o p er   c o n n ec tio n   w e ig h to   lear n   th A NN  m o d el  w h er w ca n   e m p lo y   m u lti - m o d al  G A   u s i n g   F u zz y   C   m ea n s   alg o r it h m   t o   f in d   m u l tip le  s o lu tio n s   o n   t h cu t - o f f   v al u es  o f   ev er y   cl u s ter .   T h is   w a y   b y   e m p lo y i n g   clu s ter i n g   an d   o p ti m al  s elec tio n   ap p r o ac h   th n e u r al  n e t w o r k s   w ill  b e   m o r i m p r o v ed   b ec au s th f ea tu r s elec tio n   m et h o d   to   id e n ti f y   t h m o s ef f ec ti v f ea t u r es  f o r   th class if ier   w il en h an ce   t h ac cu r ac y   o f   t h eir   p r ed ictio n   o f   co r p o r ate  b a n k r u p tc y   [ 4 ] .   T h r em ai n in g   s ec tio n   o f   th p ap er   is   o r g a n ized   i n   th e   f o llo w i n g   w a y .   Sectio n   2   d escr ib es  t h e   e x is t in g   tech n iq u e   o f   s a m p li n g   an d   h o w   s a m p l in g   tech n iq u h a s   b ee n   u s ed   b y   m an y   r esear ch er s   o v er   th p er io d   o f   tim i n o r d er   to   s o lv co m p le x   is s u e s   o f   i m b alan c e   d ata  m a n ag e m e n t.   Sectio n   3   m en tio n ed   t h p r o p o s ed   Fu zz y   clu s ter - b ased   t ec h n iq u o f   s o lv i n g   b an k r u p tc y   p r o b le m   i n   m o r s p ec if ic  m a n n er .   Sec tio n   4   h as   p r esen ted   t h o u tco m o f   t h p r o p o s ed   tech n iq u i n   th f o r m   o f   th e ir   i m p le m en ta tio n   an d   e x p er i m e n tal  r e s u lts .   Sectio n   5   b r ief s   ab o u th co n cl u s io n   o f   th r es u lt c o n s id er in g   th f i n d in g s   o f   th p r o p o s ed   alg o r ith m   w ith   r e s ea r ch   g ap s   a n d   li m itatio n s .       2.   L I T E R AT U RE   R E VI E W   P r ev io u s   s t u d ies  i n   s o l v in g   d ata  i m b alan ce   p r o b le m   w er r ef er r ed   at  th t w o   ap p r o ac h es  o f   d ata  lev el  an d   alg o r it h m   le v el.   T h v ar io u s   co n ce p ts ,   tech n iq u e s   an d   s y s te m s   ar d is cu s s ed   i n   th i s   s ec tio n   b ased   o n   th ex is ti n g   r esear ch   i n   th cu r r en t sce n ar io .       2 . 1 .     Undersa m p lin g   t ec hn i q ue   Un d er s a m p li n g   tech n iq u i s   r ef er r ed   to   class if ica tio n   i n   ter m s   o f   r ed u ctio n   i n   th n u m b er   o f   in s ta n ce s   to   b alan ce   t h d atas et  co n s i s ti n g   o f   m aj o r ity   cla s s   an d   th m i n o r it y   c lass .   T h is   i s   an   e f f icie n m o d el   in   t h ca s o f   d ea lin g   w i th   l ar g a m o u n o f   d ata.   T h is   te ch n iq u is   h elp f u s i n ce   t h t r ain in g   ti m o f   t h e   d ataset  is   r ed u ce d .   Ho w e v er ,   t h is   m et h o d   p o s s es s   d is ad v a n t ag es  i n   t h f o r m   o f   r is k   o f   d is to r tin g   th o r i g i n al   d is tr ib u tio n   o f   t h m aj o r it y   c lass .   Mo r eo v er ,   in   t h i s   tech n i q u th p o ten tial  u s e f u d ata  is   d is ca r d ed .   I is   cr u cial  to   h a v r ele v a n d ata s et  to   i m p r o v t h e   clas s if icati o n   p er f o r m a n ce   o f   m o d el  b y   s a m p l in g   d ata   w it h   s i m ilar   p r o p er ties .   R an d o m   u n d er   s a m p li n g   r ed u ce s   t h d ataset  b y   r e m o v i n g   r an d o m l y   s a m p led   d ataset   f r o m   t h m aj o r it y   class   as  t h s i m p les m et h o d .   Ho w ev er ,   p ar tial  d ata  ca n   also   b u s ed   in   d ata  m o d eli n g   b ec au s th is   h u g a m o u n t o f   d ata  is   s u f f icie n f o r   an al y s is   i n   th er o f   b ig   d ata  [ 4 ].   A   cl u s ter - b ased   u n d er s a m p li n g   ap p r o ac h   w as  p er f o r m ed   w h er th ap p r o ac h   h as  f ir s t   co n d u cted   clu s ter i n g   o f   a ll  i n s ta n ce s   o f   d ata  an d   d iv id ed   th e m   in to   s ev er al  cl u s ter s   [ 6 ] .   Ne x t,  it  s elec ts   t h p o ten tial   r elev an n u m b er   o f   in s ta n ce s   th at  i s   b elo n g in g   to   t h m a j o r ity   clas s   f r o m   ea ch   c lu s te r   o n   th b asi s   o f   p r o p o r tio n al  in s ta n ce s   m aj o r it y   clas s   to   t h n u m b er   o f   i n s tan ce s   o f   t h m i n o r it y   cla s s   w i th i n   t h cl u s ter .   C lu s ter i n g ,   en s e m b le  a n d   u n d er s a m p li n g   m et h o d s   w er p er f o r m ed   in   o n s t u d y   to   s o l v th class   i m b ala n ce   p r o b lem   [ 7 ] .   T h ey   f ir s co n d u cted   clu s ter i n g   u s in g   in s tan ce s   o f   th m aj o r it y   class   a n d   th en   co n s tr u cted   m u ltip le  tr ai n in g   d ataset s   co m p r is in g   o f   s a m p led   i n s ta n ce s   o f   t h m aj o r it y   cla s s   f r o m   ea c h   clu s ter ,   p r eser v i n g   in s ta n ce s   o f   t h m i n o r it y   cla s s .   T h ev o lu tio n ar y   s a m p li n g   m et h o d   b ased   o n   G A   h a s   b ee n   d ep lo y ed   in   o r d er   to   s elec ti v el y   r e m o v i n s tan c es  f r o m   t h m aj o r it y   cla s s   [ 8 , 9 ] .   Ho w ev er ,   p r ev io u s   s t u d i es  o n   ev o l u tio n ar y   s a m p li n g   u s in g   G A   h av s h o w ed   p er f o r m a n ce   r esu lts   o f   ti m e - co n s u m i n g   ta s k s   in   e x p lo r in g   o p ti m al  o r   n ea r   o p tim a s o l u tio n s ,   s in ce   i n s ta n ce s   o f   t h m aj o r it y   cla s s   h a s   b ec o m s t r i n g s   f o r   G s ea r c h in g .   T h u s ,   i n   th i s   s tu d y   cl u s ter - b ased   s a m p l in g   s u p p o r ted   b y   G is   s u g g est ed   in   o r d er   to   h a n d le  t h i n -   e f f icie n c y   p r o b lem   o f   th p r ev io u s   ex i s ti n g   e v o lu tio n ar y   s a m p li n g   m et h o d .     2 . 2 .     Clus t er ing   o f   no n - ba nk ruptc y   f ir m   da t a   ba s ed  o ma j o rit y   cla s s   A   cl u s ter   b ased   b o o s tin g   al g o r ith m   w as  p er f o r m ed   in   o n s t u d y   u s i n g   th I n s ta n ce   Har d n ess   T h r esh o ld   an d   C B o o s alg o r ith m   w i th   r o b u s f r a m e w o r k   in   o r d er   to   p r ed ict  b an k r u p tcy   e f f ec ti v el y   o f   th e   f i n an cia i m b ala n ce   d ataset  [ 3 ] .   T h is   p r o p o s ed   f r a m e w o r k   i s   also   v er if ied   b y   t h KB ( Ko r ea n   b an k r u p tc y   d ataset)   h a v i n g   a   s m all   b alan cin g   r atio   in   b o t h   t h te s ti n g   an d   tr ai n i n g   p h ase s .   T h p r o p o s ed   m o d el   ex p er i m e n r es u lt s   h a s   ac h iev ed   8 6 . 8 in   A U C   i.e .   t h ar ea   u n d er   R OC   c u r v e.   I h a s   also   o u tp er f o r m ed   o th er   ex is t in g   m e th o d s   f o r   b an k r u p tc y   p r ed ictio n   u s i n g   i m b ala n ce   s et  o f   d ata.   Ma ch in lear n in g   m et h o d s   w er e   ap p lied   to   th d ataset  co llected   f r o m   t h m a n u f ac tu r i n g   co m p a n ie s   i n   Ko r ea ,   in   o r d er   to   k n o w   t h eir   f u tu r e   Evaluation Warning : The document was created with Spire.PDF for Python.
                   I SS N :   2252 - 8 9 3 8   IJ - AI   Vo l.  8 ,   No .   2 J u n e   20 1 9 :   1 68     1 7 4   170   s tate  w it h   t h h elp   o f   ce r tain   f in an c ial  m ea s u r es   [ 10 ] .   Usi n g   s ev er al  m ac h i n lear n in g   m et h o d   r esu lt   s h o w ed   an   ac c u r ac y   o f   m o r t h a n   9 5 %.  Ho w ev er ,   th i s   s t u d y   h as   s o m e   li m ita tio n   a ls o   i n   th e   f o r m   o f   d i m en s io n a l   is s u e.     2 . 3 .     Under   s a m pl ing   t ec hn iq ue  ba s ed  o n g enet ic  a lg o rit hm s   ( G A )   A   r e - s a m p li n g   ap p r o ac h   is   p er f o r m ed   i n   s t u d y   i n   o r d er   to   s o lv t h u n b ala n ce d   d ata  s et s   [ 5 ] .   I n   th i s   ap p r o ac h ,   b o th   th o v er s a m p lin g   an d   u n d er   s a m p li n g   m et h o d   ar co m b in ed   w it h   th h elp   o f   g e n etic   alg o r ith m   ( G A ) .   T h ap p licatio n   o f   g en etic  a lg o r it h m   i s   b ased   o n   s et  o f   d eter m i n ed   cr iter ia  an d     th u n b alan ce   r ate.   T h is   ap p r o ac h   h a s   b ee n   te s ted   o n   liter atu r as   w ell   as   in d u s tr ial   d at asets   a n d   a   d esire d   i m p r o v e m en t o n   th cla s s i f ica tio n   p er f o r m a n ce   h as b ee n   o b s er v ed   [ 11 ].   An   u n d er   s a m p li n g   ap p r o ac h   an d   GA - A N m o d el  h a s   b ee n   ap p r o ac h ed   in   s tu d y   t o   im p r o v e     th ex is ti n g   tr ad itio n al  ap p r o ac h   o f   clas s i f icatio n ,   w h ic h   w er u s u all y   co s tl y   a n d   s lo w   [ 5 ] .   T h u n d er s a m p li n g   ap p r o ac h   is   b ased   o n   K - m ea n s   clu s ter   d is tr ib u t io n   i n   o r d e r   to   s o lv t h p r o b lem s   o f   i m b alan ce   s et  o f   d ata.   T h is   m e th o d   i s   e f f ec tiv e   to   e n h a n ce   th e   r ate  o f   s a m p li n g   a n d   i m p r o v ed   th e   f in a cla s s i f i ca tio n .   A t   th e   s a m e   ti m e,   t h i s   m et h o d   h as  lo w er   ti m o f   p r o ce s s in g .   G A - ANN  m et h o d   u s ed   i n   t h eir   s t u d y   u s es  th e   al g o r it h m   to   o p tim ize  t h b ias  a n d   w eig h o f   th n e u r al  n e t w o r k   a n d   th er eb y   r es u lted   i n to   b etter   p er f o r m a n ce .   T o   in cr ea s i n g   t h class if icatio n   a cc u r ac y   n e w   g e n etic  al g o r ith m   w a s   p r o p o s ed   b ased   o n   o v er   s a m p lin g   in   o r d er   to   s o lv th cla s s   i m b alan ce   d ata  s ets  [ 12 ] .   I ca n   cr ea te   o p tim ized   m i n o r it y   clas s   ev en ts   to   b alan ce   t h e   tr ain i n g   d ataset s .   T h ex p er im en tal  r esu l ts   o n   i m b alan ce d   d atasets   p r o v ed   b etter   p er f o r m a n ce   o v er   th e   p r ev io u s   s a m p li n g   m et h o d s   in   ter m s   o f   AUC a n d   F - m ea s u r e.       3.   P RO P O SE D   M O DE L   T h p r o p o s ed   clu s ter - b ased   m eth o d   is   b ased   o n   clu s ter in g   alg o r ith m .   I n   th i s   s tu d y ,   th m et h o d   is   ad o p ted   u s in g   F u zz y   C   cl u s ter in g .   F u zz y   c - m ea n s   alg o r i th m   ap p lies   t h co n ce p o f   f u zz y   lo g ic  w h er   th o b j ec ts   o f   class i f icat io n s   ar allo w ed   f o r   m o r t h an   o n clu s ter .   T h i s   t y p o f   cla s s i f icatio n   m ak e s   h ig h   clar it y   s e n s s i n ce   all  th cl u s ter s   ar w ell  s ep ar ated .   I n   th i s   tech n iq u e,   v al u ar ass i g n e d   to   all  th w ig h t s .   R ep etitio n   is   d o n e   u n til   t h ce n tr o id   is   co m p u ted   f o r   ea ch   o f   th c lu s ter   w it h   t h h elp   o f   f u zz y   p ar titi o n .   T h i s   co n ce p is   r elate d   w it h   t h d ev elo p m en t   o f   k - m ea n s   al g o r ith m   f o r   t h s e n s o r   n e t w o r k .   Usi n g   t h f u zz y     c - m ea n s   al g o r ith m   t h p ar tit io n in g   o f   d ata  i s   p o s s ib le  b y   t h n o d es  i n to   d if f er en m ea s u r e - d ep en d e n t     s et  o f   g r o u p s   [ 1 3 ] .   T h r o le  o f   th i s   alg o r it h m   is   to   class if y   t h d ata  in to   s ep ar ate  g r o u p s .   E a ch   o f   t h s ep ar ated   g r o u p s   ar th e n   u s ed   to   f i n d   o u th ce n tr o id s   an d   b ased   o n   th e s e,   h i g h   p r io r it y   an d   lo p r io r ity   v alu e s   ar e   d eter m in ed   f o r   th b an k r u p tc y   an d   n o n   b an k r u p tc y   d at a.   T h p u r p o s o f   th is   n e w l y   p r o p o s ed   m o d el  is   to   d eter m in t h r is k   o f   b an k r u p tc y   w i th i n   t h ese  p r ed icted   r an g o f   g at h er ed   d ata,   co n s id er in g   1 2   s et  o f   attr ib u tes.  I n   o u r   p r o p o s ed   i m p le m e n tat io n   w ar u s i n g   en h a n ce d   GANN   b ased   m u lti m o d al  G A   b ased     n eu r al  n et w o r k .     C o n s tan t c ap ital o r   f i x ed   ass et s .     C u r r en t a s s et s ,   in v e n to r y   an d   r ec eiv ab les o r   s h o r t - ter m   liab il i ties     ( R ec eiv ab les  *   3 6 5 )   / to tal  ass ets     ( Net  p r o f it +   d ep r ec iatio n )   / to tal  ass et s     T o tal  s ales /  to tal  ass ets     Sh o r t - ter m   liab ilit ies / to tal  as s ets     W o r k in g   ca p ital /  to tal  as s ets     W o r k in g   ca p ital /  s a les     ( C u r r en t liab il ities   *   3 6 5 )   / c o s t o f   p r o d u cts s o ld     ( C u r r en t a s s et s   - i n v en to r y   -   r e ce iv ab les)  / lo n g - ter m   liab il iti es     ( I n v e n to r y   *   3 6 5 )   / sales     Net  p r o f it/i n v e n to r y     T h s tep   b y   s tep   p r o ce s s   o f   t h p r o p o s ed   m o d el  is   s h o w n   i n   th f ig u r e.   Fig u r e:  P r o p o s ed   m o d el  o f   b an k r u p tc y   p r ed ictio n   T h p r o ce s s   o f   th m o d el  co m p r is es o f   th f o llo w i n g   p r o ce s s :   Step   1 :   I n   th f ir s s tep   o f   th m o d el  d esi g n ,   w h a v g at h er ed   th f in a n cial  d ata  o f   co m p an ies  ac r o s s   s e v er al   in d u s tr ies  in   I n d ia  alo n g   w it h   th eir   d if f er en f in a n cial  r atio s   w it h i n   th p er io d   1 9 9 4   to   2 0 1 4 .   B ig   Data   r elate d   to   b an k r u p tc y   is   co n s id er ed .   T h ese  s et  o f   b a n k r u p tc y   an d   n o n - b an k r u p tc y   d ata  ar e   b ein g   s to r ed   in   m er g ed   d ata_ 1 0 X. csv .   T h d ata  is   th en   p r ep r o ce s s ed   to   clea n   n o is d ata,   n u ll  d ata  an d   m i s s i n g   d ata  an d   th en   s to r ed   in   tr an s f o r m ed _ n e w   d ata. cs v   b y   cr ea tin g   s p ec if ic  p ath   o f   p r ep r o ce s s ed   d ata.   T h F i g u r e   1   s h o w s   cl u s ter ed   d ata   alo n g   w it h   t h eir   ce n tr o id s ,   u s i n g   Fu zz y   m ea n s   cl u s ter in g .   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - AI     I SS N:  2252 - 8938       P r ed ictio n   o f b a n kru p tcy  u s in g   b ig   d a ta   a n a lytic  b a s ed   o n   f u z z c - mea n s   a lg o r ith m . . .   ( A r u p   Gu h a )   171       Fig u r 1 .   Fu zz y   c - m ea n s   cl u s t er in g       Step   2 :   Data   g at h er ed   is   p r ep r o ce s s ed   u s in g   u n d er g o n f u zz y   m ea n s   al g o r ith m   a n d   f o llo w ed   b y   d ata   f ilter i n g .   W it h   th h e lp   o f   th is   d ata,   1 2 * 1 2   co r r el atio n   m atr i x   is   f o r m ed   co n s id er in g   ea ch   o f     th attr ib u tes.  T h en   t h m atr i x   h a s   b ee n   ar r an g ed   co n s id er in g   th eir   co r r elatio n   h ea t m ap .   T h F ig u r e   2   s h o w s   th co r r elatio n   h ea t m ap .   W ith   th is   m atr i x ,   m a x i m u m   p r io r ity   ca n   b d eter m i n ed   o f   ea ch   attr ib u te  v al u es  w it h   th h elp   o f   co r r elatio n   m atr i x .           Fig u r 2 .   C o r r elatio n   m atr ices   w it h   h ea t m ap       Step   3 :   T h ese  s et  o f   attr ib u te   clu s ter ed   d ata  is   th e n   an al y s ed   w it h   th h elp   o f   h i s to g r a m   in   o r d er   to   p r ed ic t   b an k r u p tc y   a n d   n o   b an k r u p tcy   d ata,   as  s h o w n   in   t h f i g u r e .   Had o o p   m ap   r ed u ce   alg o r ith m   h as  b ee n   ap p lied   to   th ese  p r ep r o ce s s ed   d ata.   Step   4 :   B an k r u p tc y   an d   n o n - b an k r u p tc y   s ta tu s   o f   d ata  is   f o u n d   w it h   th f ir s attr ib u te  i.e   co n s tan ca p ital  o r   f i x ed   ass ets.  L ik e w i s w h a v p r o ce e d ed   w it h   ea ch   attr ib u t e.   T h m atr ice s   w er d eter m i n ed   alo n g   w it h   h ea t   m ap   th at  ar clas s i f ied   co lo u r w i s w it h   attr ib u te s   r an g as   s h o w n   i n   t h F ig u r e   3 .   Evaluation Warning : The document was created with Spire.PDF for Python.
                   I SS N :   2252 - 8 9 3 8   IJ - AI   Vo l.  8 ,   No .   2 J u n e   20 1 9 :   1 68     1 7 4   172       Fig u r 3 .   His to g r a m   a n al y s i s   o f   p r o ce s s ed   d ata       Ag g lo m er ati v h ier ar ch ical   C lu s ter   tec h n iq u h as  b ee n   e m p lo y ed   i n   t h i s   ca s to   i m p r o v e     th e f f icien c y   o f   t h b an k r u p t c y .   Af ter   p er f o r m i n g   cl u s ter i n g   o n   th e x tr ac ted   attr ib u tes,  th clu s te r   fea tu r e   ve cto r   is   ap p lied   to   m o d if y   t h e   class i f ier s   f o r   p r ed ictin g   b an k r u p tc y   f r o m   th d ata.   Step   5 :   T h p r ep r o ce s s ed   d ata  an d   t h cl u s ter ed   d ata   is   s to r ed   in to   t h tr a n s f o r m ed _ n e w   d ata. cs v .   T h f ile  is   cr ea ted   au to m atic all y   an d   r en a m ed   as  d ata. csv ,   w h ich   i s   o u r   m ai n   d ata.   T h is   m ai n   d ata  is   n o s ep ar ated   in to   test i n g   d ata  an d   tr ain i n g   d ata  f o r   th e   p r ed ictio n   o f   b a n k r u p tc y   b y   co n s id er in g   t h e m   w it h   t h s et   o f   1 2   attr ib u te.   T h class i f ic atio n   is   d o n w it h   clas s i f ier   s u p p o r v ec to r   m ac h i n e,   lo g i s tic  r eg r es s io n   a n d     GA - A N in   o r d er   to   co m p ar e.   Step   6 :   B ef o r e   class if ica tio n   o f   th d ata  is   d o n e,   th cl ass i f ier   is   tr ain ed   in   o r d er   t o   p r e d ict  th ex ac t   b an k r u p tc y .   T h p r ed ictio n   r e s u lt s   f o r   b an k r u p tc y   r es u lt s   ar en h an ce d   b y   e m p lo y i n g   m u l ti  m o d al  G A   b ased   n eu r al  n et w o r k .   C o r r elatio n   m atr i x   w ill  ca lcu la te  t h e   m a x i m u m   v al u es  o f   attr ib u tes  o n   t h b asis   o f   m ap p in g   tech n iq u e.   A f ter   t h at,   w n ee d   to   g iv th i s   d ata  to   th class if i er ,   s h o w n   in   t h F ig u r 4   C o r r elatio n   m atr ice s   o f   b an k r u p tc y   d ata  an d   n o n   b an k r u p tc y   d ata  w it h   th s tatu s   o f   I D .           Fig u r 4 .   C o r r elatio n   m atr ices   o f   b an k r u p tc y   d ata  an d   n o n   b an k r u p tc y   d ata  w it h   t h s tat u s   o f   I ( 0   an d   1 )       Step   7 :   A t   t h e n d ,   th e   co n f u s i o n   m atr ices   ar ca lc u lated   b as ed   o n   T P   FP   T FN,  to   an al y ze   th e   p er f o r m a n ce   o f   GA - ANN   class i f ier .   T h m atr ix   w ill  s h o w   t h b an k r u p tc y   a n d   n o n   b an k r u p tc y   d ata  p r ed ictio n   ca p ac it y   o f   th clas s i f ier   alo n g   w i th   t h m is clas s if icatio n   r ate.   T P   m ea n s   b an k r u p tc y   d ata  was  clas s i f ied   as  b a n k r u p tc y   a n d   n o n   b an k r u p tc y   d ata  w a s   cl ass i f ied   a s   b an k r u p tc y .   FP   m ea n s   b an k r u p tcy   d ata  w as  clas s i f ied   as  n o n   b an k r u p tc y ,   FN  m ea n s   n o n   b an k r u p tc y   d ata  w a s   class i f ied   as   b an k r u p tc y .   T m ea n s   n o n   b an k r u p tc y   d ata  w a s   cla s s i f ied   as   b an k r u p tc y   an d   b an k r u p tc y   d ata   w a s   class if ied   as  n o n   b an k r u p t c y .   On ce   t h p r o p o s ed   s ch e m e   is   d esig n ed ,   th p er f o r m a n ce   o f   th m eth o d   w ill   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ - AI     I SS N:  2252 - 8938       P r ed ictio n   o f b a n kru p tcy  u s in g   b ig   d a ta   a n a lytic  b a s ed   o n   f u z z c - mea n s   a lg o r ith m . . .   ( A r u p   Gu h a )   173   b ev alu ated   b ased   o n   ac cu r ac y ,   p r ec is io n ,   s p ec if icit y   a n d   s e n s it iv i t y ,   s h o w n   in   t h Fi g u r 5 .   Step   8 :   T h f in al  co m p ar i s o n   h as  b ee n   d o n w it h   t h e   ex is t in g   m e th o d s   to   k n o th ef f ec t iv e n es s   o f   th m et h o d .           Fig u r 5 .   P er f o r m a n ce   ev al u at io n   m atr i x       4.   E XP E R I M E NT S AN RE S UL T S   4 . 1 .     Resea rc h da t a   a nd   ex pe ri m ent s   T h d ataset  co m p r is o f   f in an cial  r atio s   o f   s e v er al  s m a ll  an d   m ed i u m   s ca le  co m p a n ies  f r o m   1994 - 2 0 1 4 .   T h b an k r u p tc y   an d   n o n - b an k r u p tc y   d ata  s tat u s   ar s h o w n   i n   t h F ig u r 6 .   T h n u m b er   o f     n o n - au d ited   co m p a n ies  ar f o u n d   co m p ar ati v el y   h i g h er   t h a th to tal  f ir m s .   T h d ataset  w a s   s p lit  i n to   t w o   s u b s et s   b y   co n s id er in g   8 0 o f   th d ata  f o r   tr ain in g   d ataset  w h ic h   is   u s ed   to   d ev elo p   u n d er s a m p li n g   m et h o d   f o r   d ata  cla s s   b ala n ci n g   a n d   2 0 f o r   a   v al id atio n   d at aset,  w h ic h   i s   a r r an g ed   w . r . th e   tr ai n i n g   d ata  d is tr ib u tio n .   T w o   s ta g s el ec tio n   p r o ce s s   o f   t h i n p u v ar iab l h as  b ee n   ap p li ed   b ased   o n   t h e   p r ev io u s   m et h o d   [ 1 , 3 ] .   T h ch o s en   f i n al  v ar iab les  w er b ase d   o n   th e   va r ia n t te s t   an d   th e s e   v ar iab le  w er u s ed   f o r   th cr ed it  e v al u atio n   o f   t h s elec ted   co m p an ies.  T h m o d el  is   i m p le m e n ted   u s in g   to o ls   p y t h o n   3 . 6   an d   An ac o n d n a v i g ato r .           Fig u r 6 .   Statu s   o f   b an k r u p tc y   an d   n o n b an k r u p tc y       4 . 2 .     Resul t   a nd   a na ly s is   E f f ec tiv e n es s   o f   t h clu s ter - b ased   GA - A N u n d er s a m p li n g   m et h o d   u s i n g   Fu zz y   C   m ea n s   alg o r ith m   ap p lied   to   th class i f ier   w a s   b ein g   i n v esti g ated   f o r   th b an k r u p tc y   p r ed ictio n   ap p licatio n .   Her e ,   w h av s e GA   to   s ea r ch   t h cu t - o f f   f o r   ea ch   clu s ter   th at  r ep r esen t s   th m i n i m u m   d is tan ce   o f   th clu s ter s   f r o m   th ce n tr o id .   T h o p ti m izatio n   tech n iq u e s   ar ap p lied   u s in g   G A - ANN,   th at  h as  led   to   a cc u r ate  p r ed ictio n   in   th is   f ea t u r m atr ix .   I n   t h class i f icatio n   m o d el,   th ap p lied   class if icat io n   alg o r it h m s   u s ed   w er Gen etic   A l g o r ith m   b ased   A r ti f icia Neu r al  Net w o r k s ,   lo g i s tic  R e g r ess io n ,   S u p p o r Vec to r   Ma ch in es  an d   Dec is io n   Evaluation Warning : The document was created with Spire.PDF for Python.
                   I SS N :   2252 - 8 9 3 8   IJ - AI   Vo l.  8 ,   No .   2 J u n e   20 1 9 :   1 68     1 7 4   174   T r ee s   to   p r e d ict  b an k r u p tc y .   T ested   Gen etic  A l g o r ith m   b ased   A r ti f icial   Neu r al  Net w o r k s   w er f o u n d   ac cu r ac y   r ate  o f   7 8 . 2 1 w ith   co m p ar is o n   to   ex is t in g   m eth o d   ac cu r ac y   r ate  an d   s h o w ed   m is clas s if icatio n   r ate   0 . 2 1 7 8 .   E f f ec ti v en e s s   o f   th i s   m et h o d   w as  p r o v ed   b y   co m p a r in g   its   ac cu r ac y   r ate  w it h   t h e   r esu l ts   o f   e x is tin g   m et h o d .   T h u s ,   th is   m et h o d   h as  p r o v ed   ef f ec ti v i n   th h a n d lin g   o f   s u c h   i m b a lan ce   d at aset  p r io r   to   m o d el  d ev elo p m en t s h o w n   in   t h F ig u r 7.           Fig u r 7 .   C o m p ar is o n   o f   m o d el  f o r   ac cu r ac y   r ate       5.   CO NCLU SI O N   T h is   s tu d y   v er i f ied   th e f f ec tiv e n ess   o f   th p r o p o s ed   ap p r o ac h   o f   clu s ter - b ased   u n d er - s a m p li n g   u s i n g   Fu zz y   C   m ea n s   alg o r ith m   in   o r d er   to   o p tim ize  G A - ANN  f o r   ef f ec t iv p r ed ictio n   o f   b an k r u p tc y .   I n   t h i s   th e   d ata  is   s tr u ctu r ed   b y   c lass i f y in g   th e m   u s i n g   clu s t er in g   tech n iq u a n d   p er f o r m i n g   s i m u lta n eo u s   o p tim izatio n   f o r   th A NN  m o d el.   T h is   m et h o d   h as  led   to   th ef f ec ti v e n es s   o f   th cla s s i f ie r   an d   d ec r ea s in g   th e   d ata  i m b alan ce   r ate   at  t h s a m ti m e.   T h ex p er i m en tal  r e s u lt   s h o w ed   a n   ac c u r ac y   o f   7 8 . 2 as  co m p ar ed   to   th ex i s ti n g   m et h o d s .       RE F E R E NC E S   [1 ]   T a m b e ,   P .   ( 2 0 1 4 ).   Big   d a ta i n v e st m e n t,   sk il ls,  a n d   f ir m   v a lu e .   M a n a g e m e n S c ien c e ,   6 0   (6 ),   1 4 5 2 - 1 4 6 9 .   [2 ]   Kim ,   K.  J. ,   &   A h n ,   H.  (2 0 1 2 ).   A   c o rp o ra te  c re d it   ra ti n g   m o d e u s in g   m u lt i - c las su p p o rt  v e c to m a c h in e w it h   a n   o rd i n a p a irw ise   p a rti ti o n in g   a p p r o a c h .   Co m p u ters   &   Op e ra ti o n s R e se a rc h ,   3 9   (8 ) ,   1 8 0 0 - 1 8 1 1   [3 ]   L e ,   T . ,   Le  S o n ,   H . ,   V o ,   M . ,   L e e ,   M . ,   &   Ba ik ,   S .   (2 0 1 8 ).   A   c lu ste r - b a se d   b o o st in g   a lg o rit h m   f o b a n k ru p tcy   p re d ictio n   i n   a   h ig h ly   i m b a lan c e d   d a tas e t.   S y m m e tr y ,   1 0 (7 ),   2 5 0 .   [4 ]   Kim ,   H.  J.,   Jo ,   N.  O.,   &   S h in ,   K.  S .   (2 0 1 6 ).   Op ti m iza ti o n   o f   c l u ste r - b a se d   e v o lu ti o n a ry   u n d e rsa m p li n g   f o th e   a rti f icia n e u ra n e tw o rk s in   c o rp o ra te b a n k ru p tcy   p re d ictio n .   Ex p e r S y ste m w it h   A p p li c a ti o n s,   5 9 ,   2 2 6 - 2 3 4 .   [5 ]   S o n g ,   A . ,   &   X u ,   Q.  ( 2 0 1 8 ) .   Im b a lan c e d   Da ta  Clas sif ic a ti o n   Ba se d   o n   M BCDK - m e a n Un d e rsa m p li n g   a n d   G A - A N N.  In   In ter n a ti o n a Co n f e re n c e   o n   A rti f icia Ne u ra Ne t w o rk s ( p p .   3 4 9 - 3 5 8 ).   S p rin g e r,   C h a m .   [6 ]   Ye n ,   S .   J. ,   &   L e e ,   Y.  S .   (2 0 0 9 ) .   C lu ste r - b a se d   u n d e r - sa m p li n g   a p p r o a c h e f o i m b a lan c e d   d a ta  d istri b u ti o n s.  Ex p e rt  S y st e m w it h   A p p li c a ti o n s,  3 6   (3 ) ,   5 7 1 8 - 5 7 2 7   [7 ]   Ka n g ,   P . ,   Ch o ,   S . ,   &   M a c L a c h lan ,   D.  L .   (2 0 1 2 ).   Im p ro v e d   re sp o n se   m o d e li n g   b a se d   o n   c lu ste rin g ,   u n d e r - sa m p li n g ,   a n d   e n se m b le.  Ex p e rt  S y s te m   w it h   A p p li c a ti o n s,  3 9   ( 8 ),   6 7 3 8 - 6 7 5 3 .   [8 ]   Kh o sh g o f taa r,   T .   M . ,   S e li y a ,   N. ,   &   Dro w n ,   D.  J.  (2 0 1 0 ) .   Ev o l u ti o n a ry   d a ta  a n a l y sis  f o th e   c las i m b a lan c e   p ro b lem .   In telli g e n Da ta A n a l y si s,  1 4   (1 ),   6 9 - 88   [9 ]   G a r c ía,  S . ,   &   H e rre ra ,   F .   (2 0 0 9 ).   Ev o lu ti o n a ry   u n d e rsa m p li n g   f o c las sif ic a ti o n   w it h   i m b a lan c e d   d a tas e ts:  P ro p o sa ls  a n d   tax o n o m y .   Ev o lu ti o n a ry   Co m p u tati o n ,   1 7   (3 ) ,   2 7 5 - 3 0 6 .   [1 0 ]   Ch o w ,   J.  C.   ( 2 0 1 8 ).   A n a l y sis o f   F in a n c ial  Cre d it   Risk   Us in g   M a c h i n e   L e a rn in g .   a rX iv   p re p r in t   a rX iv :1 8 0 2 . 0 5 3 2 6 .   [1 1 ]   V a n n u c c i,   M . ,   &   Co ll a ,   V .   ( 2 0 1 7 ).   G e n e ti c   A lg o rit h m Ba s e d   Re sa m p li n g   f o th e   Clas sif ica ti o n   o f   Un b a lan c e d   Da tas e ts.  In   In ter n a ti o n a l   Co n fer e n c e   o n   I n telli g e n De c isio n   T e c h n o l o g ies   ( p p .   2 3 - 3 2 ).   S p ri n g e r,   Ch a m .   [1 2 ]   Do n g ,   S . ,   &   W u ,   Y.  (2 0 1 8 ,   Ju l y ).   g e n e ti c   a lg o rit h m - b a s e d   a p p r o a c h   f o c las s - i m b a lan c e d   le a rn in g .   In   T h ir d   In ter n a t io n a W o rk sh o p   o n   P a tt e rn   Rec o g n it io n   (Vo l.   1 0 8 2 8 ,   p .   1 0 8 2 8 1 D).  In ter n a ti o n a S o c iety   f o Op ti c a n d   P h o t o n ics .   [1 3 ]   Qin ,   J.,   F u ,   W . ,   G a o ,   H.,   &   Zh e n g ,   W .   X .   (2 0 1 7 ).   Distr ib u ted   $   k   $ - m e a n a lg o rit h m   a n d   f u z z y   $   c   $ - m e a n s   a lg o rit h m   f o se n so n e tw o rk b a se d   o n   m u lt a g e n c o n se n su th e o ry .   IEE tra n sa c ti o n o n   c y b e rn e ti c s 47 (3 ) ,   772 - 7 8 3 .   Evaluation Warning : The document was created with Spire.PDF for Python.