I nd o ne s ia n J o urna l o f   E lect rica l En g ineering   a nd   Co m pu t er   Science   Vo l.   39 ,   No .   3 Sep tem b er   2 0 2 5 ,   p p .   1 7 2 4 ~ 1 735   I SS N:  2 5 0 2 - 4 7 5 2 ,   DOI : 1 0 . 1 1 5 9 1 /ijeecs.v 39 .i 3 . p p 1 7 2 4 - 1 7 3 5          1724     J o ur na l ho m ep a g e h ttp : //ij ee cs.ia esco r e. co m   M a chine learning  appro a ch f o r cos estima tion  in  so f tware  pro ject pla nning       Aj a y   J a is wa l 1 J a g dis h Ra ikwa l 2   1 D e p a r t me n t   o f   C o m p u t e r   S c i e n c e   a n d   E n g i n e e r i n g ,   P r e st i g e   I n st i t u t e   of   E n g i n e e r i n g ,   M a n a g e me n t   a n d   S c i e n c e ,   I n d o r e ,   I n d i a     2 D e p a r t me n t   o f   I n f o r mat i o n   Te c h n o l o g y ,   I n st i t u t e   o f   E n g i n e e r i n g   a n d   T e c h n o l o g y ,   D e v i   A h i l y a   V i s h w a v i d y a l a y a I n d o r e ,   I n d i a       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Dec   13 2 0 2 4   R ev is ed   Mar   27 2 0 2 5   Acc ep ted   J u l   2 2 0 2 5       S u c c e ss fu o rg a n izin g   a n d   h a n d li n g   o so ftwa re   p r o jec ts  d e p e n d e x ten siv e l y   o n   a c c u ra te co st es ti m a ti o n .   T h is  stu d y   e x p l o re s th e   e ffe c ti v e n e ss   o m a c h in e   lea rn in g   m o d e ls   in   e stim a ti n g   s o ftwa re   p r o jec c o sts  u sin g   d a t a se ts  li k e   De sh a rn a is,  M a x we ll ,   a n d   Kitc h e n h a m ,   a im in g   t o   p re v e n p ro jec d e lay a n d   re so u rc e   m isa ll o c a ti o n .   It   sh o ws   h o m o d e se lec ti o n   h a a   m a jo r   imp a c o n   fo re c a st  a c c u ra c y   th ro u g h   t h o r o u g h   a ss e ss m e n t.   An   R - sq u a re d   v a lu e   (R2 )   o 0 . 8 0 4   i n d ica tes   th a th e   s u p p o rt  v e c to m a c h in e   ( S VM)  m o d e l   p e rfo rm e x c e p ti o n a ll y   we ll   in   th e   De sh a rn a is  d a tas e t.   On   t h e   M a x we ll   d a ta se t,   li n e a re g re ss io n   (LR)  sta n d o u wi th   a   m in imu m   m e a n   a b so lu te  e rr o (M AE)  o f   0 . 4 8 3   a n d   t h e   g re a tes R2   v a lu e   o 0 . 6 0 7 ,   wh i le  S VM  h a th e   l o we st  ro o t   m e a n   sq u a re d   e rro r   (RM S E)   o 0 . 5 3 7 .   S imi larly ,   o n   t h e   Kitch e n h a m   d a tas e t,   LR  a n d   S VM  a re   th e   to p   p e rf o r m e rs,  with   M AE  o 0 . 2 0 1   a n d   RM S o f   0 . 2 7 4 ,   re sp e c ti v e ly ,   a n d   R 2   v a l u e o a ro u n d   0 . 9 2 9 .   T h e se   fin d i n g s   h ig h li g h t   th e   imp o rta n c e   o tail o re d   m o d e se lec ti o n   fo a c c u ra te  c o st  p re d ictio n ,   a s   LR  a n d   S VM  c o n ti n u o u sly   d e m o n stra te  re li a b il it y   a c ro ss   v a ried   d a tas e ts.   M tec h n i q u e l ik e   LR  a n d   S VM   c a n   e n h a n c e   so ftwa re   p r o jec p lan n i n g   a n d   m a n a g e m e n b y   p ro v id i n g   a c c u ra te  c o st  e stim a ti o n ,   wit h   fu t u r e   re se a rc h   e x p lo r in g   e n se m b le l e a rn i n g   a n d   d e e p   lea rn in g   m e th o d o lo g ies .   K ey w o r d s :   Acc u r ac y   Dee p   lear n in g   Ma ch in lear n in g     Pro ject  p lan n in g   an d   b u d g et   So f twar co s t e s tim atio n   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Ajay   J aiswal   Dep ar tm en t o f   C o m p u ter   Scie n ce   an d   E n g in ee r in g   Pre s tig I n s titu te  o f   E n g in ee r in g ,   Ma n a g em en t a n d   R eseac h   I n d o r e ,   I n d ia   E m ail: a jay . jais wal5 5 5 5 5 @ g m ail. co m       1.   I NT RO D UCT I O N   So f twar m ea s u r em en ( SM)   in v o lv es  m ea s u r i n g   s o f twar ch ar ac ter is tics   ty p ically   r el ated   to   th e   p r o d u ct,   m eth o d ,   an d   r eso u r c es  u tili ze d   in   s o f twar d ev elo p m en t.  T h ese  in d icato r s   can   be   u tili ze d   in   p r o ject   m an ag em en t   s y s tem s   to   ass is t   s o f twar e   d ev elo p er s   in   ef f e ctiv ely   m a n ag in g   th eir   p r o jects,  h en ce   r e d u cin g   is s u es   s u ch   as   co s t   o v er r u n s   a n d   s ch ed u lin g   d ef icien cies   [ 1 ] .   On e   of   th e   m o s t   ch allen g in g   a s p ec ts   of   m an ag in g   a   p r o ject  is   esti m atin g   s o f twar e.   Acc u r ately   esti m atin g   th e   tim e,   m o n ey ,   an d   ef f o r n ee d ed   to   co m p lete  an   en d ea v o r   h as  b ee n   a   ch allen g f o r   p r o ject   m an ag e r s   f o r   l o n g   tim e.   I is   ch allen g in g   to   p r ed ict  th ese  f ac t o r s   ea r ly   in   p r o ject' s   life cy cle  wh en   th er is   lo t   o f   u n c er tain ty   ab o u t   th p r o d u ct' s   f ea tu r es,   an d   th e   b o u n d ar ies   of   ea c h   in itiativ e   n ee d   to   b d e f in ed   [ 2 ] .   S o f twar p r o ject  m an a g em en t   r elies  h ea v ily   o n   esti m atio n ,   p ar ticu lar ly   in   th e   ea r ly   s tag es   of   s o f twar e   d ev e lo p m en t.   T h e   f ir s t   s tep   is   to   e s tim ate   how   m u c h   tim e,   m o n ey ,   an d   ef f o r ar ex p ec ted   to   b r eq u ir ed   to   f i n is h   th s o f twar p r o ject  [ 3 ] ,   [ 4 ] .   C o n s e q u e n t l y ,   i n e f f i c i e n t   r e s o u r c e   u t il i z at i o n   a n d   l e n g t h y   d e l i v e r y   d e l a y s   m a y   r e s u l t   f r o m   s o f twar c o s o v er esti m atio n .   Ho wev er ,   in ad eq u ate  wo r k f o r ce   n u m b er s ,   g o in g   o v er   b u d g et,   an d   late  d eliv er y   tim e   m ig h o cc u r   f r o m   u n d er esti m atin g   s o f twar ex p en s es  [ 5 ] .   Plan n in g   is   th m o s cr u cial  p h ase  in   p r o ject  m an ag em en b ec a u s it  Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2502 - 4 7 5 2       Ma ch in lea r n in g   a p p r o a ch   fo r   co s esti ma tio n   in   s o ftw a r p r o ject  p la n n in g   ( A ja J a is w a l )   1725   esti m ates   th e   tim e   an d   m o n ey   n ee d ed   to   f in is h   a   p r o ject   p r o p er ly   [ 6 ] .   T h e   m o s t   well   k n o wn   asp ec ts   o f   s o f twar ev alu atio n   ar s o f twar co s an d   ef f o r esti m atio n .   T h ter m   "c o s esti m atio n "   r ef er s   to   th e   p r o ce s s   of   d eter m in in g   an   ap p r o x im ate   t o tal   co s t   f o r   a   p r o ject,   p r o g r a m ,   o r   p r o d u ct  u s in g   cu r r en d ata.   Acc u r ate  co s esti m atio n   is   cr itical  f o r   ea ch   p r o ject  ty p to   av o i d   u n ex p ec ted ly   ex ce s s iv ex p en d itu r es.  Acc u r ate  esti m ates  ar ess en tial  f o r   d ec is io n   m ak er s   to   m an ag r is k s ,   all o ca te  r eso u r ce s ,   an d   g en er ate  p r ec is p r o ject  s ch ed u les  [ 7 ] .   T h d ev elo p m en o f   esti m atio n   ap p r o ac h es,  wh ich   h a v g o n f r o m   b asic   s tatis tical   m o d els   t o   co m p lex   ML   alg o r ith m s ,   r ev ea ls   th i n d u s tr y ' s   d ed icatio n   to   m an a g in g   co s ts   an d   p r o ject  s u cc ess .   Plan n in g   an d   b u d g etin g   f o r   a   p r o ject  r e q u ir es  an   ac cu r ate  ass es s m en o f   s o f twar co s ts .   E f f icien t,   h ig h - q u ality ,   a n d   p r ec is ely   es tim ated   d ata  ar e   ess en tial   f o r   s u cc ess f u l   r eg u latio n   a n d   o v e r s ig h t.   I m p r o v e   th e   p r ec is io n   an d   ef f icac y   of   p r o je ct   p lan n in g   an d   b u d g etin g   with   cu ttin g - ed g e   co s esti m atio n   s o f twar th at  r elies   o n   ML .   ML   alg o r ith m s   g en er ate  m o r e   p r ec is an d   ad a p tab le  f o r ec asts   b y   a n aly zin g   p ast  d ata,   p r o ject   attr ib u tes,  an d   o th er   v a r iab les.   ML   Mo d els,   lik e   r an d o m   f o r e s ts ,   d ec is io n   tr ee s ,   SVM,   an d   l o g is tic   r eg r ess io n ,   im p r o v e   p r o ject   p lan n in g   an d   b u d g etin g   [ 8 ] - [ 1 0 ] .   Or g an izati o n s   can   o p tim ize   r eso u r ce   allo ca tio n ,   m ak b etter   d ec is io n s ,   an d   c o n f i d en tly   a n d   ef f icien tly   n a v ig ate  s o f t war d ev elo p m en c o m p lex it y   with   d ata - d r iv en   in s ig h ts .   I n   ad d itio n ,   t h e   u n ce r tain   n atu r o f   s o f twar d e v elo p m en t,  ch ar ac ter ized   b y   ev e r - ch an g in g   r eq u ir em e n ts   an d   ev o lv i n g   tec h n o lo g y ,   f u r t h er   co m p licates   t h e   esti m atio n   p r o ce s s .   ML   p r o v id es  p r o m is in g   s o lu tio n   as   it   en ab les   lea r n in g   f r o m   p ast   p r o jects   an d   th id en tific atio n   of   p atter n s   th at   wo u ld   h elp   p r ed ict   f u tu r e   p r o ject   co s ts   more   r elia b ly .   T h is   r esear ch   is   m o tiv ate d   b y   th e   o b jectiv o f   u tili zin g   ML   to   en h an ce   th e   p r ec is io n   o f   s o f twar p r o ject  co s esti m ates,  th er eb y   en ab li n g   p r o ject  m an a g er s   to   m a k in f o r m e d   d ec is io n s .   T h is   s tu d y   p r o p o s es   n ew   a p p r o ac h   f o r   esti m atin g   s o f tw ar e   co s ts   u s in g   ML   tech n iq u es.   It   tar g ets   b etter   p r ed ictio n s   in   ter m s   of   ac cu r ac y   an d   d ep en d ab ilit y   on   ex p en d itu r d u r in g   s o f twar e   d e v elo p m en t   p r o ce d u r es   so   as   to   en ab le   co r p o r ate   ex ec u tiv es   to   m a k e   u p   co r r ec t   f u n d in g   d ec is io n s   an d   m an a g e   o th er   ac tiv ities   r elate d   to   r eso u r cin g   a p p r o p r iately .   T h e   g o al   of   th is   r esear ch   is   to   p r o v id e   a   n ew   co s t   esti m atio n   f r am ewo r k   f o r   s o f twar e   p r o ject  p lan n in g   u s in g   m ac h i n lear n in g   ( ML )   tech n i q u es.  T h m ain   co n tr ib u tio n s   o f   th is   s tu d y   a r e :     Desig n in g   an   in n o v ativ e   ML   f r am ewo r k   th at   s u p p o r ts   th e   ef f icien an d   ac cu r ate  f o r ec asti n g   o f   co s ts   in   s o f twar d ev elo p m en t.     T h e   u s e   of   d atasets   s u ch   as   Desh ar n ais,   Kitch en h am ,   an d   Ma x well   f o r   em p ir ical  v alid atio n   o f   th e   p r o p o s ed   ap p r o ac h .     D a t a   d r i v e n   i n s i g h t s   f o r   i m p r o v e d   p r o j e c t   p l a n n i n g   a n d   r e s o u r c e   m a n a g e m e n t .   T h ese   co n tr ib u tio n s   aim   to   cl o s e   th e   g a p   b etwe en   tr ad itio n al   esti m atio n   ap p r o ac h es   an d   m o d er n   d y n am ic   r eq u ir em e n ts   f o r   s o f twar p r o j ec ts .       2.   RE L AT E W O RK   Acc u r ate   s o f twar e   ef f o r t   esti m atio n   is   cr u cial   f o r   s o f twar e   p r o ject   m an ag em e n t   [ 1 1 ] .   So f tw ar ef f o r t   esti m atio n   r ef er s   to   th tech n iq u o f   f o r ec asti n g   th e f f o r t   r eq u ir ed   t o   b u ild   s o f twar e   p r o d u cts   in   ter m s   of   ex p en s es   [ 1 2 ] .   Pro ject   p lan n in g   an d   b u d g et   allo ca tio n   ar e   two   ar ea s   wh er e   p r io r   r esear ch   in   SC E   h as   d em o n s tr ated   its   f u n d am en ta l   im p o r tan ce .   E f f e c t i v e   m o n i t o r i n g   a n d   r e g u l a t i o n   of   s o f t w a r e   d e v e l o p m e n t   p r o j e c t s   r e q u i r e s   p r e ci s e   e s t im ates   of   co s t,   p r ec is io n ,   a n d   q u ality .   C o n v en tio n al   m o d els,   s u ch   as   t h e   co n s tr u ctiv co s t   m o d el  II   ( C OC OM O )   [ 1 3 ] ,   [ 1 4 ] ,   d ep e n d   s ig n if ican tly   on   r eliab le   an d   ac cu r ate   d ata   f r o m   th p ast.  Olu - Ajay i   [ 1 5 ] .   T h ese  f i n d in g s   a r u n iq u an d   p r o m is in g ,   c o n tr ib u tin g   to   ef f ec tiv e   b u s in ess   p lan n in g   a n d   r is k   r ed u ctio n   c o m p ar ed   to   p r e v io u s   r esear ch .   D r az   et   a l.   [ 1 6 ]   em p h asize   th e   ess en tial   r o le   of   p lan n in g   an d   b u d g etin g   in   s o f twar p r o jec ts .   A   h y b r id   ap p r o ac h   was   p r o p o s ed   in   th is   s tu d y   by   in te g r atin g   Gr ay   W o lf   Op tim izatio n   f o r   s o f twar e   ef f o r esti m atio n .   W h en   it  ca m e   to   SC E ,   an o th e r   s tu d y   [ 1 7 ]   u s ed   h y b r id   m o d el   th at   u s ed   th e   tab u   s ea r ch   ( T S)   m eth o d   [ 1 8 ]   with   th e   in v asiv e   weed   o p tim izatio n   ( I W O)   alg o r ith m   [ 1 9 ] .   T h T alg o r ith m   wo r k ed   b etter   with   th I W alg o r ith m 's  s o l u tio n s   [ 2 0 ] .   Prio r   to   th at,   in   2 0 2 3 ,   an   an al y s is   was   co n d u cte d   to   co m p ar th cu r r en t   tax o n o m ies   an d   m eth o d o lo g ies   em p lo y e d   in   th e   esti m atio n   of   s o f twar e   co s ts   u s in g   n e u r al  n etwo r k s   [ 2 1 ] .   r e v iew  f o u n d   th at  t h m ea n   m ag n itu d e   o f   r elativ er r o r   ( MM R E ) ,   p er ce n tag r elativ er r o r   d ev i atio n   ( PR E D) ,   an d   r o o m ea n   s q u ar ed   er r o r   ( R MSE )   ar t h m o s co m m o n ly   u tili ze d   m etr ics  f o r   ev alu atin g   ML - SC E   m o d els  [ 2 2 ] .   Alau t h m an   et   a l.   [ 2 3 ]   d is cu s s ed   s o f twar e   d ev elo p m en t   co s t   esti m atio n   r e g r ess io n   m o d el  s elec tio n .   I em p h asized   u s in g   m o d els  th at  m atch   t h s o f twar d e v elo p m e n m eth o d o l o g y   an d   d ataset   u tili ze d   in   esti m atio n .   Go v in d a   et   a l.   [ 2 4 ]   u s ed   ML   to   ca lcu late  s o f twar co s t   f o r   p r o ject   m an a g er s   u s in g   s tan d a r d   in p u t.   A k h b ar d eh   et   a l.   [ 2 5 ]   ex am in ed   th e   p r o ce s s es   f o r   co m p u tab le   elem en ts   th at   af f ec t   s o f twar e   co s t   an d   p r esen ted   r esear ch   th at   u s ed   ML   m eth o d o l o g ies  to   co n s tr u ct  cr ed ib le  esti m atio n   m eth o d .   T ab le  1   d escr ib es  th esti m atin g   ap p r o ac h   an d   th co n tr ib u tio n   o f   th r ec o g n is ed   p ap er s .   W h av e   tak en   ac cu r ac y   v alu es  u n d er   th af o r em e n tio n ed   s y s tem   f r o m   v a r iety   o f   d atasets   an d   m eth o d o lo g ies  in   o r d er   t o   in v esti g ate  ac cu r ate  p er f o r m a n ce   an aly s is .     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci ,   Vo l.  39 ,   No .   3 ,   Sep tem b er   20 25 1 7 2 4 - 1 7 3 5   1726   T ab le  1 .   Pre d ictio n   ac cu r ac y   o f   p r im ar y   r esear ch   o n   s tan d alo n m eth o d s   S t u d y   A u t h o r( s)   D a t a s e t   E s t i m a t i o n   t e c h n i q u e / c o n t r i b u t i o n   M M R E   P R ED   [26 ]   M al h o t ra   an d   Jai n   4 9 9   s o f t w a r e   p r o j e c t s   B a g g i n g ,   A N N ,   D T,   S V M ,   a n d   l i n e a r   r e g r e ss i o n   ( L R )   w e r e   e v a l u a t e d   a n d   c o n t r a s t e d   o n   a   so f t w a r e   p r o j e c t   d a t a se t .   0 . 1 7   52   [27 ]   S h a r ma   a n d   S i n g h   4   s o f t w a r e   p r o j e c t s   M a d e   u s e   o f   r a n d o m f o r e s t s,  mu l t i l a y e r   p e r c e p t r o n s,  a n d   su p p o r t   v e c t o r   m a c h i n e s .   0 . 3 0   7 2 . 0 9   [ 2 8 ]   P o sp i e s z n y   et   a l .   1 1   v a r i a b l e   s o f t w a r e   p r o j e c t s   Th e   e n sem b l e   o f   s u p p o r t   v e c t o r   m a c h i n e s,  n e u r a l   n e t w o r k s,  a n d   g e n e r a l   l i n e a r   m o d e l s   w a a v e r a g e d .   0 . 1 3   7 6 . 9 1   [ 2 9 ]   P an d ey   et   al .   S A M OA   P r o v i d e d   a   u sef u l   me t h o d   f o r   se l e c t i n g   t h e   b e st   e s t i m a t e   t e c h n i q u e   f o r   a p p   e f f o r t   e st i ma t e s fr o m o f   f o u r   w e l l - l i k e d   met h o d s :   G A ,   M L R ,   M LP - N N ,   a n d   n a v e .   0 . 9   94   [30 ]   D a n   e t   a l .   C O C O M O - I,   N A S A   P art i cl swarm   o p t i mi sati o n   was  u sed   t o   i mpro v C OC OMO   i n t eg rat ed   (P S O)   art i fi cial   n eu ral   n et work   (A N N)   mod el .   0 . 4 0   5 5 . 1 0       T h e   s u cc ess f u l   p lan n in g   an d   ex ec u tio n   of   s o f twar e   d e v elo p m en t   p r o jects   is   d ep e n d en t   o n   ac c u r ate  s o f twar p r o ject   co s esti m atio n ,   wh ic h   also   i n f lu en ce s   r eso u r ce   m an ag em e n t,   b u d g et   all o ca tio n ,   a n d   p r o ject   s ch ed u les.   E x p e r t   ju d g m en t,   an alo g o u s   esti m atio n ,   an d   p ar am etr ic   m o d els   lik e   C O C OM O   ar e   ex am p les   of   tr ad itio n al   co s t   esti m atio n   te ch n iq u es  th at  f r eq u en tly   s tr u g g le  with   ad a p tab ilit y ,   p r ec is io n ,   an d   ab ilit y   to   h an d le  c o m p le x   u n p r e d ictab le   r elatio n s h ip s   t h at  ar is in   s o f twar d ev elo p m en t   p r o ce s s es.  No v el   ap p r o ac h es  h av b ee n   d ev el o p ed   in   th is   f ield   o f   s tu d y ,   a n d   th e y   r eq u ir r eg u lar   co m p ar ativ e   ass ess m en ts .   Acc u r ate   s o f twar e   co s t   esti m at io n   is   cr itical   to   th e   s u cc es s   o f   s o f twar e   p r o jects   b ec au s e   it   g iv es   in f o r m atio n   ab o u t   th e   r is k s   an d   ch allen g es   ass o ciat ed   with   d ev elo p m en t.  C o m p ar ativ e   r esu lts   s h o w   th at   th e   p r o p o s ed   m o d el   o u tp er f o r m s   ex is tin g   tech n i q u es  ac r o s s   all  d atase ts   an d   ev alu atio n   cr iter ia.   T h f i n d in g s   w er q u ite   p r o m is in g   f o r   f o r ec asti n g   s o f twar e   co s t   p r ed ictio n .   T h e   en o r m o u s   d iv er s ity   o f   ML   ap p r o ac h es  h as  led   to   co m p ar is o n s   an d   ev en tu ally ,   th in teg r atio n   o f   v ar io u s   tech n iq u es.  Dete r m in in g   th m o s ef f ec tiv esti m atin g   m eth o d s   h as   b ec o m ess en tial  f o r   im p r o v in g   th e   p r o ject   d ev elo p m en t   p r o ce s s   due   to   th eir   m an y   b e n ef its .   W h en   wo r k in g   o n   co m p l ex   p r o jects  o r   p r o jects  with   ch an g in g   r eq u ir e m en ts ,   ac cu r ac y   is   s o m etim es   an   is s u e   with   ev o lv i n g   ML   tech n iq u es.   Acc u r ate   esti m atio n   of   c o s ts   is   ess en tial  to   ex ec u tin g   p r o jects  o n   tim a n d   with in   b u d g et,   an d   n u m er o u s   co m p a n ies  m ak e   s ig n if ican t   in v estme n ts   in   th is   a r ea   in   o r d er   t o   en s u r r a p id   g r o wth   an d   s atis f ied   c u s t o m e r s .   A p a r t   f r o m   t h i s   f a ct,   t h e s e   c h a l l e n g e s   a r e   m a d e   e v e n   m o r e   c h a l l e n g i n g   by   t h e   d y n am ic   ch an g es   th at   can   o cc u r   in   an y   s o f twar e   p r o j ec t,   s u ch   as   ev o lv i n g   r eq u ir e m en ts ,   im p r o v ed   tech n o lo g y ,   o r   ev en   s h if ts   in   th team ' s   s k ill s .   T h g o al   o f   th is   r esear ch   is   to   d ev elo p   a   ML   b ased   ap p r o ac h   f o r   ev al u atin g   p lan n i n g   c o s ts   f o r   s o f twar p r o j e c t s .       3.   P RO P O SE M E T H O D   T h e   p r o p o s ed   m eth o d   f o r   esti m atin g   s o f twar e   d ev elo p m en t   co s ts   in v o lv es   n in e   s tep s   f r am ewo r k .   Fig u r 1   d e p icts   th p r o p o s ed   m eth o d   f o r   s o f twar d ev elo p m en t p r o ject  c o s t e s tim atio n .   Data   co llectio n   an d   p r e - p r o ce s s in g :     Gath er   th Desh ar n ais,  Kitch en h am ,   a n d   Ma x well  d atasets ,   wh ich   c o n tain   h is to r ical  d at o n   s o f twar e   p r o jects,  in clu d in g   attr ib u tes s u ch   as p r o ject  s ize,   ef f o r t,  a n d   d u r atio n .     Pre p r o ce s s   th d atasets   b y   h an d lin g   m is s in g   v alu es a n d   o u tli er s   an d   s tan d ar d izi n g   n u m er ic al  f ea tu r es.    W o r d 2 Vec   f ea tu r e x tr ac tio n :     C o n v er tex tu al  d ata  ( if   an y ) ,   s u ch   as  p r o ject  d escr ip tio n s ,   an d   r eq u ir em e n ts ,   in to   n u m er ical  v ec to r s   u s in g   W o r d 2 Vec .     W o r d 2 Vec   ca n   ca p tu r th e   s em an tic  m ea n in g   o f   wo r d s   a n d   p h r ases   with in   th e   tex t,   p r o v id in g   d e n s e   v ec to r   r e p r esen tatio n s   f o r   ea c h   wo r d .   Me r g W o r d 2 Vec   f e atu r es w ith   n u m e r ical  f ea tu r es :     C o m b in th W o r d 2 Vec   f ea t u r es  with   th ex is tin g   n u m e r ical  f ea tu r es  f r o m   th d atasets   to   f o r m   a   co m p r eh e n s iv f ea tu r e   s et.   Featu r s elec tio n   u s in g   r ec u r s iv f ea tu r elim in atio n   ( R FE) :     I m p lem en t RF E   to   s elec t th m o s im p o r tan t f ea t u r es f r o m   t h co m b i n ed   f ea tu r s et.     R FE  r ec u r s iv ely   r em o v es  f ea tu r es,  f itti n g   th m o d el  m u lti p le  tim es  an d   ass es s in g   f ea tu r im p o r tan c e   u n til th o p tim al  f ea tu r s u b s e t is id en tifie d .   Data   s p litt in g :     Sp lit  th d atasets   in to   tr ain in g   an d   test i n g   s ets,  en s u r in g   t h at  ea ch   d ataset  is   d iv id ed   a p p r o p r iately   t o   m ain tain   its   in teg r ity .   Mo d el  tr ain in g :     T r ain   d if f e r en t M L   m o d els,  in clu d in g   L STM ,   L R ,   SVM,   FNN,   R NN,   an d   DT ,   u s in g   th e   tr ain in g   d ataset.   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2502 - 4 7 5 2       Ma ch in lea r n in g   a p p r o a ch   fo r   co s esti ma tio n   in   s o ftw a r p r o ject  p la n n in g   ( A ja J a is w a l )   1727       F i g u r e   1 .   P r o p o s e d   m e t h o d       Mo d el  e v alu atio n :     E v alu ate  th p er f o r m an ce   o f   ea ch   m o d el  u s in g   ap p r o p r iate  ev alu atio n   m etr ics  s u ch   as  M AE ,   MSE   an d   R 2   er r o r .     C o m p ar th p e r f o r m an ce   o f   e ac h   ML   m o d el  to   id en tif y   th b est p er f o r m in g   a p p r o ac h   f o r   ea ch   d ataset.   Mo d el  o p tim izatio n :     R ef in th h y p er p a r am eter s   o f   ch o s en   m o d els  u s in g   m eth o d s   s u ch   as  g r i d   s ea r ch   o r   r an d o m   s ea r ch   to   en h an ce   p er f o r m an ce .     E n s u r th at  th m o d els ar o p t im ized   to   g en e r alize   well  o n   u n s ee n   d ata.   Fin al  m o d el  s elec tio n :     Select  th b est p er f o r m i n g   m o d el  f o r   ea c h   d ataset  b as ed   o n   e v alu atio n   m etr ics an d   o p tim iz atio n   r esu lts .       4.   M E T H O D   T h two   p r im a r y   c o m p o n en t s   th at  m ak u p   th is   s ec tio n   ar s o f twar co s tin g   tech n iq u es  an d   p r o p o s ed   m eth o d   th at  i n tr o d u ce s   n o v el   an d   in v en tiv e   f r am ewo r k   with   th in te n tio n   o f   e n h an ci n g   th e   s o f twar co s t e s tim atin g   p r o ce s s .   a)   T e c h n i q u e s   u s e d T h s u b s eq u en s ec tio n   e x p lain s   th e   tech n i q u es  em p l o y ed   in   th p r o p o s ed   m eth o d   f o r   co s t e s tim atio n .   b)   W o r d 2 V e c :   W o r d 2 v e c   is   s i m p l e r   a n d   f a s t e r   to   l e a r n   t h a n   o t h e r   m e t h o d s .   S e n te n c e   wo r d   s em an tics   can   be   d etec ted   v ia   W o r d 2 v ec .   T h e   te x t   p r o ce s s in g   in   W o r d 2 v ec   is   done   by   a   two - lay e r   n eu r al   n et wo r k .   T h e   two   p r im ar y   tech n iq u es   f o r   lear n i n g   W o r d 2 v e c   a r e   C B O W   a n d   S k i p   G r a m .   W h i l e   t h e   C B O W   m o d e l   u s e s   s u r r o u n d i n g   c o n t e x ts   to   f o r e c as t   t h e   w o r d ,   t h e   S k i p   G r a m   u s e s   t h o s e   s a m e   c o n te x t s   t o   f o r ec a s t   th e   wo r d   its elf   [ 3 1 ] .   It   i m p r o v es   f ea tu r e   s elec tio n ,   m o d el   tr ai n in g ,   an d   ev alu atio n   b y   b r id g in g   u n s tr u ctu r ed   te x an d   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci ,   Vo l.  39 ,   No .   3 ,   Sep tem b er   20 25 1 7 2 4 - 1 7 3 5   1728   s tr u ctu r ed   n u m er ical   f ea tu r es.   T h q u ality   o f   W o r d 2 Vec   c h ar ac ter is tics   ca n   co n s id er ab l y   af f ec m o d el   p er f o r m an ce   in   f o r ec asti n g   s o f twar p r o ject  r esu lts .   c)   R e c u r s i v e   f e a t u r e   el i m i n at i o n   ( R F E ) :   I r r el e v a n t   f e at u r e s   a r e   c o m m o n   i n   l a r g e   d a t as e ts   [ 3 2 ] .   T h e   i n e f f i c i e n c y   o f   t h c l as s i f i c at io n   a l g o r i t h m   is   i m p a ct e d   b y   r e c u r r i n g   f e a t u r e s .   D e t e r m i n e   w h i c h   v a r i a b l es   a r e   c r u c i a l   f o r   m a k i n g   a c c u r a t f o r e c a s ts   u s i n g   R F E .   A   m e t h o d   t h a t   i te r a t i v el y   s ea r c h e s   f o r   a   t a r g e t   n u m b e r   o f   a t t r i b u t es   i s   " r e c u r s i v e " .   Fi g u r e   2   i s   a   v is u a l   r e p r e s e n t a ti o n   o f   t h e   R F E   W o r k f l o w .   N e x t ,   t h e   m o d e l   i s   r e t r a i n e d   w i t h   t h e   u p d a t e d   f e a t u r e   s e t   t o   i m p r o v e   c l a s s i f i c a t i o n   a c c u r a c y   a n d   r e m o v l e s s   i m p o r t a n t   f e a t u r e s .   T h e   l o o p   c o n t i n u e s   a s   l o n g   a s   t h e r e   a r e   a d d i t i o n a l   f e a t u r e s   t o   b e   i n c l u d e d .   R F E   i s   a n   e s s e n t i a l   p a r t   o f   t h e   s u g g e s t e d   m e t h o d   f o r   s o f t w a r e   d e v e l o p m e n t   c o s t   e s t i m a t i o n   s i n c e   i t   i m p r o v e s   t h e   e f f i c i e n c y   a n d   a c c u r a c y   o f   M L   m o d e l s '   p r e d i c t i o n s .   U s i n g   R F E ,   t h e   m o s t   r e l e v a n t   f e a t u r e s   a r e   s e l e c t e d   f r o m   t h e   s e t   o f   f e a t u r e s   t h a t   i n c l u d e s   b o t h   t h e   o r i g i n a l   n u m e r i c a l   f e a t u r e s   a n d   t h e   t e x t u a l   c h a r a c t e r i s t i c s   g e n e r a t e d   b y   W o r d 2 V e c .           Fig u r e   2.   R F E   w o r k f l o w   s c h em a t i c   [ 3 2 ]       d)   L in ea r   r eg r ess io n   m o d el On way   to   f in d   th r elatio n s h ip s   b etwe en   th two   s e ts   o f   v a r i a b l e s   i s   t o   u s e   a   LR   m o d e l   [ 3 3 ] .   S o f t w a r e   c o s e s t i m at i o n   in v o lv es  cr ea tin g   p r ed ictio n s   a b o u t   th d e p en d en v ar ia b le,   wh ich   is   s o f twar co s t,  u s in g   m ea s u r em en ts   f o r   th in d ep en d en v ar iab les,  wh ich   ar p r o d u cts,  p r o jects,   an d   p r o ce d u r es.  T h LR   m o d e ls   ar u tili ze d   in   th s tu d y   to   co n d u ct  an   an aly s is   of   th e   am o u n t   of   m o n ey   r eq u ir ed   to   d ev elo p   s o f twar e.   s in g le   in d ep e n d en t   v ar ia b le,   a   s in g le   LR ,   is   u s ed   to   p r ed ict   th e   co s t   d e p e n d e n t   v a r i a b l e .   A   s t r ai g h t   l i n e   is   c o m p u t e d   to   l es s e n   t h e   d i s c r e p a n c y   b e tw e e n   th ac tu a m u ltip le  LR wh ich   em p lo y s   lar g n u m b er   o f   in d ep e n d en t   v ar iab les,  an d   p r o v id es   a   f o r m u la  f o r   c alcu latin g   th e   esti m ated   co s t   u s in g   lin ea r   c o m b in atio n   o f   th e   m etr ics [ 3 4 ] ,   [ 3 5 ] .      = + 1 1 + 2 2 +  +   ( 1 )     T h v alu es  o f   x 1   th r o u g h   x n   ar th i n d ep e n d en v a r iab le s ,   wh er ea s   y i   is   th d ep e n d e n t   v ar iab le,   wh er e   i=1 …m .   T h e   v ar iab les   b1   th r o u g h   b m   s tan d   f o r   th e   r eg r ess io n   co ef f icien ts ,   an d   th e   letter   a   r ep r esen ts   th e   in ter ce p t   ( eq . 1 ) .   L in ea r   m o d el s   ar an   e x ce llen s tar tin g   p o in b u ca n n o g u ar a n tee  f law less   d ata  lin ea r ity .   Valid atin g   h is to r ical  e f f o r ts   h elp s   ass ess   th eir   ac cu r ac y .   Ac tio n ab le  a n d   ex p licab le   c o s t   e s tim atio n   f o r m u las  ca n   b e   c o n s tr u cted   f r o m   cu r r e n t m ea s u r es u s in g   LR .   e)   R ec u r r en t   n e u r al  n etwo r k s   ( R NN) R NNs  h av s h o wn   p r o m is in g   p o ten tial  f o r   s o f twar co s esti m atio n   task s .   R N Ns  o p er ate  b y   p r o ce s s in g   s eq u en tial  d ata,   wh er th o u tp u at  ea ch   tim s tep   is   in f lu en ce d   b y   th cu r r en in p u an d   th p r e v io u s   h id d en   s tate.   R NNs   ar p ar ticu lar ly   wellsu ited   f o r   h a n d lin g   v ar i o u s   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2502 - 4 7 5 2       Ma ch in lea r n in g   a p p r o a ch   fo r   co s esti ma tio n   in   s o ftw a r p r o ject  p la n n in g   ( A ja J a is w a l )   1729   f ac to r s   th at   in f lu en ce   s o f twar e   co s ts ,   s u ch   as   p r o ject   s iz e,   co m p lex ity ,   an d   team   ex p er ien ce .   T h is   r ec u r r en t   n atu r e   allo ws   R NN s   to   m ain tain   an   in ter n al   m em o r y ,   m ak i n g   th em   well - s u ited   f o r   p r o b lem s   in v o lv in g   s eq u en tial  in f o r m ati o n ,   s u ch   as so f twar p r o ject  d ata  [ 3 6 ] .   f)   L o n g   s h o r t - ter m   m em o r y   ( L STM ) T h L STM   n etwo r k   is   ty p e   o f   R NN  th at  was  cr ea ted   f o r   co n s ec u tiv d ata  p r o ce s s in g   in   d ee p   lear n i n g .   T h p r o b lem   o f   ex p lo d in g   a n d   v a n is h in g   g r ad ien ts   was  s u cc ess f u lly   ad d r ess ed   b y   a n   L STM ,   wh ich   was  d esig n ed   to   d e p ict  s eq u en ce s   wi th   lo n g - r an g e   d ep e n d e n cies  [ 3 7 ]   ac cu r ately .   E ac h   g ate  is   tau g h to   e n d   th in p u t   v alu b y   th s y s tem ,   wh ich   d o es  t h i s   by   c o n t i n u o u s l y   p r o v i d i n g   e r r o r   s i g n a l s   to   t h e m   [ 3 8 ] .   g)   Dec is io n   tr ee   ( DT ) DT   ar h ier ar ch ical  tr ee - s tr u ct u r ed   m o d els  u s ed   f o r   co s an d   e f f o r t   esti m atio n   in   s o f twar [ 3 9 ] .   T h ey   r ec u r s iv el y   s p lit  th d ata  b ased   o n   attr ib u te  test s   r ep r esen ted   b y   in ter n al  n o d es,  with   b r an ch es  d ep ictin g   test   o u tco m es  an d   leaf   n o d es  co n tain in g   th p r ed icted   esti m ates.  T h is   s tr u ctu r e   allo ws d ec is io n   tr ee s   to   m o d el   th im p ac t o f   f ac to r s   o n   p r o je ct  co s t a n d   ef f o r t [ 4 0 ] .   h)   Su p p o r t   v ec to r   m ac h in e   ( SVM) T h e   SVM  m o d el   is   v er s atile  to o in   s o f twar e   co s esti m atio n ,   a d ep a t   h an d lin g   b o th   class if icatio n   an d   r eg r ess io n   task s .   W h eth er   f ac in g   lin ea r   o r   n o n lin ea r   p r o b lem s ,   SVM  ef f ec tiv ely   p ar titi o n s   d ata  b y   c o n s tr u ctin g   h y p e r p lan th at  s ep ar ates c lass es [ 4 1 ] .   i)   Feed - f o r war d   n e u r al   n etwo r k   ( FF NN) :   Fo r   s o f twar e   co s t   est im atio n   is   t h e   FF NN.   As  its   n am im p lies ,   d ata  f lo ws  in   o n ly   o n e   d ir ec ti o n ,   f r o m   in p u to   o u tp u t.   T h e   m o s t   b asic   ty p e   of   ar tific ial   n eu r al   n etwo r k ,   k n o wn   as   FF NN,   can   o n ly   go   f o r war d   an d   ca n n o r ev er s its   d ir ec tio n   o f   o p er atio n .   FF NN  h as  3   lay er s   ( in p u t,  h id d en ,   a n d   o u t p u t   l a y e r ) .   F F N N   a ll o w s   t h e   n e t w o r k   to   d i s c o v e r   i n t r i c a t e   p at t e r n s   a n d   r e l a tio n s h ip s   with in   th d ata  b y   in co r p o r ati n g   m u ltip le  h id d en   lay er s .   j)   Featu r e   s elec tio n   u s in g   r ec u r s iv e   f ea tu r e   elim in atio n I m p lem en R FE  to   s elec th m o s im p o r tan t   f ea tu r es  f r o m   th co m b in ed   f ea tu r s et.   Mo r e o v er ,   FF NN   m ay   f ea tu r e   d ir ec t   ( lin ea r )   co n n ec tio n s   b etwe en   th e   i n p u t   an d   o u t p u t   lay er s ,   f ac ilit atin g   th e   m ap p i n g   of   in p u t   v ar iab les   to   o u tp u t   p r ed ictio n s   with o u t d ir ec t c o n n ec tio n s   b et wee n   in d iv id u al  in p u t a n d   o u t p u t u n its   [ 4 2 ] .       5.   RE SU L T S AN D I SCU SS I O   R esu lts T h e   o u tco m es   of   th e   s y s tem atic   r esear ch   co n d u cted   f o r   s o f twar p r o ject   co s esti m atio n   ar e   p r esen ted   in   th is   s ec tio n .   I lo o k s   at  p er tin en f ea tu r es  th at  c o m f r o m   s elec tio n   an d   ex tr a ctio n   as  well  as  th o u tco m es o f   ML   m o d el  ev alu a tio n   f o r   esti m atio n .   a)   E x p e r i m e n t a l   s e t u p T h e   ex p er i m en t   was   co n d u cted   on   a   lap t o p   co m p u ter   with   an   I n tel   C o r e   i7   p r o ce s s o r ,   6 4 GB   o f   R AM .   T h ex p er im en was  ca r r ied   o u u s in g   v ar iety   o f   to o ls .   Go o g le  Dr iv was   u tili ze d   to   u p lo ad   d ata   s ets   f o r   t h e   e x p er i m en t,  wh ich   wer e   t h en   u p lo ad ed   to   G o o g le   C o lab .   T h is   s tu d y   u s es   Py th o n   to   p r esen t,   ex p lain ,   d ep ict,   a n d   an aly ze   th e   d ata ,   as   well   as tr ain   an d   test   th alg o r ith m .   b)   E v a l u a t i o n   c r i t e r i a In   ad d itio n   to   s tan d ar d ized   er r o r   m ea s u r e m en ts   s u ch   as,   MA E ,   MSE ,   an d   R MSE ,   two   co m m o n l y   u s ed   s o f twar e   esti m atin g   cr iter ia  m ea n   m ag n itu d e   r elativ e   er r o r ,   or   MM R E ,   an d   p er ce n tag e   r elativ er r o r   d ev iatio n ,   o r   PR E wer em p lo y e d   to   ev al u ate  th p r o d u ce d   m o d els.  A b o v e   all,   th ey   allo f o r   t h co m p ar is o n   o f   r e s u lts   f r o m   m u ltip le  p r ed ictio n   m o d els   an d   d at asets   s in ce   th ey   ar e   s ca le   an d   u n it   in d ep en d en t.   B o th   ar e   b ased   o n   MRE,   wh ich   is   ex p lain e d   b elo w   an d   m ea s u r es   th e   d is p ar ity   b etwe en   ac tu als   an d   esti m a t e s .   Me an   ab s o lu te  er r o r   ( MA E ) MA E   is   wid ely   u s ed   s ta tis ti th at  f in d s   th m ea n   s q u ar ed   d if f er en ce   b etwe en   ex p e cted   an d   ac t u al   v alu es   by   av er a g in g   th e   s q u ar ed   d is p ar ities .   I t   ev alu ates  th e   o v er all   ac cu r ac y   o f   th p r ed ictiv m o d el  in   ( 2 ) .     = ( 1 ) = 1 .   ( pr e dic te d i a c tua l i ) ^ 2   ( 2 )     w h e r e   n   is   t h e   t o t a l   n u m b e r   of   o b s e r v a t i o n s ,   y   is   t h e   ac t u a l   v a l u e   of   s a m p l e   i,   a n d   y^   is   th e   p r ed ictio n   m ad e   by   th e   m o d el   f o r   s am p le   i.   R MSE T o   co m p u te  th e   v al u o f   it,  y o u   will  r e q u ir e   th ac tu al  v alu es   an d   th eir   ex p e c t e d   v a l u e s ,   s h o w n   in   ( 3 ) .   W h e r e   n   is   t h e   to t a l   n u m b e r   of   d at a   p o i n t s ,   ^2   is   t h e   s q u a r o f   th d if f er en ce ,   an d   is   th s u m   o f   s q u ar d if f e r en ce s   in   th d atasets .      = ( pr e d ic te d i a c tua l i ) ^ 2   /   ( 3 )     Ma g n itu d o f   r elativ er r o r   ( MRE ) Dete r m in th Ma g n it u d o f   R elativ E r r o r   ( 4 )   f o r   ea ch   d ata   p o in t in   o r d er   to   ass ess   th d eg r ee   o f   esti m atin g   er r o r   in   s i n g le  e s t i m a t e .      = | ( pr e dic te d i a c tua l i | / a c tua l   ( 4)     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci ,   Vo l.  39 ,   No .   3 ,   Sep tem b er   20 25 1 7 2 4 - 1 7 3 5   1730   Me an   m ag n it u d o f   th e   r elati v er r o r   ( MM R E ):   T h e   m ea n   m ag n itu d e   o f   th e   r elativ e r r o r   ( 5 )   is   th e   av er ag e   p r o p o r tio n   of   th e   a b s o lu te   v alu es   of   th e   r elativ e   er r o r s   ac r o s s   th co m p lete  d ata  s et.      =   ( 100 / N )   / |   pr e d ic te d i     a c tua l i |   / a c tua l i     ( 5 )     wh er e ,   to tal  n u m b er   o f   est im ate   PR E D( n )   Pre d ictio n   Acc u r ac y T o   d eter m in th ac c u r ac y   r ate  PR E D( n ) ,   d iv id th to tal   n u m b er   of   d ata   p o in ts   with   an   MRE   of   0 . 2 5   o r   less   ( r ep r esen ted   b y   k)   by   th e   to tal  n u m b er   o f   d a ta  p o in ts   in   th s et   ( r ep r esen ted   b y   n ) .      ( x ) = ( 1 0 0 / N )     i …… N   1   if   MR E i   < = n / 1 0 0 ,   0   o t h e r w is e   ( 6 )     wi th   n   0 . 2 5 ,   th in   ( 6 )   is   PR E ( n )   k /n [ 43] [ 4 4 ] .   c)   E x t r a c t i n g   f e a t u r es   f o r   e s t i m a tin g   s o f t w a r e   c o s t s T h e   W o r d 2 Vec   ap p r o ac h   is   u s ed   in   th is   s tu d y   to   e x tr ac t   p er tin en f ea tu r es  f r o m   th Desh ar n ais,  Kitch en h am ,   an d   Ma x well  d atasets .   Af ter   t h ey   h av b ee n   ex tr ac ted ,   th ese  f ea tu r es  ar e   ad d ed   t o   th co s ca lcu lati o n   p r o ce d u r e.   T ab le   2 ,   wh ic h   p r esen ts   th e   ch ar ac ter is tics   ex tr ac ted   f r o m   th r ee   d atasets .       T a b l e   2 .   L i s t   of   f e a t u r e s   e x t r a c t e d   u s i n g   W o r d 2 V e c   D a t a s e t   E x t r a c t e d   f e a t u r e s   D e s h a r n a i s   P r o j e c t ,   P o i n t s   N o n A d j u st ,   M a n a g e r E x p ,   A d j u s t me n t ,   Y e a r - E n d ,   Le n g t h   Tr a n sac t i o n s,  P o i n t sA j u st ,   Ef f o r t ,   Te a mE x p   M a x w e l l   Ef f o r t ,   H a r ,   Y e a r ,   D u r a t i o n ,   A p p ,   T1 4 ,   S o u r c e ,   N l a n ,   T 0 6 ,   T 0 5 ,   T 1 5 ,   T0 9 ,   S i z e ,   T i me   K i t c h e n h a m   A d j f p ,   Es t i m a t e   me t h o d ,   C l i e n t   c o d e ,   Es t i m a t e ,   Pro j e c t t y p e ,   D u r a t i o n ,   E f f o r t       d)   S e l e ct i n g   f e a t u r es   f o r   e s t i m at in g   s o f t w a r e   c o s t s To   en s u r t h at  th e   p r ed ictiv m o d els   ar e   tr ain ed   o n   th e   m o s u s ef u v a r iab les  wh ile  r ed u cin g   th e   d an g er   of   o v e r f i ttin g ,   th is   s tu d y   u s ed   th e   R FE   ap p r o ac h   to   id en tify   th e   m o s im p o r tan t   f e atu r es   f r o m   th e   th r ee   d atasets .   R eg r ess io n   an aly s is   m ak es   ex ten s iv u s o f   R FE  f o r   r eg u lar izatio n   an d   v ar iab le  s elec tio n .   I f u n ctio n s   b y   r ep ea ted l y   r em o v in g   asp ec ts   th at,   ac co r d in g   to   p r eset  cr iter io n ,   ar ju d g ed   u n n ec ess ar y   o r   r ed u n d an t.  T h is   iter ativ p r o c ed u r y ield s   a   m o r co m p r eh en s ib le  m o d el  u n til  ju s s elec tio n   o f   f ea tu r es  with   th h ig h est  p r ed ictiv p o ten tial  is   lef t.  T ab le  3   d is p lay s   th c h o s en   c h ar ac ter is tics   th at  wer g ath e r ed   f r o m   th r ee   d is tin ct  d atasets   u s in g   th e   R FE   tech n iq u [ 4 0 ] .       T a b l e   3.   L i s t   of   f e a t u r e s   u s i n g   R F E   D a t a s e t   S e l e c t e d   f e a t u r e s   D e s h a r n a i s   P r o j e c t ,   T r a n s a c t i o n s ,   E f f o r t ,   T e a m E x p ,   P o i n t s A - j u s t ,   P o i n t sN o n A d j u s t   M a x w e l l   A p p ,   Ef f o r t ,   H a r ,   S o u r c e ,   N l a n ,   T 0 5 ,   T 0 9 ,   T 1 5 ,   Y e a r ,   D u r a t i o n ,   T i me,   S i z e   K i t c h e n h a m   Ef f o r t ,   P r o j e c t   t y p e ,   C l i e n t   c o d e ,   D u r a t i o n ,   E s t i ma t e ,   A d j f p       P e r f o r m a n c e   e v a l u a t i o n   o u t c o m e s T h is   s ec tio n   d is cu s s e s   th e   p e r f o r m an ce   m etr ics   of   v ar io u s   ML   m o d els   on   all   th r ee   d atasets .   I t d escr ib es   d if f er e n t k in d s   o f   e r r o r s   ca lcu lated   f o r   ea ch   m o d el   [4 5 ] .   a)   On   D e s h a r n a i s   d a t a s e t :   Dif f er en t   ML   m o d els,   in clu d in g   L R ,   FNN,   L STM ,   R NN,   DT ,   an d   SVM,   wer e   ev alu ated   o n   th e   Desh ar n ais   d ataset   u s in g   v ar io u s   p er f o r m a n ce   m etr ics,   as   s h o wn   in   T ab le   4 .   T h SVM   m o d el   d e m o n s tr ated   t h e   h i g h est   R 2   of   0 . 8 0 4 ,   in d icatin g   th e   b est   p e r f o r m an ce   b ased   o n   th is   m etr ic.   In   ter m s   of   R MSE ,   FNN   ac h iev ed   th e   l o west   R MSE   v alu e   of   0 . 2 9 3 ,   wh ile  L R   h a d   th e   lo west  MA E   o f   0 . 2 6 3 ,   s u g g esti n g   t h eir   ef f ec ti v en ess   in   m in im izin g   p r ed icti o n   er r o r s   f o r   t h is   d ataset.       T a b l e   4 .   E r r o r   m e t r i x   o b t ai n e d   on   d e s h a r n a i s   d a ta s et   S .   N o .   E r r o r   m e t r i x   M A E   R2   R M S E   1   LR   0 . 2 6 3   0 . 7 7 8   0 . 3 5 3   2   F N N   0 . 3 8 4   0 . 7 3 7   0 . 2 9 3   3   L S T M   0 . 5 4 1   0 . 5 7 1   0 . 3 9 7   4   R N N   0 . 4 2 9   0 . 6 7 2   0 . 3 3 1   5   DT   0 . 4 3 2   0 . 5 3 2   0 . 3 7 2   6   S V M   0 . 3 3 1   0 . 8 0 4   0 . 3 3 1   Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2502 - 4 7 5 2       Ma ch in lea r n in g   a p p r o a ch   fo r   co s esti ma tio n   in   s o ftw a r p r o ject  p la n n in g   ( A ja J a is w a l )   1731   Fig u r 3 ,   illu s tr ates   a   co m p ar is o n   of   d if f e r en ML   m o d els   b ased   on   e r r o r   m e t r i c s   a c r o s s   t h e   D e s h a r n a is   d at a s et .   I t   f u r t h e r   e m p h a s i z es   t h e   p e r f o r m a n c v a r iatio n s   am o n g   th e   m o d el s ,   h ig h lig h tin g   th eir   s tr en g th s   an d   wea k n ess es   in   p r ed ictin g   s o f twar p r o ject  co s ts .   b)   O n   M a x w e l l   d a t as et :   E r r o r   m e t r i c s   f o r   v a r i o u s   M L   m o d e l s   a p p l i e d   t o   t h e   M a x w e l l   d a ta s et   a r e   s u m m a r i z e d   i n   T a b l e   5 .   A m o n g   t h e   m o d e l s   e v a l u at e d ,   L R   d e m o n s t r a t es   t h e   l o w es t   MA E   o f   0 . 4 8 3 ,   i n d i c a t i n g   t h s m a l le s a b s o l u t e   d i f f e r e n c e   b et w e e n   p r e d i ct e d   a n d   a c t u a c o s ts .   L R   al s o   e x h i b i ts   t h e   h i g h es t   R 2   v a l u o f   0 . 6 0 7 ,   s u g g e s t i n g   g o o d   f i t   t o   t h e   d a ta .   C o n v e r s e l y ,   t h e   L S T M   m o d e l   y i el d s   t h e   h i g h es MA E   o f   0 . 9 3 3 ,   i m p l y i n g   l a r g e r   d e v i a t i o n s   b e tw e e n   p r e d i c t e d   a n d   a c t u al   c o s ts .   F u r t h e r m o r e ,   SV M   s t a n d s   o u t   w i t h   t h l o w e s t   R MS E   o f   0 . 5 3 7 ,   i n d ic a ti n g   o v e r a l l   a c c u r a c y   i n   p r e d i c tio n s .   T h e s e   r es u l ts   i n d i c a t t h a t L R   a n d   S VM   p e r f o r m   r e l a t i v e l y   b e tt e r   i n   t e r m s   o f   b o t h   M A E   a n d   R M S E   o n   t h e   M a x w e ll             F i g u r e   3 .   P e r f o r m a n c e   m et r i cs   c o m p a r i s o n   o n   th d esh ar n ais       Fig u r e   4   d e p icts   th e   er r o r   m et r ics   of   s ev er al   ML   m o d els  ap p lied   to   th e   Ma x well  d ataset.   T h g r a p h   p r o v id es   co m p ar ativ e   an aly s is   o f   th p er f o r m an ce   o f   ea c h   m o d el,   s h e d d i n g   l i g h t   on   t h e i r   e f f e c t i v e n e s s   in   s o f t w a r e   c o s t   es t i m at i o n   o n   t h M a x w e l l   D a t as e t .   c)   On   K i t c h e n h a m   d a t as e t:   T ab le  6   d ep icts   th e   p er f o r m a n ce   o f   v ar io u s   ML   m o d els  e v alu ated   o n   th e   Kitch en h am   d ataset  u s in g   d if f er en e r r o r   m etr ics.  T h L R   an d   SVM  m o d els  d em o n s tr ated   th b es t   p er f o r m an ce ,   with   L R   h av in g   th lo west  MA E   o f   0 . 2 0 1   an d   SVM  h av in g   th e   lo west  R MSE   of   0 . 2 7 4 .   B o th   LR   an d   SVM   al s o   ac h iev ed   a   h i g h   R 2   of   ar o u n d   0 . 9 2 9 ,   in d icatin g   a   g o o d   f it   to   th e   d ata.           Fi g u r 4 .   Per f o r m an c m etr ics co m p ar is o n   o n   t h Ma x well     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 5 0 2 - 4 7 5 2   I n d o n esian   J   E lec  E n g   &   C o m p   Sci ,   Vo l.  39 ,   No .   3 ,   Sep tem b er   20 25 1 7 2 4 - 1 7 3 5   1732   T a b l e   5 .   E r r o r   m e t r i x   o b t ai n e d   on   m a x w e l l   d a t as e t   S .   N o .   E r r o r   m e t r i x   M A E   R2   R M S E   1   LR   0 . 4 8 3   0 . 6 0 7   0 . 5 8 8   2   F N N   0 . 8 1 8   0 . 2 3 9   0 . 6 6 9   3   L S T M   0 . 9 3 3   0 . 0 2 1   0 . 6 8 9   4   R N N   0 . 9 2 7   0 . 0 2 4   0 . 6 8 6   5   DT   0 . 9 2 9   0 . 0 1 7   0 . 7 0 6   6   S V M   0 . 3 3 1   0 . 8 0 4   0 . 3 3 1       T h e   FNN   an d   R NN   ex h ib ited   r elativ ely   h ig h er   MA E   of   0 . 2 4 9   an d   0 . 3 0 7 ,   r esp ec tiv ely ,   an d   lo wer   R 2   v alu es.  No tab ly ,   th e   L STM   an d   DT   m o d els  s h o we d   r elativ el y   p o o r er   p e r f o r m an ce   an d   ex h ib ited   co n s id er a b l y   lo R - s q u ar ed   v alu es  o f   0 . 8 4 1   an d   0 . 7 6 1 ,   r esp ec tiv ely ,   s u g g esti n g   p o o r   f it  to   th Kitch en h am   d ataset.   Fig u r e   5   d is p lay s   th e r r o r   m etr ics  o f   m u ltip le   ML   m o d els  wh en   ap p lied   to   th e   Kitch en h am   d ataset.   T h e   g r ap h   p r o v i d es a   co m p ar ativ an aly s is   o f   th p er f o r m an ce   o f   ea ch   m o d el,   d e m o n s tr atin g   th eir   ef f ec tiv en ess   in   s o f twar co s t e s tim atio n   o n   th Kitch en h am   d ataset.       T ab le  6 .   E r r o r   m etr ix   o b tain ed   o n   k itch e n h am   d ataset   S .   N o .   E r r o r   m e t r i x   M A E   R2   R M S E   1   LR   0 . 2 0 1   0 . 9 2 9   0 . 2 7 5   2   F N N   0 . 2 4 9   0 . 9 1 0   0 . 3 0 9   3   L S T M   0 . 4 3 1   0 . 8 4 1   0 . 3 8 9   4   R N N   0 . 3 0 7   0 . 8 5 8   0 . 3 8 7   5   DT   0 . 3 2 6   0 . 7 6 1   0 . 4 0 6   6   S V M   0 . 2 0 2   0 . 9 2 9   0 . 2 7 4           Fig u r 5 .   Per f o r m an c m etr ics  co m p ar is o n   o n   t h Kitch en h a m   Data s et       Dis cu s s io n : P er f o r m an ce   ev alu atio n   o u tco m es sh o wed   th at  d if f er en t M L   m o d els p er f o r m e d   b etter   o n   th Desh ar n ais  d ataset,   w ith   th SVM  m o d el  s h o win g   th h ig h est  R 2   v alu o f   0 . 8 0 4 ,   in d icatin g   th b est  p er f o r m an ce   b ased   o n   th is   m etr ic.   On   th Ma x well  d ataset,   L R   d em o n s tr ated   th lo we s MA E   o f   0 . 4 8 3 ,   in d icatin g   th s m allest  ab s o lu te  d if f er e n ce   b etwe en   p r ed i cted   an d   ac tu al  c o s ts .   L STM   m o d el  y ield e d   th e   h ig h est  MA E   o f   0 . 9 3 3 ,   im p ly in g   lar g er   d ev iatio n s   b etwe en   p r e d icted   a n d   ac tu al  c o s ts .   SVM  s to o d   o u with   th lo west  R MSE   o f   0 . 5 3 7 ,   i n d icatin g   o v er all  ac cu r ac y   in   p r ed ictio n s .   On   th Kitch en h am   d ataset,   th L R   an d   SVM  m o d els  d em o n s tr at ed   th b est  p er f o r m an ce ,   with   L R   h av in g   th lo west  MA E   o f   0 . 2 0 1   an d   SVM   h av in g   th lo west  R MSE   o f   0 . 2 7 4 .   FNN  an d   R NN  ex h ib i ted   r elativ ely   h ig h er   MA E   an d   lo wer   R 2   v alu es,  wh ile  L STM   an d   DT   m o d el s   s h o wed   p o o r e r   p er f o r m an c an d   lo R - s q u ar ed   v alu es.   Ho wev er ,   f u r th er   r esear ch   co u ld   ex p lo r e   e n s em b le   l e a r n i n g   tech n iq u es   a n d   d e ep   lear n i n g   ar c h itectu r es   to   e n h an ce   th e   ac cu r ac y   an d   r o b u s tn ess   of   s o f twar c o s t e s tim atio n   m o d els [ 4 6 ] ,   [ 4 7 ] .       Evaluation Warning : The document was created with Spire.PDF for Python.
I n d o n esian   J   E lec  E n g   &   C o m p   Sci     I SS N:   2502 - 4 7 5 2       Ma ch in lea r n in g   a p p r o a ch   fo r   co s esti ma tio n   in   s o ftw a r p r o ject  p la n n in g   ( A ja J a is w a l )   1733   6.   CO NCLU SI O N     T h co m p ar is o n   s tu d y   r esu lt s   d em o n s tr ate  s ig n if ican tly   h ig h er   ac cu r ac y   o n ly   i n   th r ee   s tag es  o f   ev alu atio n   i n   th e   p r esen ce   o f   n u m er o u s   lear n in g   m eth o d o lo g ies.   B ased   o n   th e   Per f o r m a n ce   Me tr ics   C o m p ar is o n   o f   Kitch e n h am   d ataset  r esu lts   o b tain ed   f r o m   th e v alu atio n   o f   v a r io u s   ML   m o d els  o n   th e   Desh ar n ais,  Ma x well,   an d   Kit ch en h am   d atasets ,   it  is   ev id en th at  th ch o ice  o f   m o d el  s ig n if ican tly   im p ac ts   th ac cu r ac y   a n d   ef f ec tiv en e s s   o f   s o f twar e   co s esti m atio n .   I n   th e   Desh ar n ais  d ataset,   th SVM  m o d e l   o u tp er f o r m ed   o th er s   with   th e   h ig h est  R 2   v alu o f   0 . 8 0 4 ,   in d i ca tin g   s u p er io r   p r e d ictiv ca p ab ilit y .   C o n v er s ely ,   th Ma x well  d ataset  s h o wca s ed   L R   an d   S VM   as   th to p   p er f o r m er s ,   with   L R   d em o n s tr atin g   th lo west  MA E   o f   0 . 4 8 3   an d   th h ig h est  R 2   v a lu o f   0 . 9 2 9   a n d   SVM  ex h ib itin g   th e   lo west   R MSE   of   0 . 5 3 7 .   On   th e   o t h er   h a n d ,   th e   Kitch en h am   d ataset   illu s tr ated   LR   an d   SVM   as  th m o s t   r eliab le  m o d els,  d is p lay in g   th lo west  MA E   an d   R MSE   v alu es  an d   h ig h   R 2   v alu es  o f   0 . 2 0 1 ,   0 . 2 7 5 ,   0 . 9 2 9 ,   an d   0 . 2 0 2 ,   0 . 2 7 4 ,   an d   0 . 9 2 9   r esp ec tiv ely .   T h ese   f in d in g s   em p h asize   th e   im p o r tan ce   of   s elec tin g   ap p r o p r ia te   ML   m o d els   tailo r ed   to   s p ec if ic   d atasets   f o r   ac cu r ate   s o f twar co s t   esti m a tio n .   Ad d itio n ally ,   L R   an d   S VM   co n s is ten tly   em er g ed   as   s tr o n g   p er f o r m e r s   ac r o s s   all  d atasets ,   s u g g esti n g   th eir   r eliab ilit y   an d   ef f e ctiv en ess   in   th is   d o m ain .   T h u s ,   lev er ag in g   ML   tech n iq u es,   p ar ticu lar ly   LR   an d   SVM,   h o ld s   p r o m is e   f o r   en h an cin g   th e   p lan n in g   an d   m an a g em en t   of   s o f twar e   p r o jects   th r o u g h   more   p r ec is co s t   esti m atio n   m eth o d o lo g ies .         ACK NO WL E DG E M E NT   T h au th o r   wo u ld   lik to   ex t en d   d ee p est  ap p r ec iatio n   t o   Dr .   Ma n o jk u m ar   Desh p an d e”   an d   “Dr .   Piy u s h   C h au d h a r y   o f   t h P I E MR ,   I n d o r e,   f o r   h is   c o n tr ib u tio n s   to   th is   s tu d y .   T o   ev e r y o n wh o   m ad e   th is   s tu d y   p o s s ib le,   th e   au th o r   wo u ld   lik e   to   ex ten d   th eir   s i n ce r e   g r atitu d e.   No   s p ec if ic   g r an t   f r o m   a   p u b lic,   p r iv ate,   or   n o n p r o f it   f u n d in g   o r g an izatio n   was   o b tain ed   f o r   th is   s tu d y .       F UNDING   I NF O R M A T I O   T h au th o r s   s tate  th at  n o   f u n d i n g   was in v o lv e d   in   th e   r esear c h   p r esen ted   i n   th is   m an u s cr ip t.       AUTHO CO NT RI B UT I O NS ST A T E M E N T   T h is   jo u r n al  u s es  th C o n tr ib u to r   R o les  T ax o n o m y   ( C R ed iT)   to   r ec o g n ize  in d iv id u al  au th o r   co n tr ib u tio n s ,   r ed u ce   au th o r s h ip   d is p u tes,  an d   f ac ilit ate  co llab o r atio n .     Na m o f   Aut ho r   C   M   So   Va   Fo   I   R   D   O   E   Vi   Su   P   Fu   Ajay   J aiswal                               J ag d is h   R aik wal                                 C     C o n c e p t u a l i z a t i o n   M     M e t h o d o l o g y   So     So f t w a r e   Va     Va l i d a t i o n   Fo     Fo r ma l   a n a l y si s   I     I n v e st i g a t i o n   R     R e so u r c e s   D   :   D a t a   C u r a t i o n   O   :   W r i t i n g   -   O r i g i n a l   D r a f t   E   :   W r i t i n g   -   R e v i e w   E d i t i n g   Vi     Vi s u a l i z a t i o n   Su     Su p e r v i si o n   P     P r o j e c t   a d m i n i st r a t i o n   Fu     Fu n d i n g   a c q u i s i t i o n         CO NF L I C T   O F   I N T E R E S T   ST A T E M E NT     T h au th o r s   d ec lar ed   n o   p o te n tial  co n f licts   o f   in ter est  co n c er n in g   th is   ar ticle’ s   r esear ch ,   au th o r s h ip ,   an d   p u b licatio n .       DATA AV AI L AB I L I T   T h d ata   th at  s u p p o r th e   f in d in g s   o f   th is   s tu d y   ar e   av ailab l u p o n   r eq u est  /   p u b licly   a v ai lab le  at  in clu d ed   with in   t h ar ticle  o r   i ts   s u p p lem en tar y   m ater ials .       RE F E R E NC E S   [ 1 ]   M .   R a h m a n ,   P .   P .   R o y ,   M .   A l i ,   T .   G o n ç a l v e s ,   a n d   H .   S a r w a r ,   S o f t w a r e   e f f o r t   e s t i m a t i o n   u s i n g   m a c h i n e   l e a r n i n g   t e c h n i q u e ,   I n t e r n a t i o n a l   J o u r n a l   o f   A d v a n c e d   C o m p u t e r   S c i e n c e   a n d   A p p l i c a t i o n s ,   v o l .   1 4 ,   n o .   4 ,   p p .   8 2 2 8 2 7 ,   2 0 2 3 ,   d o i :   1 0 . 1 4 5 6 9 / I J A C S A . 2 0 2 3 . 0 1 4 0 4 9 1 .   [ 2 ]   A .   Za i ,   R .   B u t t ,   a n d   S .   N a w a z ,   A   s u r v e y   o f   s o f t w a r e   q u a l i t y   m e t r i c f o r   t h e   so f t w a r e   me a su r e me n t   p r o c e ss ,   J o u rn a l   o f   S o f t w a r e   En g i n e e ri n g   a n d   I n t e l l i g e n t   S y st e m s ,   v o l .   2 ,   n o .   1 ,   p p .   4 9 5 6 ,   2 0 1 7 .   [ 3]   A .   O .   S o u s a   e t   a l . ,   A p p l y i n g   ma c h i n e   l e a r n i n g   t o   e st i ma t e   t h e   e f f o r t   a n d   d u r a t i o n   o f   i n d i v i d u a l   t a s k i n   s o f t w a r e   p r o j e c t s ,   i n   I EEE  A c c e ss,  v o l .   1 1 ,   p p .   8 9 9 3 3 - 8 9 9 4 6 ,   2 0 2 3 ,   d o i :   1 0 . 1 1 0 9 / A C C ESS . 2 0 2 3 . 3 3 0 7 3 1 0 .     Evaluation Warning : The document was created with Spire.PDF for Python.