I AE S In t er na t io na l J o urna l o f   Art if icia l In t ellig ence   ( I J - AI )   Vo l.  1 4 ,   No .   5 ,   Octo b er   2 0 2 5 ,   p p .   4 0 0 6 ~ 4 0 1 6   I SS N:  2 2 5 2 - 8 9 3 8 ,   DOI : 1 0 . 1 1 5 9 1 /ijai.v 14 .i 5 . p p 4 0 0 6 - 4 0 1 6          4006     J o ur na l ho m ep a g e h ttp : //ij a i . ia esco r e. co m   A nov el met ho d f o r ex a mining  p ro mo ters using  stati stica a na ly sis  and a rtif icia l int ellig enc e le a rning       Sin a n Sa lim   M o ha m m ed  Sh ee t 1 ,   M a rwa   M a wf a q M o ha m eds heet   Al - Hatab 2 ,   M a y s a l o o n Abed  Q a s im 3   1 Te c h n i c a l   M e d i c a l   I n st r u m e n t a t i o n ,   P o l y t e c h n i c   C o l l e g e   M o s u l ,   N o r t h e r n   Te c h n i c a l   U n i v e r si t y ,   M o s u l ,   I r a q   2 Te c h n i c a l   E n g i n e e r i n g   C o l l e g e ,   N o r t h e r n   T e c h n i c a l   U n i v e r s i t y ,   M o s u l ,   I r a q   3 Te c h n i c a l   E n g i n e e r i n g   C o l l e g e   f o r   C o mp u t e r   a n d   A r t i f i c i a l   I n t e l l i g e n c e ,   N o r t h e r n   Te c h n i c a l   U n i v e r s i t y ,   M o s u l ,   I r a q       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   No v   9 ,   2 0 2 4   R ev is ed   J u l 1 5 ,   2 0 2 5   Acc ep ted   Au g   6 ,   2 0 2 5       Ac c u ra tely   c las sify in g   p r o m o te rs  h a b e c o m e   a   sig n ifi c a n fo c u i n   b io i n fo rm a ti c re se a rc h .   Alt h o u g h   n u m e ro u st u d ies   h a v e   a tt e m p ted   t o   a d d re ss   th is  c h a ll e n g e ,   th e   p e rf o r m a n c e   o e x isti n g   m e th o d s   stil l   le a v e ro o m   fo imp r o v e m e n t   th is  stu d y ,   sta ti stica fe a tu re   a n a ly sis   h a b e e n   a p p li e d   to   th e   fe a tu re th a h a v e   b e e n   d e v e l o p e d   i n   o u p re v i o u wo r k .   Th is   a p p ro a c h   e x trac ted   a d d it i o n a l   in f o rm a ti v e   f e a tu re fro m   b a sic   se q u e n c e   c h a ra c teristics   a n d   th e n   u se d   t h e m   to g e th e wit h   th e   o rig in a a n d   n e wly   e n g i n e e re d   fe a tu re s.  Util izin g   sta ti stica fe a tu re   a n a ly s is  e n h a n c e d   k e y   p a tt e rn s,  wh ich   l e a d   to   a n   imp ro v e m e n t   in   t h e   a c c u ra c y   o f   t h e   p r o m o ter   c las sifica ti o n .   Re su lt d e m o n stra ted   t h a o u r   p r o p o se d   m e th o d   o u tp e rfo rm o th e m o d e l th a u se   o n l y   b a sic   fe a tu re s.  T h e   v a l u e   o th e   a re a   u n d e th e   c u r v e   (AU C)  o 0 . 8 3 9 5 8   a c h iev e d   wh e n   u si n g   t h e   c o m b in e d   fe a tu re   se c o n firme d   th e   e ffe c ti v e n e ss   o f   o u a p p ro a c h .   F u rth e rm o re ,   t h e   AU v a lu e   re a c h e d   1   w h e n   t h e se   o p ti m ize d   fe a tu re we re   u se d   with   n a i v e   Ba y e (NB)  c las sifier,  re fe rrin g   to   th e   stre n g th   o in c o rp o ra ti n g   sta ti stica a n a ly si s in to   fe a tu re   d e sig n .   K ey w o r d s :   Ar ea   u n d er   th cu r v e   Deo x y r ib o n u cleic   ac id   Ma ch in lear n in g   Pro m o ter   Statis t ical  f ea tu r an aly s is   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Sin an   Salim   Mo h am m ed   Sh ee t   T ec h n ical  Me d ical  I n s tr u m en t atio n ,   Po ly tech n ic  C o lleg M o s u l,  No r th er n   T e ch n ical  Un iv e r s ity   Mo s u l,  I r aq   E m ail:  s in an _ s m 7 6 @ n tu . ed u . i q       1.   I NT RO D UCT I O N   R eg u latio n   o f   g en e x p r ess io n   is   v ital  ce llu lar   p r o ce s s   t h at  en s u r es  d ev elo p m e n t,  p h y s io lo g ical   b alan ce ,   an d   a d ap tatio n   to   e n v ir o n m en tal  ch a n g es.  I d eter m in es  wh en   an d   h o g en es  ar ex p r ess ed ,   s h ap in g   p r o tein   d iv er s ity   an d   ce llu lar   id en tity   [ 1 ] .   Dy s r eg u latio n   o f   th is   p r o ce s s   is   clo s ely   lin k ed   to   h u m an   d is ea s es  s u ch   as  ca n ce r ,   m etab o lic  d is o r d er s ,   an d   n eu r o lo g ical   co n d itio n s .   P r o m o ter   r eg io n s   wh ich   ar esh o r t   d eo x y r ib o n u cleic   ac id   ( DNA )   s tr etch es  u p s tr ea m   o f   g en est h at  ac as  co n tr o l   h u b s   f o r   tr a n s cr ip tio n   in itiatio n   ar am o n g   th cr itical  r e g u lato r s   [ 2 ] .   Pro m o ter   r eg io n s   p r o v id e   d o ck in g   s ites   f o r   r ib o n u cleic   ac id   ( R NA )   p o ly m er ase  a n d   tr a n s cr ip tio n   f ac to r s .   E ar ly   s tu d ies  d escr ib ed   ess en tial  m o tifs  lik th e   - 3 5   ( T T GACA)  an d   - 1 0   ( T AT AAT )   elem en ts   in   b ac ter ial  p r o m o ter s ,   with   tr an s cr ip tio n   s tar tin g   n ea r   p u r in d o wn s tr ea m   o f   th - 1 0   b o x .   Ho wev er ,   p r o m o ter   s tr u ctu r es v ar y   wid ely   ac r o s s   s p ec ies   [ 3 ] .   I d en tify in g   p r o m o ter s   r em ain s   ch allen g in g   b ec au s m an y   l ac k   co n s er v ed   m o tifs  an d   o v er lap   with   o th er   r eg u lato r y   r eg io n s .   T h ac cu r ate   d etec tio n   is   v er y   co m p licated   d u e   to   th eir   s eq u en ce   v ar iab ilit y ,   ch r o m atin   s tr u ctu r e,   an d   s p ec ies - s p ec if ic  d if f er en ce s .   T r ad i tio n al  co m p u tatio n al  m eth o d s ,   r ely in g   o n   m o tifs   o r   p o s itio n   weig h m atr ices,   o f ten   s u f f er   f r o m   lo w   ac cu r a cy   an d   h ig h   f alse  d is co v e r y   r ates,  lim itin g   th eir   r eliab ilit y   f o r   lar g e - s ca le  g en o m ic  s tu d ie   [ 4 ] .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       A   n o ve l m eth o d   fo r   ex a min in g   p r o mo ters   u s in g   s ta tis tica l a n a lysi s   a n d   …  ( S in a n   S a lim Mo h a mme d   S h ee t )   4007   T o   o v er c o m th ese  ch allen g es,  r esear ch er s   h av tu r n e d   to   ar tific ial  in tellig en ce   ( AI )   b ased   ap p r o ac h es.  Ma ch in lear n in g   ( ML )   an d   d ee p   lear n i n g   ( DL )   m o d els  ca n   ca p tu r b o th   s eq u en ce   lev el  m o tifs   an d   lo n g - r an g e   d e p en d e n cies,  im p r o v in g   p r ed ictio n   p e r f o r m an ce .   Me th o d s   s u ch   as   co n v o lu tio n al  n e u r al   n etwo r k s   ( C NNs ) r ec u r r en n eu r al  n etwo r k s   ( R NNs ) ,   an d   h y b r id   C NN - lo n g   s h o r t - te r m   m em o r y   ( L STM )   m o d els  h av ac h iev ed   g o o d   r esu lts ,   wh ile  atten tio n   m ec h an is m s   an d   T r an s f o r m er - b ased   ar ch itectu r es  o f f er   n ew  p o s s ib ilit ies f o r   m o d elin g   p r o m o ter   co m p lex ity   [ 5 ] [ 7 ] .   Desp ite  th ese  ad v an ce s ,   AI   b ased   m eth o d s   s till   f ac p r o b le m s   o f   d ata   s ca r city   an d   in ter p r etab ilit y .   L ar g e,   h ig h - q u ality   d atasets   ar o f ten   u n av ailab le.   T h is   s tu d y   aim s   to   ad d r ess   th ese  g ap s   b y   d ev elo p in g   r o b u s AI - b ased   p r o m o ter   i d en tific atio n   m eth o d s   th at  in te g r ate  b io lo g ical  k n o wled g with   ML .   T h n ex s ec tio n   r ev iews  p r e v io u s   m e th o d s ,   with   em p h asis   o n   th e   ev o lu tio n   f r o m   t r ad itio n al  m o d els  to   m o d er n     AI - d r iv en   ap p r o ac h es.       2.   L I T E R AT U RE   R E VI E W   B ec au s th m eth o d s   wh ich   d ep en d   o n   tr a d itio n al  lab o r ato r y   ar o f ten   r eso u r ce - i n ten s iv e,   s lo w,   an d   n o s ca lab le  f o r   wh o le - g en o m s tu d ies,  co m p u tatio n al  ap p r o ac h es  h av b ec o m v er y   im p o r tan to o ls   in   th p r ed ictio n   o f   p r o m o to   [ 8 ] .   M L   tech n iq u es  am o n g   th ese  co m p u tatio n al  ap p r o ac h es  h a v b ee n   em er g e d   d u t o   th eir   p ar ticu la r ly   e f f ec tiv e,   ca p ab le  o f   u n co v er in g   in tr icate   s eq u en ce   p atter n s   an d   d ep en d en cies  th at  m ig h b e   o v er lo o k ed   b y   co n v en tio n al  al g o r ith m s .   ML   m o d els  ca n   ac c u r ately   d is tin g u is h   b etwe en   p r o m o ter   r eg io n s   an d   b ac k g r o u n d   g e n o m ic   s eq u en ce s   with   h ig h   p r ed ictiv p o wer   b y   co n v er tin g   r aw   DNA  s eq u en ce s   in to   s tr u ctu r ed   f ea tu r r ep r esen tatio n s .   A m i n   e a l .   [ 9 ]   p r o p o s e d   s tu d y   u s i n g   a   DL - b a s e d   a p p r o a c h   i n   i d e n ti f i c a ti o n   a n d   c la s s if i c a t i o n   o f   b a c t e r i a l   s i g m a   p r o m o t e r s   u s in g   b r a n c h e d   C N N s .   T h e i r   m e t h o d   w h i c h   i s   c a l l e d   p r o m p t - le a r n i n g   p r e - t r a i n e d   l a n g u a g e   m o d e l   f o r   p r o m o t e r   p r e d i c t i o n   ( PL P M p r o ) ,   h as   b ee n   d e s i g n e d   t o   d is ti n g u i s h   b etw e e n   p r o m o t e r   a n d   non - p r o m o t e r   s e q u e n c e s   i n   a d d i t i o n   t o   p r o m o t e r s '   c l as s i f i c ati o n   i n t o   d i f f e r e n t   s i g m a   f a c t o r   c a t e g o r i e s ,   s u c h   a s   σ   a n d   σ ³ ² .   T h e   s y s t e m   u s e d   p a r a l l e l   c o n v o l u t i o n al   b r a n c h e s   t o   e x t r a ct   d i v e r s e   f e at u r e   r ep r e s e n t a ti o n s   f r o m   D N A   s e q u e n c e s ,   a n d   t h i s   r es u l t   i n   a n   i m p r o v e m e n t   i n   th e   c l a s s i f ic a t i o n   p e r f o r m a n c e .   T h e i r   C NN - b a s e d   f r a m e w o r k   a c h i e v e d   a   a c c u r a cy   a n d   g e n e r a l i z a b i l it y   i n   b o t h   b i n a r y   a n d   m u l t i c l ass   p r o m o t e r   p r e d i c t i o n   t as k s   [ 9 ] .   T ay ar et  a l.   [ 1 0 ]   in   th e   s am y ea r ,   in t r o d u ce d   a   h y b r id   d ee p - lear n in g   f r am ew o r k   ca lled   id en tific atio n   o f   p r o k a r y o tic  p r o m o te r s   an d   th eir   s tr en g th   v ia  win d o ws  ( iPSW u s in g   p s eu d o   d in u cleo tid e   co m p o s itio n   ( Ps eDN C ) - b ased   d ee p   lear n in g   to   b e   u s ed   in   th id e n tific atio n   o f   p r o k ar y o tic  p r o m o ter s   an d   class if y   th em   in to   two   ca teg o r ies,  s tr o n g   an d   wea k .   T h s t u d y   in te g r ates  b etwe en   C NNs  an d   Ps eDN C .   T h is   h y b r id   ar c h itectu r h as  b ee n   ap p lied   o n   b en ch m ar k   E co li  d atasets   an d   s h o wed   h ig h   ac cu r ac y   i n   p r o m o ter   d etec tio n   [ 1 0 ]   Mo r ae s   et  a l.   [ 1 1 ]   p r o p o s ed   C ap s Pro m ,   wh ich   is   ca p s u le  n etwo r k b ased   m o d el  u s ed   to   id en tify   p r o m o te r   ac r o s s   s ev en   d if f er e n o r g an is m s ,   in clu d in g   eu k a r y o tes  an d   p r o k ar y o tes.  C ap s Pro m   g et   b e n if it  f r o m   th ab ilit y   o f   th e   ca p s u le  n e two r k   t o   m ai n tain   h ier ar ch i ca r elatio n s h ip s   with in   s eq u en ce   p atter n s .   T h is   m eth o d   d em o n s tr ated   co m p e titi v F1 - s co r es   s u r p ass in g   b aselin C NN  ap p r o ac h es  i n   f iv o u o f   s ev en   d atasets .   T h au th o r s   em p h asized   th g en e r aliza b ilit y o f   th C ap s Pro m s   g s y s tem ,   ac co r d i n g   to   its   s tr en g th   in   cr o s s - s p ec ies p r o m o ter   p r ed ict io n   an d   p o ten tial f o r   tr an s f e r   l ea r n in g   ( T L )   ac r o s s   g en o m ic  c o n tex ts   [ 1 1 ] .   Z h an g   et  a l [ 1 2 ]   i n tr o d u ce d   m o d el  f o r   p r o m o ter   p r ed ict io n .   T h is   m o d el  p r o d u ce s   h y b r id   DL   f r am ewo r k   co m b in in g   C NNs,  ca p s u le  n etwo r k s ,   b id ir ec tio n al  lo n g   s h o r t - ter m   m em o r y   ( B i - L STM ) ,   an d   a   s elf - atten tio n   m ec h a n is m   to   id en tify   p r o m o ter s   ef f ec tiv ely   an d   class if y   th eir   s tr en g th .   I u s es  o n e - h o en co d in g   to   r ep r esen DNA  s eq u en ce s   an d   g ets  b en if its   f r o m   b o th   lo ca an d   g lo b al  s eq u en ce   f ea tu r es  to   en h an ce   p r ed ictio n   p er f o r m an ce .   T h e   m o d el  h as  ac h iev ed   an   ac cu r ac y   o f   a p p r o x im ately   8 6 f o r   p r o m o ter   id en tific atio n   an d   ar o u n d   7 3 . 5 % f o r   p r o m o ter   s tr en g th   class if icatio n   [ 1 2 ] .   I n   an o th er   r elate d   s tu d y ,   L et  a l.   [ 1 3 ]   d ev elo p ed   n o v el  ap p r o c h   PLPMp r o .   T h is   ap p r o ac h   en h an ce d   th p r ed ictio n   o f   th p r o m o to r   s eq u en ce   b y   c o m b in in g   th p r o m p t - lear n i n g   with   p r e - tr ain ed   lan g u ag m o d els.  T h eir   s tu d y   u s ed   p r o m p t - b ased   f in e - tu n in g   to   lev er a g g en o m ic  r ep r esen tatio n s   lear n ed   f r o m   lar g e - s ca le  tr ain in g   co r p o r a,   wh ich   in cr ea s th ab il ity   o f   th s y s tem   to   ca p tu r co m p lex   p r o m o ter   s eq u en ce   f ea t u r es  m o r e f f ec t iv ely .   Af ter   ev alu ate d   th e   s y s tem   o n   b e n ch m ar k   d atasets   f r o m   th e   E u k ar y o tic  p r o m o te r   d ata b ase ,   th r esu lts   ac h iev ed   i n   b o th   p r ec is io n   an d   r ec all  d e m o n s tr ated   n o t ab le  im p r o v em en ts   co m p ar in g   to   co n v en tio n al  tr an s f o r m er - b ased   m o d els  s u ch   as  DNA  b id ir ec tio n al  en co d er   r ep r esen tatio n s   f r o m   tr a n s f o r m er s   ( B E R T )   [ 1 3 ] .   Pau et  a l.   [ 1 4 ]   d ev elo p ed   m ac h in lear n in g   an d   d u p lex   s tab ilit y   p r o m o ter   p r ed ictio n   ( ML DSPP )   n am ed   s y s tem   f o c u s in g   o n   b a cter ial  g en o m es.  T h is   s tu d y   is   to o d esig n e d   to   d etec p r o m o to r   r e g io n s   cr o s s   1 2   p r o k ar y o tic  s p ec ies.  T h is   m eth o d   u s ed   ML   alg o r ith m s   s u ch   as  ex tr e m g r a d ien b o o s t in g   ( XGBo o s t)   with   s tr u ctu r al  DNA  f ea tu r es  s u ch   as  d u p lex   s tab ilit y .   T h r esu lt s   o b tain ed   f r o m   u s in g   ML DS PP   d em o n s tr ated   s u p er io r ity   to   ex is tin g   to o ls   lik Sig m a7 0 p r ed   an d   iPro m o t er 2 L ,   wh ic h   ac h iev e d   F1 - s co r es  ab o v th a n   9 5 %.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J Ar tif   I n tell Vo l.  1 4 ,   No .   5 ,   Octo b er   2 0 2 5 4 0 0 6 - 4 0 1 6   4008   Mo r eo v er ,   th s tu d y   u s ed   ex p lain ab le  AI   tech n i q u es,  in cl u d in g   Sh a p ley   v al u es  an d   o n e - h o en c o d in g ,   to   im p r o v t h tr an s p ar e n cy   o f   th m o d el  an d   in cr ea s th p r ed i ctiv ac cu r ac y   [ 1 4 ] .   Ash ay er et  a l.   [ 1 5 ]   ap p lied   T L   tech n iq u es  o n   s ev er al   g e n o m ic  task s ,   s u c h   as  a n aly s is   o f   g en e   ex p r ess io n ,   d etec o f   m u tatio n ,   an d   r ec o g n itio n   o f   g en etic  s y n d r o m e.   R esu lts   s h o wed   th at  b y   u s in g   T L ,   th e   ef f icien cy   an d   ac cu r ac y   o f   th m o d el  h as   b ee n   s ig n if ican tl y   im p r o v e d   in   v a r io u s   g en eti r esear ch   d o m ain s .     I n   ad d itio n   T L   en h a n ce s   th ac cu r ac y   a n d   ef f icien cy   o f   m u tatio n   d etec tio n ,   wh ich   c an   h elp   in   id e n tify in g   g en etic  ab n o r m alities ,   an d   it is   also   ab le  to   im p r o v d iag n o s tic  ac cu r ac y   o f   s y n d r o m e - r elate d   g en etic  p atter n s .   Fu r th er m o r e ,   T L   co n t r ib u tes  i n   g en e   ex p r ess io n   an al y s is   b y   en ab lin g   m o r p r ec is p r e d ic tio n s   o f   e x p r ess io n   lev els  an d   th ei r   r elatio n s h i p s .   I also   ca n   s tr en g th   th s tu d ies  r elate d   to   p h en o ty p e - g en o ty p b y   u s in g   k n o wled g f r o m   p r e - t r ain ed   m o d els   [ 1 5 ] .   Z e n g   e t   a l [ 1 6 ]   i n t r o d u c es   n o v e l   D NA   s e q u e n c e   s e g m e n t at i o n   m e t h o d   a n d   a   r e f i n e d   d i c ti o n a r y   f o r   B E R T   p r e - t r ai n i n g ,   e n h a n c i n g   p r o m o t e r   d e t e c ti o n   t h r o u g h   DL   t e c h n i q u es   li k e   C NN s ,   L ST M s ,   a n d   I n ce p t i o n   n e t w o r k s ,   i m p r o v i n g   p e r f o r m a n c e   a n d   i n t e r p r e ta b i l it y   i n   d o wn s t r e a m   t a s k s   [ 1 6 ] .   F i n a ll y ,   G u n a r a t h n a   e t   a l [ 1 7 ]   em p lo y ed   in ter p r etab le  ML   m o d els  g u id e d   b y   ass ay   f o r   tr an s p o s ase - ac ce s s ib le  ch r o m atin   u s in g   s eq u e n cin g   ( AT AC - s eq )   d ata  to   u n co v er   ca n ce r - s p ec if ic  ch r o m atin   f ea t u r es  in   ce ll - f r ee   d e o x y r ib o n u c leic  ac id   ( cf DNA) .   T h eir   ap p r o ac h   f o cu s ed   o n   e n h an cin g   th p r e d ictio n   o f   b r ea s ca n ce r - d er iv ed   c f   DNA  b y   lev er ag   f r o m   t h ch r o m atin   ac ce s s ib ilit y   s ig n als,  wh ich   h av led   to   im p r o v e d   d etec tio n   p er f o r m a n ce .   Alth o u g h   th ei r   f in d in g s   h ig h lig h ted   th e   p o ten tial  o f   c h r o m atin - b ased   f ea t u r es  in   n o n - in v asiv ca n ce r   d iag n o s tics ,   th s tu d y   d i d   n o d ir ec tly   ad d r ess   p r o m o ter   r eg i o n   id en tific atio n   [ 1 7 ] .   W h i l s e v e r al   M L - b as e d   p r o m o t e r   d e t e c ti o n   m e t h o d s   e x is t ,   m a n y   r e l y   o n   g e n e r i c   f e a t u r es  o r   l i m i t e d   n u c l e o t i d e   c o m p o s i ti o n s ,   o f t e n   r e s u l t i n g   i n   l o w   a c c u r a c y .   T h i s   s t u d y   a d d r e s s es   t h i s   li m i tat i o n   b y   i n t r o d u c i n g   n o v e l   s t at is t i c al   a n d   b i o l o g ic a f e a t u r e s   s p e ci f i c a ll y   d e s i g n e d   f o r   p r o m o t e r   d e t e c t i o n .   T h m a i n   o b j e c t i v is   t o   a s s e s s   t h e   e f f e ct i v e n e s s   o f   t h es e   f e a t u r es   i n   i m p r o v i n g   M L   c l a s s i f ie r   p e r f o r m a n c e .   T o   t h i s   e n d ,   w e   e m p l o y e d   s u p p o r t   v e c t o r   m ac h i n e   ( S V M) ,   l o g i s t i r e g r e s s i o n   ( L R ) ,   k - n e a r e s n e i g h b o r s   ( K N N ) ,   d e c is i o n   t r e e   ( D T ) ,   a n d   n a i v e   B a y es   ( N B ) .   T h es e   c l ass i f i e r s   w e r e   s e l e ct e d   f o r   t h e i r   c o m p l e m e n t a r y   s t r e n g t h s :   i )   SV M   h a n d l e s   h i g h - d i m e n s i o n a l   a n d   n o n - l i n e a r   d at a ,   i i )   L R   o f f e r s   i n t e r p r e t a b le   li n e a r   m o d e l i n g ,   ii i )   K N c a p tu r e s   l o c al   s e q u e n c s i m il a r i ti e s ,   i v )   D T   e f f e ct i v e ly   m a n a g e s   f e a t u r e   i n t e r a ct i o n s ,   a n d   v )   NB   p e r f o r m s   w e ll   u n d e r   p r o b a b i l i s ti a s s u m p ti o n s .   T h is   d i v e r s e   c l as s i f i e r   s el e c ti o n   e n s u r e s   a   c o m p r e h e n s i v e   e v a l u at i o n   o f   t h e   p r o p o s e d   f e a t u r e s .       3.   M E T H O DO L O G Y   T h is   s ec tio n   illu s tr ates  th o v er all  m eth o d o lo g y   u s ed   in   t h is   s tu d y .   I s tar ts   f r o m   d ata  p r e p r o ce s s in g   an d   f ea tu r ex tr ac tio n   m eth o d s   to   th m o d el  d ev elo p m en a n d   p er f o r m an ce   ev alu ati o n .   Fig u r 1   s h o ws  th wo r k f lo in   t h is   s tu d y .           Fig u r 1 .   Flo wch ar o f   th e   p r o p o s ed   m o d el   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       A   n o ve l m eth o d   fo r   ex a min in g   p r o mo ters   u s in g   s ta tis tica l a n a lysi s   a n d   …  ( S in a n   S a lim Mo h a mme d   S h ee t )   4009   3 . 1 .     Da t a   prepro ce s s ing   T h d ataset  u s ed   in   th is   s tu d y   h as  b ee n   o b tain ed   f r o m   t h U n iv er s ity   o f   C alif o r n ia  I r v i n ( UC I )   ML   r ep o s ito r y   [ 1 8 ] ,   it  co n s is ts   o f   1 0 6   n u cleo tid e   s eq u en ce s ,   e ac h   s eq u en ce   le n g th   h as  5 7   b ase  p air s ,   s p an n in g   p o s itio n s   - 5 0   to   + 7 .   T h ese  s eq u en ce s   h a v b ee n   d i v id ed   i n to   two   ca teg o r ies:   p r o m o ter   s eq u en ce   as  p o s itiv class   ( PS )   an d   n o n - p r o m o te r   s eq u en ce   as  n eg ativ class   ( n _ PS ) .   T h p r e p r o ce s s in g   o f   th d ata  b eg i n s   with   s p litt in g   th d ataset  in to   tr ain in g   an d   test in g   s u b s ets,  th en   th d ata  h as  b ee n   ch ec k ed   an d   co r r ec ted   to   e n s u r e   s eq u en ce   ac cu r ac y   a n d   c o m p l eten ess .   Dep en d in g   o n   t h ex ten o f   m is s in g   in f o r m atio n ,   m is s in g   o r   u n clea r   id en tifie r s   with in   b o th   class es  wer ad d r ess ed   th r o u g h   eit h er   im p u tatio n   o r   r e m o v al.   L ast  o p er atio n   i n   th e   p r ep r o ce s s in g   was  th clea n in g   an d   n o r m aliza tio n   o f   th s eq u en ce s   b y   b y   elim in atin g   e x tr an eo u s   elem en ts   s tan d ar d ize  th eir   f o r m at  a n d   m ain tain   co n s is ten cy   f o r   s u b s eq u en t a n aly s es.     3 . 2 .     F e a t ure  eng ineering   3 . 2 . 1 .   B a s ic  f ea t ure  eng ineering   B asic  f ea tu r en g in ee r in g   m eth o d   an al y s es  DNA  s eq u en ce s   b ased   o n   th c o m p o n en t s   o f   th eir   f u n d am e n tal  n u cleo tid e - ad en i n ( A) ,   th y m in ( T ) ,   cy t o s in ( C ) ,   an d   g u an in e   ( G) .   E ac h   DNA  s eq u en ce   was  b r o k e n   d o wn   in t o   in d i v id u al  n u cleo tid es,  an d   ea ch   n u cle o tid r ef er r ed   t o   as  s ep a r ate  f e atu r e.   T h is   m et h o d   ca n   id en tify   s h o r t,  lo ca lized   n u cleo tid p atter n s   wh ich   ar im p o r tan in   d is tin g u is h in g   b et wee n   PS   an d   n _ PS   ty p es.     3 . 2 . 2 .   Dev elo ped f ea t ure  eng i neer ing   T h aim   o f   d ev elo p e d   f ea tu r e   en g in ee r in g   ap p r o ac h   is   to   e n h an ce   th ac cu r ac y   o f   class if icatio n   b y   ex tr ac tin g   a   co m p r eh e n s iv s et  o f   b io lo g ically   m ea n in g f u l   attr ib u tes  f r o m   DNA  s eq u e n ce s .   T h is   m eth o d   in teg r ates  d if f er e n ev al u atio n   in   o r d e r   to   ca p tu r e   b o t h   g lo b al  an d   lo ca l   s eq u en ce   c h ar ac ter is tics ,   th ese   ev alu atio n s   ar n u cle o tid co m p o s itio n   an aly s is ,   GC   co n ten m ea s u r em en t,  k - m er   f r eq u en cy   p r o f ilin g ,   a n d   s eq u en ce   co m p le x ity   ev alu at io n .   Nu cleo tid co u n tin g   d e ter m in th o cc u r r en ce s   o f   ad en in e,   th y m in e,   cy to s in e,   an d   g u an in e.   GC   co n ten an aly s is   m ea s u r es  f r eq u en cy   o f   g u an in e   an d   cy to s in e   n u cleo tid es  wh ich   is   im p o r tan t   in   DNA  s tab ilit y   a cc o r d in g   to   th eir   tr ip le  h y d r o g en   b o n d s .   K - m er   an aly s is   in v esti g ates  r ec u r r in g   n u cleo tid m o tifs  o f   len g th   f i n ally ,   s eq u en ce   co m p lex ity   a n aly s is   ass es s es  th v ar iab ilit y   an d   ir r eg u lar ity   in   n u cleo tid d is tr ib u tio n .   T ab le  1   illu s tr ates th s ig n if ican t c o m p o s itio n al  an d   s tr u ctu r al  d if f er en ce s   b etwe en   PS   an d   n _ PS   b y   u s in g   De v elo p ed   Featu r es.     3 . 3 .     F e a t ure  s t a t is t ics a nd   s ig nifica nce  bio lo g ica l per f o r m a nce  m e t rics   D i f f e r e n t   s t a t i s t i c a l   a n d   e v a l u a t i o n   m e t r i c s   h a v e   b e e n   u s e d ,   i n   o r d e r   t o   a s s e s s   t h e   s i g n i f i c a n c e   a n d   p e r f o r m a n c e   o f   e a c h   f e a t u r e   i n   t h e   c l a s s i f i c a t i o n   t a s k .   T h e s e   m e t r i c s   g i v e   a c c u r a t e   a n a l y s i s   f o r   f e a t u r e   d i s t r i b u t i o n s   a n d   t h e i r   r e l a t i o n s h i p s   w i t h   t h e   c l a s s i f i c a t i o n   r e s u l t s .   T h e   m e t r i c s   u s e d   i n   t h i s   s t u d y   w e r e   c o r r e l a t i o n   c o e f f i c i e n t s ,   r o o t   m e a n   s q u a r e   e r r o r   ( R M S E ) ,   m e a n   a n d   s t a n d a r d   d e v i a t i o n   ( S D ) ,   s i g n a l - to - n o i s e   r a t i o   ( S N R ) ,   a n d   t h e   a r e a   u n d e r   t h e   c u r v e   ( A U C ) .   T h e   f o r m u l a s   f o r   t h e s e   m e t r i c s   a r e   d e t a i l e d   a s   f o l l o w s   [ 1 9 ] ,   [ 2 0 ] .   i)   C o r r elatio n th co r r elatio n   co ef f icien m ea s u r in g   th r el atio n s h ip   b etwe en   ea ch   f ea t u r x   an d   th e   class if icatio n   tar g et  y .   I n   ( 1 )   s h o ws th m ath em atica l f o r m u l o f   co r r elatio n :        ( , ) = ( ̅ ) ( ̅ ) = 1 ( ̅ ) 2 = 1 ( ̅ ) 2 = 1   ( 1 )     w h er e   ,   ar th e   v alu es  o f   f ea tu r an d   tar g et   f o r   s am p le   i ̅ , ̅   ar th m ea n s   o f   X   a n d   Y ,   n   is   th e   n u m b er   o f   s am p les.   ii)   R o o t m ea n   s q u ar ( R MS) : R MS  is   u s ed   to   ass es s   th av er ag m ag n itu d o f   f ea tu r e   as ( 2 ) .      ( ) = 1 2 = 1   ( 2 )     iii)   Me an   an d   SD th m ea n   a n d   SD  o f   a   f ea tu r e   d escr ib e   its   ce n tr al  ten d e n cy   a n d   v ar iab ilit y   is   s h o wn   in     ( 3 )   an d   ( 4 ) :      ( ) = 1 = 1   ( 3 )      ( ) = 1 ( = 1 ̅ ) 2   ( 4 )     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J Ar tif   I n tell Vo l.  1 4 ,   No .   5 ,   Octo b er   2 0 2 5 4 0 0 6 - 4 0 1 6   4010   iv )   SNR : S NR   q u an tifie s   h o m u ch   s ig n al  is   p r esen t in   f ea t u r r elativ to   its   n o is e   as in   ( 5 ) :      ( ) = ̅  ( )   ( 5 )     v)   AUC:   to   d eter m in th e   co n t r ib u tio n   o f   ea c h   f ea tu r i n   th e   p er f o r m an ce   o f   t h m o d el,   a n   ab latio n   s tu d y   was  p er f o r m ed .   E ac h   f ea tu r e   h as  b ee n   r em o v ed   in d iv i d u all y ,   an d   t h class if ier   h as  b ee n   r etr ain ed   an d   th AUC  o f   th m o d el  with o u th is   f ea tu r was  r ec o r d ed .   I n   ( 6 )   u s ed   to   d eter m in AUC  d if f er en ce   d u e   to   r em o v al  o f   f ea t u r   is :      =       ( 6 )     wh er e,      is   th m o d el  p e r f o r m an ce   with   all  f ea tu r es,     is   th p er f o r m an ce   af te r   r em o v in g   f ea tu r .       T ab le  1 .   Su m m a r y   o f   d e v elo p ed   f ea tu r es f o r   PS   an d   n _ PS   F e a t u r e   N u c l e o t i d e   P S   a v e r a g e   v a l u e   n _ P S   a v e r a g e   v a l u e   B i o l o g i c a l   si g n i f i c a n c e   N u c l e o t i d e   c o u n t   A d e n i n e   ( A )   1 5 . 7 9   1 4 . 0 2   A   a p p e a r s   m o r e   o f t e n   i n   P S   r e g i o n s,   p l a y i n g   a   r o l e   i n   f a c i l i t a t i n g   D N A   st r a n d   s e p a r a t i o n   a n d   i n i t i a t i n g   t r a n s c r i p t i o n .     Th y mi n e   ( T)   1 7 . 1 9   1 5 . 1 1   A   h i g h   p r e s e n c e   o f   i n   P S   r e g i o n s   e n h a n c e s   D N A   f l e x i b i l i t y ,   m a k i n g   i t   e a si e r   t o   u n w i n d   t h e   st r a n d d u r i n g   t r a n s c r i p t i o n .     C y t o s i n e   ( C )   1 2 . 6 2   1 3 . 5 1   A   l o w   c o u n t   o f   C   c o n t e n t   i n   P S   r e g i o n s   r e su l t s   i n   d i mi n i s h e d   st r u c t u r a l   st a b i l i t y   o f   t h e   D N A .     G u a n i n e   ( G )   1 1 . 4   1 4 . 4 5   A   d e c r e a se d   l e v e l   o f   G   i n   P S   r e g i o n s   e n h a n c e a c c e ss i b i l i t y   f o r   t h e   t r a n s c r i p t i o n   m a c h i n e r y .   N u c l e o t i d e   c o u n t   r a n g e   ( p e r   5 7   n u c l e o t i d e s)   A d e n i n e   ( A )   15 18   13 15   I n   P S   r e g i o n s ,   h i g h   A   c o n t e n t   a i d s   i n   D N A   u n w i n d i n g ,   w h e r e a n _ P S   r e g i o n s   d i s p l a y   a   mo r e   b a l a n c e d   n u c l e o t i d e   c o m p o si t i o n .     Th y mi n e   ( T)   16 19   14 16   I n c r e a se d   l e v e l s   i n   P S   r e g i o n s   c o n t r i b u t e   t o   g r e a t e r   D N A   f l e x i b i l i t y ,   w h i l e   n _ P S   r e g i o n p r e s e r v e   st r u c t u r a l   st a b i l i t y .     C y t o s i n e   ( C )   11 13   13 14   A   d e c l i n e   i n   C   c o n t e n t   w i t h i n   P S   a r e a s   l e a d t o   r e d u c e d   D N A   s t a b i l i t y ,   f a c i l i t a t i n g   t r a n scr i p t i o n .     G u a n i n e   ( G )   10 12   14 15   Le ss  G   i n   P S   r e g i o n s   i m p r o v e a c c e ss  f o r   t r a n scr i p t i o n   f a c t o r s.   G C   c o n t e n t   ( %)     40 4 5 %   48 5 2 %   A   l o w e r   G C   c o n t e n t   i n   P S   e n h a n c e s   D N A   f l e x i b i l i t y ,   w h e r e a h i g h e r   G C   c o n t e n t   i n   n _ P S   s t r e n g t h e n D N A   st r u c t u r e .   K - mer  a n a l y si s     C o mm o n   m o t i f s s u c h   a TA TA ,   C G G ,   a n d   G C G   o c c u r   f r e q u e n t l y ,   i n d i c a t i n g   a   r i c h   p r e se n c e   o f   r e g u l a t o r y   s e q u e n c e s   I r r e g u l a r   o r   l o o se l y   o r g a n i z e d   p a t t e r n s   w i t h   n o   r e c u r r i n g   mo t i f s   S p e c i f i c ,   o r g a n i z e d   m o t i f i n   P S   r e g i o n h e l p   c o n t r o l   g e n e   e x p r e ssi o n ;   su c h   mo t i f s   a r e   g e n e r a l l y   a b s e n t   i n   n _ P S   r e g i o n s .   S e q u e n c e   c o m p l e x i t y     El e v a t e d   c o m p l e x i t y   w i t h   d i v e r se   m o t i f s a n d   st r u c t u r a l   e l e me n t s   Li mi t e d   c o m p l e x i t y ,   c h a r a c t e r i z e d   b y   b a s i c   a n d   r e p e t i t i v e   seq u e n c e s   Th e   g r e a t e r   se q u e n c e   c o m p l e x i t y   f o u n d   i n   P S   r e f e r t o   t h e   p r e s e n c e   o f   r e g u l a t o r y   e l e m e n t s,   w h i l e   t h e   l o w e r   c o m p l e x i t y   i n   n _ P S   i mp l i e m i n i m a l   r e g u l a t o r y   f u n c t i o n .       3 . 4 .     Cla s s if ier  ini t ia liza t io a nd   m o del selec t io n   3 . 4 . 1 .   Su pp o rt   v ec t o m a chi ne   SVM  is   an   ef f ec tiv class if ier   f o r   h an d lin g   c o m p lex ,   h ig h - d im en s io n al  d ata  b y   m ax i m izin g   th e   m ar g in   b etwe en   class es u s in g   k er n el  f u n ctio n [ 2 1 ] .   lin ea r   k er n el  was d eter m in e d   u s in g   ( 7 )   [ 2 2 ] :     ( ) =   ( . ) + = 1   ( 7 )     w h er     is   th L ag r an g m u ltip lier ,     class   lab els,  an d     s u p p o r t v ec to r s .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       A   n o ve l m eth o d   fo r   ex a min in g   p r o mo ters   u s in g   s ta tis tica l a n a lysi s   a n d   …  ( S in a n   S a lim Mo h a mme d   S h ee t )   4011   3 . 4 . 2 .   K - nea re s t   neig hb o rs   KNN  is   n o n - p ar am etr ic,   in s tan ce - b ased   lear n in g   alg o r ith m   th at  class if ie s   s am p le  b ased   o n   th m ajo r ity   lab el  am o n g   its   k   clo s est n eig h b o r s   in   th f ea tu r s p ac e   [ 2 3 ] ,   as in   ( 8 ) :     = a r g    ( = ) = 1   ( 8 )     w h er ( = )   r ep r esen t   th i n d icato r   f u n ctio n ,   if   ( = )   th v al u is   1   a n d   o th er wis 0 .   k   is   s ev er al  n ea r est n eig h b o r s .     3 . 4 . 3 .   L o g is t ic  re g re s s io n   L R   is   wid ely - u s ed   lin ea r   m o d el  th at  esti m ates  th p r o b ab ilit y   o f   class   m em b e r s h ip   th r o u g h   a   lo g is tic  f u n ctio n .   I ts   s im p licity   allo ws  f o r   s tr aig h tf o r war d   in ter p r etatio n   o f   f ea tu r c o n tr i b u tio n s   v ia  m o d el   co ef f icien ts   [ 2 4 ] .   T h e   m ath em atica l f o r m u la  s h o wn   in   ( 9 ) :     ( = 1 \ ) = 1 1 + ( . + )   ( 9 )     w h er   is   f ea tu r v ec to r ,   r ep r esen ts   th weig h t v ec to r ,   an d   b   is   th b ias ter m .     3 . 4 . 4 .   Na iv B a y es   NB   clas s if ier s   r ely   o n   s tr o n g   co n d itio n al  in d e p en d e n ce   ass u m p tio n s   b etwe en   f ea tu r es  to   co m p u t e   p o s ter io r   p r o b a b ilit ies  ef f icien tly .   Desp ite  its   s im p licity ,   NB   p er f o r m s   s u r p r is in g ly   well  i n   h ig h - d im en s io n al  s p ac es  an d   is   p ar ticu la r ly   ef f e ctiv wh en   t h d ataset  m ee ts   o r   ap p r o x im ates  th ese  p r o b ab ilis tic  as s u m p tio n s .   I ts   f ast tr ain in g   an d   i n f er en ce   tim es m ak NB   u s ef u l b en c h m ar k   f o r   p r o b ab ilis tic  class if ic atio n   m o d els  [ 2 5 ] :     ( \ ) = ( ) ( \ ) = 1 ( )   ( 1 0 )     wh er th p r io r   p r o b ab ilit y   o f   th e   class   is   r ep r esen ted   b y   ( ) ,   ( \ )   is   th p r o b a b ilit y   o f   f ea tu r e   an d     is   th g iv en   class .     3 . 4 . 5 .   Dec is io n t re e   DT   class if y   d ata  b y   r ec u r s iv ely   s p litt in g   th f ea tu r s p ac b ased   o n   th r esh o ld s   th at  m ax i m ize  clas s   s ep ar atio n   [ 2 6 ] I n   ( 1 2 )   s h o ws  th m ath em atica l f o r m u la:     ( ) = 1 ( \ ) 2 = 1   ( 1 1 )     wh er ( \ )   is   th p r o p o r ti o n   o f   cla s s     at  n o d e   .     3 . 5 .     P er f o r m a nce  ev a lua t io n   I n   t h i s   s t u d y ,   d i f f e r e n t   m e t r i c s   h a v e   b e e n   u s e d   t o   e v a l u a t e   c l a s s i f i c a t i o n   o f   e a c h   M L   m o d e l   [ 2 7 ] ,   [ 2 8 ] .   i)   Acc u r ac y th is   m etr ic  r ep r ese n ts   th r atio   o f   co r r ec tly   class i f ied   s am p les  to   th to tal  n u m b er   o f   s am p les   [ 2 0 ] .   I t is ca lcu lated   as sh o wn   in   ( 1 2 ) :     =       (  )   +     (  )       (  )   +     (  ) +     (  ) +      (  )       w h er e,     d en o tes  ac cu r ac y ,   T an d   T ar th co r r ec tly   p r ed icted   p o s itiv an d   n e g ativ ca s es,   r esp ec tiv ely ,   wh ile  FP   an d   FN r ep r esen t f alse p r e d icted   p o s itiv an d   n eg ativ ca s es.   ii)   Pre cisi o n : p r ec is io n   is   th r atio   o f   T P p r ed ictio n s   to   all  p o s itiv es p r ed icted ,   as in   ( 1 2 ) .      =   +    ( 1 2 )     iii)   R ec all  ( s en s itiv ity ) : in   ( 1 3 )   r e p r esen ts   th r ec all  ( s en s itiv ity )   an d   in d icate s   ac tu al  p o s itiv es.      =   +    ( 1 3 )     i v )   F1 - s c o r e :   F 1 -   s c o r e   r e f e r s   t o   a c t u a l   p o s i t i v e s ,   ( 1 4 )   s h o w s   t h e   m a t h e m a t i c a l   f o r m u l a   t o   d e t e r m i n e   t h e   F 1 - s c o r e :     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J Ar tif   I n tell Vo l.  1 4 ,   No .   5 ,   Octo b er   2 0 2 5 4 0 0 6 - 4 0 1 6   4012   1  = 2 ×  ×   +    ( 1 4 )       4.   RE SU L T S AN D I SCU SS I O N   4 . 1 .     B io lo g ic a l f ea t ures e v a lua t io n   T ab le  2   s u m m ar izes  k ey   s tati s tical  an d   p er f o r m an ce   m etr ic s   f o r   th f ea tu r es,  in clu d in g   c o r r elatio n   with   th tar g et,   R MS,   m ea n ,   STD,   SNR ,   an d   AUC  f r o m   th ab latio n   s tu d y .   T ab le  2   to g e th er   with   Fig u r 2   also   h ig h lig h f ea tu r r elev a n ce .   B asic  n u cleo tid co u n ts   ( C o u n t_ A,   C o u n t_ T ,   C o u n t _ C ,   C o u n t_ G)   an d   GC _ C o n ten s h o th s tr o n g est  p r ed ictiv p o wer ,   with   C o u n t_ T   an d   C o u n t_ p o s itiv ely   co r r elate d   an d   C o u n t_ an d   GC _ C o n ten n eg ativ ely   co r r elate d   with   class if icatio n .   Seq u en ce _ C o m p lex ity ,   d esp ite  a   m o d er ate  AUC  ( 0 . 7 3 8 0 ) ,   h as  h ig h   SNR   ( ~4 2 ) ,   in d icatin g   s tab le,   v alu ab le  in p u t.  Seq u en ce _ Var iab ilit y   h as  lo SNR   an d   co r r elatio n ,   s u g g esti n g   lim ited   s tan d alo n u s ef u ln ess   b u t p o s s ib le  v alu w h e n   co m b i n ed .       T ab le  2   . Su m m a r y   o f   f ea tu r s tatis tic s   an d   p er f o r m an ce   m etr ics f r o m   ab latio n   s tu d y   F e a t u r e   C o r r e l a t i o n   R M S   M e a n   S TD   S N R   AUC   C o u n t _ C   - 0 . 1 4 5 4 9   1 3 . 4 1 7   1 3 . 0 6 6   3 . 0 6 2 1   4 . 2 6 7   0 . 7 6 8 2   C o u n t _ A   0 . 2 5 4 3 8   1 5 . 3 0 5   1 4 . 8 5 8   3 . 6 8 9   4 . 0 2 8   0 . 7 4 1 9   C o u n t _ T   0 . 2 6 6 6 4   1 6 . 6 1 3   1 6 . 1 5 1   3 . 9 1 0 4   4 . 1 3   0 . 7 5 0 8   C o u n t _ G   - 0 . 4 3 6 5 1   1 3 . 3 9   1 2 . 9 2 5   3 . 5 1 7 8   3 . 6 7 4   0 . 7 3 9   G C _ C o n t e n t   - 0 . 4 3 6 6 8   0 . 4 6 2 8   0 . 4 5 5 9 7   0 . 0 7 9 5 9   5 . 7 2 9   0 . 7 5 4   S e q u e n c e _ C o mp l e x i t y   - 0 . 4 0 9 2 4   1 . 9 4 8 7   1 . 9 4 8 2   0 . 0 4 6 2   4 2 . 1 6 2   0 . 7 3 8   S e q u e n c e _ V a r i a b i l i t y   0 . 4 0 6 4 4   0 . 0 0 7 8   0 . 0 0 5 9   0 . 0 0 5 2   1 . 1 3 4   0 . 7 3 7 8             Fig u r 2 .   Featu r e   im p o r ta n ce   an d   p r e d ictiv v alu b ased   o n   AUC an d   s tatis t ical  s tab ilit y       4 . 2 .     K - m er   pa t t er n a na ly s is   K - m er   an aly s is   was  p er f o r m e d   to   lin k   s h o r n u cle o tid m o tifs  with   p r o m o ter   class if icati o n .   E ac h   s eq u en ce   was  lab eled   an d   an n o tated   with   its   to p   th r ee   f r eq u en 3 - m er s ,   wh ich   wer b r o k e n   d o wn   in to   k - m er s   to   ca lcu late  class - s p ec if ic  f r eq u en cies.  Statis tical  test s   ( C h i - s q u ar o r   Fis h er s   e x ac t)   ass ess ed   k - m er   s ig n if ican ce   ac r o s s   class es.  W h ile  s o m k - m er s   ap p ea r e d   class - s p ec if ic  ( e. g . ,   ' aa c,   ac g ,   cg c'   in   C lass   0 ;     ' aa a,   ata,   taa'   in   C lass   1 ) ,   m o s test s   s h o wed   n o n - s ig n if ica n r esu lts ,   lik ely   d u to   s m all  s am p le  s ize  an d   s p ar s d ata  ( e. g . ,   C h i - s q u ar e   p =1 . 0 0 0 0 ) .   T h ese  r esu lts   s u g g est  k - m er s   alo n h av lim ited   d is cr im in ativ p o wer   b u t   ca n   en h a n ce   m o d els wh en   co m b in ed   with   o th er   f ea t u r es,  as illu s tr ated   in   Fig u r 3 .     4 . 3 .     Cla s s if iers  f o r   eng ineering   f ea t ures   T ab le  3   an d   Fig u r 4   s h o th p er f o r m an ce   o f   d i f f er en class if ier s   u s in g   b asic  f ea tu r es.    SVM  ac h iev ed   6 5 ac c u r ac y   b u h a d   lo w   s p ec if icity   ( 0 . 5 6 )   a n d   m o d er ate  p r ec is io n   ( 0 . 6 1 )   d esp ite  g o o d   s en s itiv ity   ( 0 . 7 3 ) .   KNN  p er f o r m ed   p o o r ly   with   4 8 ac cu r a cy   an d   v er y   l o s p ec if icity   ( 0 . 2 5 ) ,   s tr u g g lin g   to   class if y   n _ PS   co r r ec tly .   LR   s h o wed   b ala n ce d   r esu lts   with   6 1 ac cu r ac y   an d   0 . 5   s p ec if i city .   DT s   p er f o r m ed   b etter ,   r ea ch in g   7 1 ac cu r ac y   an d   0 . 6 9   s p ec if icity   an d   p r ec i s io n .   NB   was  th b est,  ac h iev i n g   9 0 ac cu r ac y ,   0 . 9 4   s p ec if icity ,   an d   0 . 9 3   p r ec is io n .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       A   n o ve l m eth o d   fo r   ex a min in g   p r o mo ters   u s in g   s ta tis tica l a n a lysi s   a n d   …  ( S in a n   S a lim Mo h a mme d   S h ee t )   4013         Fig u r 3 .   K - m e r   f r e q u en c y   p at ter n s       T ab le  3 .   T h p er f o r m a n ce   m et r ics u s in g   b asic f ea tu r es   M o d e l s   A c c u r a c y   ( %)   P r e c i s i o n   F1 - s c o r e   S e n s i t i v i t y   S p e c i f i c i t y   S V M   0 . 5 6   0 . 7 3   0 . 6 7   0 . 6 1   0 . 6 5   K N N   0 . 2 5   0 . 7 3   0 . 5 8   0 . 4 8   0 . 4 8   LR   0 . 5   0 . 7 3   0 . 6 5   0 . 5 8   0 . 6 1   DT   0 . 6 9   0 . 7 3   0 . 7 1   0 . 6 9   0 . 7 1   NB   0 . 8 7   0 . 9   0 . 9 3   0 . 9   0 . 9 4           Fig u r 4 .   T h p er f o r m a n ce   m e tr ics o f   class if ier s   f o r   e n g in ee r in g   b asic f ea tu r es       T ab le  4   an d   Fig u r 5   p r esen r esu lts   u s in g   th n ewly   d ev el o p ed   f ea tu r es,  d em o n s tr atin g   s ig n if ican im p r o v em e n ac r o s s   class if ier s ,   esp ec ially   f o r   th o s th at  s t r u g g led   with   b asic  f ea tu r es.  E n h an ce d   f ea tu r es   in co r p o r atin g   d o m ain   k n o wl ed g an d   h ig h er - o r d e r   s eq u e n ce   in f o r m atio n   h elp e d   SVM  an d   KNN  b etter   ca p tu r n o n - lin ea r   p atter n s ,   i m p r o v i n g   ac cu r ac y   an d   s p ec if icity .   DT s   an d   L R   al s o   s h o wed   g ain s   in   r ec all,   p r ec is io n ,   an d   F1 - s co r e.   Ov er all,   th n ew  f ea tu r s et  b o o s ted   all  class if ier s ,   with   SVM  an d   KNN    b ec o m in g   f a r   m o r co m p etitiv e,   r ef lectin g   th clea r   ad v a n tag o f   th p r o p o s ed   f ea tu r en g in ee r in g   o v er   tr ad itio n al  m eth o d s .       T ab le  4 .   T h p er f o r m a n ce   m et r ics u s in g   en h an ce d   f ea tu r ar ch itectu r e     A c c u r a c y   ( %)   P r e c i s i o n   F1 - S c o r e   S e n s i t i v i t y   S p e c i f i c i t y   S V M   0 . 7 5   0 . 8 7   0 . 8 1   0 . 7 6   0 . 8 1   K N N   0 . 6 3   0 . 8   0 . 7 3   0 . 6 7   0 . 7 1   LR   0 . 6 3   0 . 8 7   0 . 7 6   0 . 6 8   0 . 7 4   DT   0 . 8 1   0 . 8 7   0 . 8 4   0 . 8 1   0 . 8 4   NB   1   1   1   1   1     0 0 . 1 0 . 2 0 . 3 0 . 4 0 . 5 0 . 6 0 . 7 0 . 8 0 .9 1 S V M KNN LR DT NB E v a l u a t i o n C l a ssi f i c a t i o n   m o d e l s A c c u r a c y   ( %) P r e c i si o n   ( %) F 1 - S c o r e   ( %) S e n si t i v i t y   ( %) S p e c i f i c i t y   ( % ) Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 2 5 2 - 8 9 3 8   I n t J Ar tif   I n tell Vo l.  1 4 ,   No .   5 ,   Octo b er   2 0 2 5 4 0 0 6 - 4 0 1 6   4014       Fig u r 5 .   T h p er f o r m a n ce   m e tr ics o f   class if ier s   f o r   d ev elo p ed   f ea tu r e   a r ch itectu r e       Fig u r 6   co m p ar es  r ec eiv e r   o p er atin g   ch a r ac ter is tic  ( R O C )   cu r v es  an d   m etr ics  f o r   class if icatio n   u s in g   co n v en tio n al  f ea tu r es  F ig u r 6 ( a)   v er s u s   th e   p r o p o s e d   en h a n ce d   f ea tu r es  Fig u r 6 ( b ) .   T h im p r o v ed   f ea tu r s et  clea r ly   b o o s ts   m o s class if ier s   p er f o r m an ce .   DT   ac h iev s o lid   AUC   o f   0 . 8 3 9 5 8 ,   wh ile    NB   r ea ch es  p e r f ec 1 . 0   with   th en h a n ce d   f ea tu r es,  s h o win g   ex ce llen t   d is cr im in atio n   b et wee n   PS   an d   n _ PS .   KNN  s tr u g g les  th e   m o s t,  wi th   th e   lo west  AUC  o f   0 . 7 1 2 5 ,   an d   SVM  an d   L R   p e r f o r m   o n l y   m o d er ately     ( AUCs   o f   0 . 8 0 8 3 3   an d   0 . 7 4 5 8 3 ,   r esp ec tiv ely ) .   NB   r em ai n s   s tr o n g   with   an   AUC  o f   0 . 9 0 2 0 8   ev e n   u s in g   co n v en tio n al  f ea tu r es.  KNN’ s   p o o r   p er f o r m an ce   ac r o s s   b o th   f ea tu r s ets  lik ely   s tem s   f r o m   its   s en s it iv ity   to   f ea tu r d im en s io n ality   a n d   c o m p lex ity .   T h ese  r esu lts   h ig h lig h th at  th im p r o v ed   f ea tu r es  p r o v id m o r e   r o b u s t d ata  r e p r esen tatio n .   Ho wev er ,   t h is   s tu d y   is   n o t   with o u lim itatio n s .   T h e   d ataset  i s   lim ited   in   s ize  an d   v a r iety ,   wh ich   m ay   af f ec th e   ab ilit y   o f   th m o d el   to   g en e r alize   to   b r o ad er   b io l o g ical  co n te x ts .   Als o ,   th e   f ea tu r es  f o cu s   m ain ly   o n   n u cleo tid c o m p o s itio n ,   ig n o r in g   im p o r tan b io lo g ical  f a cto r s   lik tr an s cr ip tio n   f ac to r   b in d i n g   s ites   o r   ep ig en etic  m o d if icatio n s .   Fu t u r r esear ch   m u s ad d r ess   th ese  g ap s   b y   ex p a n d in g   th d ataset,   in teg r atin g   r ich er   b io l o g ical  d ata,   a n d   ex p lo r in g   ad v an ce d   DL   tech n iq u e s   to   ac h iev b etter   p r ed ictiv a cc u r ac y .           ( a)   ( b )     Fig u r 6 .   R OC   cu r v es f o r   b in a r y   class if ier s   ( a)   co n v e n tio n al  f ea tu r es a n d   ( b )   p r o p o s ed   d e v elo p ed   f ea tu r es       5.   CO NCLU SI O N   T h is   s tu d y   p r o p o s ed   f r am e wo r k   u s in g   in   p r o m o ter   d etec tio n   b y   co m b in i n g   tr ad itio n al   n u cleo tid e   co m p o s itio n   with   n ewly   d ev elo p ed   f ea tu r es  s u ch   as  s eq u en ce   co m p lex ity ,   v ar iab ilit y ,   an d   k - m e r - d er i v ed   d escr ip to r s .   Statis tical  an aly s is   p r o v ed   th e   im p o r tan ce   o f   f ea tu r es  s u ch   as  C o u n t_ C   ( AUC  0 . 7 6 8 2 ) ,   GC _ C o n ten ( AUC  0 . 7 5 4 0 ) ,   an d   Seq u e n ce _ C o m p lex it y   ( AUC  0 . 7 3 8 0 ) ,   wh ich   p r o v id ed   s tab le  an d   d is cr im in ativ s ig n als  f o r   cla s s if icatio n .   T h p r o p o s ed   f ea t u r s et  en h an ce d   th o v er all   p er f o r m an ce   o f   t h m o d el,   r esu ltin g   in   an   in cr ea s ed   AUC  wh en   u s in g   th en h an ce d   ar ch itectu r e.   Am o n g   th f iv class if ier s   u s ed   in   th is   s tu d y ,   th NB   m o d el  o b tain ed   p er f ec r esu lts   with   an   ac cu r ac y   o f   1 0 0 %,  p r ec is io n   o f   1 . 0 0 ,   r ec all  o f   1 . 0 0 ,   an d   a n   F1 - s co r o f   1 . 0 0   wh e n   u s in g   e n h an ce d   f e atu r es.  T h ese  r esu lts   co n f ir m ed   th at   en g i n ee r ed   f ea tu r es,  b ased   o n   b io l o g ical   an d   s tatis tical  p r o p er ties   o f   DNA  s eq u en ce s ,   ca n   s ig n if i ca n tly   en h an ce   t h e   class if icatio n   p er f o r m an ce   ev e n   wh en   s im p le  m o d els ar u s e d .   0 0 . 2 0 . 4 0 . 6 0 . 8 1 1 . 2 SV M KNN LR DT NB Ev a l u a t i o n C l a ssi f i c a t i o n   m o d e l s A c c u r a c y   ( %) P r e c i si o n   ( %) F 1 - S c o r e   ( %) S e n si t i v i t y   ( %) S p e c i f i c i t y   ( % ) Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Ar tif   I n tell     I SS N:   2252 - 8 9 3 8       A   n o ve l m eth o d   fo r   ex a min in g   p r o mo ters   u s in g   s ta tis tica l a n a lysi s   a n d   …  ( S in a n   S a lim Mo h a mme d   S h ee t )   4015   F UNDING   I NF O R M A T I O N   Au th o r s   s tate  n o   f u n d in g   in v o lv ed .       AUTHO CO NT RI B UT I O NS ST A T E M E N T   T h is   jo u r n al  u s es  th C o n tr ib u to r   R o les  T ax o n o m y   ( C R ed iT)   to   r ec o g n ize  in d iv id u al  au th o r   co n tr ib u tio n s ,   r ed u ce   au th o r s h ip   d is p u tes,  an d   f ac ilit ate  co llab o r atio n .     Na m o f   Aut ho r   C   M   So   Va   Fo   I   R   D   O   E   Vi   Su   P   Fu   S i n a n   S al i m   M o h a m m e d   S h e e t                               M a r w a   M a w f a q   M o h a m e d s h e e t   A l - H a t a b                               M a y s a l o o n   A b e d   Q a s i m                                 C     C o n c e p t u a l i z a t i o n   M     M e t h o d o l o g y   So     So f t w a r e   Va     Va l i d a t i o n   Fo     Fo r mal   a n a l y s i s   I     I n v e s t i g a t i o n   R     R e so u r c e s   D   :   D a t a   C u r a t i o n   O   :   W r i t i n g   -   O r i g i n a l   D r a f t   E   :   W r i t i n g   -   R e v i e w   &   E d i t i n g   Vi     Vi su a l i z a t i o n   Su     Su p e r v i s i o n   P     P r o j e c t   a d mi n i st r a t i o n   Fu     Fu n d i n g   a c q u i si t i o n         CO NF L I C T   O F   I N T E R E S T   ST A T E M E NT   Au th o r s   s tate  n o   co n f lict o f   in t er est.       DATA AV AI L AB I L I T Y   T h d ata  th at  s u p p o r th f i n d in g s   o f   t h is   s tu d y   ar av ailab le  f r o m   th c o r r esp o n d i n g   au th o r ,   [ SS MS] ,   u p o n   r ea s o n ab le  r e q u est .       RE F E R E NC E S   [ 1 ]   S .   R .   A r c h u l e t a ,   J.  A .   G o o d r i c h ,   a n d   J.  F .   K u g e l ,   M e c h a n i sms   a n d   f u n c t i o n s   o f   t h e   R N A   p o l y meras e   I I   g e n e r a l   t r a n scr i p t i o n   mac h i n e r y   d u r i n g   t h e   t r a n scri p t i o n   c y c l e ,   Bi o m o l e c u l e s ,   v o l .   1 4 ,   n o .   2 ,   F e b .   2 0 2 4 ,   d o i :   1 0 . 3 3 9 0 / b i o m 1 4 0 2 0 1 7 6 .   [ 2 ]   J.  Y u a n   e t   a l . ,   A   c o m p e n d i u o f   g e n e t i c   v a r i a t i o n a sso c i a t e d   w i t h   p r o m o t e r   u sa g e   a c r o ss  4 9   h u m a n   t i ss u e s,   N a t u r e   C o m m u n i c a t i o n s ,   v o l .   1 5 ,   n o .   1 ,   O c t .   2 0 2 4 ,   d o i :   1 0 . 1 0 3 8 / s4 1 4 6 7 - 0 2 4 - 5 3 1 3 1 - 6.   [ 3 ]   J.  B l a z e c k   a n d   H .   S .   A l p e r ,   P r o mo t e r   e n g i n e e r i n g :   r e c e n t   a d v a n c e i n   c o n t r o l l i n g   t r a n scri p t i o n   a t   t h e   m o s t   f u n d a me n t a l   l e v e l ,   Bi o t e c h n o l o g y   J o u r n a l ,   v o l .   8 ,   n o .   1 ,   p p .   4 6 5 8 ,   2 0 1 3 ,   d o i :   1 0 . 1 0 0 2 / b i o t . 2 0 1 2 0 0 1 2 0 .   [ 4 ]   G .   B r i x i   e t   a l . ,   G e n o m e   m o d e l i n g   a n d   d e s i g n   a c r o s s   a l l   d o m a i n s   o f   l i f e   w i t h   E v o   2 ,   b i o R x i v ,   2 0 2 5 ,   d o i :   1 0 . 1 1 0 1 / 2 0 2 5 . 0 2 . 1 8 . 6 3 8 9 1 8 .   [ 5 ]   R .   K .   U mar o v   a n d   V .   V .   S o l o v y e v ,   R e c o g n i t i o n   o f   p r o k a r y o t i c   a n d   e u k a r y o t i c   p r o m o t e r u si n g   c o n v o l u t i o n a l   d e e p   l e a r n i n g   n e u r a l   n e t w o r k s ,   Pl o S   o n e ,   v o l .   1 2 ,   n o .   2 ,   F e b .   2 0 1 7 ,   d o i :   1 0 . 1 3 7 1 / j o u r n a l . p o n e . 0 1 7 1 4 1 0 .   [ 6 ]   M .   O u b o u n y t ,   Z .   Lo u a d i ,   H .   Ta y a r a ,   a n d   K .   T.   C h o n g ,   D e e p r o m o t e r :   r o b u st   p r o m o t e r   p r e d i c t o r   u s i n g   d e e p   l e a r n i n g ,   Fr o n t i e rs   i n   G e n e t i c s ,   v o l .   1 0 ,   A p r .   2 0 1 9 ,   d o i :   1 0 . 3 3 8 9 / f g e n e . 2 0 1 9 . 0 0 2 8 6 .   [ 7 ]   Z. - W .   M a ,   J. - P .   Z h a o ,   J.  T i a n ,   a n d   C . - H .   Z h e n g ,   D e e P r o P r e :   a   p r o m o t e r   p r e d i c t o r   b a se d   o n   d e e p   l e a r n i n g ,   C o m p u t a t i o n a l   Bi o l o g y   a n d   C h e m i s t ry ,   v o l .   1 0 1 ,   2 0 2 2 ,   d o i :   1 0 . 1 0 1 6 / j . c o mp b i o l c h e m . 2 0 2 2 . 1 0 7 7 7 0 .   [ 8 ]   W .   Zh a n g   e t   a l . ,   M e t h y l G r a p h e r :   g e n o me - g r a p h - b a se d   p r o c e ss i n g   o f   D N A   met h y l a t i o n   d a t a   f r o w h o l e   g e n o me  b i s u l f i t e   seq u e n c i n g ,   N u c l e i c   A c i d s R e se a rc h ,   v o l .   5 3 ,   n o .   3 ,   J a n .   2 0 2 5 ,   d o i :   1 0 . 1 0 9 3 / n a r / g k a f 0 2 8 .   [ 9 ]   R .   A mi n   e t   a l . ,   i P r o m o t e r - B n C N N :   a   n o v e l   b r a n c h e d   C N N - b a s e d   p r e d i c t o r   f o r   i d e n t i f y i n g   a n d   c l a ss i f y i n g   s i g m a   p r o m o t e r s,”   Bi o i n f o rm a t i c s ,   v o l .   3 6 ,   n o .   1 9 ,   p p .   4 8 6 9 4 8 7 5 ,   D e c .   2 0 2 0 ,   d o i :   1 0 . 1 0 9 3 / b i o i n f o r mat i c s / b t a a 6 0 9 .   [ 1 0 ]   H .   Ta y a r a ,   M .   T a h i r ,   a n d   K .   T .   C h o n g ,   I d e n t i f i c a t i o n   o f   p r o k a r y o t i c   p r o mo t e r a n d   t h e i r   st r e n g t h   b y   i n t e g r a t i n g   h e t e r o g e n e o u f e a t u r e s,   G e n o m i c s ,   v o l .   1 1 2 ,   n o .   2 ,   p p .   1 3 9 6 1 4 0 3 ,   M a r .   2 0 2 0 ,   d o i :   1 0 . 1 0 1 6 / j . y g e n o . 2 0 1 9 . 0 8 . 0 0 9 .   [ 1 1 ]   L.   M o r a e s ,   P .   S i l v a ,   E .   L u z ,   a n d   G .   M o r e i r a ,   C a p sP r o m:   a   c a p s u l e   n e t w o r k   f o r   p r o m o t e r   p r e d i c t i o n ,   C o m p u t e rs  i n   B i o l o g y   a n d   Me d i c i n e ,   v o l .   1 4 7 ,   A u g .   2 0 2 2 ,   d o i :   1 0 . 1 0 1 6 / j . c o m p b i o me d . 2 0 2 2 . 1 0 5 6 2 7 .   [ 1 2 ]   Z.   Z h a n g ,   J .   Z h a o ,   P . - J.   W e i ,   a n d   C . - H .   Z h e n g ,   i P r o m o t e r - C LA :   I d e n t i f y i n g   p r o m o t e r s   a n d   t h e i r   s t r e n g t h   b y   d e e p   c a p s u l e   n e t w o r k w i t h   b i d i r e c t i o n a l   l o n g   sh o r t - t e r mem o r y ,   C o m p u t e Me t h o d s   a n d   Pr o g ra m i n   B i o m e d i c i n e ,   v o l .   2 2 6 ,   2 0 2 2 ,     d o i :   1 0 . 1 0 1 6 / j . c mp b . 2 0 2 2 . 1 0 7 0 8 7 .   [ 1 3 ]   Z.   Li ,   J.  J i n ,   W .   Lo n g ,   a n d   L .   W e i ,   P LPM p r o :   e n h a n c i n g   p r o m o t e r   s e q u e n c e   p r e d i c t i o n   w i t h   p r o m p t - l e a r n i n g   b a s e d   p r e - t r a i n e d   l a n g u a g e   mo d e l ,   C o m p u t e rs   i n   Bi o l o g y   a n d   M e d i c i n e ,   v o l .   1 6 4 ,   S e p .   2 0 2 3 ,   d o i :   1 0 . 1 0 1 6 / j . c o mp b i o m e d . 2 0 2 3 . 1 0 7 2 6 0 .   [ 1 4 ]   S .   P a u l ,   K .   O l y mo n ,   G .   S .   M a r t i n e z ,   S .   S a r k a r ,   V .   R .   Y e l l a ,   a n d   A .   K u m a r ,   M LD S P P :   b a c t e r i a l   p r o mo t e r   p r e d i c t i o n   t o o l   u s i n g   D N A   st r u c t u r a l   p r o p e r t i e w i t h   ma c h i n e   l e a r n i n g   a n d   e x p l a i n a b l e   A I ,   J o u rn a l   o f   C h e m i c a l   I n f o rm a t i o n   a n d   Mo d e l i n g ,   v o l .   6 4 ,   n o .   7 ,   p p .   2 7 0 5 2 7 1 9 ,   A p r .   2 0 2 4 ,   d o i :   1 0 . 1 0 2 1 / a c s. j c i m. 3 c 0 2 0 1 7 .   [ 1 5 ]   H .   A sh a y e r i ,   N .   S o b h i ,   P .   P ł a w i a k ,   S .   P e d r a mm e h r ,   R .   A l i z a d e h sa n i ,   a n d   A .   Jafari z a d e h ,   Tr a n sf e r   l e a r n i n g   i n   c a n c e r   g e n e t i c s,   mu t a t i o n   d e t e c t i o n ,   g e n e   e x p r e ssi o n   a n a l y si s ,   a n d   s y n d r o me  r e c o g n i t i o n ,   C a n c e rs ,   v o l .   1 6 ,   n o .   1 1 ,   Ju n .   2 0 2 4 ,     d o i :   1 0 . 3 3 9 0 / c a n c e r s1 6 1 1 2 1 3 8 .   [ 1 6 ]   R .   Z e n g ,   Z.   Li ,   J.   L i ,   a n d   Q .   Z h a n g ,   D N A   p r o m o t e r   t a sk - o r i e n t e d   d i c t i o n a r y   mi n i n g   a n d   p r e d i c t i o n   m o d e l   b a s e d   o n   n a t u r a l   l a n g u a g e   t e c h n o l o g y ,   S c i e n t i f i c   Re p o rt s ,   v o l .   1 5 ,   n o .   1 ,   Ja n .   2 0 2 5 ,   d o i :   1 0 . 1 0 3 8 / s4 1 5 9 8 - 024 - 8 4 1 0 5 - 9.   [ 1 7 ]   S .   G u n a r a t h n a   e t   a l . ,   A TA C - se q   g u i d e d   i n t e r p r e t a b l e   ma c h i n e   l e a r n i n g   r e v e a l s   c a n c e r - s p e c i f i c   c h r o ma t i n   f e a t u r e s   i n   c e l l - f r e e   D N A ,   Re s e a r c h   S q u a re ,   p p .   1 2 9 ,   Ja n .   2 0 2 5 ,   d o i :   1 0 . 2 1 2 0 3 / r s. 3 . r s - 5 4 8 5 1 7 0 / v 1 .   Evaluation Warning : The document was created with Spire.PDF for Python.