I AE S   I n t e r n at ion al  Jou r n al   of   Ar t if icial   I n t e ll ig e n c e   ( I J - AI )   Vol.   14 ,   No.   4 Augus 2025 ,   pp.   2815 ~ 2825   I S S N:  2252 - 8938 ,   DO I 10 . 11591/i jai . v 14 .i 4 . pp 28 15 - 2825             2815     Jou r n al  h omepage ht tp: // ij ai . iaes c or e . c om   N on - sm al c e ll  l u n c an c e r   ac t iv e  c om p ou n d s   d is c ov e r h ol d in on   p r ot e i n  e x p r e ssi on  u si n m ac h in e  l e a r n in m od e ls       Ham z Han af i 1 ,   M h am e d   t   K b ir 1 ,   B ad r   Di n e   Ros s Has s an i 2   1 I nt e ll ig e nt  A ut oma ti on  a nd   B io M e dG e nomi c s  L a bor a to r y S T S M   D oc to r a C e nt e r ,   A bde lm a le k E s s a a di  U ni ve r s it y,  T a ngi e r M or oc c o   2 L A B I P H A B E  L a bor a to r y,  S T I  D oc to r a C e nt e r A bde lm a le k E s s a a di  U ni ve r s it y, T a ngi e r , M or oc c o       Ar t icle   I n f o     AB S T RA CT   A r ti c le  h is tor y :   R e c e ived  M a 23,   2024   R e vis e F e 2 5 ,   2025   Ac c e pted  M a r   15,   2025       Co mp u t a t i o n a l   met h o d s   h a v t ran s fo rme d   t h fi el d   o d r u g   d i s co v ery ,   w h i ch   s i g n i f i ca n t l y   h e l p e d   i n   t h d e v el o p m en t   o n ew   t re at men t s .   N o w a d ay s res earch er s   are  ex p l o r i n g   w i d ran g er  o o p p o r t u n i t i e s   t o   i d en t i f y   n e w   co mp o u n d s   u s i n g   mach i n l ear n i n g .   W co n d u ct e d   a   co mp arat i v s t u d y   b et w een   mu l t i p l mo d e l s   cap a b l o p re d i c t i n g   co m p o u n d s   t o   t ar g et   n o n - s mal l   cel l   l u n g   can cer w fo cu s ed   o n   i n t e g rat i n g   p r o t e i n   ex p res s i o n s   t o   i d e n t i fy   p o t e n t i al   c o mp o u n d s   t h a t   ex h i b i t   h i g h   effi ca cy   i n   t ar g e t i n g   l u n g   can cer  cel l s .   A   d at as e t   w as   co n s t r u c t ed   b as e d   o n   t h t ri al s   av ai l a b l i n   t h e   Ch E MBL   d at a b as e .   T h en ,   mo l ecu l ar  d e s cri p t o rs   w ere  cal cu l at e d   t o   e x t rac t   s t ru ct u re - act i v i t y   rel a t i o n s h i p s   fr o t h s e l ect e d   co mp o u n d s   a n d   fee d   i n t o   s ev era l   mach i n l earn i n g   mo d el s   t o   l earn   fr o m .   W co m p ared   t h e   p erfo rma n ce  o v ari o u s   al g o r i t h ms .   T h mu l t i l ay er   p ercep t ro n   mo d e l   ex h i b i t e d   t h h i g h es t   F1   s co re,   ac h i e v i n g   an   o u t s t an d i n g   v a l u o 0 , 8 6 1 .   Mo reo v er,   w p res en t   l i s t   o 1 0   d ru g s   p re d i c t ed   as   act i v i n   l u n g   can cer,   al l   o w h i ch   are  s u p p o r t ed   b y   rel e v an t   s ci e n t i fi e v i d e n ce  i n   t h med i cal   l i t erat u re.   O u s t u d y   s h o w c as e s   t h p o t en t i a l   o f   co mb i n i n g   p ro t ei n   ex p re s s i o n   an al y s i s   a n d   mac h i n l ear n i n g   t ech n i q u e s   t o   i d e n t i fy   n o v e l   d r u g s .   O u an a l y t i ca l   ap p r o ach   co n t r i b u t e s   t o   t h d ru g   d i s c o v er y   p i p el i n e ,   an d   o p e n s   n e w   o p p o rt u n i t i es   t o   ex p l o re  an d   i d e n t i fy   n e w   t ar g et e d   t h era p i e s .   K e y w o r d s :   Dr ug  dis c ove r y   L ung  c a nc e r   M a c hine  lea r ning  models   P r e c is ion  medic ine   P r otein  e xpr e s s ions   Th i s   i s   a n   o p en   a c ces s   a r t i c l u n d e r   t h CC  B Y - SA   l i ce n s e.     C or r e s pon din A u th or :   Ha mza   Ha na f i   I ntelli ge nt  Automation   a nd  B ioM e dGe nomi c s   L a b or a tor y,   S T S M   Doc to r a C e nter   Abde lm a lek  E s s a a di  Unive r s it y   T a ngier ,   M or oc c o   E mail:   ha mza . ha na f i @e tu . ua e . a c . ma       1.   I NT RODU C T I ON   Dr ug  dis c ove r p lays   a   f unda menta r ole  in   the   he a lt hc a r e   s e c tor ,   a s   de ve lopi ng   ne w   c ompounds   de mands   a   mul ti dis c ipl inar a ppr oa c to  pr ovide  nove ther a pe uti c   int e r ve nti ons .   De s pit e   thi s ,   the  p r oc e s s   is   of ten  c ompl e x,   ti me - c ons umi ng,   a nd  r e qui r e s   a e nor m ous   e f f or t   to  va li da te  ne tr e a tm e nts .   M or e ove r ,   tr a dit ional  methods   of   dr ug   dis c ove r a r e   not   only   r e s our c e - int e ns iv e   but  a ls li mi ted  in  their   s c ope   [ 1] .   R e c e nt  a dva nc e ments   in  c omput a ti ona biol ogy   ha ve   c ompl e tely  tr a ns f or med   dr ug   dis c ove r pipelines .   T he   c ombi na ti on  o f   biol ogy  with   c om putational  methods   of f e r s   ne ins ight s   to  a c c e ler a te  the  identif ica ti on  a nd  e va luation  o f   nove l   c ompound s .   T he r e f o r e ,   c omput a ti ona l   tec hniques   ha ve   e m e r ge a s   powe r f ul  tool s   in   the  f ield  of   pha r mac ologi c a l   medic ine  [ 2] ,   a nd   r e ve a led  gr e a s uc c e s s   c ompar e to  tr a dit ional  methods .   B e s ides ,   thes e   tec hniques   h a ve   f ound  wide s pr e a a ppli c a ti on  in  va r ious   he a lt hc a r e   domains ,   including  dis e a s e   c las s if ica ti on  [ 3]   a nd   s ur gica e nha nc e ments   [ 4] .   Now a da ys ,   a   lar ge   a mount   of   biol ogica l   da ta  is   s tor e in   publi c   da taba s e s   a nd  e na bles   r e s e a r c he r s   to   e xplor e   a   wide   r a nge   o f   methodologi e s .   F ur ther m or e ,   the  in tegr a ti on   a nd  a na lys is   o f   thi s   biol ogica l   da ta  e a s e   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2252 - 8938   I nt  J   Ar ti f   I ntell ,   Vol.   14 ,   No.   4 Augus 2025 281 5 - 2825   2816   the  s tudy  of   ne w   hypothes e s   [ 5] ,   f or   e xa mpl e ,   p r e dictive  modeling  us ing  mac hine  lea r n ing  ( M L )   te c hniques   is   one   of   the  mos e xplo r e methodologi e s   a nd   h a s   ga ined  pr omi ne nc e .   M L   models   c a e f f e c ti ve l c las s if y   dr ugs   int r e leva nt  ther a pe uti c   c a tegor ies ,   a c c ur a tely  de tec a nd  c las s if tum or   s tage s   [ 6] ,   a nd   de s ign  ne dr ugs   ba s e on  c he mi c a pr ope r ti e s   [ 7] .   C ons e que ntl y,   M L - ba s e methods   a r e   c a pa ble  in  de tec ti ng  pa tt e r ns   a nd  identif ying  c o r r e lations   withi n   lar ge   a nd  c omp lex  da tas e ts   with  numer ous   va r iable s .   F ur ther mor e ,   bioi n f or matic   methods   ha ve   be e n   c r uc ial  in   the  d r ug  dis c ove r y   pipelines ,   a ll owing   r e s e a r c he r s   to  s tudy  mol e c ules   f r om  a   s ys tem - leve pe r s pe c ti ve .   B int e gr a ti ng  knowle dge   f r om   va r ious   domains   s uc a s   ge nomi c s ,   p r oteomics ,   t r a ns c r ipt omi c s ,   pop ulation   ge ne ti c s ,   a nd   mol e c ular   phylo ge ne ti c s ,   bioi nf or matic  a na lys is   e a s e s   dr ug  tar ge identif ica ti on,   dr ug  c a ndidate   s c r e e ning,   pr e diction   of   dr ug  r e s is tanc e ,   a nd  mi nim iza ti on   of   s ide  e f f e c ts .   T hus ,   M L   a lgor it hms   a r e   e mpl oye a longs ide  b ioi nf or matics   to   pr e dict  int e r a c ti ons   a mong  biol ogica e nti ti e s   [ 8 ]   a nd  de s ign  c us tom ize dr ugs   f or   s pe c if ic  tr e a tm e nts ,   ult im a tely  a dva nc ing  pr e c is ion  medic ine.   How e ve r ,   r e s e a r c he r s   ha ve   to   f a c e   s e ve r a l   c ha ll e nge s   to  buil d   M L   models   in   dr ug   dis c ove r y.   B iol ogica da ta  of ten  va r ies   in  qua li ty  a nd  a lwa ys   ne e ds   pr e pr oc e s s ing  be f or e   it   c a be   us e f or   lea r ning  pur pos e s   [ 9] .   Additi ona ll y,   c a nc e r   c las s if ica t ion  pr oblems   typi c a ll invol ve   im ba lanc e da tas e ts ,   c ha r a c ter ize by  both  e xc e s s ive  nois e   a nd  a   de f icie nc of   labe led  da ta ,   whic s igni f ica ntl y   a f f e c ts   the  lea r ning  pr oc e s s .   E va luating  the   e f f ica c o f   M L   models   in   s uc s c e na r ios   be c omes   c ompl e x,   pa r ti c ular ly   whe c onf r onted  with   li mi ted   or   b ias e da ta  [ 10] .   Our   c ontr ibut ion  a im s   to  de ve lop   a   M L - ba s e c las s if ier   c a pa ble  of   pr e dicting   a c ti ve   c ompounds   that  c a tar ge non - s mall  c e ll   lung  c a nc e r   ( N S C L C ) .   F i r s t,   we   c ur a te a   da tas e by  e xtr a c ti ng  b ioac ti vit d a ta  f r om   C hE M B L   [ 11]   da taba s e   ba s e on  p r oteins   e xpr e s s e in  NSC L C .   S e c ond,   mol e c ular   de s c r ipt or s   of   the   s e lec ted  c ompounds   we r e   c a lcula ted  a nd  us e a s   input   f e a tur e   f or   s e ve r a models .   T he n,   numer ous   M L   models   we r e   f e with  thi s   da ta  a nd   tr a ined  to  le a r f r om  the  s tr uc tur e   a nd  c he mi c a c ha r a c ter is ti c s   of   the  mol e c ules .   F inally,   we   pe r f o r med  a   c ompar a ti ve   a na lys is   to  identif the   opti mal  model .   T he   r e s of   the  pa pe r   is   o r ga nize a s   f oll ows s e c ti on  pr ovides   a ove r view   o f   r e late wo r ks   i the   f ield.   S e c ti on   p r e s e nts   our   a pp r oa c h,   including   da ta  c oll e c ti on  a nd   the   methodology   e mpl oye d.   S e c ti on  dis c us s e s   the  r e s ult s   obtaine f r om  ou r   a na lys is ,   f o ll owe by  the  c onc lus ion   in   s e c ti on  5 .       2.   RE L AT E WORK   Now a da ys ,   many  s tudi e s   ha ve   be e c onduc ted   to   e xplor e   a nd   unde r s tand  the   biol ogica l   a s pe c ts   of   c a nc e r   c e ll s   us ing  M L   models .   I pa r ti c ular ,   thes e   s tudi e s   a im   to  be tt e r   e xplain  the   mec ha nis ms   of   dif f e r e nt   s ignaling  pa thwa ys   that  tr a ns mi s ignal s   withi c e l l s   a nd  a f f e c ge ne s   r e gulation.   P r oteins   s uc a s   R a s   play  a im por tant  r ole  in   r e gulating  va r ious   biom olec ular   int e r a c ti ons   in  the  c e ll s   li f e c yc le  [ 12] .   T he   R a s   pa thwa ys   tr a ns mi s ignals   to  a c ti va te  ge ne s   that  pr omot e   c e l gr owth  a nd  divi s ion .   M ut a ti ons   in  ge ne s   a s s oc ia ted  with  thes e   pa thwa ys   c a lea to  dif f e r e nt  types   of   c a nc e r s   [ 13] ,   [ 14] .   T he r e f or e ,   ther e   is   a   gr owing  i nter e s in  identif ying  ne a nti - R a s   ther a pe uti c   s tr a tegie s .     I a   s tudy   c onduc ted  by   W a y   e a l [ 15 ] ,   th r e e   types   of   b iol ogica da ta   we r e   e xplor e d:   ge ne   e xpr e s s ions ,   mut a ti on  c ounts ,   a nd   mut a ti on  c opie s   f ound  in   va r ious   types   o f   c a nc e r s   us ing  M L   me thods   to  pr e dict  the  a c ti va ti on  of   the  R a s   pa thwa ys .   T he   a uthor s   of   thi s   s tudy  we r e   a ble  to  de s ign  a   model  c a pa ble  of   pr e dicting  R NA   s e que nc e s   that  a c ti va te  the  R a s   pa thwa ys .   S im il a r ly,   Knijnenbur e al .   [ 16 ]   e mpl oye ge nomi c   a nd  mol e c ular   da ta  to  p r e dict  the  a c ti va ti on  of   p53  pa thwa ys .   T he   ge ne   T P 53   c ontains   ins tr uc ti ons   f or   r e gulating  a   p r otein  c a ll e p53 ,   whic f unc ti o ns   a s   a   tum or   s uppr e s s or   a nd  int e r a c ts   with  the   a poptos is   mec ha nis [ 17] .   C ons e que ntl y,   mut a ti ons   in  the  g e ne   T P 53  c a lea d   to  meta s tatic  c a nc e r   [ 18 ] .   S ome  meta s tatic  c a nc e r s   a r e   a s s oc iate with  the  los s   of   phe notypi c   tr a it s   e xpr e s s e by  s tem  c e ll s   [ 19] .   I n   th is   c ontext,   to   e lucida te   the   r e lations hip  be twe e tu mor   dif f e r e nti a ti on   phe notype  a n tum or   pr opa ga ti on  or   ge ne ti c   a lt e r a ti ons ,   M a lt a   e al .   [ 20]   int r oduc e a M L   model  a im e a pr e dictin c a nc e de ve lopm e nt  withi n   s pe c if ic  c e ll ula r   ti s s ue s .   T he y   r e li e d   on   da ta   f r om   s tem  c e ll s   a nd  their   pr oge nit o r   c e ll s   to   c ons tr uc a   c las s if ier   f or   ge ne ti c   e xpr e s s ion  tr a it s .   S ubs e que ntl y,   they  a ppli e thi s   c las s if ier   to  a   c e ll   s a mpl e   to   pr e dict  the  e xpr e s s e tr a it s .   T he we r e   a ble  to   i de nti f c a nc e r   c e ll s   withi the  s a mpl e ,   but  they   did  not   pr ovide  de tailed  inf o r mation  a bout   the  lea r ning   me thodol ogy  us e to  buil d   the  c las s if ier .   M utations   in  the  e pider mal  gr owth  f a c tor   r e c e ptor   ( E GFR )   ha ve   be e known  to  c a us e   unc ontr oll e d   c e ll   pr oli f e r a ti on  [ 21] .   Nume r ous   s tud ies   a im   to  identif s mall  inhi bit or y   mol e c ules   that  tar ge th e   E GFR   ge ne .   Qur e s hi  e t   al [ 22 ]   p r opos e s   a   pe r s ona li z e model  f or   pr e dicting   dr ug   r e s pons e   in  lung  c a nc e r   pa ti e nts .   S pe c if ica ll y,   thi s   model  wa s   te s ted  to  p r e dict  th e   r e s pons e   to  US  F ood   a nd  Dr ug   Admini s tr a ti o ( F DA ) - a ppr ove s mall  mol e c ules ,   s uc a s   E r lot ini b   a nd   Ge f it ini b.   T o   c ons tr uc t   their   model,   the   a uthor s   a s s e mbl e d   va r ious   types   of   da ta:  E GFR   mut a ti ons   f ound   in  l ung  c a nc e r   pa ti e nts ,   c li nica d a ta  including  pa ti e nt   s ur vival  a nd  c li nica r e s pons e   to  dr ugs ,   de mogr a phic  da ta  s uc a s   a ge ,   s e x,   a nd  s moki ng  his tor y,   a nd  the  3D  s tr uc tur e   of   E GFR   ge ne   mut a ti ons   f ound   in  pa ti e nts .     Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J   Ar ti f   I ntell     I S S N:   2252 - 8938       N on - s mall  c e ll   lung  c anc e r   ac ti v e   c ompounds   dis c ov e r y   holdi ng  on  pr otein  e x pr e s s ion  …  ( Ham z Hanafi)   2817   de c is ion  tr e e - ba s e c las s if ier   wa s   tr a ined  us in thi s   da ta   to   pr e dict   the  leve l   of   dr ug   r e s pons e   a mong  f our   c a tegor ies no   r e s pons e ,   pa r ti a l   r e s po ns e ,   moder a te  r e s pons e ,   a nd  s tr ong  r e s pons e .   T he   a uthor s   f ound  that  de mog r a phic  da ta  ha a   we a im pa c on   th e   lea r ning   outcome   of   the  model .   Only   E GFR   m utations   a nd  s tr uc tur e s   s howe a   good  pr e dictive  r e s pons e   leve of   dr ug  r e s pons e .   T he   a uthor s   did  no f ur ther   us e   thi s   model  to  tes the  r e s pons e   leve of   mol e c ules   that   we r e   not  us e dur ing  the  lea r ning  pha s e .   Y a ng  e t   al.   [ 23]   a im ing  to   de ter mi ne   the  da ta   that   c a e s tablis a n   M L   model  to   p r e dict  E GFR   mut a ti ons   in   lung   c a nc e r ,   the   a uthor s   c ompar e the  pe r f o r manc e   of   s e ve r a lea r n ing  a lgor it hms   r a ndom   f or e s t   ( R F ) ,   li ght  g r a dient  boos ti ng  mac hine  ( L ight GB M ) ,   s uppor ve c tor   mac hine  ( S VM ) ,   mul ti laye r   pe r c e ptr on  ( M L P ) ,   a nd  e xtr e me  gr a dient  boos ti n ( XG B )   us ing  mul ti p le  c li nica l   a nd  de mogr a phic  da ta.   T he f ound   that   tobac c o   c ons umpt ion,     s e x,   c holes ter ol,   a ge ,   a nd   the   a lbum in/ globul in   r a ti we r e   a mong   the   top   f ive   va r iable s   r e late t E GFR   mut a ti on,   whic h   dif f e r e d   s li ghtl y   f r om   the   r e s ult s   obtaine d   in   the   s tudy  [ 22] ,   whe r e   the   i mpac of   de mogr a phic  da ta  wa s   we a k.   W idyana nda   e al [ 24 ]   inves ti ga te  the   potential   of   Que r c e ti n,   a   na tur a c ompound   f ound   in   f r uit s   a nd  ve ge table s ,   to  c ombat  gli ob las tom a   mul ti f or me.   B e xa mi ning   da taba s e s   l ike  na ti ona c e nter   f or   biot e c hnology  inf or mation   ( NC B I ) ,   s upe r - e nha nc e r   a r c hive   ( S E A) ,   c ompar a ti ve   toxi c oge nomi c s   da taba s e   ( C T D) ,   a nd   s e a r c tool   f or   the  r e tr ieva o f   int e r a c t ing  ge ne s /pr oteins   ( S T R I NG ) ,   the  s tudy  identif ies   f our   ke y   pr oteins   s e r ine/thr e onine  kinas e   ( AK T 1 ) ,   mat r ix  meta ll ope pti da s e   9   ( M M P 9) ,   AT P   bindi ng   c a s s e tt e   s ubf a mi ly  B   membe r   1   ( AB C B 1 ) ,   a nd   va s c ular   e ndothelial  gr owth  f a c tor   A   ( VE GF A ) ,   that  Que r c e ti dir e c tl y   a f f e c ts .   Us ing  S T I T C H ,   S E A,   a nd  S T R I NG ,   th e   s tudy  c ons tr uc ts   pr otein - pr otein  int e r a c ti on  n e twor ks ,   highl ight ing  c onne c ti ons   be twe e thes e   pr oteins .   F unc ti ona a nnotation   a na lys is   thr ough   the  DA VI we b   s e r ve r   c lar if ies   the  biol ogica l   pr oc e s s e s   inf luenc e by  thes e   pr oteins .   M olec ular   doc king  s im ulations   with  AutoDoc Vina   [ 25 ]   pr ovide   ins ight s   int o   how   Que r c e ti int e r a c ts   with   thes e   p r oteins ,   e xtend ing  our   unde r s tanding  of   it s   potential  a s   a   gli oblas tom a   mul ti f o r me  t r e a tm e nt.   T he   s tudy   not  only   u nc ove r s   Que r c e ti n’ s   im pa c on   c r uc ial  g li oblas tom a   mul ti f or me  r e late d   pr oteins   but   a ls e mphas ize s   it s   pote nti a a s   a   tar ge ted  ther a pe uti c   opt ion   a ga ins gli oblas tom a   m ult if or me.       3.   M E T HO DOL OG Y   Qua nti tative  s tr uc tur e - a c ti vit r e lations hip  ( QSA R )   modeling  leve r a ge s   the  r e lations hips   be twe e the  c he mi c a s tr uc tur e   a nd  the   biol ogica a c ti vi ty  of   mol e c ules   [ 26] .   QSAR   models   e mpl oy   m olec ular   de s c r ipt or s ,   whic h   c a ptur e   the  phys ica a nd   c he mi c a pr ope r t ies   dis ti nguis hing  one   mol e c ule   f r o a nother   [ 27] .   T he s e   models   p r ovide  va luable   ins ight s   int o   t he   c he mi c a pr ope r ti e s   that  a r e   c r uc ial   f or   the   inhi bit ion  of   s pe c if ic  biol ogica pr oc e s s e s .   T hus ,   a idi ng   biol og is ts   a nd  c he mi s ts   in  the   de s ign  of   r obus mol e c u les   with  opti mi z e pr ope r ti e s .   Util izing   M L - ba s e QSAR   a na lys is   a nd  mol e c ular   doc king,   I r e s ha   e al .   [ 28]   e xplor e s   medic inal  plant  c ompounds   a s   inhi bit or s   f or   H I V - r e ve r s e   tr a ns c r ipt a s e ,   a ddr e s s ing  r e s i s tanc e   is s ue s .   S im il a r ly,   our   s tudy  a im s   to  us e   M L   m ode ls   to  pr e dict  a c ti ve   c ompounds   ba s e on  the  ge ne s   e xpr e s s e in  NSC L C   thr ough  QSAR   a na lys is .     T c ons tr uc ou r   da tas e t,   F ir s t,   we   s e lec ted  a   s e of   ge ne s   that   ha ve   be e e xtens ively  a s s oc iate   with  NSC L C   in  va r ious   s tudi e s   [ 6] ,   [ 7] .   Af ter   ga ther ing  the  t a r ge t   pr oteins   r e late to   thes e   ge ne s   f r om     the  C hE M B L   da taba s e ,   we   s e lec ted  their   bioac ti vit ies   a nd  c omput e their   mol e c ular   de s c r ipt or s   to   a na lyze   the  c he mi c a s tr uc tur e   a nd  identif pa tt e r ns   in  a c ti ve   c ompounds .   Af ter wa r ds ,   we   tr a ined  s e ve r a models   us i ng  the  c ons tr uc ted  de s c r ipt or s   a nd  e va luate their   pe r f or manc e   ba s e on  the   c onf us ion  ma tr ix  a nd     the  a c hieve F s c or e .   T he s e   e va luation  metr ics   pr ovide  a   c ompr e he ns ive  a s s e s s ment  of   the  models   pr e dictive  a bil it ies .   F igur e   1   il lus tr a tes   ou r   p r opos e meth odology,   a nd  the  e xpe r im e ntal   pr oc e dur e   e s tablis he d.   T he   ter tar ge ts   in   the  C h E M B L   da taba s e   r e f e r s   to  p r oteins   o r   or ga nis ms   that   c ompounds   a c upon.   B iol ogica ll y,   thes e   c ompounds   e nga ge   in   int e r a c t ions   with  the  tar ge ted  pr o teins ,   r e s ult ing   in  a   mo dulato r a c ti vit y.   S uc a c ti vi ty   may  e nc ompas s   the   a c ti va ti on  or   inh ibi ti on   of   the   tar ge ted   pr otein .   T h e   ove r a ll   a ppr oa c is   f oll owe to   pr e dict  c ompounds   a c ti vit to  tar ge t   NSC L C .     I s tep  the  e xpr e s s e ge ne s   a r e   identif ied  f r om  the  medic a li ter a tur e   [ 29] ,   thi s   include s   e xpr e s s e ge ne s b - r a f   pr oto - onc oge ne ,   s e r ine/thr e onine  kinas e   ( B R AF) ,   E GFR ,   kir s ten   r a s a r c om a   vir us pr oto - onc oge ne ,   GT P a s e   ( KR AS) ,   phos pha tas e   a nd  tens in  homol og  ( P T E N) ,   r e c e ptor   ty r os ine  kinas e   ( R OS1) ,   v - e r b - b2  a vian  e r ythr oblas ti c   leuke mi a   vir a onc oge ne   homol og  2,   a ls known  a s   HE R a nd  ne ( E R B B 2) ,   M E T   pr o to - onc oge ne ,   r e c e ptor   tyr o s ine  kinas e   ( M E T ) ,   a nd  a na plas ti c   lym phoma  kinas e   ( AL K) .   I s tep  2,   b ioac ti vit y   da ta   of   the   tar ge t   pr o tein  is   e xtr a c ted  f r o m   C hE M B L   da taba s e .   I n   s tep  3 ,   m olec ular   de s c r ipt or s   of   the   bioac ti vit da ta   a r e   c a lcula ted.   I s tep  4,   s e ve r a M L   models   a r e   tr a ined   on  thes e   mol e c ular   de s c r ipt or s .   F inally,   in  s tep  5,   the  models   a r e   e va luate to  a s s e s s   their   pr e dictive  a c c ur a c f or   de te r mi ning   c ompound  a c ti vit to   tar ge NSC L C .       Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2252 - 8938   I nt  J   Ar ti f   I ntell ,   Vol.   14 ,   No.   4 Augus 2025 281 5 - 2825   2818       F igur e   1.   P r opos e methodology   f o r   p r e dicting  c o mpound  a c ti vit to   tar ge N S C L C   us ing  b ioac ti vit da ta,   mol e c ular   de s c r ipt or s ,   a nd   ML   models       3. 1.     M olec u lar  d e s c r ip t or s   M olec ular   de s c r ipt or s   a r e   numer ica r e pr e s e ntat ions   that  c a ptur e   va r ious   phys icoc he mi c a a nd   topol ogica pr ope r ti e s   of   mol e c ules .   T he s e   de s c r i ptor s   pr ovide   va luable   qua nti t a ti ve   inf or mation   a bout  the   c ha r a c ter is ti c s   a nd  be ha vior   of   c he mi c a c ompounds .   B a na lyzing  a nd  c ompar ing  mol e c ular   de s c r ipt or s ,   r e s e a r c he r s   c a ga in  ins ight s   int the  s tr uc tur e - a c ti vit r e lations hips   of   mol e c ules   a nd  make   pr e dictions   a bout  their   pr ope r t i e s ,   r e a c ti vit y ,   a nd  po tential  biol ogica l   a c ti vit ies .   One   c omm only  us e tool   f o r   c omput ing   mo lec ular   de s c r ipt or s   is   P a DE L - de s c r ipt or   [ 30]   I is   a   s of twa r e   pr ogr a m   that   c a lcula tes   a   c ompr e he ns ive  s e of   mol e c ular   de s c r i ptor s   ba s e on   s im pli f ied   mol e c ular   input   li ne   e ntr s ys tem  ( S M I L E S )   notat ions   [ 31] .   S M I L E S   is   a   c ompac s tr ing  r e pr e s e ntation  of   a   mol e c ule’ s   s tr uc tur e ,   whic e nc ode s   ke s tr uc tur a f e a tur e s   including  a tom   types ,   bond  c onne c ti ons ,   a nd  their   s pa ti a a r r a nge ment  wi thi n   the  mol e c ule.   T he   P a DE L - de s c r ipt or   uti l ize s   a lgor it hms   a nd  mathe matica f or mul a s   to  ge ne r a te  a   wide   r a nge   of   de s c r ipt or s ,   including  c ons ti tut ional,   topol ogica l ,   a nd  phys ico c he mi c a l   de s c r ipt or s .   C ons ti tut ional  de s c r ipt or s   c a ptur e   ba s ic  mol e c ula r   f e a tur e s ,   s uc h   a s   the   number   of   a tom s ,   bonds ,     a nd  f unc ti ona l   gr oups .   T opologi c a l   de s c r ipt or s   a s s e s s   mol e c ular   c onne c ti vit y   a nd   s ha pe ,   p r ovidi ng  inf or mation  a bout  the   a r r a nge ment  of   a tom s   a nd  t he   pr e s e nc e   of   s pe c if ic  s tr uc tur a mot if s .   P hys icoc he mi c a l   de s c r ipt or s   qua nti f pr ope r ti e s   s uc a s   mol e c ular   we ight ,   s olubi li ty ,   li pophil icity ,   hydr oge n   bonding   potential,   a nd  e lec tr onic  pr ope r ti e s .   I n   our   s tud ying,   we   us e the  de s c r ipt or s   de f ined  by  the  P ubC he m   da taba s e   [ 32] ,   whic pr im a r il f oc us   on  the  s t r uc tur a a nd  phys icoc he mi c a pr ope r ti e s   of   c ompounds .     T he s e   de s c r ipt or s   a r e   typi c a ll y   e nc ode in   a   byt e   a r r a y.   T a ble  1   p r ovides   a   de s c r ipt ion  o f   the  P ubC he m   de s c r ipt or s   bytes .     3. 2.     L e ar n in t as k s   T o   c o ns t r uc t   o u r   d a ta s e t ,   8 4 . 07 8   mo l e c u l e s   w e r e   s e le c t e d   f r o m   C h E M B L   da t a b a s e   a n c la s s i f ie d   t he i n t o   a c t i v e   a n d   i na c t iv e   s e ts   b a s e d   o n   t h e i r   i nh i b i t io n   c o nc e n t r a t i on   v a l ue   a t   5 0 %   ( I C 5 0 ) .   I n i t i a l ly ,   we   u s e d   a   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J   Ar ti f   I ntell     I S S N:   2252 - 8938       N on - s mall  c e ll   lung  c anc e r   ac ti v e   c ompounds   dis c ov e r y   holdi ng  on  pr otein  e x pr e s s ion  …  ( Ham z Hanafi)   2819   t h r e s h o l d   o f   10 0   n M ,   a n d   a f te r   i t e r a ti v e   t r a i n i ng   o f   t h e   M L   m o de ls   w i t h   va r y i n g   th r e s h o l d s ,   we   o b s e r v e d   t ha l o w e r i ng   t h e   I C 50   t h r e s h o ld   i m p r o v e d   t h e   m o de ls   p r e d i c t iv e   p e r f o r ma nc e .   F u r t h e r   e x p e r i me n ta t i o n   r e v e a l e d   t ha s e t ti n g   t h e   t h r e s h o l d   a t   7 7   nM   y i e ld e d   t he   h i g h e s t   F s c o r e ,   i n d ic a t in g   o p t i ma l   m o de l   p e r f o r m a n c e   t h a t   a ll o w s   t he   m o d e l   t o   e f f e c t iv e l y   e x p l o r e   t h e   s t r u c tu r e   o f   c o m pou n d s   t o   de t e r mi n e   i ts   a c ti v i t y .   T h us ,   c h o os i ng   t h i s   th r e s h o l w a s   c r u c i a l   t o   e n ha n c e   t h e   p r e d ic t i ve   c a p a bi l i t y   o f   t he   M L   a l go r i t h ms   us e d   i n   t h is   s t u d y .   C o ns e qu e nt l y ,   m o l e c u l e s   w i t h   a n   I C 5 0   v a lu e   l o we r   t h a n   o r   e q u a l   t o   7 7   n M   w e r e   c o ns id e r e d   a c t i ve ,   d e n o te d   b y   a n   a s s i gn e d   a c t iv i t y   l e v e l     o f   1 ,   w h i l e   t h os e   g r e a te r   t h a n   7 7   nM   w e r e   c o ns i de r e d   i n a c ti v e ,   r e p r e s e n te d   b y   a n   a c ti v i t y   le v e l   o f   0 .       T a ble  1.   S umm a r y   de s c r ipt ion  of   P ubC he de s c r i ptor s   P ubC he m bi pos it io n r a nge   D e s c r ip ti on   F r om 0 t o 114   T he s e   bi na r uni ts   e xa mi ne   th e   pr e s e n c e   or   a bunda nc e   of   s pe c if ic   c he mi c a l   a to ms .   F r om 115 t o 262   T he s e  bi n a r y unit s  a s s e s s  t he  pr e s e n c e  of  c yc li c   s tr uc tu r e s .   F r om 263 t o 326   T h e s e   b i n a r y   u n i t s   e x a m i n e   t h e   p r e s e n c e   o f   c o n n e c t e d   p a i r s   o f   a t o m s ,   d i s r e g a r d i n g   t h e i r   q u a n t i t y   a n d   a r r a n g e m e n t .   F r om 327 t o 448   T he s e   bi na r uni ts   a s s e s s   th e   pr e s e nc e   of   a to n e a r e s t   n e ig hbor   pa tt e r ns c ons id e r in g t he  r e le va nc e  of  a r oma ti c it y a nd  s ig ni f ic a nt  bonding.   F r om 445 t o 459   T he s e   bi na r uni ts   e xa mi n e   c ompl e a to n e ig hbor hood  pa tt e r ns ir r e s pe c ti ve   of  t he ir  qua nt it y, w it h s pe c if ic  c ons id e r a ti on give n t o bond or de r s .   F r om 460 t o 712   T he s e   bi n a r uni ts   e va lu a te   th e   pr e s e nc e   of   s tr a ig ht f or w a r S M I L E S   a r bi t r a r y   ta r ge s pe c if ic a ti on  ( S M A R T S )   pa tt e r ns w it hout   c ons id e r in t he ir   qua nt it y,  bu t   w it s pe c if ic   a tt e nt io gi ve to   bond   or de r s   a nd  th e   c omp a ti bi li ty   of   bond   a r oma ti c it y w it h both s in gl e  a nd double  bonds .   F r om 713 t o 880   T he s e   bi n a r uni ts   e xa mi ne   th e   pr e s e nc e   of   c ompl e S M A R T S   pa tt e r n s ir r e s pe c ti ve   of   th e ir   qua nt it y,  w it pa r ti c ul a r   e mpha s is   on  s pe c if ic   bond  or de r s   a nd bond a r oma ti c it y.       T tr a in   our   models ,   90 %   o f   the   da ta  wa s   a ll oc a ted  to  the   tr a ini ng   s e t,   while   the  r e maining   10%   wa s   us e f or   the  tes t   s e t.   M ol e c ular   de s c r ipt or s   a r e   goi ng  to   s e r ve   a s   input   f e a tu r e s ,   while   the   tar ge t   f e a tu r e   is   the   a c ti vit leve in  NSC L C .   Give the  c ompl e xit int r oduc e by  thi s   e xtens ive  a r r a of   input   f e a t ur e s ,   we   im pleme nted  a   pr e pr oc e s s ing  s tep  to  r e f ine  the  da tas e t,   to  make   the  M L   models   mor e   p r e c is e   a nd  to  de pict  the  pa tt e r ns   of   the  mos t   im por tant   mol e c ular   de s c r ipt or s .   I n   thi s   r e ga r d ,   be f o r e   f e e ding  the  da ta   int o   the  M L   models ,   we   pe r f o r med  a ini ti a s tep  to   r e duc e   the  number   of   input   f e a tur e s .   I ni ti a ll y,   ther e   we r e   881  f e a tur e s by  a pplyi ng  a   va r ianc e   thr e s hold  of   0 . 16,   we   r e moved  mol e c ular   de s c r ipt or s   with  low  va r ianc e ,   whic s howe 84%   s im il a r it y   in   their   va lues .   T his   r e s ult e in   a   f inal  s e o f   160  f e a tur e s   with   higher   va r ianc e ,   e na bli ng  the  model  to   de tec mea ningf ul   pa tt e r ns   withi the  da tas e t.   W e   tr a ined  s e ve r a M L   models   on   the   c omput e mol e c ular   de s c r ipt or s ,   including  M L P ,   XG B ,   R F ,   S VM ,   a nd  n a ive  B a ye s   ( NB ) .   F ir s tl y ,   the  M L P   ne ur a ne twor model  is   us e with  a input   laye r   of   100  unit s   a nd  us e s   the  r e c ti f ied  li ne a r   unit   ( R e L U)   a s   a a c ti va ti on  f unc ti on.   T his   is   f oll owe by  s ome  hidden  laye r s   with  50,   20 ,   a nd   5   unit s ,   r e s pe c ti ve ly,   a ls us ing  the  R e L a c ti va ti on  f unc ti on .   And  the   output   lay e r   ha s   a   s ingl e   unit   with   a   s igm oid   a c ti va ti on  f unc ti on,   a ll o wing  f o r   bi na r y   c las s if ica ti on.   Dur ing   tr a ini ng ,   we   uti li z e d   the  Ada opti mi z e r   with  a   lea r ning  r a te  o f   0. 001   a nd  e mpl oye the  binar c r os s - e ntr opy  a s   a   los s   f unc ti on.   T he   model  wa s   t r a ined  f o r   100   e poc hs   with  a   ba t c s ize   of   100   s a mpl e s .   F ur ther mo r e ,   the  t r a ini ng  da ta  wa s   s pli int t r a ini ng  a nd  va li da ti on   s ubs e ts ,   with  a   5 %   va li da ti on  s pli t .   W e   a ls tr a ined   two  tr e e - ba s e c las s if ier s ,   including  XG B   a nd   R F   models .   T he s e   models ,   c ons tr uc ted  us ing  the  s klea r im p leme ntation,   a r e   ba s e on  e ns e mbl e   lea r ning  tec hniques   th a c ombi ne s   mul ti ple  de c is ion  tr e e s   to   make   p r e dictions .   T c o ns tr uc the  models ,   we   us e va r ious   pa r a mete r s   to   opti mi z e   their   pe r f o r manc e .   W e   us e a   max  de pth   of   leve ls ,   f o r   e a c c ons tr uc ted  indi v idual  de c is ion  tr e e .   Additi ona ll y,   we   uti li z e a   lea r ning   r a te  of   0 . 01 ,   to  c ontr ol   the  s tep  s ize   a e a c boos ti ng  a nd  ba gging  it e r a ti on.   T he   number   of   e s ti mator s   wa s   s e to   1 , 0 00,   indi c a ti ng   the   number   of   de c is ion  tr e e s   to   be   c r e a ted  in   the  e ns e mbl e .   T his   va lue   wa s   c hos e f r om   a   li s t ha include 50,   200,   400,   600 ,   800 ,   a nd   1 , 000   e s ti mator s .   T he   r e c e iver   ope r a ti ng   c ha r a c ter is ti c   ( R OC )   c u r ve s   we r e   s ubs e que ntl dr a wn  f or   e a c model   tr a ined     with  a   dis ti nc t   number   of   e s ti mator s   to   a s s e s s   their   im pa c t   on   the   model’ s   pe r f o r manc e .   Nota bl y,   a s   the  number   of   e s ti mator s   incr e a s e f r om  50  to  1 , 000 ,   we   obs e r ve a   pr ogr e s s ive  im pr ove ment  of   the  a r e a   unde r   the  c ur ve   ( AU C ) .   T h e   a c hi e v e d   AU C   v a l ue s   s to o d   a t   0 . 6 21   f o r   XG B   a nd   0 . 59 6   f or   R F   a s   s h ow n   in     F i gu r e s   a nd   3   r e s pe c ti ve ly .   W e   a ls a d jus ted   the  c l a s s   we ig hts   t o   a d d r e s s   c l a s s   i mba la nc e   a nd   e nha nc e   the   m o de l’ s   pe r f o r m a n c e ,   pa r ti c u la r ly   o th e   mi no r it y   c las s   b y   a s s ig ni ng   a   h ig he r   we ig ht   to   s a mp les   f r o t he   m i no r it y   c las s .         Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2252 - 8938   I nt  J   Ar ti f   I ntell ,   Vol.   14 ,   No.   4 Augus 2025 281 5 - 2825   2820       F igur e   2.   R OC   c ur ve s   f or   XG B   with  va r ied  numbe r s   of   e s ti mator s           F igur e   3.   R OC   c ur ve s   f or   R F   with   va r ied  numbe r s   of   e s ti mator s       F ur ther mor e ,   we   buil t   a S VM   model  us ing   dif f e r e nt  ke r ne l   f unc ti ons .   T h is   include s   li ne a r ,   r a dial   ba s is   f unc ti on  ( R B F ) ,   po lynom ial,   a nd   s igm oid  f u nc ti ons   s hown  in   F igur e   4.   I a ppe a r s   that  f or   li ne a r ,   R B F ,   a nd  pol ynomi a ke r ne ls ,   the  tr a ini ng   s c or e   is   r e latively  high  whe us ing  f e s a mpl e s   f or   t r a in ing  a nd  de c r e a s e s   whe incr e a s ing  the  nu mber   o f   s a mpl e s .   I n   c ontr a s t,   the  c r os s - va li da ti on  s c or e   s tar ts   a t   a   moder a te  leve a nd  s hows   a   s li ght   incr e a s e   whe a dding   s a mpl e s .   W he r e a s   the  plot   f o r   S igm oid   ke r ne l,   the   tr a ini ng   s c or e   r e mains   low  r e ga r dles s   of   the   s ize   of   the   t r a ini ng  s e t.   On  the   other   ha nd,   the  c r os s - va li da ti on  s c or e   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J   Ar ti f   I ntell     I S S N:   2252 - 8938       N on - s mall  c e ll   lung  c anc e r   ac ti v e   c ompounds   dis c ov e r y   holdi ng  on  pr otein  e x pr e s s ion  …  ( Ham z Hanafi)   2821   de c r e a s e s   with  the  s ize   of   the  tr a ini ng  da tas e t.   I nd e e d,   it   de c r e a s e s   to  a   point   whe r e   it   r e a c he s   a   plate a u.   T he   polynom ial  a nd   R B F   ke r ne ls   e na bles   us   to  c las s if the   da ta  wi th  c ompl e x   r e lations hips .   T he   mo de wa s   tr a ined  to   f ind   the   be s bounda r y   that  s e pa r a tes   th e   a c ti ve   a nd  inac ti ve   mol e c ules .   W e   s e the   r e gul a r iza ti on  pa r a mete r   to   10  to   s tr ike  a   good   ba lanc e   be twe e t r a ini ng  a c c ur a c a nd  c las s if ica ti on  p r e c is ion,   a nd   we   us e d   the  s c a le’   opti on   f o r   ga mm a   to   e ns ur e   a   s moot h   d e c is ion  bounda r y.   T he s e   c hoice s   a ll ow  our   S VM   model  to   pe r f or e f f e c ti ve ly,   ove r c omi ng  the  c ha ll e nge   of   c las s   im ba lanc e   inhe r e nt  in  the  da ta.   L a s tl y,   we   uti li z e the   s klea r li br a r y   to   im pleme nt   a   NB   c las s if ier ,   whic is   a   pr oba bil is ti c   c las s if ier   that   a s s umes   f e a tur e   indepe nde nc e ,   making  it   e f f icie nt   a nd  s uit a ble  f or   lar ge   da tas e ts .   T he   de f a ult   im pleme ntation  in   s klea r e mpl oy s   the  Ga us s ian  NB   a lgor it hm,   a s s umi ng  a   Ga us s ian  dis tr ibut ion  f or   the   f e a tur e s .           F igur e   4.   L e a r ning  c ur ve s   f o r   S VM   with   dif f e r e nt  ke r ne ls   ( R B F ,   poly ,   li ne a r )       4.   RE S UL T S   AN DI S CU S S I ON   T his   s e c ti on  pr e s e nts   the  ke f indi ngs   f r om  ou r   s tudy,   whic h   f oc us e s   on  c ompar ing  dif f e r e nt   a lgor it hms   to  f ind  the  be s model  c a pa ble  of   pr e dicting  the  a c ti vit of   c ompounds   tar ge ti ng  a   s pe c if ic  pr otein.   Although  numer ous   models   e xis in  the  li ter a tur e ,   ther e   is   a   notable   ga in  identif ying  the  opti mal  one .   Our   s tudy  a ddr e s s e s   thi s   ga by  e va luating  va r ious   models   us ing  pe r f or manc e   met r ics .   T a b l e   2   p r o v ides   a   c om p r e he ns i ve   s u m ma r y   o f   t he   o ve r a l l   a c c u r a c y ,   p r e c is io n ,   r e c a l l ,   a nd   F 1   s c o r e .   I n   c o n tr a s t ,   F ig ur e   5   d is pla ys   a   h e a tm a p   il lu s t r a ti ng   t he   a c c u r a c y ,   p r e c is io n ,   a n d   r e c a l l   a c hi e ve d   b y   e a c h   mo de l   a c r os s   d i f f e r e nt   c la s s e s .       T a ble  2.   Ove r a ll   pe r f or manc e   met r ics   of   t r a ined  M L   m ode ls   M ode l   A c c ur a c y   P r e c is io n   R e c a ll   F1   s c or e   M L P   0.865   0.878   0.845   0.861   X G B   0.604   0.601   0.605   0.603   RF   0.564   0.551   0.658   0.600   S V M   0.593   0.595   0.598   0.597   NB   0.558   0.546   0. 649   0.593   Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2252 - 8938   I nt  J   Ar ti f   I ntell ,   Vol.   14 ,   No.   4 Augus 2025 281 5 - 2825   2822       F igur e   5.   He a tm a s howc a s ing  the  a c c ur a c y,   pr e c i s ion,   a nd  r e c a ll   s c or e s   a tt a ined  by   e a c model       T he   M L P   model  a c hieve a a c c ur a c of   0. 865,   indi c a ti ng  that  it   c or r e c tl pr e dicte the  a c ti vit o f   c ompounds   f or   inhi bit ing  NSC L C   in  a   lar ge   major it of   c a s e s .   I ha a   pr e c is ion  of   0. 878 ,   mea ning  t ha whe n   it   pr e dicte d   a   c ompound   a s   e f f e c ti ve   a ga ins t   NSC L C   it   de mons tr a ted  the  model s   a bil it y   to   e xc lude   ir r e leva nt   c a s e s .   T he   F s c or e   of   0. 861 ,   whic is   the   ha r mon ic  mea of   pr e c is ion  a nd  r e c a ll ,   indi c a tes   the  good   ove r a ll   ba lanc e pe r f or manc e   of   the  model .   T he s e   r e s ult s   s ugge s that  the  M L P   model  pe r f o r med  the  be s a mong  the   tes ted  models   in  pr e dicting  the   a c ti vit o f   c ompou nds   f or   inhi b it ing  NSC L C .   T he   XG B   model   a c hieve a n   a c c ur a c of   0. 604 ,   i ndica ti ng  moder a te  pe r f or manc e   in  p r e dicting  the  a c ti vit of   c ompounds   f or   inhi bit ing   NSC L C .   I h a a   p r e c is ion  of   0. 601 ,   r e c a ll   o f   0. 605   a nd  a n   F 1   s c or e   of   0. 603,   s ugge s ti ng  a   r e latively  ba lanc e pe r f or m a nc e .   W hil e   the  a c c ur a c of   the  XG B   model  i s   lowe r   c ompar e to  the  M L P   model,   it   s ti ll   pr ovides   a   r e a s ona ble  leve of   pr e dictive  a bil it y   in  identi f ying  potential  c ompo unds   f or   NSC L C   inhi bit ion .   T he   R F   model  a c hieve a a c c ur a c of   0. 564 ,   whi c is   lowe r   than  the  M L P   a nd  XG B   models .   I ha d   a   pr e c is ion  o f   0. 551 ,   indi c a ti ng   a   higher   r a te   of   f a ls e   pos it ives   c ompar e to   the  othe r   models .   How e ve r ,   the   r e c a ll   va lue  of   0. 658  s ug ge s ts   that  the  R F   model  s uc c e s s f ull identif ied  a   higher   pr opor ti on  o f   tr ue   pos it ives   ( c ompounds   with  NSC L C   inhi bit or a c ti vit y)   c o mpar e to  other   models .   T he   F 1   s c or e   of   0 . 600  r e f lec ts   a   moder a tely  ba lanc e pe r f or manc e   be twe e p r e c is ion  a nd  r e c a ll .   Ove r a l l,   while  the   R F   model   s hows   potential  in  c a ptur ing   t r ue   pos it ive   c a s e s ,   it   s uf f e r s   f r om   a   h igher   r a te  o f   f a ls e   pos it ives ,   im pa c ti ng   it s   ove r a ll   a c c ur a c in  pr e dicting  c ompounds   f or   NSC L C   inhi bit ion.   T he   S VM   a nd  NB   models   e xhibi we a ke r   pe r f o r manc e s   c ompar e to  mor e   a dva nc e models ,   s uc a s   M L P .   T he   S VM   model   a c hieve a n   a c c ur a c o f   0 . 593  wi th  a   ba lanc e pr e c is ion  o f   0. 595 ,   r e c a ll   of   0 . 598,   a nd  a F 1   s c or e   of   0. 597 .   W hil e   the  S VM   model   de mons tr a tes   potential  in   c a ptur ing   c ompounds   with  a nd  without   NSC L C   inhi bit or a c ti vit y,   it s   a c c ur a c f a ll s   be low  that  of   the  M L P   model,   s ugge s ti ng  li mi t a ti ons   in  a c c ur a tely  pr e dicting  c ompound   a c ti vit y.   S im il a r l y,   t he   NB   model  de mons tr a tes   a   ba lanc e   be twe e pr e c is ion   of   0. 546   a nd  r e c a ll   o f   0 . 649,   r e s ult ing  in   a   mode r a tely  ba l a nc e F s c or e   of   0. 593 .   T he   NB   mode l,   while   pr ovidi ng  s ome  pr e dictive  a bil it y ,   lags   be hind  oth e r   models   in  ter ms   of   a c c ur a c a nd  p r e c is ion.   T his   a na lys is   highl ight s   the  c ha ll e nge s   f a c e by  both  S VM   a nd  NB   models   in  e f f e c ti ve ly  c a ptur ing  the  c ompl e xit ies   o f   the  da ta  f or   a c c ur a te  p r e dictions   in  NSC L C   inhi bit ion .   Among  thes e   models ,   the  M L P   model  pe r f or me the  be s with  the   highes a c c ur a c of   0 . 865,   indi c a ti ng  it s   a bil it y   to   make   a c c ur a te   pr e dictions .   I a ls o   a c hieve the   highes p r e c is ion  a nd   F 1   s c or e   va lues .   On  the  other   ha nd,   the   NB   model   pe r f o r med  the   l e a s with  a a c c ur a c o f   0 . 558,   indi c a ti ng   a   lowe r   leve o f   pr e diction  a c c ur a c c ompar e to   the  o ther   mo de ls .   I t   ha the  lowe s pr e c is ion  a nd  F 1   s c or e   va lues ,   s ugge s ti ng  it s   li mi tations   in  a c c ur a tely  p r e dicting  t he   a c ti vit f o r   NSC L C .   Us ing  the   M L P   model,   w e   r a nke d   top - 10  highl a c ti ve   mol e c ules   in  NSC L C .   T a ble   s hows   a   li s of   thes e   dr ugs .   T he   r a nking   method   is   ba s e d   on  the  pr oba bil it ies   r e tur ne by  the  M L P   M od e l,   whe r e   thes e   pr oba bil it ies   r e pr e s e nt  t he   pe r c e ntage   of   be longi ng  to  the   pos it ive  c las s ,   de mons tr a ti ng  the  l ikelihood  of   a   c ompound’ s   a c ti vit y   a ga ins NSC L C .   T he   li s of   dr ugs   pr e dicte by  our   M L P   mode to  tar ge NSC L C   a li gns   we ll   with  the  dr ugs   mentioned  in  the  medic a li ter a tu r e .   S e ve r a of   t h e   dr ugs   in  the  top - 10  li s t,   s uc a s   Os im e r ti nib,   B r igatini b,   Ale c ti nib,   E r lot ini b ,   C e r it ini b ,   A f a ti nib,   T r a s tuzuma b,   Ada gr a s ib   a nd  Ge f it ini that  a r e   r e c ogn ize a s   im por tant  ther a pe uti c   a ge nts   f or   NSC L C   [ 33] .   T he   li ter a tur e   highl ight s   the  e f f e c ti ve ne s s   of   thes e   dr ugs   in   va r ious   s e tt ings ,   including  a dva nc e NSC L C   wi th  s pe c if ic  ge ne ti c   mut a ti ons   ( s uc a s   E GFR   m utations ,   AL K - po s it ive  or   R OS - 1 - pos it ive  NSC L C )   a nd  meta s tatic  NSC L C .   T he   li ter a tu r e   a ls p r ovides   s up por ti ng   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J   Ar ti f   I ntell     I S S N:   2252 - 8938       N on - s mall  c e ll   lung  c anc e r   ac ti v e   c ompounds   dis c ov e r y   holdi ng  on  pr otein  e x pr e s s ion  …  ( Ham z Hanafi)   2823   e videnc e   f or   the  e f f ica c of   thes e   dr ugs ,   with  inf or mation  on   ove r a ll   s ur vival ,   a nd  im p r ove s ur vival    ti me  [ 33] .   M o r e o ve r ,   the   f a c t   th a t   s om e   o f   t he   dr ug s   i t he   t op - 10   li s t   a r e   a p pr o ve d   s uc a s   Os im e r t in i b   [ 34 ] B r iga t in ib   [ 35 ] ,   Al e c ti ni b   [ 3 6 ] ,   E r l ot in i b   [ 3 7] ,   C e r i t in i b   [ 3 8] ,   A f a ti n ib   [ 39 ] ,   a nd   Ge f it in i b   [ 4 0 ] ,   u nde r s c or e s   th e i r   e s ta bl is he d   e f f i c a c y   in   N S C L C   t r e a t men t .   W h i le   o t he r   d r u gs   s u c h   a s   S ot o r a s ib   [ 41 ] ,   T r a s t uz um a b   [ 4 2 ] ,   a nd   A da g r a s ib   [ 4 3 ]   a r e   c u r r e n t ly   un de r g oi ng   c l i nic a l   t r i a l s   f u r t he r   c on f i r ms   th e i r   r e le va nc e   in   NS C L C   t r e a t me nt .       T a ble  3.   T op - 10  r a nke d r ugs   in  lung  c a nc e r   R a nk   D r ug n a me   1   O s im e r ti ni b   2   B r ig a ti ni b   3   A le c ti ni b   4   E r lo ti ni b   5   C e r it in ib   6   A f a ti ni b   7   S ot or a s ib   8   T r a s tu z uma b   9   A da gr a s ib   10   G e f it in ib       5.   CONC L USI ON   Our   s tudy   s howe the   potential   of   int e gr a ti ng   p r otein  e xpr e s s ion  a na lys is   a nd   M L   tec hniques   f or   a c ti ve   c ompounds   dis c ove r y   in   lung   c a nc e r   tr e a tm e nt.   B leve r a ging   ge ne   e xpr e s s ion  da ta   a nd  tar ge ted  pr otein  a na lys is ,   we   s uc c e s s f ull identif ied   bioac t ive  c ompounds   that   s pe c if ica ll y   tar ge t   pr oteins   a s s oc iate d   with  NSC L C .   T hr ough   us ing  va r ious   M L   models ,   including  M L P ,   XG B ,   R F ,   S VM ,   a nd  NB ,   we   c ompar e their   pe r f or manc e s   in   pr e dicting   the   a c ti vit y   of   c o mpounds .   Among   thes e   models ,   the   M L P   model   e xhibi ted  the  highes F s c or e ,   a c hieving  a im p r e s s ive  va lue  of   0. 861 ,   de noti ng  it s   a bil it to  a c c ur a tely  p r e di c a c ti ve   c ompounds   f or   NSC L C   tr e a tm e nt.   F ur ther mor e ,   o ur   s tudy  pr ovides   a   li s of   10  d r ugs   pr e dicte a s   a c ti ve   in  NSC L C ,   a ll   of   whic a r e   s uppor ted   by  r e leva nt  s c ientif ic  e videnc e .   T he s e   f indi ngs   c ontr ibut e   to   the  dr ug   dis c ove r pipeline  f or   lung  c a nc e r ,   o f f e r ing  va luable   ins ight s   int the  de ve lopm e nt  of   tar ge ted  ther a pies .   Ac c or dingl y,   the  int e gr a t ion  of   c omput a t ional  methods   with  bioi nf or matic  tool s   pr ovides   a   powe r f ul  a ppr oa c to  a c c e ler a te  the  identif ica ti on  a nd  e va lu a ti on  of   nove c ompounds ,   ult im a tely   a dva nc ing  pr e c is ion  medic ine  in  the  tr e a tm e nt   of   lung   c a nc e r .   F utu r e   r e s e a r c will   f oc us   on  va li da ti ng  the  p r e dicte c omp ounds   in  pr e c li nica a nd  c li nica s tudi e s   to  f ur ther   c onf ir t he ir   e f f ica c y.       AC KNOWL E DGE M E NT S   T he   a utho r s   e xpr e s s   their   g r a ti tude   to   the   r e vie we r s   f or   thei r   c ons tr uc ti ve   f e e dba c dur ing   the   de ve lopm e nt  of   thi s   wor k .   T his   r e s e a r c wa s   c onduc ted  indepe nde ntl y,   without   e xter na f unding   or   f inanc ial  s uppor t.       F UN DI NG  I NF ORM AT I ON   Author s   s tate   no  f unding   invol ve d.       AU T HO CONT RI B U T I ONS   S T AT E M E N T   T his   jour na l   us e s   the   C ontr ibut o r   R oles   T a xo nomy  ( C R e diT )   to   r e c ognize   indi vidual   a uthor   c ontr ibut ions ,   r e duc e   a utho r s hip  dis putes ,   a nd  f a c il it a te  c oll a bor a ti on.     Nam e   of   Au t h or   C   M   So   Va   Fo   I   R   D   O   E   Vi   Su   P   Fu   Ha mza   Ha na f i                               M ha med  Aït  Kbir                               B a dr   Dine   R os s i   Ha s s a ni                                 C     C onc e pt ua li z a ti on   M     M e th odol ogy   So     So f twa r e   Va     Va li da ti on   Fo     Fo r ma a na ly s is   I     I nve s ti ga ti on   R     R e s our c e s   D   :   D a ta  C ur a ti on   O   :   W r it in -   O r ig in a D r a f t   E   :   W r it in -   R e vi e w  &   E di ti ng   Vi     Vi s ua li z a ti on   Su     Su pe r vi s io n   P     P r oj e c a dmi ni s tr a ti on   Fu     Fu ndi ng a c qui s it io n     Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S S N :   2252 - 8938   I nt  J   Ar ti f   I ntell ,   Vol.   14 ,   No.   4 Augus 2025 281 5 - 2825   2824   CONF L I CT   OF   I NT E RE S T   S T AT E M E N T   Author s   s tate   no  c onf li c t   of   int e r e s t .       DA T AV AI L A B I L I T Y   T he   da ta  that  s uppor the  f indi ngs   of   thi s   s tudy  we r e   obtaine f r om  the  C hE M B L   da taba s e ,   whic is   publi c ly  a va il a ble  a htt ps :/ /www . e bi . a c . uk/che mbl .       RE F E RE NC E S   [ 1]   T C he ng,  Q L i,   Z Z hou,  Y W a ng,  a nd  S H .   B r ya nt S t r uc tu r e - ba s e vi r tu a s c r e e ni ng  f or   dr ug  di s c ove r y:   a   pr obl e m - c e n tr ic   r e vi e w ,”   A A P S J our nal , vol . 14, no. 1, pp. 133 141, 2012, doi:   10.1208/s 12248 - 012 - 9322 - 0.   [ 2]   M M R a hma e al . E me r gi ng  pr omi s e   of   c omput a ti ona t e c hni que s   in   a nt i - c a nc e r   r e s e a r c h:   a t   a   G la nc e ,”   B io e ngi ne e r i ng   vol . 9, no. 8, 2022, doi:  10.3390/bi oe ngi ne e r in g9080335.   [ 3]   G H us s a in   a nd  Y S hi r e n,  I de nt if yi ng  A lz he im e r   di s e a s e   de me nt ia   le ve ls   us in ma c hi n e   le a r ni ng  me th ods ,”   M e di c al   R e s e ar c h   A r c hi v e s , vol . 11, no. 7.1, 2023, doi 10.18103/m r a .v11i7.1.4039.   [ 4]   M S ugi mot a nd  T S ue yos hi D e ve lo pme nt   of   hol oe ye s   hol ogr a phi c   im a ge - gui de s ur ge r a nd  te le me di c in e   s ys te m:   c li ni c a be ne f it s   of   e xt e nde r e a li ty   ( vi r tu a r e a li ty a ugme nt e r e a li ty mi xe r e a li ty ) th e   me ta ve r s e a nd  a r ti f ic ia in te ll ig e nc e   in   s ur g e r y   w it h a  s ys te ma ti c  r e vi e w ,   M e di c al  R e s e a r c h A r c hi v e s , vol . 11,  no. 7.1, 2023, doi:  10.18103/m r a .v11i7.1.4045.   [ 5]   A H U r ba ns ki J D A r a uj o,  R C r e ig h to n,  a nd   H I N a ka ya I nt e gr a ti ve   bi ol ogy  a ppr oa c he s   a ppl ie to   huma di s e a s e s ,   C om put at io nal  B io lo gy , pp. 19 36, 2019, doi:  10.15586/compu ta ti ona lb io lo gy.2019.c h2.   [ 6]   A K A A lAbduls a la m,  J H G a r vi n,   A R e dd,  M E .   C a r t e r C S w e e ny,  a nd  S M M e ys t r e A ut oma te e xt r a c ti on  a nd   c la s s if ic a ti on  of   c a nc e r   s ta ge   me nt io ns   f r omuns tr uc tu r e te xt   f ie ld s   in   a   c e nt r a c a nc e r   r e gi s tr y.,”   A M I A   J oi nt   Sum m it s   on   T r ans la ti onal  Sc ie nc e  pr o c e e di ng s . A M I A  J oi nt  Sum m it s  on T r ans la ti onal  Sc ie nc e , vol . 2017, pp. 16 25, 2 018.   [ 7]   H H a na f i,   B D R H a s s a ni a nd  M A .   K bi r P r e di c ti ng  a c ti ve   c ompounds   f or   lu ng  c a nc e r   ba s e d   on  qua nt it a ti ve   s tr uc tu r e - a c ti vi ty   r e la ti ons hi ps ,”   I nt e r nat io nal   J our nal   of   E le c tr ic al   and   C om put e r   E ngi ne e r in g vol 13,   no.  5,  pp.   5755 5763,  2023,  d oi :   10.11591/i je c e .v13i5.pp5755 - 5763.   [ 8]   H H a na f i,   B D R H a s s a ni a nd  M A K bi r P r e di c ti ng  ge ne - dr ug - di s e a s e   in te r a c ti ons   by  in te gr a ti ng  he te r oge ne ous   bi ol ogi c a da ta   th r ough  a   ne twor mode l,   I nt e r nat io nal   J our nal   of   A dv anc e s   in   Sof C om put in and   it s   A pp li c at io ns vol 14,  n o.  1,    pp. 35 48, 2022, doi:  10.15849/I J A S C A .220328.03.   [ 9]   A S iv a kuma r   a nd  R .   G una s unda r i,   A   s ur ve on  da ta   p r e pr oc e s s in te c hni que s   f or   bi oi nf o r ma ti c s   a nd  w e us a ge   mi ni n g,”   I nt e r nat io nal  J our nal  of  P ur e  and A ppl ie d M at he m a ti c s , vol . 117, no. 20, pp. 785 794, 2017.   [ 10]   Y Z ha ng  a nd  J H ong,  C ha ll e nge s   of   de e le a r ni ng  in   c a nc e r s ,”   T e c hnol ogy   in   C anc e r   R e s e ar c and  T r e at m e nt vol 22,  2023,   doi 10.1177/153303382 31173495.   [ 11]   A G a ul to e al . T he   C hE M B L   da ta ba s e   in   2017 ,”   N uc le ic   A c id s   R e s e a r c h vol 45,  no.  1,  pp.   945 954,  2017,  doi 10.1093/nar /g kw 1074.   [ 12]   D K S im a ns hu,  D V N is s le y,  a nd  F M c C or mi c k,  R A S   pr ot e in s   a nd  th e ir   r e gul a to r s   in   huma di s e a s e ,”   C e ll vol 170,  no.  1,  pp. 17 33, 2017, doi:  10.1016/j .c e ll . 2017.06.009.   [ 13]   L M a ns i,   E V ie l,   E C ur ti t,   J M e di oni a nd  C L e   T our ne a u,  C ib la ge   de   la   voi e   de   s ig na li s a ti on  R A S   pour   le   tr a it e me nt   de s   c a nc e r s ,”   B ul le ti n du C anc e r , vol . 98, no. 9, pp. 1019 1028, 20 11, doi:  10.1684/bdc.2011.1 380.   [ 14]   M P D M a g li a no  a nd  C D .   L ogs don,  R ol e s   f or   K R A S   in   p a nc r e a ti c   tu mor   de ve lo pme nt   a nd  pr og r e s s io n,”   G as tr oe nt e r ol ogy vol . 144, no. 6, pp. 1220 1229, 2013, doi:  10.1053/j .ga s tr o.2013.01.071.   [ 15]   G P .   W a e al . M a c hi ne   le a r ni ng  de te c ts   pa n - c a nc e r   r a s   pa th w a a c ti va ti on  in   th e   c a nc e r   ge nome   a tl a s ,”   C e ll   R e por ts vol 23,   no. 1, pp. 172 180, 2018, doi:  10.1016/j .c e lr e p.2018.03.046.   [ 16]   T A K ni jn e nbur e al . G e nomi c   a nd   mol e c ul a r   la nd s c a pe   o f   D N A   da ma ge   r e p a ir   de f ic ie nc a c r os s   th e   c a nc e r   ge nom e   a tl a s ,”   C e ll  R e por ts , vol . 23, no. 1, pp. 239 254, 2018, doi:  10.1016/j .c e lr e p.2018.03.076.   [ 17]   J D A m a r a l,   J .   M X a vi e r C .   J .   S te e r a nd  C M .P R odr ig ue s T a r ge ti ng  th e   p53   pa th w a y   of   a popt os i s ,”   C ur r e nt   P har m ac e ut ic al  D e s ig n , vol . 16, no. 22, pp. 2493 2503, 2010,  doi 10.2174/138161210 791959818.   [ 18]   P M ont e al . ,   H e te r oge ne it of   T P 53  mu ta ti ons   a nd  P 53  pr ot e in   r e s id ua f unc ti on   in   c a nc e r doe s   it   ma tt e r ? ,”   F r ont ie r s   in   O nc ol ogy , vol . 10, 2020, doi:  10.3389/f onc .2020.593383.   [ 19]   A K oğl a nd  Ç B .   A vc ı,   C a n c e r   s te c e ll s a   br ie f   r e vi e w   of   th e   c ur r e nt   s ta tu s , ”  G e n e vol 681,  pp.  80 85,  2019,  doi 10.1016/j .ge ne .2018.09.052.   [ 20]   T M M a lt a   e al . M a c hi ne   le a r ni ng  id e nt if ie s   s te mne s s   f e a t ur e s   a s s o c ia te w it onc oge ni c   de di f f e r e nt ia ti on,”   C e ll vol 173,     no. 2, pp. 338 354, 2018, doi:  10.1016/j .c e ll .2018.03 .034.   [ 21]   R T homa s   a nd  Z W e ih ua R e th in of   E G F R   in   c a nc e r   w it h   it s   ki na s e   in de pe nde nt   f unc ti on  on  boa r d,”   F r ont ie r s   in   O nc ol ogy vol . 9, no. AU G , 2019, doi:  10.3389/f onc .2019.00800.   [ 22]   R Q ur e s hi   e al . ,   M a c hi ne   l e a r ni ng  ba s e pe r s ona li z e d   dr ug  r e s pons e   pr e di c ti on  f or   lu ng   c a nc e r   pa ti e nt s ,   Sc ie nt if ic   R e por ts   vol . 12, no. 1, 2022, doi 10.1038/s 41598 - 022 - 23649 - 0.   [ 23]   R Y a ng,  X X io ng,  H W a ng,  a nd  W L i,   E xpl a in a bl e   ma c h in e   le a r ni ng  mode to   pr e di c ti on  E G F R   mut a ti on  in   lu ng  c a nc e r ,”   F r ont ie r s  i n O nc ol ogy , vol . 12, 2022, doi:  10.3389/f onc .2022.9 24144.   [ 24]   M H W id ya na nda   e al . Q ue r c e ti a s   a a nt ic a nc e r   c a n di da te   f or   gl io bl a s to ma   mul ti f or me   by  ta r ge ti ng  A K T 1,  M M P 9,   A B C B 1,  a nd  V E G F A a in - s il ic s tu dy,”   K ar bal I nt e r nat io nal   J our nal   of   M ode r Sc ie n c e vol 9,   no.  3,  pp.   450 459,  2 023,  doi 10.33640/2405 - 609X.3312.   [ 25]   J .   E b e r h a r d t ,   D .   S a n t o s - M a r t i n s ,   A .   F T i l l a c k ,   a n d   S .   F o r li ,   A ut o D o c k   V i n a   1 . 2 . 0 :   n e w   d o c k i n g   m e t h o d s ,   e x p a n d e d   f o r c e   f i e l d ,   a n d   P y t h o n   b i n d i n g s ,   J o u r n a l   o f   C h e m i c a l   I n f o r m a t i o n   a n d   M o d e l i n g ,   v o l .   6 1 ,   n o .   8 ,   p p .   3 8 9 1 3898, 2021, doi:  10.1021/ a c s .jc im .1c 00203 .   [ 26]   V V K le a ndr ova L S c ot ti F .   J B .   M .   J uni or E M ur a to v,  M T S c ot ti a nd  A S pe c k - P la nc he Q S A R   mode li ng  f or   m ul ti - ta r ge dr ug  di s c ove r y:   de s ig ni ng   s im ul ta ne ous   in hi bi to r s   of   p r ot e in s   in   di ve r s e   pa th oge ni c   pa r a s it e s ,”   F r ont ie r s   in   C he m is tr y   vol . 9, 2021, doi:  10.3389/f c he m.2021.634663.   [ 27]   H K a ne ko,  M ol e c ul a r   de s c r ip to r s s tr uc tu r e   ge ne r a ti on,  a nd   in ve r s e   Q S A R /QS P R   ba s e on  S E L F I E S ,”   A C O m e ga vol 8,    n o. 24, pp. 21781 21786, 2023, doi:  10.1021/ac s ome ga .3c 0133 2.   [ 28]   M . R . I r e s ha   e al . , “ M a c hi ne  l e a r ni ng mode a nd mol e c ul a r  do c ki ng f or  s c r e e ni ng me di c in a pl a nt s  a s  H I V - r e ve r s e  t r a ns c r ip ta s e   in hi bi to r s ,”   K ar bal a I nt e r nat io nal  J our nal  of  M ode r n S c ie nc e ,   vol . 10, no. 1, pp. 79 90, 2024, doi:  10.33640/2405 - 609X.3341 .   Evaluation Warning : The document was created with Spire.PDF for Python.