I A E S  I n t e r n at io n al  Jou r n al  of  A r t if ic ia I n t e ll ig e n c e  ( I J - AI )   V ol . 14, No. 5, O c to be r  2025 , pp.  3847 ~ 3857   I S S N 2252 - 8938 ,   D O I 10.11591/ ij a i. v 14 .i 5 .pp 3847 - 3857          3847       Jou r n al  h om e page ht tp : // ij ai . ia e s c or e .c om   R e c om m e n d at i on  sys t e m  f or  f oot b al l   p l aye r  r e c r u i t m e n t  u si n k - n e ar e st  n e i gh b or       M au k ar 1 , R od ia h 2   1 M a s t e r  of  S ys t e m  I nf or m a t i on M a na ge m e nt U ni ve r s i t a s   G una da r m a D e pok , I ndone s i a   2 D e pa r t m e nt  of  I nf or m a t i c s ,   F a c ul t y of  I ndus t r T e c hnol ogy,  U ni ve r s i t a s  G una da r m a D e pok , I ndone s i a       A r t ic le  I n f o     A B S T R A C T   A r ti c le  h is to r y :   R e c e iv e A ug 25, 2024   R e vi s e J un 23, 2025   A c c e pt e J ul  10, 2025       In  modern  professional  football,  achieving  competitive  edge  depen ds  not  only  on  on - field   performance  but   also  on   effective  off - field   stra tegies,  particularly  in  player  recruitment.  This   study  proposes  machine   lea rning - based  recommendation  system  to  support   talent  identification  and   o ptimal  player  placement  using  statistical   performance  data.   The  model  anal yzes  a   wide  range  of  features,  including   shots,  expected  goals,   expected  assists,  pass  types,  offensive  contributions,  and  defensive  actions   across  fi eld  zones.  The  dataset  undergoes  preprocessing  steps  such  as  normalization  ( per  90  minutes)  and  dimensionality  reduction.   key  innovation   of  this  rese arch  is   the  use  of  principal  component   analysis  (PCA)  to  reduce   f eature  dimensionality,  minimizing  redundancy  while   retaining  es sential  information,  which  improves  model  efficie ncy   and  scalability.  The   r efined  data  is  then  processed  using  the  k - nearest  neighbors  (KNN)  algorith with  cosine  similarity,  allowing  the   system  to   identify  players  with   similar  perfo rmance  profiles  based  on  directional  similarity  in  high - dime nsional  space.  This  combination  enhances  recommendation  accuracy  by  focusing  on  performance  structure  rather  than  raw   values.  The  resulting   system  pr ovides  actionabl e insig hts in to play er  suitab ility  and  potent ial, offeri ng clubs   a data - driven  tool  for  informed  scouting  and  recruitment  decisions.  The  ap proach  demonstrates  the  effectiveness  of   combining  PCA   and  KNN   in  opti mizing  football p layer recommendat ion syst ems.   K e y w o r d s :   C os in e  s im il a r it y   F e a tu r e d   F oot ba ll  pl a ye r   P r e di c ti on   R e c om m e nda ti on s y s te m   This is an  open  acce ss artic le unde r the  CC BY - SA   license.     C or r e s pon di n g A u th or :   R odi a h   D e pa r tm e nt  of  I nf or m a ti c s , F a c ul ty  of  I ndus tr y T e c hnol ogy,  U ni ve r s it a s  G una da r m a   M a r gonda  R a ya  100, P ondok C in a ,   D e pok,  W e s J a v a , I ndone s i a   E m a il r odi a h@ s ta f f . guna da r m a .a c .i d       1.   I N T R O D U C T I O N   T he   a p pl ic a t io o f   da ta   s c ie nc e   a nd  m a c hi n e   le a r ni ng  in   s po r t s pa r t ic u la r l p r o f e s s io na f o ot ba l l,   ha s   g r ow s i gn if ic a nt ly   in   r e c e nt   ye a r s   [ 1 ] T he s e   t e c h nol og i e s   a r e   in c r e a s in gl us e n ot   on ly   to   e nha nc e   te a m   pe r f o r m a nc e   o th e   f i e l bu a ls to   s upp o r s tr a te gi c   d e c is i ons   of f   th e   f ie l [ 2 ] s uc a s   op ti m iz in g   pl a y e r   r e c r u it m e n a nd   p la c e m e n t   [ 3] A s   c om pe t it io in te ns i f ie s   a c r os s   t op   l e a g ue s ,   c l ubs   s e e k   to   ga in   a   c om p e t it iv e   e d ge   by   i nt e g r a t in g   d a ta - d r iv e a pp r oa c he s   i n to   s c ou ti ng   p r oc e s s e s .   F oo tb a ll   c l ubs   m us t   c ons t a n tl y   e va l ua te   a nd  r e pl a c e   pl a ye r s   due   t tr a ns f e r s in j ur ie s ,   o r   pe r f or m a nc e   is s ue s   [ 4 ] .   T r a di ti ona l   s c out in m e th ods w h il e   va lu a bl e a r e   of te s ub je c ti v e   a n c o s tl y M a c hi ne   le a r ni ng  of f e r s   a   m o r e   s c a la bl e   a nd   ob je c ti ve   s o lu t io n,   c a pa b le   o f   e va lu a ti ng   va s da ta s e ts   t id e nt if pl a ye r s   w h os e   s ta ti s ti c a l   p r o f i le s   a li gn  w i th   te a m   ne e ds   [ 5 ] .   A dva nc e f oot ba ll   s ta t is t ic s   s uc a s   e xpe c te goa ls   ( x G ) e xpe c te a s s is ts   ( x A ) t a ke - o ns a nd   de f e ns i ve   a c t io ns   [ 6 ] ,   a r e   now   c o m m on ly   us e d   t a s s e s s   p la y e r   pe r f or m a nc e   [ 7 ] P r e vi ous   r e s e a r c h   [ 8] [ 9 ]   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll V ol . 14, No. 5, O c to be r  2025 3847 - 3857   3848   ha s   e x pl or e p r e di c ti ve   m od e l in f or   pl a ye r   t r a ns f e r s pe r f o r m a nc e   e va lu a ti on a n r ol e   c l a s s i f ic a t io n F o r   e xa m pl e s om e   s t ud ie s   de ve lo pe d   p r e di c ti ve   m o de ls   ba s e d   on  t r a ns f e r   da t a   [ 1 0] w h il e   o th e r s   a pp li e d   c lu s te r in a nd  c la s s if ic a ti on  m e th o ds   to   id e nt i f pl a ye r   r o le s   or   a na ly z e   g a m e   s t r a t e g ie s   [ 1 1] H ow e ve r ,   m a ny  o f  t he s e   a pp r o a c he s  e i th e r  o ve r lo ok  d im e ns i ona li ty  i s s u e s   [ 12 ]   in  h ig h - di m e ns io na l  da ta s e ts   or   f a i to   in t e g r a t e  s i m i la r i ty - b a s e m o de ls  e f f e c t iv e ly  i nt o  p la ye r  r e c o m m e nda ti on s ys te m s .   S e ve r a s tu d ie s   r e la t e to   r e c om m e nda ti on  s ys te m   f o r   f o ot ba l l   pl a ye r s   b a s e on   th e i r   pe r f or m a n c e   a nd  t a le n us i ng  da ta  s c ie nc e   a nd   m a c h in e  l e a r ni ng  c o nc e p ts   h a ve   be e n  c a r r ie ou by  p r e v io us   r e s e a r c he r s .   D in s da le   a nd  G a l la g he r   [ 1 3 ]   c r e a te d   a   m ode to   p r e d ic t   th e   p e r f o r m a nc e   o f   a   f o ot b a l pl a ye r   a f t e r   m ov in g   f r om   one   c l ub  to   a no th e r   a nd  w it a   m o de th a to o i np ut   f r om   13   f e a tu r e s   o f   s ta ti s ti c a da ta   on  th e   pe r f o r m a nc e   o f   a   f oo tb a ll   pl a ye r   o bt a in e f r om   26, 00 s a m pl e s   o f   tr a ns f e r   a n no n - t r a ns f e r   da ta   f r om     32  do m e s t ic   le a gue s   f r om   2 017 M ode ls   in   r e s e a r c h   [ 13 ]   c o m pa r e to   a   s a m pl e   o f   2 , 65 hi s to r ic a l   t r a ns f e r   da ta   a nd   8 , 67 7   h is t or ic a no n - t r a ns f e r   da ta   a n c o m pa r e d   t th e   pr e di c t io ns   of   a   m od e l   t ha ha s   be e n   c r e a te d   w he r e   pl a ye r s   a r e   a s s u m e d   t c on ti nue   to   p r od uc e   t he   s a m e   p e r f o r m a nc e   f r om   b e f or e   a nd   a f te r   t he   c lu b   t r a ns f e r B unk e r   a n T h a b ta h   [ 14 ]   e xp lo r e   th e   us e   o f   m a c hi n e   le a r n in g   i pr e di c t in g   o ut c om e s   i th e   in c r e a s in g ly   im po r ta nt   p r o f e s s i ona s po r ts   w o r ld   o f   s p o r ts   te a m   m a na ge m e n a s   w e l a s   i th e   ga m b li ng   in d us t r y R e s e a r c he r s   a r g ue   th a m a c h in e   le a r ni ng  is   a   p r o m is in g   m e th od  to   a c h ie v e   h ig h - a c c u r a c y   pr e di c ti ons   i th is   f ie l d,   a n r e s e a r c he r s   pr op os e   a   ne w   f r a m e w or c a l le d   s p or ts   r e s ul p r e d ic t io n   c r os s i nd us t r y   s ta nda r d   p r oc e s s   f or   da ta   m i ni ng  ( S R P - C R I S P - DM )   to   pr e di c s po r ts   ou tc om e s t hi s   f r a m e w o r in c lu de s   s e v e r a s ta ge s   s uc h   a s   da ta   c ol le c ti on  a nd  pr e p r oc e s s in g f e a tu r e   s e le c ti o n,  m o de l   c r e a ti on  a nd  m ode e v a l ua t io a nd  de p lo ym e nt C ha va [ 1 5 ]   tr ie s   t f in a   s o lu ti on  to   t he   p r obl e m   to   f i nd   th e   c lo s e s m a tc o f   th e   p la ye r   t be   r e pl a c e us in m a c hi ne   l e a r n in a l go r i th m s P l a ye r s   w il be   c la s s i f ie d   ba s e d   o n   r a t in gs ,   in   th is   s tu dy   s ix   m a c h in e   le a r ni ng   a lg or it hm s   w e r e   us e d,   na m e ly   s upp or t   ve c to r   m a c h in e   ( S V M ) l in e a r   d is c r i m i na n t   a na ly s is   ( L D A ) n a ïv e   B a ye s ,   d e c is io n   t r e e X G B o os t ,   a n k - ne a r e s ne ig h bo r   ( K N N ) t he a   c om pa r is on  w a s   m a d e   be twe e t he   a l go r it h m s   a nd  i w a s   f oun t ha L D A   a n S V M   ha t he   be s t   a c c u r a c w i th   8 3.7 7 %   a nd   80 .3 1%   w hi le   th e   K N N   a l g or it hm   p r o duc e r e s u l ts   th a ha d   t he   c lo s e s t   m a tc to   th e  p r e di c te d  p la ye r .   L i   e al .   [ 16 ]   c ha r a c te r iz e s   th e   t ype   of   p la y   of   f o ot b a l le r s   i th e   C h in e s e   f o ot ba l l   s up e r   le a g ue   ( C S L )   le a gue   o bt a in e d   f r o m   96 m a tc h   da ta   f r o m   20 16 - 2 0 19.   T he   f i r s t   p la y e r   w il be   c l us te r e d   in t o   8   pos i ti ons   th e a   one - pl a ye r   ve c to r   w il be   c r e a te f o r   e a c p la ye r   i e a c m a tc ba s e on  p la y e r   ve c t o r s   us in n on ne ga ti ve   m a t r ix   f a c to r i z a t io n   ( N M F ) .   A s   a   r e s ul t,   1 t ype s   of   p la ye r s   w e r e   f ou nd  to   p la in   th e   C S L   a nd   in   ge ne r a l   t he   t ype   o f   p la y in f o r w a r d   a nd   m i df ie ld e r   is   d ir e c t ly   p r opo r ti o na to   t he   t r e nd   o f   th e   e vol ut io of   f o ot ba l pe r f o r m a nc e ,   w hi le   th e   ty p e   of   p la yi n g   de f e n de r s   m us be   r e c ons id e r e d,   t he   ty pe   o f   m ul ti f unc ti ona p la y   is   a ls f o und   a m on C S L   p la ye r s Y e a e a l.   [ 17 ]   f o un th a m a c h in e   le a r ni ng   a lg o r it hm s   c a a ls be   a pp li e to   s e ve r a c la s s if ic a ti on  p r o bl e m s   in c lu di ng  c li ni c a s t ud ie s o ne   o f   w hi c is   in  t h e  a na l ys is  o f  t he  e m o ti ons  o f  s t r o ke   pa t ie n ts .  T he  K N N   a l go r i th m   r e l ie s  o m e t r ic   di s ta nc e   to  c a lc u la te   th e   ne a r e s t   c la s s   f o r   c la s s i f ic a ti on T he   pu r p os e   o f   th is   s tu dy   w a s   t c om pa r e   t he   pe r f o r m a nc e   o f   s e ve r a l   di f f e r e nt   di s ta n c e   m e t r i c s   t be   a p pl ie to   th e   c la s s i f i c a t io n   of   e m ot io n a e le c t r oe nc e p ha l og r a m   ( E E G )   be tw e e s tr oke   pa t ie n ts   a n o r d in a r pe o pl e T he   r e s ul is   th a t he   c i ty   bl oc di s ta nc e   m e tr ic   h a s   th e   be s t   pe r f o r m a nc e  a m on ot he r s L e al .   [ 1 6]   w a s   f ou nd  t ha t  1 ty pe s  o f  f oo tb a ll e r s  p la ye in  t h e  C S L ,  t h e   ty p e   of  p la y in g  a tt a c ki ng  p la ye r s  a n m i df ie ld e r s   is   di r e c tl p r op or ti o na l   to  t h e   tr e nd  o f  t he  e vo lu ti on  o f   pl a yi ng   s ty l e w hi le   t he   p la y in s ty le   o f   d e f e nde r s   m us be   r e c o ns id e r e d A   w id e   va r ie ty   o f   d is t a nc e   m e t r ic s   w e r e   tr ie d   i t he   s tu d [ 1 7]   a n i w a s   f ou nd  th a th e   d if f e r e n c e   in   t he   m e t r i c s   us e h a a e f f e c o t he   pe r f o r m a nc e  o f   th e  m ode l.   T hi s   s tu d a dd r e s s e s   t he s e   li m i ta ti ons   by   p r o pos in g   a   p r in c ip a c om pon e nt   a na l ys is   ( P C A )   e nha nc e d   K N N   r e c o m m e nda ti on   s ys te m   us in g   c os in e   s i m i la r i ty   to   r e c o m m e nd   f oo tb a ll   p la ye r s   ba s e o n   pe r f o r m a nc e   s im il a r it y.   P C A   is   e m p lo y e d   t r e duc e   f e a tu r e   d im e ns i ona li ty   w hi le   p r e s e r v in g   c r it ic a l   s ta t is t ic a l   i nf o r m a ti on,   t hus   im pr ov in g   m ode p e r f o r m a nc e   a nd  in te r p r e ta bi li ty B y   t r a ns f or m i ng  hi gh - di m e ns i ona pl a ye r   pe r f or m a n c e   d a ta   i nt a   l ow e r - di m e ns io na l   s pa c e P C A   m in im iz e s   r e dun da n c a nd   hi g hl ig ht s   t he   m os t   in f l ue n ti a l   f e a t ur e s .   T he s e   opt i m iz e d   f e a t ur e s   a r e   th e n   ut il iz e in   a   K N N   m ode l   w it h   c os in e   s i m i la r i ty w h ic c a lc u la te s   t he   a n gu la r   s i m i la r it be twe e pl a ye r   ve c to r s m a ki ng  i p a r ti c ul a r ly   e f f e c t iv e   i i de n ti f yi n p la ye r s   w i th   s t r uc tu r a ll s i m i la r   p la y   s ty le s in de pe nde nt   o f   r a w   m a g ni tu de T hi s   m e t hod ol og ic a l  c o m b in a ti on  e n ha nc e s  b ot h t he   pr e c is io n a nd  s c a la b il it of  t he   r e c om m e n da t io n p r oc e s s .   T he   da ta s e t   us e d   in   t hi s   s tu d is   s ou r c e f r om   f o ot ba l l - r e f e r e n c e   ( F B r e f )   [ 18 ]   a nd  c ons is ts   of   pl a y e r   s ta t is t ic s   f r om   th e   to p   f i ve   E u r o pe a n   f o ot ba l l   le a gu e s   du r in g   t he   20 22 20 23   s e a s on   [ 1 9] .   T hi r te e n   pe r f o r m a nc e   f e a tu r e s   a r e   s e le c t e d   f or   o ut f i e l pl a ye r s in c lu d in g   s h ot s x G ,   xA c r os s e s ,   t ot a pa s s e s ,   a n d   va r io us   ty pe s   o f   de f e ns iv e   a n of f e ns i ve   c on tr ib ut io ns P C A   r e duc e s   t he s e   f e a tu r e s   w h il e   m a i nt a in in g   da ta   in t e g r i ty T he   m o de l   t he id e nt i f ie s   th e   m os t   s i m i la r   p la ye r s   ba s e on  c os i ne   s im il a r it s c o r e s o f f e r i ng  a   pr a c ti c a l  t oo f o r  s c ou ts  a nd a na ly s ts  t m a ke  i nf or m e d de c is i ons  a bo ut   po te n ti a r e c r ui ts .     Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       R e c om m e ndat io n s y s t e m  f or  f oot bal pl ay e r   r e c r ui tme nt  us in g k - ne ar e s ne ig hbor   ( M auk a r )   3849   2.   M E T H O D   T hi s  r e s e a r c h c o ns i s t s  of  s e ve r a s t a ge s  of  t h e  pr oc e s s  s ta r ti ng f r om  da ta   c ol l e c ti o n t o t he   c r e a t io n of  a   r e c om m e nda ti on  s ys te m  b a s e d on t he   s im il a r it y of  m a t c h hi s to r i c a d a ta   a s   c a n b e  s e e n i n F ig ur e   1. A th e  f in a l   s ta g e th e   da t a s e th a i s   r e a dy  w il be   gi v e in to   t he   m od e to   be   c r e a te d na m e ly   th e   pl a y e r   r e c o m m e n da ti o s ys te m T h e  m od e w il tr y t o pr e di c t he  di s ta nc e  be t w e e n da t a   poi nt s   us i ng t h e   KNN   a lg or it hm  a n d t he   c o s in e   s im il a r it m e tr ic T h e  d a ta s e us e d i s  d a ta   th a ha s  b e e di m e n s i ona li ty  r e du c ti on  be f or e .   T h e   r e s e a r c h   b e g a n   w it h   t he   pr oc e s s   of   c ol le c ti ng   d a t a   f r om   a   pl a ye r   s t a ti s t ic s   c ol l e c ti on  s it e   c a l le F B r e f   [ 18 ] T h e   d a t a   c ol l e c t e i nc lu d e s   v a r i ou s   f e a t ur e s   s uc a s   xG xA a n s e ve r a ot h e r   f e a tu r e s T h is   da ta   c ol le c ti on   pr o c e s s   i s   c a r r ie o ut   by  s c r a pi ng  da ta   on   pl a y e r   s t a ti s t ic s   a v a i la bl e   o t he   s it e A f t e r   t he   d a t a   i s   s u c c e s s f u ll y   c ol le c t e d th e   ne xt   s te p   i s   to   c a r r out   d a t a   pr e pr oc e s s in g   w h e r e   t hi s   s ta ge   w il l   c on s is of   s e v e r a l   s t a g e s t h e   f ir s of   w hi c b e gi ns   w i th   th e   d a t a   e xp lo r a ti on  s t a g e na m e l t he   e xpl or a ti o a nd   a na l y s i s   of   e a c h   f e a tu r e   in   t he   d a t a s e in   or d e r   t ge a c c ur a te   i nf or m a t io on   t he   b e s t   s te p s   to   b e   ta ke ne xt A f t e r   th e   d a ta   e xp lo r a ti on   pr oc e s s  i s  c o m pl e t e ,   t he   n e x s te p i s   t o   do   d a t a   c le a n i ng.  T h is   p r o c e s s   in vol ve s   r e m o vi ng   d a t a  t h a t   i s   ir r e l e v a n t t he   pur po s e   of   th e   s t ud or   in a c c ur a te   d a t a a s   w e l a s   h a n dl i ng  nul d a t a   o r   m i s s i ng  da ta I n   a dd it i on d a t a   n or m a li z a ti o w il a l s b e   c a r r ie o ut w h ic i s   t h e   pr oc e s s   of   c h a n gi n t he   v a lu e s   in   th e   d a t a s e s o   th a t   t he   d a t a   i s   o t he   s a m e   s c a l e .   A f te r   d a t a   c l e a ni ng,   t he   d a t a   tr a n s f or m a ti on   pr oc e s s   w il l   b e   c a r r i e d   o ut .   T h is   pr o c e s s   in v ol ve s   c onv e r t in g   t he   d a t a   in t a   f or m a t   th a t   i s   m or e   s u it a bl e   f or   m o de l in l a t e r ,   s u c h   a s   c on ve r ti ng  c a t e gor ic a l  d a t a  i nt o  n um e r i c a d a t a ,  a f te r  d a t a   tr a n s f o r m a t io n , f e a tu r e   s e l e c ti o w il b e   c a r r i e d  ou t.   T hi s   pr oc e s s   in vol ve s   s e le c ti ng  th e   m os r e le va nt   a nd  in f or m a ti ve   f e a tu r e s   to   us e   in   th e   m ode l.   T he s e   f e a tu r e s   a r e   c ho s e b a s e d   on  th e ir   im por ta nc e   in   pr e di c ti ng  ta r ge va r ia bl e s ,   r e duc in th e   c ha nc e   of   unde r f it ti ng  a s   w e ll   a s   ove r f it ti ng  [ 20 ]   but   s ti ll   r e pr e s e nt s   th e   da ta s e a s   a   w hol e A f te r   f e a tu r e   s e le c ti on,  m ode c r e a ti on  a nd  tr a in in a r e   c a r r ie out T hi s   m ode w il be   us e to   c r e a te   a   r e c om m e nd a ti on  s ys te m   w he r e   us e r s   c a n   e nt e r   in put   in   th e   f or m   of   pl a ye r s   w ho  w il be   lo oki ng  f or   th e   m os s im il a r   pl a ye r   a c c or di ng  to   th e   f e a tu r e   or   s ta ti s ti c s   th a r e pr e s e nt   th e   pl a ye r T he   m ode w il th e be   te s te to   s e e   how   a c c ur a te   th e   pr e di c ti ons   a r e O nc e   th e   m ode ha s   be e c r e a te a nd  tr a in e a nd  th e   r e s ul ts   a r e   obt a in e d,  th e   m ode w il be   de pl oye d us in g t he  s tr e a m li f r a m e w or [ 21] .           F ig ur e  1. G e ne r a c ha r of   f oot ba ll  pl a ye r  r e c om m e nda ti on s ys te m  r e s e a r c h m e th ods       2 .1.   D at a c ol le c t io n  an d  p r e p ar at io n   T he   de ve lo pm e nt   of   th is   r e c om m e nda ti on  s ys te m   be gi ns   w it th e   c ol le c ti on  a nd  pr e pa r a ti on   of   r e le va nt   da ta H ig h - qua li ty   a nd  w e ll - s tr uc tu r e da ta   i s   e s s e nt ia l   f or   bui ld in a a c c ur a te   a nd  r e li a bl e   m a c hi n e   le a r ni ng  m ode l,   pa r ti c ul a r ly   in   th e   c ont e xt   of   f oot ba ll   pl a ye r   pe r f or m a nc e   a na ly s is T hi s   s ta ge   in vol ve s   s e le c ti ng a  c r e di bl e  da t a  s our c e , i de nt if yi ng ke y pe r f or m a nc e  f e a tu r e s , a nd pe r f or m in g da ta  c le a ni ng t o e ns ur e   c ons is te nc a nd c om pl e te ne s s  be f or e  pr oc e e di ng t o t he  m ode li n g pr oc e s s .     2 . 1 .1.  D at a s ou r c e  an d  s e le c t io n   T hi s   s tu dy  u s e s   pl a ye r   pe r f or m a nc e   da ta   s our c e f r om   F B r e f   [ 18] a   r e put a bl e   f oot ba ll   s ta ti s ti c s   pl a tf or m   th a a ggr e ga te s   a dva nc e pl a ye r   m e tr ic s   a c r os s   m a jo r   f oot ba ll   le a gue s F B r e f   is   w id e ly   a dopt e i n   pr of e s s io na s por ts   a na ly ti c s   due   to   it s   da ta   a c c ur a c y,  br e a dt h,  a nd  a c c e s s ib il it y.  F or   th e   pur pos e   of   th is   r e s e a r c h,  w e   f oc us   on  s ta ti s ti c a da ta   f r om   th e   to f iv e   E ur ope a le a gue s   -   P r e m ie r   le a gue L a   li ga B unde s li ga S e r ie   A , a nd  L ig ue   1,  s p e c if ic a ll f r om   th e   2022 - 2023  s e a s on.  T h e   da ta s e in c lu de s   bot out f ie ld   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll V ol . 14, No. 5, O c to be r  2025 3847 - 3857   3850   pl a ye r s   a nd  go a lk e e pe r s ,   a nd  is   c ur a te to   e ns ur e   c ons i s te nc i th e   m e tr ic s   a na ly z e a c r os s   a ll   le a gue s .   T he   s e le c ti on  of   f e a tu r e s   is   ba s e on  th e ir   r e le v a nc e   in   m e a s ur in a   pl a ye r s   ove r a ll   c ont r ib ut io a nd  pos it io na l   e f f e c ti ve ne s s , c ov e r in g of f e ns iv e , de f e ns iv e , a nd t r a n s it io na a s pe c ts  of  t he  ga m e .     2 . 1 . 2 F e at u r e  s e le c t io n   T hi r te e ke pe r f or m a nc e   m e tr ic s   w e r e   s e le c t e f or   out f ie ld   pl a ye r s in c lu di ng:   s hot s ,   xG ,   xA c r os s e s ,   to ta pa s s e s s hor p a s s e s   ( < 32   m) ,   lo ng  pa s s e s   ( ≥3 2   m ) pa s s e s   in   a tt a c ki ng  th ir d,  pe na lt a r e a   e nt r ie s ta ke - ons de f e n s iv e   a c ti on s   in   ow th ir d,  de f e ns iv e   a c t io ns   in   m id dl e   th ir d,  a nd  de f e ns iv e   a c ti ons   in   oppos it io th ir d F or   goa lk e e pe r s ,   f our   pos it io n - s pe c if ic   m e tr ic s   w e r e   c on s id e r e d,  w it P C A   la te r   r e du c in th is   to   th r e e   c om pone nt s T he   s e le c t e f e a tu r e s   e n s ur e   a   c o m pr e he ns iv e   r e pr e s e nt a ti on  of   e a c pl a y e r ' s     in - ga m e  be ha vi or  a nd r ol e .     2 . 1 . 3 D at a c le an in g an d  i n t e gr at io n   F ol lo w in c ol le c ti on,  th e   da ta s e ts   w e r e   m e r ge a nd  c le a n e d.   P la ye r s   w it in c om pl e te   or   m is s in g   va lu e s   in   th e   s e le c te f e a tu r e s   w e r e   e xc lu de to   pr e s e r ve   da ta   in te gr it du r in m ode li ng.  T he   f in a da ta s e t   w a s   th e s e gm e nt e by  pos it io ( out f ie ld   vs goa lk e e pe r )   to   f a c il it a te   f e a tu r e - s pe c if ic   di m e ns io na li ty   r e duc ti on a nd mode li ng.     2 .2.   D at a e xp lo r at io n   A f te r   c om pl e ti ng  th e   da t a   c ol le c ti on   a n c le a ni ng   s t a ge s ,   a n   e xpl or a to r d a ta   a n a ly s i s   ( E D A )   w a s   c ondu c te d   to  ga in   a  de e pe r   u nde r s ta ndi ng   of   th e   d a ta s e t   a n to  gui de  s ub s e que nt   pr e pr oc e s s in g   de c i s io n s . T hi s   s te p   is   e s s e nt i a to   id e nt if s tr uc t ur a i s s ue s ,   a s s e s s   t he   c om pl e te n e s s   of   th e   d a ta   [ 2 2] a nd  pr e pa r e   it   f or   di m e n s io n a li ty   r e du c ti on   a nd   m od e li ng   [ 23] .   E xpl or a ti on   w a s   c ondu c te d   u s in g   th e   P a nd a s   li br a r y   in   P yt hon   [ 24] w hi c of f e r s   p ow e r f ul   da t a   h a ndl in c a pa b il it ie s T h e   da ta s e t   w a s   f ir s in s pe c te u s in t he   . s h a pe   a tt r ib ut e   to  und e r s t a nd  i ts  s tr u c tu r e F or   o ut f ie ld   pl a ye r s t he  da t a s e c ons is t e of   2,82 r ow s  a nd   151   c ol u m ns r e pr e s e nt in in di vi dua pl a ye r s   a nd  th e ir   pe r f or m a nc e   f e a tu r e s r e s pe c ti ve ly A   ke f oc us   of   th e   e xpl or a ti on   w a s   th e   ha ndl in of   m is s in va lu e s w hi c c a s ig ni f ic a nt ly   im pa c m ode a c c ur a c y.  M is s in va lu e s   ( nul l)   i n   th is   c ont e xt   ty pi c a ll a r is e   due   to   pl a ye r s   not   r e c or di ng   a   v a lu e   in   a   pa r ti c ul a r   s ta ti s ti c a l   c a te gor y   of te n   be c a us e   th e di not   e nga ge   in   th a ty pe   of   pl a dur in th e   s e a s on.  T qua nt if th is th e   is nul l( )   f unc ti on  w a s   us e in   c onj unc ti on  w it s um ( ) r e ve a li ng  a   to ta of   4,585   m i s s in e nt r ie s   a c r os s   va r io us   c ol um ns R a th e r   th a im put in pot e nt ia ll bi a s e v a lu e s r ow s   w it m is s in da t a   in   c r it ic a f e a tu r e s  w e r e   e xc lu d e to   pr e s e r ve   th e   s ta ti s ti c a in te gr it of   th e   da ta s e t.   I a ddi ti on  to   m is s in d a ta th e   pr e s e nc e   of   dupl ic a te   e nt r ie s   w a s   a l s in ve s ti ga te d.  D upl ic a te   r e c or ds   in   th is   s tu dy  w e r e   pr im a r il y   du e   to   pl a ye r s   tr a ns f e r r in be twe e te a m s   w it hi n   th e  s a m e  s e a s on, whic h r e s ul te d i n m ul ti pl e  e nt r ie s  unde r  t he  s a m e   pl a ye r s   na m e . T hi s  w a s  ve r if ie d us in g t he   dupl ic a te d( )   f unc ti on  [ 25]   on  th e   ' pl a ye r '   c ol um n,  w he r e   70  dupl ic a te r e c or ds   w e r e   id e nt if ie d.  I ns te a of   e li m in a ti ng  dupl ic a te s   bl in dl y,  dom a in - s pe c if ic   c ons id e r a ti ons   w e r e   a ppl ie d:   th e   m os c om pl e te   r e c or o r   th e   la te s c lu b da ta  f or  t he  s e a s on w a s  r e ta in e d t o e ns ur e  r e le v a nc e  t o r e c r ui tm e nt  a na ly s is .     2 . 3 .   D at a p r e p r oc e s s in g   A th is   s ta ge th e   m a jo r it of   th e   in f or m a ti on  on  th e   da ta s e ha s   be e known  th a nks   to  s e ve r a s ta ge s   th a ha ve   be e c a r r ie out   be f or e s th a t   th e   m os e f f ic ie nt   s ta ge   c a be   c a r r ie out   to   c ont in ue   th e   r e s e a r c h.  I n t hi s  pr e pr oc e s s in g s ta g e , i is  di vi de d i nt o s e ve r a s m a ll e r  s ta ge s , na m e ly :   i)   D a ta   c le a ni ng  s ta ge   f or   r e dunda nt   a nd  va lu a bl e   da ta   nul om it te f r om   da ta s e to   e ns ur e   m a xi m um   m ode pe r f or m a nc e   [ 26] .   O th e   c ode   s ni ppe be lo w   s om e   f e a tu r e da ta   s uc a s   nom in a da ta   s uc a s   w hi c h t e a m  t he  pl a ye r  pl a ye d i n, t he  a ge  of  t he  pl a ye r ,  a nd t he   na ti ona li ty  of  t he  pl a ye r  a r e  o m it te d f r om   th e   da ta s e s th a th e   onl da ta   le f is   qua nt it a ti ve   da t a   th a w il be   us e a s   da ta   tr a in in f or   th e   m ode th a w il be  m a de  l a te r .   ii)   I a ddi ti on  to   th e   d a ta s e f e a tu r e a   dupl ic a te   da ta   c a n   a ls o   b e   s a id   to   be   dupl ic a te ,   a c c or di ng  to   th e   e xpl or a ti on  c a r r ie out   in   th e   pr e vi ous   s ta ge it   is   known   th a t he r e   a r e   70  dupl ic a te   da ta   in   th e   ' pl a ye r '   c ol um to   ove r c om e   th i s e a c pl a ye r   w il be   gi ve n   a   uni qu e   i a nd  e a c da t a   ow ne d   by  th e   pl a ye r   w il be  c om bi ne d i nt o one  t o e a c h unique  i d.   iii)   A th e   da ta   s ta ge   e xpl or a ti on  pr e vi ous ly it   w a s   f ound  th a t   th e r e   w e r e   s ti ll   4 , 585  a m ount s   of   da t a   th a w e r e   nul th e it   is   ne c e s s a r to   ta ke   s te ps   to   e li m in a te   th e s e   da ta by  us in f unc ti on  ot he r   pr ovi de d   li br a r P a nda s  a r e  f il ln a ( )   [ 27]   va lu a bl e  da ta   nul l   r e pl a c e d w it a  va lu e  of  z e r o or  0 a s  c a n be  s e e n i n t he   c ode   s ni ppe t.   D a ta   th a is   nul l ,   t hi s   i s   r e pl a c e w it 0   s o   th a t he   da ta   r e m a in s   c on s is te nt ,   a nd  th e   s ha p e   of  t he  da ta  i s  l e s s  s ke w e d t o one  s id e .     2 . 4 .   D at a t r an s f or m at io n   O nc e   th e   da ta   is   c le a of   r e dunda nt   da ta   a nd  th e   va lu e   of   nul l   ne xt   is   to   c ha nge   th e   w hol e   da ta s e in to  a  f or m  t ha t  s uppor ts  m a xi m um  m ode pe r f o r m a nc e . I n a  f o ot ba ll  s ta ti s ti c , a  pl a ye r  w ho ha s  m or e  m in ut e s   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       R e c om m e ndat io n s y s t e m  f or  f oot bal pl ay e r   r e c r ui tme nt  us in g k - ne ar e s ne ig hbor   ( M auk a r )   3851   pl a ye d t e nds  t o ha ve  a  hi ghe r  s ta ti s ti c a va lu e  t ha n a  pl a ye r  w ho  ha s  l e s s  m in ut e s  of  pl a y da ta   [ 28] . T he r e f or e ,   th is   c a be   ove r c om e   to   nor m a li z e   s ta ti s ti c a da ta   in to   a   f or m   pe r   90  m in ut e s   [ 29]   na m e ly   nor m a li z in th e   da ta  s o t ha a ll  pl a ye r  da ta  i s  c ons id e r e e qua e ve n t hough the y  ha ve  di f f e r e nt  m in ut e s  of  pl a y us in th e   ( 1) .         90      =          ×   90   ( 1)     2.5.  F e at u r e  s e le c t io n  of  f oot b al p la ye r s   N ot   a ll   f e a tu r e a t   da ta s e w il be   pa r of   th e   tr a in in d a ta   a ga in s t   th e   m ode l,   to   r e duc e   th e   unde r f it ti ng  a nd   ove r f it ti ng   th e it   is   ne c e s s a r to   s e le c th e   da ta   f e a tu r e   or   f e a tu r e   s e le c ti on  [ 30] .   T he   pl a ye r   s ta ti s ti c a da ta   f e a tu r e   is   s e le c te th e   be s to   r e pr e s e nt   e a c pl a ye r w hi c is   s e le c te a s   m a ny  a s   13  f e a tu r e da ta  f or  e a c h pl a ye r  out f ie ld  a s  f ol lo w s :   i)   S hot s th e   num be r  of  s hot s  t he  pl a ye r  ha s  m a d e .   ii)   xG th e   pr oba bi li ty  o f  a  pl a ye r   s c or in g a  goa in  e a c h ki c k t a ke n  ( on a  s c a le  of  0 - 1) .   iii)   xA th e   pr oba bi li ty   of   a   pl a ye r   s c or in a   pa s s   th a w il be   c onve r te in to   a   goa by  a   te a m m a te   ( on  a   s c a le  of  0 - 1) .   iv )   C r os s e s th e   num be r  of  t im e s  a  pl a ye r  m a ke s  c r os s e s .   v)   T ot a pa s s e s th e   to ta p a s s e s  m a de  by t h e  pl a ye r .   vi )   T ot a s hor pa s s e s  ( < 32   m ) a   s hor pa s s  or  pa s s  t ha m ove s  s hor te r  t ha n 32 me te r s  by a  pl a ye r .   vi i)   T ot a lo ng  pa s s e s   ( 32   m ) th e   num be r   of   lo ng  pa s s e s   or   pa s s e s   th a m ove   m or e   th a 32  m e te r s   by    a  pl a ye r .   vi ii )   P a s s e s  i a tt a c ki ng t hi r ds th e  numbe r   of  pa s s e s  a  pl a y e r  m a ke s   in  1/ 3 of  t he  f ie ld  i n t he  oppone nt ' s  a r e a .   ix )   P e na lt a r e a  e nt r ie s th e   num be r  of  pa s s e s  a  pl a y e r  m a ke s  i nt o t he  box.   x)   T a ke - ons th e   num be r  of  a tt e m pt s  t o pa s s  a  pl a ye r  by dr ib bl in g.   xi )   D e f e ns iv e   a c ti ons   in   ow th ir d:   th e   num be r   of   de f e ns iv e   a c ti ons   pe r f or m e by  pl a ye r s   in   1/ 3   of   th e i r   ow n f ie ld .   xi i)   D e f e ns iv e   a c ti ons   in   m id dl e   th ir d:   th e   num be r   o f   de f e ns iv e   a c ti ons   m a de   by  pl a ye r s   in   th e   m id dl e   o f     th e  f ie ld .   xi ii )   D e f e ns iv e   a c ti ons   in   oppo s it io th ir ds th e   num be r   of   de f e ns iv e   a c ti ons   a   pl a ye r   pe r f or m s   on  1/ of   th e   f ie ld  i n t he  oppone nt ' s  a r e a .   I th is   s tu dy,   th e   s e le c te d   pl a ye r s   a r e   a ls o   pl a ye r s   w ho  ha v e   90  m in ut e s   or   f ul pl a yi ng  num be r s   dur in a   m a tc a le a s ti m e s   to   r e duc e   th e   num be r   of   pl a ye r s   w ho  ha ve   m in im a da t a   s a m pl e s   us in g   th e   f ol lo w in g P s e udoc ode :     o u t _ d f   =   g r a n d [ g r a n d [ ' 9 0 s ' ] > = 3 ]   g k _ d f   =   g k _ g r a n d [ g k _ g r a n d [ ' 9 0 s ' ] > = 3 ]     F ur th e r m or e it   w i ll   be   c a r r ie out   di m e ns io na li ty   r e duc ti on  u s i ng  th e   P C A   pr ovi de by  L ib r a r y   s kl e a r [ 31] a th is   s ta ge   th e   da ta s e w il a ga in   be   s e le c te f or   th e   da ta   f e a tu r e s   th a be s r e pr e s e nt   th e   e nt ir e   in f or m a ti o n   f r om  t he  da ta  us in g t he  f ol lo w in g ps e udoc ode :     p c a   =   d e c o m p o s i t i o n .   P C A ( )   p c a . n _ c o m p o n e n t s   =   1 3   p c a _ d a t a   =   p c a . f i t _ t r a n s f o r m ( o u t _ d a t a )     A th e   pr e pr oc e s s in c on s is ts   of   f e a tu r e   s e l e c ti on  us in P C A   w he r e   th e   da ta   di m e ns io is   r e duc e but   s ti ll   r e ta in s   th e   m a jo r it of   th e   in f or m a ti on  [ 32]   da ta th e r e by  r e duc in th e   pos s ib il it of   unde r f it t in a nd   ove r f it ti ng D im e ns io r e duc ti on  us in P C A   is   c a r r ie out   on  two  da ta na m e ly   pl a y e r   da ta   w it pos it io n   out f ie ld   a nd a ls o pl a ye r s  w it h t he  goa lk e e pe r  pos it io n.     2.6.  Cr e at io n  of  r e c o m m e n d at io n  s ys t e m   A th is   s ta g e th e   d a ta s e i s   r e a dy   to   be   f e in to   th e   m ode to   b e   c r e a te d,  th e   m ode w il tr to   pr e di c th e   di s ta nc e   be twe e da ta   poi nt s   us in th e   KNN   a lg or it hm   a nd  th e   c os in e   s im il a r it m e tr ic T he   da ta s e us e is   da ta   th a h a s   b e e di m e n s io na li ty   r e duc ti on  be f or e L ib r a r y   S c iP y   pr ovi de s   a   f unc ti on  na m e d   di s ta nc e   w hi c w il w or k   by  pe r f or m in g   c om put a ti ons   be twe e two  or   m or e   da ta   poi nt s   in   N - di m e ns io na s pa c e   [ 33] I th e   im pl e m e nt a ti on,  e a c pl a y e r   is   a s s ig ne d   a   uni que   id e nt i f ie r w hi c is   th e us e to   s y s te m a ti c a ll p a ir   a nd  c om pa r e   pl a ye r s   in   a   lo op e pr oc e s s .   T he   c om pa r is on   is   c onduc te it e r a ti ve ly   u s in a   di s ta nc e   f unc ti on  th a c a lc ul a te s   s im il a r it s c or e s   be twe e a ll   pos s ib le   pl a ye r   pa i r s .   F ur th e r m or e ,   th e   r e s ul da ta   is   no r m a li z e d   on  a   s c a le   of   0 - 100  to   obt a in   da ta   th a is   e xc lu s iv e   a c r os s   a ll   c om pone nt s   da ta s e t A ll   r e s ul ts   f r om   th e   m ode l   a r e   th e f e in to   th e   f or m   of   pi c kl e   or   a   f or m   of   s to r a ge   pr ovi de by  P yt hon  s o   th a th e   da ta   f r om   m ode l   tr a in in g c a n be  s to r e d a nd r e us e d l a te r   [ 34] .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll V ol . 14, No. 5, O c to be r  2025 3847 - 3857   3852   3.   R E S U L T S  A N D  D I S C U S S I O N   T r e duc e   di m e ns io na li ty   a nd   im pr ove   m ode e f f ic ie nc y,  P C A   w a s   a ppl ie s e pa r a te ly   to   out f ie ld   pl a ye r s   a nd  goa lk e e p e r s T he   go a w a s   to   r e ta in   th e   m a jo r it of   va r ia nc e   ( ≥95% )   w hi le   m in im iz in th e   num be r   of   f e a tu r e s   to   a voi ove r f it ti ng  a nd  unde r f it t in dur i ng  K N N - ba s e s im il a r it m a tc hi ng.  F ig ur e   s how s   th e   e xpl a in e va r ia nc e   r a ti f or   out f ie ld   p la ye r   da ta O r ig in a ll y,  12  f e a tu r e s   w e r e   us e d.  A f te r   pe r f or m in P C A it   w a s   obs e r ve th a 10  c om pone nt s   r e ta in e 98.7%   of   th e   to ta va r ia nc e m a ki ng  th e m   s uf f ic ie nt   f or   r e pr e s e nt in th e   da ta   w it hout   s ig ni f ic a nt   in f or m a ti on  lo s s T hi s   s e le c ti on  w a s   m a de   u s in th e   c um ul a ti ve  e xpl a in e d va r ia nc e  t hr e s hol d, a  s ta nd a r d pr a c ti c e  i P C A - ba s e d m ode li ng.   S im il a r ly goa lk e e pe r   da ta   be ga w i th   4   f e a tu r e s B a s e on  th e   r e s ul ts   of   th e   P C A onl y   th r e e   pr in c ip a c om pone nt s   w e r e   r e qui r e to   r e ta in   100%   of   th e   va r ia nc e   in   th e   da ta s e t.   T hi s   de m ons tr a te s   P C A ' s   e f f e c ti ve ne s s   in   ha ndl in bot h   la r ge   a nd   c om pa c t   f e a tu r e  s e ts ,   e s pe c ia ll f or   hi ghl y s pe c ia li z e pos it io ns   s u c a s   goa lk e e pe r s T he   di m e n s io na li ty   r e duc ti on  pr oc e s s   s ig ni f ic a nt ly   r e duc e noi s e   in   th e   da ta   a nd  im pr ove th e   c om put a ti ona pe r f or m a nc e   of   th e   m ode w hi le   pr e s e r vi ng  th e   unde r ly in pl a ye r   be ha vi or   pa tt e r ns H ow e ve r w hi le   P C A   e f f e c ti ve ly   r e duc e s   f e a tu r e   s pa c e   a nd   m a in ta in s   hi gh   in f or m a ti on  r e te nt io n,  it   is   e s s e nt ia to  c r it ic a ll y e xa m in e  i ts  l im it a ti ons . S ugge s te d a lt e r na t iv e s  f or  f ut ur e  w or k c a n be  s e e n i n T a bl e  1.           F ig ur e  2. P C A  f or  out f ie ld  pos it io n pl a ye r  da ta       T a bl e  1. S ugge s t e d a lt e r na ti ve s  f or  f ut ur e  w or k   T e c hni que   S t r e ngt hs   L i m i t a t i ons   P C A   F a s t , r e t a i ns  m a xi m um   va r i a nc e , w i de l y us e d   L i ne a r , l e s s  i nt e r pr e t a bl e   t - di s t r i but e s t oc ha s t i c   ne i ghbor   e m be ddi ng   C a pt ur e s  nonl i ne a r  r e l a t i ons hi ps  w e l l   C om put a t i ona l l y e xpe ns i ve , poor  f or  ne w  da t a   U ni f or m   m a ni f ol a pp r oxi m a t i on   a nd pr oj e c t i on   P r e s e r ve s  bot h l oc a l  a nd  gl oba l  s t r uc t ur e   M a y r e qui r e  f i ne - t uni ng, l e s s  i nt e r pr e t a bl e   A ut oe nc ode r s   L e a r ns  de e p, nonl i ne a r  f e a t ur e s   R e qui r e s  l a r ge r  da t a s e t s  a nd t r a i ni ng t i m e       3.1.   I m p ac t  on  r e c o m m e n d at io n  r e s u lt s   T he   r e s ul ts   of   th e   r e duc ti on  by   s e le c ti ng  f e a tu r e s   us in P C A   s uc c e e d e in   r e c om m e ndi ng  pl a ye r s   w it pa tt e r ns   th a c lo s e ly   m a tc ba s e on  f oot ba ll - s pe c if ic   be h a vi or F or   e xa m pl e a s   s how in   F ig ur e   3,  th e   r e c om m e nda ti on s ys te m  i de nt if ie d R iy a d M a hr e z   a s  t he  m os s i m il a r  pl a ye r  t o L io ne l  M e s s i,  w it h a  s im il a r it s c or e   of   91.85% T hi s   r e s ul il lu s tr a te s   th e   s tr e ngt of   P C A   in   c a pt ur in la te nt   be ha vi or a p a tt e r ns   a c r o s s   hi gh - di m e ns io na f oot ba ll   pe r f or m a nc e   da ta B f il te r in ou l e s s   r e le va nt   f e a tu r e s   a nd  r e ta in in th os e   th a t   c ont r ib ut e   m os to   th e   va r ia nc e P C A   e na bl e s   th e   r e c om m e nda ti on  s ys te m   to   m a tc pl a ye r s   w it r e m a r ka bl e   pr e c is io n.  T he   s im il a r it s c or e   of   91.85 %   be twe e L io ne l   M e s s a nd  R iy a M a hr e z   in   F ig ur e   3,  r e f le c ts   how   P C A  pr e s e r ve s  nua n c e d pl a yi ng s ty le s  w hi le  e nha n c in g c om put a ti ona e f f ic ie nc y.           F ig ur e  3. E xa m pl e  of  r e c om m e nda ti on s ys te m  a f te r  f e a tu r e  s e le c ti on us in g P C A   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       R e c om m e ndat io n s y s t e m  f or  f oot bal pl ay e r   r e c r ui tme nt  us in g k - ne ar e s ne ig hbor   ( M auk a r )   3853   3. 2 .   R e s u lt s  of   s h ot s  p os it io n  d is t r ib u t io n  r e p r e s e n t at io n  an al ys is  on  t h e  f oot b al f ie ld   F or  e xa m pl e , F ig ur e  4  s how s  a  r e pr e s e nt a ti on of  s hot s  pos it io n di s tr ib ut io n on the  f oo tb a ll  f ie ld   [ 35] P la ye r s  w it h t he  goa lk e e pe r  pos it io n, t he  f e a tu r e  w il be  s e pa r a t e d i nt o t hr e e , na m e ly :   i)   A ve r a ge   pa s s  l e ngt h:  t he   num be r  of   goa lk e e pe r s   pa s s  di s ta nc e s   ( in  m e te r s ) .   ii)   A ve r a ge   goa ki c k l e ngt h:  t he   to ta di s ta nc e  of  a  goa lk e e pe r  ( in   m e te r s ) .   iii)   C r os s e s   s to ppe d:  t he   num be r  of  c r os s e s  t ha th e  goa lk e e pe r  ha s   s to ppe d.   T he   r e s ul ts   of   th e   f in di ngs   s how   th a ba s e on  a ll   s ta ti s ti c s th e   pl a ye r s   w ho  a r e   r e pr e s e nt e a c c or di ng  to   th e   pos it io a nd  r ol e   pl a y e in   a   te a m   a r e   s e le c te a c c ur a te ly   a nd  c a be   c a te gor iz e in to   f our   c a te gor ie s   th a de s c r ib e   th e   a bi li ti e s   of   out f ie ld   pl a ye r s   th a c a be   s e e a s   in   T a bl e   2.   O ne   of   th e   pr of il e s   of   c ha m pi ons   le a gue   f oot ba ll   pl a y e r s   A le x a nde r   I s a k   f r om   B or u s s ia   D or tm und  c a b e   s e e n   in   F ig ur e   w h e vi s it in A th li ti kos  P odos f e r ik os  O m il os   E ll in on  L e f kos ia s   ( A P O E L )   N ic os ia  i n  O c to be r  2017  [ 36] . A s  c a n be   s e e in   one   e xa m pl e   of   a   E ur ope a le a gue   pr of il e S w e de n s tr ik e r   A le xa nde r   I s a ha s   40 c a ps   w it two   goa ls   in   th e   P r e m ie r   le a gue   f r om   hi s   f ir s th r e e   ga m e s T he   pl a ye r   s ti ll   s c or e s   10  goa ls   in   th e   le a gu e   ( e ig ht   non - pe na lt goa ls ) B a s e d   on  th e   s ta ti s ti c s   in   F ig ur e   5,  out   of   a   to ta of   52  s hot s   ( 32  r ig ht   f oot   a nd  le f f oot ) he a d i s  11 with a n a c c um ul a ti on of  xG  of  6.7 a nd x G  pe r  s hot  of  0.14 a nd puts  t he  pl a ye r  a s  a   c e nt e r  f or w a r d.   P C A   a ls pr ove s   b e ne f ic ia in   a na ly z in di s tr ib ut io n - ba s e f e a tu r e s   s u c a s   s hot s   a nd   pos it io na l   be ha vi or s A s   de m ons tr a te in   F ig ur e   5 th e   pr of il e   of   A le xa nde r   I s a k,  P C A   a bs tr a c ts   c om pl e f e a tu r e   in te r a c ti ons   ( e .g.,  f oot   pr e f e r e nc e ,   xG   e f f ic ie nc y,  a nd  h e a di ng  a bi li ty )   in to   c onc is e   c om pone nt s T he s e   c om pone nt s   r e ta in   th e   e s s e nt ia va r ia nc e   r e qui r e to   di f f e r e n ti a te   pl a ye r   ty pe s   a nd   r ol e s .   T hi s   a b s tr a c ti on  e na bl e s   th e   r e c om m e nda ti on  e ngi ne   to   m a tc pl a ye r s   not   on ly   on  a bs ol ut e   s hoot in m e tr ic s   but   a ls on   nua nc e d,  c a te gor y - le ve be ha vi or   pa tt e r n s T he   pr e s e r va ti on  of   pl a ye r   c ha r a c te r is ti c s   a c r os s   f e a tu r e   c a te gor ie s s uc a s   s hoot in a bi li ty   a nd  s ur vi va bi li ty f ur th e r   il lu s tr a te s   P C A ' s   s tr e ngt in   m a in ta in in f oot ba ll - s pe c if ic  c ont e xt  w it hi n a  r e duc e d di m e ns io na s p a c e .           F ig ur e  4. S hot  pos it io n di s tr ib ut io n on the  f oot ba ll   f ie ld   [ 35]       T a bl e  2. C a te gor di vi s io n of  f e a tu r e  da ta   It   C a t e gor y   F e a t ur e d   1   S hoot i ng a bi l i t y   S hot s , xG   2.   B a i t  a bi l i t y   xA , c r os s e s , t ot a l  pa s s e s t ot a l   s hor t  pa s s e s , t ot a l  l ong pa s s e s pa s s e s  i n a t t a c ki ng t hi r ds , pe na l t y a r e a  e nt r i e s   3   B a l l - c a r r yi ng a bi l i t y   T a ke - ons   4   S ur vi va bi l i t y   D e f e ns i ve  a c t i ons  i n ow n t hi r d, de f e ns i ve   a c t i ons  i n m i ddl e  t hi r d,  de f e ns i ve  a c t i ons  i n oppo s i t i on t hi r ds           F ig ur e  5. T he  pr of il e  of  one  of  t he  c ha m pi ons  l e a gue  f oot ba ll  pl a ye r s   [ 36]   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll V ol . 14, No. 5, O c to be r  2025 3847 - 3857   3854   3. 3 .   P r e d ic t io n  s ys t e m  r e s u lt s  b as e d  on  p la ye r  t al e n t   A f te r   th e   de ve lo pm e nt   a nd  e v a lu a ti on  of   th e   r e c om m e nda t io m ode l,   th e   f in a s te in vol ve d   de pl oyi ng  th e   tr a in e m ode to   a in te r a c ti ve   a nd  us e r - f r ie ndl pl a tf or m T hi s   w a s   a c c om pl is h e us in S tr e a m li t,   a   P yt hon - ba s e f r a m e w or id e a f or   bui ld in w e b   a ppl ic a ti ons   f or   da ta   s c i e nc e   pr oj e c ts T he   de pl oym e nt   w a s   c a r r ie out   w it hi n   a   G oogl e   C ol a not e book,   in te gr a ti ng  th e   tr a in e m ode l,   pl a ye r   da ta s e t,   a nd i nt e r f a c e  l ogi c .   B e f or e   de pl oym e nt di m e ns io na li ty   r e duc ti on  us in P C A   w a s   a ppl ie to   th e   da ta s e t.   T hi s   s te w a s   e s s e nt ia f or   im pr ovi ng  c om put a ti ona e f f ic ie nc a nd  e li m in a ti ng  noi s e   f r om   ir r e le va nt   f e a tu r e s T he   num be r   of   r e ta in e pr in c ip a c om pone nt s   w a s   de te r m in e b a s e d   on  th e   c um ul a ti ve   e xpl a in e va r ia nc e   c r it e r io n,  e ns ur in th a a le a s 95%   of   th e   da ta s e t’ s   va r ia nc e   w a s   pr e s e r ve d.  F or   out f ie ld   pl a ye r s th is   r e s ul te in   th e   r e te nt io of   11  pr in c ip a c om pone nt s w hi le   f or   goa lk e e pe r s ,   c om pone nt s   w e r e   s uf f ic ie nt   due   to   th e ir   m or e   s pe c ia li z e a nd  f e w e r   pe r f or m a nc e   m e tr ic s T hi s   s e le c ti on  ba la nc e s   di m e n s io na li ty   r e duc ti on  w it in f or m a ti on  p r e s e r va ti on,  opt im iz in th e   pe r f or m a nc e   o f   th e   K N N   a lg or it hm   w hi le   m in im iz in ove r f it ti n g   a nd  c om put a ti ona ove r he a d.  T he   d e pl oye s y s te m   e na bl e s   u s e r s s u c a s   a na ly s t s s c out s or   c oa c he s   to   id e nt if pl a ye r s   w it s im il a r   s ta ti s ti c a l   pr of il e s   ba s e on   hi s to r ic a m a tc da ta .   T he   ke f e a tu r e s   of   th e   pl a tf or m  i nc lu de :     P la ye r   ty pe   s e l e c ti on :   us e r s   c a s p e c if w he th e r   th e   que r ta r ge ts   a out f ie ld   pl a y e r   or   a   go a lk e e pe r ,   e na bl in g pos it io n - s pe c if ic  r e c om m e nda ti ons .     S e a r c f unc ti ona li ty :   a   te xt   in put   a ll ow s   us e r s   to   s e a r c f or   a   pl a ye r   by  na m e U pon  s e le c ti on,  th e   pl a ye r s  c lu b a nd othe r  ba s ic  i nf or m a ti on a r e  di s pl a ye d.     C us to m iz a bl e   r e s ul c ount :   by  de f a ul t th e   s ys te m   r e tu r ns   f iv e   s im il a r   pl a ye r s but   us e r s   c a m odi f th is   to  di s pl a y be twe e n t hr e e  a nd t e n r e c om m e nda ti ons .     L e a gue   f il te r :   a   dr opdown  m e nu   a ll ow s   f il te r in r e s ul ts   by   s pe c if ic   le a gue s   ( e .g.,  P r e m ie r   le a gue   a nd     L a   li ga ) , w it h t he  de f a ul s e to  i nc lu de  a ll  l e a gue s .     P os it io m a tc hi ng  f il te r :   us e r s   c a c hoo s e   w he th e r   to   di s pl a y   onl pl a ye r s   f r om   th e   s a m e   pos it io or   f r om  a ny pos it io n. B y de f a ul t,  a ll  pos it io ns  a r e  i nc lu de d.     A ge   f il te r :   a   s li de r   pr ovi de s   f il te r in ba s e on  pl a ye r   a ge r a ngi ng  f r om   15  to   45  ye a r s w it a   de f a ul t   r a nge  of  15 t o 41 ye a r s  t o m a tc h c om m on pr of e s s io na c a r e e r  s pa ns .   T he  out put  i s  pr e s e nt e d i n a  s or ta bl e  t a bl e  t ha di s pl a ys th e   na m e  of  e a c h r e c om m e nde d pl a ye r th e ir   s im il a r it pe r c e nt a ge   ( ba s e on  c os in e   s im il a r it y) pos it io n,  le a gue a ge a nd  to ta num be r   of   m a tc he s   pl a ye d   ( e xpr e s s e in   90 - m in ut e   e qui va le nt s ) A e xa m pl e   of   th e   s y s te m s   in te r f a c e   a nd  r e c om m e nda ti on  r e s ul t s   is   pr e s e nt e in   F ig ur e   6,  w h e r e   us e r s   c a in te r a c ti ve ly   e xpl or e   a n e va lu a te   pl a ye r s   w ho  m o s c lo s e ly   r e s e m bl e   th e   s ta ti s ti c a pr of il e   of   a   s e le c te in di vi dua l.   T he   s y s te m ' s   de s ig e m pha s iz e s   tr a ns pa r e nc a nd  f le xi bi li ty m a ki ng i a n e f f e c ti ve  de c is io n - s uppor to ol  i n t he  c ont e xt  of  t a le nt  i de nt if ic a ti on a nd r e c r ui tm e nt .           F ig ur e  6. P la ye r  r e c om m e nda ti on s ys te m       3. 4 .   C om p ar is on  w it h   p r e vi ou s  s t u d ie s  an d  p e r f or m an c e   e v al u at io n   T a bl e   3   pr ovi de s   a   s um m a r of   r e le va nt   pr io r   r e s e a r c in   th e   dom a in   of   f oot ba ll   pl a ye r   pr e di c ti on  a nd  r e c om m e nda ti on  s ys te m s hi ghl ig ht in th e ir   m e th ods li m it a ti ons a nd  th e   c om pa r a ti ve   s tr e ngt h s   of   th e   c ur r e nt   s tu dy.   W hi le   pr e vi ous   s tu di e s   h a ve   a ddr e s s e pl a y e r   c la s s if ic a ti on  a nd  pe r f or m a nc e   pr e di c ti on,  th e y   Evaluation Warning : The document was created with Spire.PDF for Python.
I nt  J  A r ti f   I nt e ll     I S S N :   2252 - 8938       R e c om m e ndat io n s y s t e m  f or  f oot bal pl ay e r   r e c r ui tme nt  us in g k - ne ar e s ne ig hbor   ( M auk a r )   3855   of te ove r lo ok  two  c r it ic a a s p e c ts e f f e c ti ve   di m e ns io na li ty   r e duc ti on  a nd  th e   us e   of   a ppr opr ia te   s im il a r it m e tr ic s M a ny   e xi s ti ng  m ode l s   s tr uggl e   w it hi gh - di m e ns i ona da ta w hi c h   c a n   hi nde r   s c a la bi li ty   a nd  a c c ur a c y.  I c ont r a s t,   th is   s tu dy   e m pl oys   P C A   to   r e ta in   onl y   th e   m os r e le va nt   f e a tu r e s pr e s e r vi ng  up  to   98.7%   of   th e   or ig in a in f or m a ti on  w hi le   r e duc in m ode c om pl e xi ty A ddi ti ona ll y,  th e   a dopt io of   c os in e   s im il a r it pr ovi de s   a   m or e   r obus m e a s ur e   of   s im il a r it by  c a p tu r in th e   di r e c ti ona pa tt e r of   pe r f or m a nc e r a th e r   th a r e ly in s ol e ly   on  m a gni tu de - ba s e di f f e r e nc e s th e r e by  of f e r in a   m or e   m e a ni ngf ul   c om pa r is on   be twe e n pl a ye r s  w it h va r yi ng pla y i nt e n s it ie s  but  s im il a r  s ty le s .       T a bl e  3. C om pa r is on of  c ur r e nt  s tu dy w it h pr e vi ous  r e s e a r c h   S t udy   M e t hod us e d   F e a t ur e  s e l e c t i on   D i s t a nc e   m e t r i c   M a i n l i m i t a t i ons   P e r f om a nc e   hi ghl i ght   C om pa r i s on  a dva nt a ge   [ 13]   R e gr e s s i on  m ode l  f or   t r a ns f e r   pr e di c t i on   M a nua l  s e l e c t i on  ( 13 f e a t ur e s )   N / A   F oc us e d onl y on  pos t - t r a ns f e r   pe r f or m a nc e   P r e di c t i ve  a c c ur a c f or  t r a ns f e r s   L i m i t e d t o t r a ns f e r   out c om e s , not   t a l e nt  m a t c hi ng   [ 14]   S R P - C R I S P - D M   f r a m e w or k   F i l t e r - ba s e d   N ot  s pe c i f i e d   G e ne r a l   pr e di c t i on  f r a m e w or k   S t r uc t ur e a ppr oa c h   D oe s  not  pr ovi de   s i m i l a r i t y - ba s e r e c om m e nda t i on   [ 15]   M ul t i pl e  M L   a l gor i t hm s   ( S V M , L D A a nd  KNN)   N ot  e m pha s i z e d   E uc l i de a di s t a nc e   I nc ons i s t e nt   f e a t ur e   pr e pr oc e s s i ng   L D A  a c c ur a c y:   83.77%   N o di m e ns i ona l i t r e duc t i on;  l ow e r   i nt e r pr e t a bi l i t y   [ 16]   N M F  +  c l us t e r i ng   M a nua l , pos i t i on - ba s e d   N / A   F oc us e d on C S L   pl a ye r s  onl y   F ound 18 pl a ye r   t ype s   C ont e xt - l i m i t e a nd uns ui t e d f or   s i m i l a r i t y r a nki ng   [ 17]   K N N  ( w i t m ul t i pl e   di s t a nc e   m e t r i c s )   N one   C i t bl oc k   F oc us e d on  c l i ni c a l  E E G   da t a   C i t bl oc pe r f or m e d be s t   I r r e l e va nt  dom a i n;   i ns i ght s  not   di r e c t l t r a ns f e r a bl e   C ur r e nt   S t udy   P C A  + K N N   w i t c os i ne   s i m i l a r i t y   P C A - ba s e di m e ns i ona l i t r e duc t i on  ( O ut f i e l d:  13→10,  G K :   4→3)   C os i ne   s i m i l a r i t y   O nl y l i ne a r   t r a ns f or m a t i on  c ons i de r e ( P C A )   M a i nt a i ne d ≥ 98%   va r i a nc e , M a hr e z   91.85%  s i m i l a r i t t o M e s s i   S upe r i or  ba l a nc e   of  di m e ns i ona l i t r e duc t i on,  pe r f or m a nc e , a nd  i nt e r pr e t a bi l i t y       4.   C O N C L U S I O N   T hi s  s tu dy  pr opos e s   a   s tr uc tu r e a nd   s c a la bl e   r e c om m e nda ti on mode f or   f oot ba ll   pl a ye r   r e c r ui tm e nt   by  in te gr a ti ng  P C A   f or   di m e ns io na li ty   r e duc ti on  w it K N N   a nd  c os in e   s im il a r it f or   pe r f o r m a nc e - ba s e c om pa r is on.  T he   P C A   e f f e c ti ve ly   r e duc e s   f e a tu r e   c om pl e xi ty   w hi le   pr e s e r vi ng  up  to   98.7%   of   th e   o r ig in a l   da ta   va r ia nc e e n s ur in th a e s s e nt ia pe r f or m a nc e   c ha r a c te r is ti c s   a r e   r e ta in e d.   C os in e   s im il a r it f ur th e r   e nha nc e s   th e   m ode by  c a pt ur in th e   di r e c ti ona a li gnm e nt   of   pl a ye r   pe r f or m a nc e   pa tt e r ns e na bl in g   m e a ni ngf ul   c om pa r is ons   b e twe e n   in di vi dua ls   w it h   di f f e r e nt   pl a in te ns it ie s   but   s im il a r   s ty le s K e y   pr e pr oc e s s in g s te ps , s u c h a s  pe r - 90 - m in ut e  nor m a li z a ti on, c ons is te nt  pl a ye r  i de nt if ic a ti on a c r os s  s e a s ons , a nd   pos it io n - ba s e c a te gor iz a ti on,  s uppor f a ir   a nd   r obus c om p a r is ons   w it hi a   dyna m ic   d a ta s e t.   T he   m ode de m ons tr a te it s  e f f e c ti ve ne s s   by  id e nt if yi ng  R iy a d   M a hr e z   a s  t he   m os s im il a r   pl a ye r   to   L io ne M e s s w it h a   91.85%   s im il a r it s c or e hi ghl ig ht in it s   pr a c ti c a r e le va nc e   f or   s c out in a nd  ta le nt   id e nt if ic a ti on.  T hi s   w or c ont r ib ut e s   to   th e   a dva nc e m e nt   of   s por ts   a na ly ti c s   by  of f e r in a in te r pr e ta bl e da ta - dr iv e n,  a nd  a ppl ic a ti on   r e a dy s ol ut io n f or  m ode r n f oot ba ll  r e c r ui tm e nt  s tr a te gi e s .       A C K N O WL E D G M E N T S   T he   a ut hor s   w oul li ke   to   e xpr e s s   our   a ppr e c ia ti on  to   th e   R e s e a r c I ns ti tu ti ons   of   U ni ve r s it a s   G una da r m a   f or  t he i r  c ont in ue d f a c il it a ti on a nd s uppor th r ough out  t he  r e s e a r c h a c ti vi ti e s .       F U N D I N G  I N F O R M A T I O N   A ut hor s  s ta te  no f undi ng i nvol ve d.       A U T H O R  C O N T R I B U T I O N S  S T A T E M E N T   T hi s   jo ur na us e s   th e   C ont r ib ut or   R ol e s   T a xonomy  ( C R e di T )   to   r e c ogni z e   in di vi dua l   a ut hor   c ont r ib ut io ns , r e duc e  a ut hor s hi p di s put e s a nd f a c il it a te  c ol la bo r a ti on.    Evaluation Warning : The document was created with Spire.PDF for Python.
                      I S S N :   2252 - 8938   I nt  J  A r ti f   I nt e ll V ol . 14, No. 5, O c to be r  2025 3847 - 3857   3856   N am e  o f  A u t h or   C   M   So   Va   Fo   I   R   D   O   E   Vi   Su   P   Fu   M a uka r                               R odi a h                                 C     C onc e pt ua l i z a t i on   M     M e t hodol ogy   So     So f t w a r e   Va     Va l i da t i on   Fo     Fo r m a l  a na l ys i s   I     I nve s t i ga t i on   R     R e s our c e s   D   :   D a t a  C ur a t i on   O   :   W r i t i ng  -   O r i gi na l  D r a f t   E   :   W r i t i ng  -   R e vi e w  &   E di t i ng   Vi     Vi s ua l i z a t i on   Su     Su pe r vi s i on   P     P r oj e c t  a dm i ni s t r a t i on   Fu     Fu ndi ng a c qui s i t i on         C O N F L I C T  O F  I N T E R E S T  S T A T E M E N T   A ut hor s  s ta te  no c onf li c of  i nt e r e s t.       I N F O R M E D  C O N S E N T   T hi s  s tu dy did not  i nvol ve  huma n pa r ti c ip a nt s th e r e f or e , i nf or m e d c ons e nt  w a s  not  r e qui r e d.       E T H I C A L   A P P R O V A L   T hi s   s tu dy  ut il iz e pe s da ta s e a nd  di not   in vol ve   hum a or   ve r te br a te   a ni m a s ubj e c t s T he r e f or e e th ic a a ppr ova w a s  not  r e qui r e d.       D A T A  A V A I L A B I L I T Y   T hi s   s tu dy  ut il iz e s   pl a ye r   pe r f or m a nc e   da ta   obt a in e f r om   F B r e f a   w e ll - e s ta bl is he a nd  r e put a bl e   f oot ba ll   s ta ti s ti c s   pl a tf or m   th a c om pi le s   c om pr e he ns iv e   a nd  a dva nc e pl a ye r   m e tr ic s   a c r os s   m a jo r   pr of e s s io na le a gue s .   T he  da ta s e e m pl oye d i n t hi s  r e s e a r c h i s  p ubl ic ly  a c c e s s ib le   at   ht tp s :/ /f br e f .c om , t he r e by   a ll ow in f or   pot e nt ia l   r e pl ic a ti on  of   th e   da ta   c ol le c ti on  p r oc e s s   by  ot he r   r e s e a r c he r s D e ta il e de s c r ip ti ons   of   th e   da ta   pr e pr oc e s s in pr oc e dur e s ,   f e a tu r e   s e l e c ti on  c r it e r ia ,   a nd  va r ia bl e   tr a ns f or m a ti ons   a ppl ie d   in   th is   s tu dy a r e  a va il a bl e  upon r e que s f r om  t he  c or r e s ponding a ut hor .         R E F E R E N C E S   [ 1]   L . L ol l i   e t  al . , “ D a t a  a n a l yt i c s  i n t h e  f oot ba l l  i ndus t r y:  a  s ur ve y i nve s t i ga t i ng o pe r a t i ona l  f r a m e w or ks  a nd pr a c t i c e s  i n pr of e s s i ona l   c l ubs   a nd  na t i ona l   f e de r a t i ons   f r om   a r ound  t he   w or l d,”   Sc i e nc e   and  M e di c i ne   i F oot bal l vol 9,  no.  2,  pp.  189 198,  2025,     doi :  10.1080/ 24733938.2024.2341837.   [ 2]   Z B a i   a nd  X B a i S por t s   bi g   da t a :   m a na g e m e nt a na l y s i s a ppl i c a t i ons ,   a nd  c ha l l e nge s ,”   C om pl e x i t y vol 2021,   2021,     doi :  10.1155/ 2021/ 6676297.   [ 3]   N C hi nt ha m a nd  M K a r ukur i D a t a   s c i e nc e   a nd  a ppl i c a t i ons ,”   J ou r nal   of   D at Sc i e nc e   and  I nt e l l i ge nt   Sy s t e m s vol 1,  no.  2 ,   pp. 83 91, 2023, doi :  10.47852/ bonvi e w j ds i s 3202837.   [ 4]   W . B ul l  a nd M . F a ur e , “ A g e nt s  i n t he  s por t i ng f i e l d:  a  l a w  a nd e c onom i c s  pe r s p e c t i ve ,”   I nt e r nat i onal  Spor t s  L a w  J our nal , vol . 22 ,   no. 1, pp. 17 32, 2022, doi :  10.1007/ s 40318 - 021 - 00195 - x.   [ 5]   J H H e w i t t   a nd  O K a r a kuş A   m a c hi ne   l e a r ni ng  a ppr oa c f or   pl a ye r   a nd  pos i t i on  a dj us t e e xpe c t e goa l s   i f oot ba l l   ( s oc c e r ) ,”   F r ank l i n O pe n , vol . 4, 2023, doi :  10.1016/ j .f r a ope .2023.100034.   [ 6]   V C P a nt z a l i s   a nd   C T j or t j i s S por t s   a na l yt i c s   f or   f oot ba l l   l e a gue   t a bl e   a nd  pl a ye r   pe r f or m a nc e   pr e di c t i on,”   i 2020   11t h   I nt e r nat i onal   C onf e r e n c e   on   I nf or m at i on,  I nt e l l i ge nc e ,   Sy s t e m s   and  A ppl i c at i ons 2020,   pp.  1 8 ,   doi 10.1109/ I I S A 50023.2020.9284352.   [ 7]   T G R um s e y,  A   s t a t i s t i c a l   l ook  i nt how   c om m on  s oc c e r   m e t r i c s   i nf l ue nc e   e xpe c t e goa l   m e a s ur e s   i t he   pr of e s s i ona l   ga m e ,”   B .S. T he s i s , D e pa r t m e nt  of  M a t he m a t i c a l  S c i e nc e s , B ut l e r  U ni ve r s i t y, I ndi a na p ol i s , U ni t e d S t a t e s , 2024.   [ 8]   J M e a d,  A O H a r e ,   a nd  P .   M c M e ne m y,  E xpe c t e goa l s   i f oot ba l l :   I m pr ov i ng  m ode l   pe r f or m a nc e   a nd  de m ons t r a t i ng   va l ue ,”   P L oS O N E , vol . 18, no. 4 A pr i l , 2023, doi :  10.1371 / j our na l .pone .0282295.   [ 9]   M R oc c e t t i F B e r ve gl i e r i a nd  G C a ppi e l l o,  F oot ba l l   da t a   a na l ys i s :   t he   p r e di c t i ve   pow e r   of   e xpe c t e goa l s   ( xG ) ,”   i n   25t I nt e r nat i onal  C onf e r e nc e  on I nt e l l i ge nt  G am e s  and Si m ul at i on, G A M E - O N  202 4 , 2024, pp. 20 24.   [ 10]   G H a dda a nd  D O C onnor D e ve l opi ng  pl a ye r s   f or   a t hl e t e   l e a de r s hi g r oups   i pr of e s s i ona l   f oot ba l l   t e a m s :   Q ua l i t a t i ve   i ns i ght s  f r om  he a d c oa c he s   a nd a t hl e t e  l e a de r s ,”   P L oS O N E , vol . 17, 2022, doi :  10.1371/ j our na l .pone .0271093.   [ 11]   S e c r e t a r of   S t a t e   f or   C ul t u r e   M e di a   a nd  S por t A   s us t a i na bl e   f ut ur e   -   r e f o r m i ng  c l ub  f oot ba l l   gove r na nc e ,”   U ni t e K i ngdom   G ov e r nm e nt .   2023.  [ O nl i ne ] .   A va i l a bl e :   ht t p s : / / w w w .gov.uk/ gove r nm e nt / publ i c a t i ons / a - s us t a i na bl e - f ut ur e - r e f or m i ng - c l ub - f oot ba l l - gove r na nc e / a - s us t a i na bl e - f ut ur e - r e f o r m i ng - c l ub - f oot ba l l - gove r na nc e   [ 12]   M M us a i gw a T he   r ol e   of   l e a de r s hi i m a na gi ng  c ha nge ,”   I nt e r nat i onal   R e v i e w   of   M anage m e nt   and  M ar k e t i ng vol 13,  no.  6 ,   pp. 1 9, 2023, doi :  10.32479/ i r m m .13526.   [ 13]   D D i ns da l e   a nd  J G a l l a ghe r T r a ns f e r   po r t a l :   a c c ur a t e l f o r e c a s t i ng  t he   i m pa c t   of   a   pl a ye r   t r a ns f e r   i s oc c e r ,”   Sc i Spac e   pp. 1 25, 2020.   [ 14]   R P B unk e r   a nd  F .   T ha bt a h,  A   m a c hi ne   l e a r ni ng  f r a m e w or f or   s por t   r e s ul t   pr e di c t i on,”   A ppl i e C om put i ng   and  I nf or m at i c s vol . 15, no. 1, pp. 27 33, 2019, doi :  10.1016/ j .a c i .2017.09.005.   Evaluation Warning : The document was created with Spire.PDF for Python.