I nte rna t io na l J o urna l o f   P o wer   E lect ro nics   a nd   Driv S y s t em   ( I J P E DS)   Vo l.  1 7 ,   No .   2 J u n e   20 2 6 ,   p p .   873 ~ 8 8 4   I SS N:  2088 - 8 6 9 4 ,   DOI : 1 0 . 1 1 5 9 1 /ijp ed s . v 1 7 . i 2 . p p 8 7 3 - 884           873     J o ur na l ho m ep a g e h ttp : //ij p e d s . ia esco r e. co m   Phys ics - inform e d  reinf o rc ement  le a rning  f o r ada pti v e high - frequen cy  inj e cti o n in e nco derl ess   lo w - v o ltag e P M S M  drives       Su re nd a Ara v ind ha n 1 , M a no ha ra n   K a v it ha 2 ,   J .   K a r t hik a 3   1 D e p a r t me n t   o f   P h a r mac y ,   S a v e e t h a   U n i v e r si t y ,   C h e n n a i ,   I n d i a   2 D e p a r t me n t   o f   E l e c t r o n i c s a n d   C o m mu n i c a t i o n   En g i n e e r i n g ,   S a v e e t h a   S c h o o l   o f   E n g i n e e r i n g ,   S a v e e t h a   U n i v e r si t y ,   C h e n n a i ,   I n d i a   3 A d v a n c e d   S c i e n t i f i c   R e se a r c h ,   D e p a r t me n t   o f   S c i e n c e   a n d   Te c h n o l o g y ,   S a l e m,  I n d i a       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Oct  1 8 ,   2 0 2 5   R ev is ed   J an   3 0 ,   2 0 2 6   Acc ep ted   Feb   2 1 ,   2 0 2 6       It  is  d iffi c u lt   t o   c o n tr o p e rm a n e n m a g n e sy n c h r o n o u m o to ( P M S M d riv e s   ru n n in g   a e x tra - lo v o lt a g e with   e n c o d e rles c o n tro b e c a u se   th e   b a c k - EM F   sig n a l   to   e stim a te  ro t o r   p o siti o n   is  we a k ,   a n d   t h is  re q u ires   th e   in jec ti o n   o f   h ig h - fre q u e n c y   (HF)   sig n a l s.   Tra d it io n a m e th o d u se   c o n sta n t   o r   m a n u a ll y   tu n e d   i n jec ti o n   lev e ls,  a n d   t h e se   ten d   to   c a u se   larg e   to rq u e   rip p le,  in a c c u ra te  e stim a ti o n   wh e n   u n d e d y n a m ic  lo a d in g ,   a n d   a n   i n a b il i ty   t o   c o u n tera c t   p a ra m e ter  d rift .   Th e   p a p e is  re late d   to   th e   issu e   o f   o n li n e   o p ti m a HF   in jec ti o n   a m p li tu d e   c h o ice   in   th e   e n c o d e r les 4 8   P M S M   d riv e a n d   p r o p o se a   p h y sic s - i n sp ired   re i n fo rc e m e n lea rn in g   (P IRL)  s y ste m .   Th is  is  a ime d   a o b tai n in g   t h e   rig h lo w - sp e e d   p o siti o n in g   a n d   re d u c in g   t h e   to r q u e   r ip p le  a n d   p o we l o ss e o n   d iffere n t   o p e r a ti n g   c o n d it i o n s.   T h e   s u g g e ste d   a p p r o a c h   in c o rp o ra tes   d irec tl y   i n to   th e   re in f o rc e m e n lea rn in g   re wa rd   term t h e   P M S M   e lec tro m a g n e ti c   v o lt a g e   e q u a ti o n s,  wh ich   re strict   e x p l o ra ti o n   to   p h y sic a ll y   c o n siste n s p a c e   a n d   e n h a n c e   sta b il it y   in   th e   le a rn i n g   p r o c e ss .   Th e   P IRL  a g e n t   is  train e d   i n   d e e p   d e term in isti c   p o li c y   g ra d ien t   a rc h it e c t u re   in   a   M ATLAB/S imu li n k - P y t h o n   c o - si m u latio n   e n v iro n m e n t,   b a se d   o n   wh ich   t h e   P IRL  a g e n a d ju sts  t h e   in jec ti o n   a m p li tu d e   o HF  i n   re a ti m e .   S imu latio n   o u tco m e sh o t h a t h e   su g g e ste d   m e th o d o l o g y   re a c h e a p p ro x im a tely   fo u r   t i m e s   f a s te r   c o n v e r g e n c e   w i t h   c o n v e n t i o n a l   r e i n f o r c e m e n t   l e a r n i n g   a n d   r e a c h e u p   to   6 5   p e rc e n t   o f   to r q u e   r ip p le  re d u c ti o n   wi th o u t   a   d ist u rb e d   p o si ti o n   e stim a ti o n   w h e n   o p e ra ted   i n   a   sp e e d   ra n g e   o f   0 - 5 0 0   rp m .   Th e   fin d in g s   sh o w   th a p h y sic s - in fo rm e d   lea rn i n g   o f fe rs  a n   e fficie n t   a n d   e n e rg y - sa v in g   s o lu ti o n   to   a d a p ti v e   e n c o d e rles c o n tr o l   in   e x tra - lo w - v o lt a g e   P M S M   d riv e s,   wh ich   h a b e tt e re sili e n c e   to   c h a n g e s i n   p a r a m e ters   with   a   lo w co m p u tatio n a l   c o st.   K ey w o r d s :   Ad ap tiv am p litu d e   co n tr o l   E n co d er less   PMSM   Hig h - f r eq u en cy   in jectio n   L o w - v o ltag d r iv es   Ph y s ics - in f o r m ed   Po s itio n   esti m atio n   ac cu r ac y   R ein f o r ce m en t le ar n i n g   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Su r en d ar   Ar a v in d h an   Dep ar tm en t o f   Ph ar m ac y ,   Sav ee th Un iv er s ity   C h en n ai,   I n d ia    E m ail:  s u r en d ar ar a v in d h a n @ ieee . o r g       1.   I NT RO D UCT I O N   Me ch an ical  s en s o r less   co n tr o l   o f   p e r m an en t - m ag n et  s y n ch r o n o u s   m o to r s   ( PMSMs)  h as  b ec o m o f   g r o win g   in ter est  in   lo w - v o lta g ( ar o u n d   4 8   V)   ap p licatio n s ,   s u ch   as  e - m o b ilit y   an d   r o b o t ics,  wh er s tan d ar d   b ac k - EMF - b ased   esti m atio n   i s   u n tr u s two r th y   at  l o f r e q u e n cies.  T h u s o f   h ig h - f r eq u e n cy   s ig n al   in jectio n   ( HFI )   m eth o d s   is   th u s   v er y   p o p u lar   in   o r d er   to   m ak u s o f   r o to r   s alien cy   to   esti m ate  p o s iti o n   [ 1 ] .   T h s u cc ess   o f   HFI   is ,   h o we v er ,   s tr o n g ly   r e lian o n   th e   co r r ec t   ch o ice  o f   i n jectio n   am p litu d e   s in ce   f ix e d   s tr ateg ies  b ased   o n   tr ad itio n al  m o to r   d r iv o p tim izatio n   m eth o d s   ar n o alwa y s   ab le  to   r esp o n d   t o   d if f er en o p er atin g     co n d itio n s   [ 2 ] .   T h r esu lt  o f   th u s o f   s tatis tical   am p litu d s elec tio n   tech n i q u es  is   th a to r q u e   r ip p le  an d   ef f icien cy   m a y   b wo r s en ed ,   p ar ticu lar ly   wh en   t h lo ad   v ar ie s   d y n am ically   [ 3 ] .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 6 9 4   I n t J Po E lec  &   Dr i Sy s t Vo l.  1 7 ,   No .   2 J u n e   20 2 6 :   8 7 3 - 8 8 4   874   R ec en ac h iev em en ts   in   c o n d i tio n   m o n ito r in g   an d   in tellig en d iag n o s tics   h av e   s h o wn   t h p r o m is o f   d ata - d r iv e n   s o lu tio n s   to   en h a n ce   m o to r   p er f o r m a n ce   an d   a d ap tab ilit y   [ 4 ] .   R ein f o r ce m en lear n in g   ( R L )   h as  b ec o m e   p o ten tially   u s ef u m eth o d   o f   ad ap tiv e   co n tr o l   in   elec tr ical  m ac h in es,   esp ec ially   i n   p a r am eter - tu n in g   p r o b lem s ,   s u c h   as  th er m al   m o d elin g   a n d   s y s tem   o p tim izatio n   [ 5 ] .   M o r eo v e r ,   a r tific ial  in tellig en ce   h as  b ee n   ac tiv ely   u s ed   in   f au lt  d etec tio n   an d   p e r f o r m an ce   im p r o v em en o f   elec tr ic  d r iv es  [ 6 ] .   Mo r s o p h is ticated   HFI   tech n iq u es  with   m o d u latio n   e r r o r   co m p en s atio n   h a v also   en h an ce d   th esti m atio n   ac c u r a cy   wh en   u s in g   th e   lo w - s p ee d   PMSM  ap p licatio n s   [ 7 ] .   R ec en tly ,   HFI   co n t r o s ch em es  h av b ee n   s u g g ested   b ased   o n   r ein f o r ce m en t   lear n in g   to   allo a d ap tiv a m p litu d ch o ice  i n   en co d er less   PMSM  d r iv es [ 8 ] .   Ho wev er ,   r eg ar d less   o f   th ese   ad v an ce m en ts ,   th m ajo r ity   o f   cu r r en m eth o d s   ar b ased   o n   eith er   p r ed eter m in e d   in tu itio n   o r   s o lely   d ata - d r iv e n   lear n in g ,   with o u co n s id er ati o n   o f   u n d e r ly in g   m o to r   p h y s ics.   I h as  also   b ee n   s h o wn   to   b a p p licab le  to   r ein f o r ce m e n lear n in g   in   t h d r iv s y s tem   o f   elec tr ic  v eh icles  as  m ea n s   o f   co n t r o llin g   to r q u a n d   cu r r en t,  illu s tr atin g   th at  it  m ay   b u s ed   in   lim ited   d y n a m ic  co n d itio n s   [ 9 ] .   I n   th e   m ea n tim e,   o p tim izatio n   b ased   o n   m ac h in e   lear n in g   h as  en h an ce d   th e   d esig n   o f   ele ctr ic  m ac h in es  a n d   th eir   p e r f o r m a n c e   i n   d i f f e r e n t   co n d i t i o n s   [ 1 0 ] .   Y e t ,   s t r o n g   e s tim a t i o n   i n   l o w - s p e e d   r e g i m e s   i s   s t il l   a n   i s s u e ,   d es p i t t h e   s o p h is ticated   HFI - b ased   s en s o r less   co n tr o m eth o d s   [ 1 1 ] .   Ma c h in lear n in g   o p tim izatio n   o f   in jectio n   am p litu d h as  d em o n s tr ated   p o ten tial,  y et  s u ch   to o ls   ten d   t o   b lack in g   in   p r o v id in g   r ea l - tim f lex ib ilit y   [ 1 2 ] .   T h is   p ap er   d is cu s s es  th ese  s h o r tco m in g s   b y   p r esen tin g   p h y s ics - in f o r m e d   r ein f o r ce m e n lear n in g   ( PIRL)   m o d el  th at  in c o r p o r ates  th m o to r   d y n am ics  in to   t h p r o c e s s   o f   lear n in g .   T h p r o p o s ed   s o lu tio n   ca n   allo w   co n tr o o f   HFI   am p litu d in   en co d er less   PMSM  d r iv es  in   an   ad ap tiv e,   s tab le,   an d   ef f icien w ay   b y   in co r p o r atin g   p h y s ical  co n s tr ain ts   in to   th r e war d   f u n cti o n .       2.   L I T E R AT U RE   R E VI E W   I n   PMSMs  at  lo w - s p ee d   co n d itio n s ,   h ig h - f r e q u en c y   s ig n al  i n jectio n   h as  co n tin u e d   to   b o n o f   th e   b est  m eth o d s   to   esti m ate  r o to r   p o s itio n   b ec au s o th er   o b s er v e r s   d o   n o wo r k   u n d er   lo w - s p ee d   co n d itio n s   ( wea k   b ac k - E MF  s ig n al)   [ 1 3 ] .   I n itial  im p lem en tatio n s   wer e   b ased   o n   co n s tan am p litu d e   in jectio n   s ch em es ,   wh ich   wer ea s y   to   im p lem e n an d   l ed   to   p o o r   p er f o r m an ce   with   ch an g es  in   o p er atin g   co n d itio n s   [ 1 4 ] .   T h ese  f ix e d   s tr ateg ies ten d   to   ca u s m o r t o r q u r ip p le  a n d   ac o u s tic  n o is e,   wh ich   r estricts   th eir   p r ac tic al  u s [ 1 5 ] .   T o   ad d r ess   th ese  p r o b lem s ,   th ad ap tiv am p litu d s elec tio n   alg o r ith m   b ased   o n   o f f - lin tu n in g   an d   an aly tical  m o d elin g   h as  b ee n   s u g g ested   to   e n h an ce   th ac c u r ac y   a n d   e f f icien cy   o f   th es tim atio n s   [ 1 6 ] .   B y   allo win g   th ad a p tatio n   o f   p a r am eter s   in   m o to r   s y s t em s   b y   d ata,   r ein f o r ce m en t   lear n in g   h as  f u r th er   e x p an d ed   th ese  ab ilit ies  [ 1 7 ] .   Simu ltan eo u s ly ,   m ac h in lear n in g   h as   b ee n   u s ed   to   p r e d ict  lo ad   a n d   o p tim ize  p o wer   s y s tem s   at   th s y s tem   lev el,   p r o v in g   th in cr ea s ed   ap p licab ilit y   o f   in tellig en co n tr o tech n iq u es  [ 1 8 ] .   I n tellig en t   p o wer   s y s tem s   h av also   b ee n   d ev elo p e d   with   d ig ital  twin   tech n o lo g ies  f o r   p r ed ictiv m ain ten an ce   an d   o p tim izatio n   o f   th s y s tem   [ 1 9 ] .   I h as  b ee n   s h o wn   t h at  th H FI  tech n iq u es  o f   o p tim izin g   i n jecte d   v o ltag am p litu d b y   p u ls e - b ased   m eth o d s   h av b ee n   s tu d ied   r ec en tly   an d   h av d em o n s tr at ed   b etter   p er f o r m a n ce   at  lo w   s p ee d s   [ 2 0 ] .   HFI   tech n iq u es  in   4 8   PMSM  h av b ee n   ex p er im en tally   test ed   an d   h a v b ee n   s h o w n   to   b ef f ec tiv e   in   r ea o p er atin g   co n d itio n s   [ 2 1 ] .   Mo r eo v er ,   n etwo r k e d   d r i v s y s tem s   th at  r u n   with   t h u n ce r tain ties   o f   co m m u n icatio n   h av b ee n   eq u ip p e d   with   lear n in g - b ased   co n tr o s tr ateg ies  [ 2 2 ] .   Op tim izatio n   o f   elec tr ic  m ac h in d esig n   h as   also   b ee n   ex ten s iv ely   p er f o r m ed   with   th h elp   o f   m ac h in l ea r n in g ,   lea d in g   to   b etter   p er f o r m an ce   in d icato r s ,   in clu d in g   e f f icien cy   a n d   r o b u s tn ess   [ 2 3 ] .   I n tellig en m o to r   d r iv s y s tem s   h av b ee n   s h o wn   t o   b r e al - tim f ea s ib le  with   em b ed d ed   lear n in g   co n tr o l - b ased   ar ch itectu r es  [ 2 4 ] .   Mo r e o v er ,   th h y s ter esis   co n tr o m eth o d s   o f   t o r q u e   r ip p le  r ed u ctio n   h av b ee n   in v esti g ated   to   im p r o v t h p er f o r m a n ce   o f   th e   d r iv [ 2 5 ] .   T h e   u s o f   ad a p tiv c o n tr o l   s tr ateg ies  h as  also   en h an ce d   PMSM  p er f o r m an c e   b y   d y n am ically   r ed u cin g   t o r q u r ip p le  [ 2 6 ] .   PMSM  d r iv es h av b ee n   m o d eled   u s in g   d ig ital  twin s   to   ac cu r atel y   esti m ate  p ar am eter s   an d   id en tify   th s y s tem   [ 2 7 ] .   Mo d el  p r e d ict iv co n tr o h as   also   b ee n   co m b in ed   with   r ein f o r ce m en t le ar n in g   to   im p r o v d y n am ic  p er f o r m an ce   [ 2 8 ] .   T h d ev elo p m en o f   VL SI - b ased   s y s tem s   h as  f ac ilit a te d   th r ea lizatio n   o f   in tellig en co n tr o l   alg o r it h m s   wi th   l o p o we r   i n   em b e d d e d   s y s te m s   [ 2 9 ] .   Mi x e d - s ig n al  a r ch ite ct u r es  h a v als o   b e en   u s ed   i n   r ea l - tim a d a p t iv s i g n a p r o ce s s i n g   i n   m o to r   c o n tr o l   a p p lic ati o n s   [ 3 0 ] .   T o   m i n i m iz t o r q u e   r i p p le   a n d   e n h a n c e   ef f ic ie n c y ,   h a r m o n i m i n i m i za tio n   m et h o d s   b ase d   o n   o p tim iz ed   p u ls e   p att er n   m o d u la ti o n   h a v e   b ee n   s u g g es te d   [ 3 1 ] .   R a n d o m   m o d u l ati o n - b as e d   n o is s u p p r ess i o n   m e th o d s   h av als o   b ee n   e x p l o r ed   am o n g   PMSM   d r i v es   [ 3 2 ] .   E m b ed d e d   m o to r   d r iv s y s tem s   h av b ee n   s h o wn   to   im p l em en r ea l - tim r ein f o r ce m en lear n in g - b ased   co n tr o ller s ,   c o n f ir m i n g   th at  th ey   ar a p p licab le  in   r ea l - wo r ld   s ce n ar io   [ 3 3 ] .   I n tell ig en s y s tem s   h av also   b ee n   en h an ce d   b y   em er g i n g   n eu r o m o r p h ic  an d   ev en t - d r i v en   ar ch itectu r es ,   wh ich   h a v i n cr ea s ed   ef f icien cy   an d   laten c y   [ 3 4 ] .   M o r s o p h is ticated   r ein f o r ce m en t   lear n in g   m eth o d s   lik e   d ee p   d eter m in is tic  p o licy   g r a d ien t   ( DDPG)   h av b ee n   e f f ec tiv ely   u s ed   to   ad d r ess   co n s tr ain ed   P MSM   co n tr o l iss u es [ 3 5 ] .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Po E lec  &   Dr i Sy s t     I SS N:   2088 - 8 6 9 4       P h ysics - in fo r med   r ein fo r ce me n t le a r n in g   fo r   a d a p tive  h ig h - f r eq u en cy   in jectio n   in     ( S u r en d a r   A r a vin d h a n )   875   E v en   th o u g h   it  h as  m ad g o o d   p r o g r ess ,   it  is   s till   f o u n d   th a th cu r r en m eth o d s   h a v d if f icu lties   in   r ea lizin g   co n cu r r e n o p tim izatio n   o f   p o s itio n   esti m atio n   ac cu r ac y ,   to r q u e   r ip p le   r ed u ctio n ,   a n d   e n er g y   ef f icien cy   in   th p r esen ce   o f   n o n - id ea co n d itio n s   in   th r ea wo r ld .   I n   a d d itio n ,   th v ast  m ajo r ity   o f   th ap p r o ac h es  d o   n o h av a   co m m o n   f r am ewo r k   th at  in c o r p o r a tes  p h y s ics - b ased   m o d elin g   an d   ad ap tiv e   lear n in g .   T h n ew   PIRL  f r am ewo r k   f ills   t h ese  g ap s   b y   in te g r atin g   r ei n f o r ce m e n lear n i n g   with   p h y s ical  co n s tr ain ts   to   s u p p o r t r o b u s t,  r ea l - tim e   ad ap t iv co n tr o o f   lo w - v o ltag PM SM  d r iv es.       3.   M E T H O DO L O G Y   I n   th is   p ar t ,   th p r o p o s ed   en co d er less   PMSM   co n tr o m eth o d   will  b d escr ib ed   in   r ep r o d u cib le  m an n er .   T h en tire   en c o d er le s s   PM SM  d r iv with   h ig h - f r eq u en c y   in jectio n   is   in tr o d u c ed   as  co n ce p tu al   co n tr o b lo c k   d iag r am   in   t h f ir s p lace .   T h en ,   p h y s ics - in f o r m ed   r ein f o r ce m en lear n in g   ( PIRL)   f o r m u latio n   is   f o r m u lated ,   co m p r is in g   s tate,   ac tio n ,   r ewa r d ,   a n d   co n s tr ain e n f o r ce m en t.   L astl y ,   th en tire   MA T L AB /S im u lin k - Py th o n   co - s im u latio n   en v ir o n m e n a n d   all  th s im u latio n   s ettin g s   ar d escr ib ed   to   f ac ilit ate   th in d ep en d en r e p r o d u cib ilit y   o f   th r ep o r ted   r esu lts ,   an d   b aselin d ef in itio n s   an d   an aly s is   m ea s u r es.     3 . 1 .     P M SM   dy na m ic  m o del  a nd   hig h - f re qu ency   inje ct io n princi ple   T h p er m a n en m ag n et  s y n ch r o n o u s   m o t o r   th at  is   tak en   in to   ac co u n in   th is   p a p er   is   m o d e lled   in   th e      r ef er en ce   f r am with   th e   r o to r   f lu x .   T h eq u atio n s   o f   s tato r   v o ltag es a r wr itten   in   ( 1 )   a n d   ( 2 ) .     = +    ( 1 )     = +  +   ( 2 )     ,   an d   ,   co m p o n e n ts   o f   s tato r   v o ltag an d   cu r r en t,    is   th s t ato r   r esis tan ce ,   ,   ar th f lu x   lin k ag es,  an d     is   th elec tr ical  an g u lar   f r eq u e n cy .   T h elec tr o m ag n etic  to r q u is   g iv en   b y   ( 3 ) .     = 3 2 ( )   ( 3 )     p   is   p r o v id e d   b y   th n u m b e r   o f   p o le  p ai r s .   At  lo s p ee d ,   th p o s itio n   o f   r o to r   is   esti m ated   b y   m ag n e tic  s alien cy ,   wh ich   m ay   b d r i v en   b y   a n   in jecte d   h ig h - f r eq u e n cy   v o ltag s ig n al    in   en co d er less   o p er ati o n .   T h s ig n al  is   s u p er im p o s e d   to   th o r d e r ed   s tato r   v o ltag e,   ty p ically   th d - ax is   v o ltag as g iv en   in   ( 4 ) .     = + s in ( )   ( 4 )       is   an d     ar th e   in jectio n   am p l itu d an d   th e   ca r r ier   f r e q u en c y ,   r esp ec tiv ely .   T h h i g h - f r eq u en cy   cu r r e n t   r esp o n s in d u ce d   p r o v id es  th in f o r m atio n   o n   th s alien cy   an g le  o f   th r o to r ,   f r o m   wh ic h   th r o to r   p o s itio n   m ay   b e   r ec o v er ed .     is   cr itically   im p o r ta n to   th e   q u ality   o f   th is   esti m atio n a   s m all  v alu ca u s es  th e   d em o d u lated   s ig n al  to   b e   lo s t in   n o is e;  lar g v alu ca u s es a   lar g to r q u r ip p le  an d   o th er   co p p er   l o s s es.   T h en c o d er less   PMSM  d r iv e   th at  is   o p e r ated   with   h ig h - f r eq u en cy   s ig n al  in jectio n   an d   am p litu d co r r ec tio n   v ia  r ein f o r ce m en l ea r n in g   h as  t o tal  co n t r o s tr u ctu r as  d e p icted   in   Fig u r e   1 .   T h h ig h - f r e q u en cy   v o ltag s ig n al  is   in jecte d   in to   th d - ax is   v o ltag e   co m m a n d   o n ly ,   an d   th elec tr ical  an d   m ec h an ical  v ar iab les  ar m ea s u r ed   a n d   ap p lied   in   le ar n in g - b ased   ad ap tatio n   o f   in j ec tio n   am p litu d e ,   as sh o wn   in   Fig u r 1 .     3 . 2 .     P r o blem   f o rm ula t io n   T h is   s tu d y   aim s   t o   id e n tify   a n   ad ap tiv e   co n t r o law  o f     th at   will  en s u r h ig h   esti m atio n   ac cu r ac y   an d   lo u n d esira b le  s id ef f ec ts .   T h o p tim izatio n   is   ch ar ac t er ized   b y   a   co m p o s ite  co s t f u n ctio n   in   ( 5 ) .     = 1 2 + 2 Δ 2 + 3    ( 5 )     I n   wh ich     is   th er r o r   i n   th i n s tan tan eo u s   r o t o r   p o s itio n   esti m atio n ,   Δ   is   th m ax im u m   to r q u r ip p l e   ca u s ed   b y   in jectio n ,   a n d      is   th ad d ed   lo s s   o f   p o wer   ca u s ed   b y   th h ig h - f r e q u en c y   c o m p o n en t .   T h e   weig h ts   1 , 2 , 3   ar p r o p o r tio n s   o f   th s ig n i f ican ce   o f   ea ch   o f   th e   ter m s .   D u to   th e   n o n lin ea r ity   o f   th e   s y s tem ,   its   d ep en d e n ce   o n   p ar a m eter s ,   an d   its   d ep en d en ce   o n   tim e,   it   is   n o p o s s ib le  to   p r o v id an   ex p licit  an aly tical   s o lu tio n   o f   th o p tim al  is .   T h u s ,   r ein f o r ce m e n t le ar n in g   is   u s ed   to   ac q u ir a n   o p tim al  ad ap t atio n   s tr ateg y   b y   ac tu ally   in ter ac tin g   with   s im u lated   en v ir o n m en t.   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 6 9 4   I n t J Po E lec  &   Dr i Sy s t Vo l.  1 7 ,   No .   2 J u n e   20 2 6 :   8 7 3 - 8 8 4   876       Fig u r 1 .   B lo ck   d iag r am   o f   th en co d er less   PMSM  d r iv with   h ig h - f r eq u en cy   i n jectio n   an d   r ein f o r ce m en t - lear n in g - b ased   am p litu d ad ap tatio n       3 . 3 .     P hy s ics - info rm ed  re info rc em ent   lea rning   f ra m ewo r k   T h r ein f o r ce m en t - lear n i n g   ( R L )   ag en in ter ac ts   co n tin u o u s ly   with   th P MSM   en v ir o n m en to   ad ap th in jecte d   h i g h - f r eq u e n cy   ( HF)   v o ltag am p litu d e.   At  ea ch   tim s tep   ,   th ag e n r ec ei v es  th m o to r   s tate  v ec to r   in   ( 6 ) .     = [ , , , ,  ]   ( 6 )     I n   wh ich   wh er ,   ar s tato r   cu r r en co m p o n en ts ,     is   th elec tr ical  an g u lar   s p ee d ,     is   th elec tr o m ag n etic  to r q u e,   an d      is   th m ec h an ical  lo ad   ap p lied .   T h ag e n p r o d u ce s   an   ac tio n   ,   wh ich   is   a   s m all   ch an g Δ   o f   th e   HF - in jectio n   a m p litu d e   .   F ig u r 2   d em o n s tr ates  th e   g en er al  s tr u ctu r e   o f   th p r o p o s ed   p h y s ics - in f o r m ed   r ein f o r ce m e n lear n in g   f r am e wo r k ,   wh e r eb y   t h PMSM  en v ir o n m en t,  ac to r - cr itic  n etw o r k s ,   p h y s ics - b ased   r ewa r d   ca lcu latio n   m o d u le,   a n d   ex p er ien ce   r ep lay   m ec h a n i s m   to   u p d ate  th e   p o licy   ar e   in ter ac tin g .   On ce   th en v ir o n m en h as  im p lem en ted   th is   ac tio n ,   it   s en d s   b ac k   th e   f o llo win g   s tate  + 1 an d   a   s ca lar   r e war d   u s ed   to   m o d if y   th a g en t p o licy .   I n   tr a d itio n al  r ein f o r ce m e n lear n i n g ,   th e   p er f o r m an ce   is   to   m ax i m ize  th d is co u n ted   cu m u lativ r ewa r d   in   ( 7 ) .     = [ + + 1 = 0 ]   ( 7 )     W ith   ( 0 , 1 )   b ein g   th e   d is co u n f ac t o r   th at   b alan ce s   th s h o r t - ter m   an d   th e   lo n g - ter m   p e r f o r m a n ce .   I n   t h is   s tu d y ,   th r ewa r d   is   p h y s ics - in f o r m ed   an d   is   d e f in ed   in   ( 8 ) .     = (  + 2 +  ( + ) 2 )   ( 8 )     = 1 2 + 2 Δ  2 + 3    is   th m u lti - o b jectiv e   co s t,  is   th p h y s ics - weig h co ef f icien t ,   an d   th s ec o n d   ter m   is   p en alty   o f   n o n - o b s e r v an ce   o f   th PMSM  s tato r   v o ltag eq u atio n s .   T h e x p lo r a tio n   b y   th ag en is   lim ited   to   p h y s ically   f ea s ib le  o p er atin g   p o s itio n s   b y   em b ed d in g   s u ch   r esid u als,  en h an cin g   s tab ilit y ,   an d   ac h iev in g   f aster   co n v er g en ce .   T h ac to r - cr itic  ar c h itectu r o n   th e   d ee p   d eter m i n is tic  p o lic y   g r a d ien ( DDPG)   alg o r ith m   m ee ts   th e   im p lem en tatio n   o f   t h p o licy   n etwo r k .   T h e   ac to r   n etwo r k   c r ea tes  th co n ti n u o u s   in cr em en ts   o f   am p litu d e ,   an d   t h n u cleu s   o f   th e   cr itic   ap p r o x im ates  th s tate - ac tio n   v alu e   ( , ) .   T h ese  two   n etwo r k s   ar e   tr ain ed   th r o u g h   m in i - b atch   g r ad ie n d escen w ith   th h el p   o f   e x p er ien ce   r ep l ay   to   m ax im ize  t h e   lear n in g   ef f icien cy .   T h lear n in g - r ate  an d   ex p lo r atio n - n o is e   p ar am eter s   f ad e   with   ex p e r ien ce ,   wh ich   e n ab les   s elf - ev o lv in g   b eh av i o r   to   f o llo g r ad u al  c h an g es in   t h p ar a m eter s   ( e. g .   s tato r - r esis tan ce   d r if t) .   T h co m p lete  p r o ce d u r e   o f   t h s u g g ested   p h y s ics - in f o r m e d   r ein f o r ce m e n lear n in g   f r a m ewo r k   is   s u m m ar ized   in   Alg o r ith m   1 .   A lg o r ith m   1   o u tlin es  th in ter p lay   b etwe en   th PMSM  en v ir o n m e n an d   th e   r ein f o r ce m e n lear n in g   ag en t,  th s tate  o b s er v atio n ,   ac tio n   g en er atio n ,   r ewa r d   co m p u tatio n ,   an d   p o licy   u p d ate.   T h alg o r ith m   a p p lies   th s tate  d ef in itio n   o f   ( 6 ) ,   r ewa r d   cr ea tio n   o f   ( 8 ) ,   an d   th o p tim iz atio n   g o al  o f     to   o p tim ize  th lear n i n g   p r o ce s s .   As  s h o wn   in   Alg o r ith m   1 ,   th ag en is   u p d ated   in   th HF  in je ctio n   am p litu d b y   en g ag in g   with   th PMSM  m o d el,   wh er ea s   th p h y s ics - in f o r m ed   r ewa r d   m ak es th lear n in g   p r o ce s s   co n s is ten with   th m o to r   d y n a m ics p r escr ib ed   in   ( 8 ) .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Po E lec  &   Dr i Sy s t     I SS N:   2088 - 8 6 9 4       P h ysics - in fo r med   r ein fo r ce me n t le a r n in g   fo r   a d a p tive  h ig h - f r eq u en cy   in jectio n   in     ( S u r en d a r   A r a vin d h a n )   877   Alg o r ith m   1 .   Ph y s ics - in f o r m e d   r ein f o r ce m en t le ar n in g   f o r   H am p litu d ad ap tatio n   I n p u t: m o to r   s tate  s t = [ i d , i q , ω e , T e , T l o ad ] ;   ac to r   p o licy   π θ ; c r itic  Q ϕ ; d is co u n γ ; p h y s ics - weig h λ .   R ep ea t f o r   ea ch   e p is o d e:   1.   Ob s er v cu r r e n t state  s t ; c o m p u t ac tio n   a t = π θ ( s t ) ( in cr em en Δ V h ) ; a p p ly   V h V h + Δ V h .   2.   Simu late  PMSM  d y n am ics f o r   th s am p lin g   in ter v al  Δ t to   o b tain   n ex t state  s t + 1 .   3.   E v alu ate  co s J t = w 1 θ er r 2 + w 2 Δ T HF 2 + w 3 P l o s s .   4.   C o m p u te  r esid u als f r o m   PMSM  eq u atio n s ; f o r m   r ewa r d   r t = J t λ ( r d 2 + r q 2 ) .   5.   Sto r tr an s itio n   ( s t , a t , r t , s t + 1 ) in   r ep lay   b u f f e r .   6.   Up d ate  ac to r   an d   cr itic b y   d et er m in is tic  p o licy - g r a d ien t le ar n in g .   Dec ay   ex p lo r atio n   n o is an d   l ea r n in g - r ate  s ch ed u les u n til  th co n v er g en ce   c r iter io n   is   s atis f ied   ( av er ag r ewa r d   c h an g <   0 . 5   % o v er   1 0 0   ep is o d es).           Fig u r 2 .   Ar c h itectu r o f   p h y s ics in f o r m ed   R L   ag e n t sh o win g   s tate,   r ewa r d ,   an d   p o licy   u p d ate  p ath s       3 . 4 .     Sim ula t i o s et up   a nd   i m plem ent a t io n det a ils   MA T L AB / Simu lin k   Py th o n   co - s im u latio n   en v .   is   u s ed   to   im p lem en an d   test   th e n co d er less   PMSM  co n tr o s y s tem   o f   p h y s ics - in f o r m ed   r ein f o r ce m e n lear n in g   ( PIRL) .   T h P MSM   elec tr ical  an d   m ec h an ical  p lan t,  in v e r ter   m o d el,   ca s ca d ed   s p ee d - c u r r en co n tr o lo o p s ,   an d   PIRL  p o licy ,   wh ich   is   r u n   in   Py th o n   an d   in ter c h an g es  s tate  ac tio n   d ata  with   Simu lin k   at  th o u ter - lo o p   in ter v al  a r im p lem en ted   in   MA T L AB /S im u lin k .   T h s p ec if ics  o f   th e   p lan a n d   co n tr o im p lem en tatio n ,   s u ch   as  th in v er ter   s witch in g /s atu r atio n   b lo ck ,   dq - d o m ain   PMSM  m o d el,   m e asu r em en t p o in ts ,   an d   in ter n al  s ig n al  r o u tin g ,   ar illu s tr ated   in   Fig u r e   3 ( a )   in   th e   MA T L AB /S im u lin k   f o r m at.   T h is   co - s im u latio n   ar ch itectu r was  f u r th er   s im p lifie d   an d   v is u alize d   b y   p r o v i d in g   s ig n al - ch ain   ( Fig u r 3 ( b ) )   o f   th p lan p at h ,   th lo ca tio n   o f   th HF  in jectio n ,   th d em o d u latio n /p o s itio n - esti m atio n   ch ain ,   th f o r m atio n   o f   th o b s er v atio n   v ec to r s ,   an d   th Py th o n   R L   ag en f ee d b ac k   lo o p .   T ab le  1   s u m m ar izes  th s im u latio n   p a r am eter s   o f   th PMSM  m o d el ,   in v er ter ,   c o n tr o l ler s ,   an d   HF  in jectio n   an d   h el d   co n s tan t th r o u g h o u t th HF a m p litu d s tr ateg ies co m p ar is o n   ac r o s s   all  co n tr o ller s   co m p ar ed .       T ab le  1 .   PMSM  an d   s im u latio n   p ar am eter s   P a r a me t e r   S y mb o l   V a l u e   U n i t   D C   l i n k   v o l t a g e      48   V   P o l e   p a i r s     4     S t a t o r   r e s i st a n c e     0 . 4   Ω   a x i s i n d u c t a n c e     0 . 6   mH   a x i s i n d u c t a n c e     0 . 9   mH   P e r man e n t   m a g n e t   f l u x     0 . 0 3   Wb   N o mi n a l   t o r q u e     10   Nm   S w i t c h i n g   f r e q u e n c y      12   k H z   H F   i n j e c t i o n   f r e q u e n c y     1 . 2   k H z   S a mp l i n g   t i me     1 0 0   µs   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 6 9 4   I n t J Po E lec  &   Dr i Sy s t Vo l.  1 7 ,   No .   2 J u n e   20 2 6 :   8 7 3 - 8 8 4   878     ( a)     ( b )     Fig u r 3 MA T L AB /Si m u lin k - Py th o n   c o - s im u latio n   f r am ew o r k   f o r   PIRL - b ased   en c o d er le s s   PM SM  d r iv co n tr o l: ( a)   MA T L AB /Si m u li n k   im p lem e n tatio n   o f   th PM SM  d r iv an d   c o n tr o l lo o p s   an d     ( b )   c o - s im u latio n   s ig n al  f lo f o r   PIRL - b ased   h ig h - f r e q u en c y   in jectio n   co n tr o l       3 . 4 . 1 .   So lv er ,   co ntr o l lo o p r a t es ,   a nd   RL   h y perpa ra m et er s   T h e   s i m u l at i o n s   a r e   p e r f o r m e d   b y   f i x e d - s t e p   d i s c r e t e - ti m e   s o l v e r .   B as e   s a m p l i n g   t i m e   i s   T s   =   1 0 0   μ s a n d   a t   t h is   t i m e ,   t h e   i n n e r   c u r r en t   l o o p   a n d   HF   i n j ec t i o n   c a r r i e r   a r e   u p d a t e d .   T h e   o u te r   s p e e d   lo o p   i s   u p d a t e d   w i t h   a   p e r i o d   o f   1   m s ,   a n d   t h e   R L   ac t i o n   u p d a t e   p e r i o d   i s   a d j u s t e d   to   t h e   s a m e   p e r i o d   ( R L   u p d a t e   =   1   m s ) .   T h s tep s   u s ed   at   ea ch   d is cr ete  tim ar e:  i )   th d q   c u r r e n c o n tr o ller   ca lc u lates  ( , ) ii )   th e   HF  ca r r ier   ( ) = s in   ( )   is   ad d ed   t o   th e   d - a x is   co m m an d   s u ch   t h at  = + iii )   th in v er ter   b l o c k   im p lem en ts   SVP W m o d u latio n   an d   v o lta g s atu r atio n   ac co r d in g   t o   th 4 8   DC   b u s iv )   th PMSM  d q   m o d el  a d v an ce s   elec tr ical  s tates  an d   th m ec h an ical   s p ee d ;   an d   v )   th e   o b s er v atio n   v ec to r .   T h e   in c r em en tal   ac tio n   Δ   is   s en t o u t b y   th Py th o n   ag e n t ,   an d   th am p litu d is   u p d ated   with   lim its   as g iv en   i n   ( 9 ) .     c l ip ( + Δ ,   , m i n ,   , m ax )   ( 9 )       r em ain s   f ix ed ,   b u t   o n ly   th e   s in u o id al   ca r r ier   ch an g es d u r in g   th b ase  s am p lin g   tim with in   f i x ed   1   m s   R L   p er io d ,   s o   t h at  lear n ed   ad ap tat io n   d y n am ics ar in d e p en d e n o f   th ca r r ier   o s cillatio n .   T h PIRL  ag en is   co n f ig u r ed   as  an   ac to r - cr itic  DDPG  with   th d is co u n f ac to r ,   γ   =   0 . 9 9 ,   an d   with   p h y s ics - r eg u lar iz atio n   weig h t,   λ   =   0 . 1 .   T wo   f u ll y   co n n ec ted   h id d e n   la y er s   ( 6 4   n eu r o n s   ea ch )   o f   t h ac to r   a n d   cr itic  n etwo r k s   h a v R eL a ctiv atio n .   Min i - b atc h   s ize  is   1 2 8 ,   r e p lay   b u f f e r   m em o r y   is   10 6 ,   a n d   s o f t   u p d ate   o f   th tar g et  n etwo r k   is   = 0 . 005 .   T h ex p lo r atio n   is   ap p lied   as  ad d it iv Gau s s ian   n o is o n   th ac t o r   o u tp u with   s tan d ar d   d e v iatio n   o f   0 . 2   th at  d ec ay s   lin ea r l y   to   0 . 0 1   d u r i n g   th tr ain in g .   Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Po E lec  &   Dr i Sy s t     I SS N:   2088 - 8 6 9 4       P h ysics - in fo r med   r ein fo r ce me n t le a r n in g   fo r   a d a p tive  h ig h - f r eq u en cy   in jectio n   in     ( S u r en d a r   A r a vin d h a n )   879   3 . 4 . 2 .   P la nt  no n - idea litie s ,   mea s urem ent   co nd it io nin g ,   a nd   no is m o del   T o   s im u late  th co n d itio n s   o f   an   ex tr a - lo w - v o ltag d r iv e ,   th e   in v er ter   s tag h as  DC - b u s   li m itatio n   at   4 8   V,   PW s atu r atio n   ( d u ty   c lam p ) ,   a n d   a   d ea d - tim e/d is to r t io n   ef f ec th at  h as  b ee n   m o d el led   as  an   ef f ec tiv v o ltag d is to r tio n   th at  is   f u n c tio n   o f   cu r r e n d ir ec tio n .   d is cr ete  f ir s t - o r d e r   lo w - p ass   I I R   f ilter   is   u s ed   to   f ilter   th m ea s u r ed   cu r r e n ts   an d   v o l tag es  to   r ef lect  p r ac tical  s am p lin g /co n d itio n in g .     ,   an d     ar s u b ject  to   ad d itiv m ea s u r em e n n o is e,   wh ich   is   o f   ze r o - m ea n   Gau s s ian   n o is with   co n s tan v a r ian c e ,   an d   id e n tical  n o is s ettin g s   ar ap p lied   to   all  co n t r o ller s .     3 . 4 . 3 .   T ra ini ng   pro t o co l a nd   ba s eline  co ntr o llers   T h tr ain in g   an d   test in g   ar d o n o v er   t h s p ee d   r ef er e n ce   r an g o f   0 - 5 0 0   r p m   u n d e r   v ar io u s   lo ad - to r q u p r o f iles ,   wh ich   in clu d s tep   an d   r am p   v ar iatio n   in   th lo ad   p r o f ile ,   as  well  a s   all  th co m p ar ed   co n tr o ller s   u n d er   th e   s am e x citatio n   co n d itio n s .   T h s am in n er /o u ter   l o o p   g ain s ,   HFI   d em o d u latio n   an d   p o s itio n - esti m atio n   ch ain s ,   in v er ter   an d   p lan m o d els  ar u s ed   to   im p lem en th b aselin e   s ch em es;  th o n ly   d if f er en ce   is   th d if f er e n t H F in jectio n   am p litu d e   g en e r atio n   m ec h an is m   am o n g   co n tr o ller s .   T h HF  in jectio n   am p litu d   an d   g en e r ated   b y   th PIRL  ag en is   in itialized   th r o u g h   r an d o m   ex p lo r ato r y   ac tio n s   r an d o m ly   s am p led   in   t h in ter v al  0 . 5 - 4   V,   an d   th a v er ag e   ep is o d ic   r e war d   is   d ec lar e d   to   b co n v er g ed   o n ce   th v ar iat io n   is   less   th an   0 . 5 %.   T h s u g g ested   co n tr o ller   will  b co n tr asted   with   th r ee   r ef er en ce   s ch em es:   a)   T h f ix ed   am p litu d HF in ject io n   is   co n s tan t d u r in g   th e   en t ir r u n ,   wh er = 2 V .   b)   Heu r is tic  ad ap tiv HF  in jectio n   is   m o d if ied   th r o u g h   m o n o to n ic  m ap p in g   o f   o p er a tin g   co n d itio n   ( m ec h an ical  s p ee d   an d /o r   s ta to r   cu r r en m a g n itu d e )   an d   r estricte d   in   th s am r an g e   a s   th R L - b ased   co n tr o ller s   as g iv en   in   ( 10 ) .     [ , m i n , , m ax ]   ( 1 0 )     c)   Stan d ar d   R L   ( n o n - r eg u lar ized ) :   T h s am s tate - v ec to r ,   ac tio n - b o u n d s ,   n etwo r k ,   s o lv e r   s ettin g s ,   an d   tr ain in g   s ch ed u le  as th o s o f   PIRL,   ex ce p t th at  th p h y s ics - r esid u al  p en alty   ter m   is   o m itted   i n   th r ewa r d .   All th co n tr o ller s   ar test ed   i n   th s am s o lv er   s ettin g s ,   s a m p lin g ,   a n d   d is tu r b ed   co n d itio n s .     3 . 4 . 4 .   L o g g ed  s ig na ls   a nd   ev a lua t io n m et rics   E v er y   co m p a r ativ o u tco m e   is   ac q u ir e d   u s in g   t h s am e   r ec o r d ed   s ig n als  a n d   id en tical  p o s t - p r o ce s s in g   s tep s   am o n g   th co n tr o ller s .   T h m ea s u r ed   v ar iab les  ar d q   cu r r e n ts   ( , ) ,   in v er ter   v o ltag e   co m m an d s   ( , ) ,   HF  in jectio n   am p litu d ,   elec tr ical  s p ee d   ,   m ec h an ical  s p ee d   ,   elec tr o m a g n etic  to r q u lo ad   to r q u ,   esti m ated   elec tr ical  p o s itio n   ̂   an d   th s im u latio n   r ef er e n ce   elec tr ical  p o s itio n   .   T h er r o r   in   th e   R MS  r o to r   p o s itio n   is   ca lcu lated   u s in g   ( 1 1 ).     R M S ( ) = 1 ( ( ) ̂ ( ) ) 2 0    ( 1 1 )     T o r q u e   r ip p le  f ac to r   is   ca lcu la ted   with in   th ev alu atio n   p e r io d   u s in g   ( 12 ).     TR ( % ) = e , m ax e , m in , av g × 100   ( 1 2 )     C u r r en T HD  is   ca lcu lated   in   th FF T   m ag n itu d s p ec tr u m   o f   s p ec if ied   an aly s is   win d o with   th s am win d o len g th   a n d   s am p le  r at ac r o s s   all  co n tr o ller s .     3 . 4 . 5 .   Det er m ini s m   a nd   s im ula t io n c o ns is t ency   s et t ing s   Neu r al  n etwo r k s   ar e   in itialized   with   f ix ed   r an d o m   s ee d s ,   n eu r al - n etwo r k   e x p lo r atio n   is   p er f o r m ed   with   f ix ed   r a n d o m   s ee d s ,   an d   f ix ed   r a n d o m   s ee d s   ar u s ed   wh en   co m p ar in g   v ar iatio n s   o f   R L .   T h f ix e d - s tep   d is cr ete  s o lv er   ( n o   v a r iab le - s tep   in teg r atio n )   is   u s ed   to   s im u late  th p lan t.  Var iab les th at  h av b ee n   lo g g ed   ar e   s to r ed   at  th b ase  s am p lin g   tim T s   in   o r d er   to   p r e v en d o wn - s am p lin g   ar tef ac ts   d u r in g   th co m p u tatio n   o f   to r q u r ip p le  an d   FF T /TH D.       4.   RE SU L T S   4 . 1 .     L ea rning   perf o r m a nce  a nd   co nv er g ence   T h tr ain in g   ep is o d es  ex p er i en ce d   b y   th r ein f o r ce m en l ea r n in g   ag e n wer 4 0 0 0 ,   ea ch   with   a   d u r atio n   o f   0 . 3   s   o f   s im u lated   m o to r   tim e.   Fig u r 4   g iv es  t h av er ag e p is o d r ewa r d   ev o lu t io n ,   s u g g esti n g   th at  Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 6 9 4   I n t J Po E lec  &   Dr i Sy s t Vo l.  1 7 ,   No .   2 J u n e   20 2 6 :   8 7 3 - 8 8 4   880   it  r ea ch ed   s tab le  c o n v e r g en c wh en   ar o u n d   2 6 0 0   e p is o d es  wer u s ed ,   b u th s tan d a r d   non - p h y s ics - in f o r m ed   R L   ag en to o k   clo s to   twice   as  m an y   e p is o d es  to   s tab iliz th r ewa r d s .   Ad d in g   th p h y s ics  r esid u al  ter m   m in im ized   o s cillatio n s   ar o u n d   th r ewa r d   c u r v a n d   av o id ed   d iv er g e n ce ,   wh ich   s o m etim es   h ap p en e d   with   b ig   ex p lo r atio n   n o is in   th e   b aselin ag en t.   T h in cr ea s in   t h r ate  o f   co n v er g e n ce   o f   ab o u 4 0 ca n   b cr ed ited   t o   th p h y s ics  ter m   th at  lim its   ex p lo r atio n   to   p h y s ically   co n s is ten v o ltag e - cu r r en tr ajec t o r ies.  T h am p litu d o f   t h o u tp u o f   th ac t o r   n etwo r k   lev elled   o f f   at  t h r an g o f   1 . 2 - 2 . 8   at  v ar io u s   o p e r atin g   p o i n ts ,   wh er ea s   th b as elin R L   r an g ed   at   0 . 5 - 3 . 5   with in   th s am ti m e.   T h av er ag r ewa r d   r ea lized   at  th en d   o f   th p r o p o s ed   p h y s ics - in f o r m e d   r ewa r d   lear n in g   ( PIRL)   a g en was  lar g er   th a n   t h at   o f   th e   co n v en tio n al  R L   b y   2 2 %,   wh ich   is   in d ee d   a   s ig n if ican t   lear n in g   ef f icien cy   im p r o v e m en t.     4 . 2 .     Dy na m ic  a nd   s t ea dy   s t a t perf o rma nce   T h p o licy   th at  was  lear n ed   was  test ed   o n   v ar io u s   lo ad   to r q u es  an d   s p ee d s .   Fig u r 5   d em o n s tr ates  th e   o r d er e d   an d   esti m ated   r o to r   p o s itio n   at  1 0 0   r p m ,   an d   h e r th e   PIRL  s ch em o b tain ed   n ea r - id ea l   o v er lap .   T h r o o m ea n   s q u a r esti m atio n   er r o r   wen d o wn   to   2 . 9   elec tr ical  d eg r ee s   with   th f ix ed   am p litu d co n tr o ller   t o   th p r o p o s ed   m eth o d ,   wh ich   s to o d   at   0 . 9 5   d eg r ee s .   At  h ig h   s p ee d s   ( ab o v 4 0 0   r p m ) ,   b o t h   R L   m eth o d s   wer e   eq u ally   ac cu r ate,   w h ils in   v er y   lo s p ee d s   ( less   th an   5 0   r p m )   th PIRL  was  ab le  to   co n tin u esti m atin g   r eliab ly ,   wh er th b aselin R L   wo u ld   s o m etim es ju m p   o u o f   lo ck .   T ab le  2   in d icate s   k ey   p er f o r m an ce   in d icato r s   th at  ar av e r ag ed   ac r o s s   all  th test   co n d itio n s .   T h s u g g ested   s o lu tio n   m in im ized   th to r q u r i p p le  b y   a p p r o x im a tely   6 5   an d   2 5 c o m p ar e d   to   t h f ix e d   am p litu d s ce n ar io   an d   c o n v e n tio n al  R L ,   r esp ec tiv ely .   Hig h   f r eq u e n cy   ex citatio n   ca u s ed   f ew   v ar iatio n s   in   th e   in cr em en tal  p o wer   lo s s   s in ce   th am p litu d t h at  h ad   b ee n   le ar n was  n o o v er e x cited   wh e n   th er was  n o   n ee d   d u r in g   lig h t lo ad   co n d itio n s .     4 . 3 .     P a ra m et er   v a ria t io n r es po ns a nd   no is e   T h s tan d ar d   d ev iatio n   o f   th e   s tato r   r esis tan ce   wa s   d o u b led ,   an d   th s tato r   r esis tan ce   was   r aised   b y   1 5 to   s im u late  tem p er at u r in cr ea s to   test   r o b u s tn ess .   T h f ix ed   am p litu d e   co n t r o ller   w as  f o u n d   to   in cr ea s e   th p o s itio n   er r o r   b y   4 0 c o m p ar ed   to   th n o r m al  R L ,   wh ich   in cr ea s ed   b y   2 0 %.  T h p h y s ics - in f o r m e d   co n tr o ller   was  alm o s co n s tan at  d e g r ad atio n   o f   a   litt le  b elo 5 %.  Fig u r 6   s h o ws  in s tan tan eo u s   to r q u e   wav ef o r m s   with   p ar am eter s   p er tu r b ed ;   th o u tp u o f   PIRL  was  s m o o th ,   an d   lo w - f r eq u e n cy   m o d u latio n   was   in s ig n if ican t.     4 . 4 .     E nerg y   ef f iciency   a nd   curr ent   ha rm o nics   T h s tato r   cu r r en o f   th R MS  an d   th to tal  h ar m o n ic  d is to r ti o n   ( T HD)   wer ex am in ed   with in   th lo ad   r an g e.   I n   th ca s o f   n o m in al  to r q u e,   PIRL  k ep cu r r e n T HD  at  4 o r   les s ,   as   co m p ar ed   to   f ix ed   am p litu d e   an d   s tan d a r d   R L   c o n tr o ller s   at  7 an d   5 % ,   r esp ec tiv ely .   T h r ed u ce d   h ar m o n ic  co n ten is   b ec au s o f   r ed u ce d   am p litu d tr an s itio n s   o f   v o ltag e ,   wh ich   ar lear n e d   b y   th ag e n t.  T h en e r g y   s av in g   o f   a b o u t   1 . 8   o n   t y p ical   d u ty   cy cle  ca u s ed   b y   t h r ed u ctio n   in   R MS  cu r r en t w as si g n if ican t b ec au s it a llo wed   co n t in u o u s   o p er atio n   in   lo w - v o ltag e   e - m o b ilit y   ap p licatio n s .             F i g u r e   4 .   C o m p a r i s o n   o f   r e w a r d   c o n v e r g e n c e   b e t w e e n   s t a n d a r d   R L   a n d   p h y s i c s - i n f o r m e d   R L   a g e n t s     Fig u r 5 .   R o to r   p o s itio n   esti m atio n   co m p a r is o n   am o n g   f ix ed   am p litu d e,   R L ,   a n d   PIRL  co n tr o ller s         Evaluation Warning : The document was created with Spire.PDF for Python.
I n t J Po E lec  &   Dr i Sy s t     I SS N:   2088 - 8 6 9 4       P h ysics - in fo r med   r ein fo r ce me n t le a r n in g   fo r   a d a p tive  h ig h - f r eq u en cy   in jectio n   in     ( S u r en d a r   A r a vin d h a n )   881   T ab le  2 C o m p a r ativ p er f o r m an ce   m etr ics   C o n t r o l l e r   R ms  p o s i t i o n   e r r o r   ( ° e )   To r q u e   r i p p l e   ( %)   A d d e d   l o ss (w )   Le a r n i n g   e p i s o d e s   C o n v e r g e n c e   t i me  ( s)   F i x e d   2   V   a m p l i t u d e   2 . 9   6 . 5   8 . 4       H e u r i s t i c   a d a p t i v e   2 . 1   4 . 8   7 . 5       S t a n d a r d   R L   1 . 4   3 . 0   6 . 9   4   8 0 0   2   3 0 0   P r o p o se d   P I R L   0 . 9 5   2 . 3   6 . 1   2   6 0 0   1   4 0 0       4 . 5 .     Su mm a t i v o n qua ntit a t iv im pro v e m ent s   Fig u r 7   is   co m p ar in g   %   im p r o v em en ts   with   th s u g g ested   m eth o d   a n d   th e   b aselin tech n iq u es.  T h e   b est  o f   th em   is   th in c r ea s ed   co n v er g en ce   o f   lear n in g ,   t h h ig h er   ac cu r ac y   o f   l o w - s p ee d   esti m atin g ,   a n d   t h e   lo wer   to r q u r ip p le.   Su ch   q u a n titativ f in d in g s   s u b s tan tiate  th at   th e   in co r p o r atio n   o f   p h y s ical  k n o wled g e   in   th e   r ein f o r ce m e n lear n in g   r ewa r d   r esu lts   in   s elf - e v o lu tio n ar y   c o n tr o l   p o licy   th at   ad ap t s   to   th e   o p e r atin g   co n d itio n s   wh ils t o b s er v in g   th u n d er l y in g   m o to r   p h y s ics .   An   an aly s is   o f   th p h ase  cu r r en at  1 0 0   r p m   d eter m in e d   th at  th p r o p o s ed   co n tr o ller   r e m o v es  h ig h - f r eq u e n cy   co m p o n e n ts   ca u s ed   b y   in jectio n   b y   u s in g   f ast  Fo u r ier   tr an s f o r m .   T h p r esen T HD  d r o p p ed   to   7 ( f ix ed )   an d   5 ( s tan d ar d   R L )   to   3 . 8 ( PIRL) .   T h e   h ar m o n ic  s p ec tr u m   in   r elatio n   to   th f u n d am en tal  is   p r esen ted   in   Fig u r e   8   as a   n o r m alize d   s p ec tr u m .             Fig u r 6 .   T o r q u wav ef o r m   co m p ar is o n   u n d er   p ar am eter   v a r iatio n   an d   n o is e     Fig u r 7 .   Su m m ar y   b ar   ch a r t o f   %   ag im p r o v em e n ts   in   k ey   p er f o r m an ce   in d ices f o r   PIRL  o v er   b aselin m eth o d s           Fig u r 8 .   C u r r e n t   h ar m o n ic  m ag n itu d es       5.   DIS CU SS I O N   Mo to r   p h y s ics  lear n in g   as  p ar o f   r ein f o r ce m e n lear n in g   ess en tially   alter s   th ex p lo r atio n   an d   lear n in g   o f   o p tim al  co n tr o s o lu tio n s   to   en co d er less   PMSM  d r iv es  b y   th e   ag en t.  T h p h y s ics - in f o r m ed   r ein f o r ce m e n lear n i n g   ( PIRL)   m eth o d ,   wh ich   im p o s es  th e   s tato r   v o ltag m o d el  r esid u al   o n   th r ewa r d ,   r estricts  ex p lo r atio n   to   b p h y s ically   co n s is ten o p er atin g   r eg im es;  th i s   en s u r es  th at  lear n in g   will  b s tab le  an d   co n v er g e   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 0 8 8 - 8 6 9 4   I n t J Po E lec  &   Dr i Sy s t Vo l.  1 7 ,   No .   2 J u n e   20 2 6 :   8 7 3 - 8 8 4   882   m o r q u ick ly   th a n   tr a d itio n al  r ein f o r ce m e n lear n in g   ( R L ) .   T h ag e n is   a   r ea l - tim e   ad a p tiv co n tr o ller   t h at  in cr ea s es th in jectio n   am p litu d in   r esp o n s to   lo s p ee d s   t o   m ain tain   s ig n al - to - n o is r atio   an d   d ec r ea s es th in jectio n   am p litu d e   wh en   h ea v ily   lo ad ed   to   m i n im ize  th lo s s es  in cu r r ed   to   r ea c h   lev els o f   ex p er t - lev el  tu n i n g   b eh av io r   with o u h u m a n   in ter v en tio n .   C o m p ar ed   to   f ix ed   o r   h eu r is tic  co n tr o ller s ,   th s u g g ested   ap p r o ac h   h as  f u lly   ad a p tiv p e r f o r m an ce   wi th   n o   p r e - d eter m in ed   m ap s   o r   ca lib r atio n ,   b u ca n   b ea s ily   i n ter p r eted   an d   d ata - s p ar s b y   u s in g   its   p h y s ics - in f o r m ed   r ewa r d .   Un lik th o n lin e   ad ap tatio n   o f   th ev o l u tio n a r y   alg o r ith m s   b ase d   o n   o f f li n s ea r ch es,  PIRL  co n v er g es  th o n lin ad ap tatio n   in   ab o u 4 0 th tim e ,   an d   th co m p u tatio n   o f   p h y s ics - r esid u al  in cu r s io n   tak es  o n ly   a b o u t   5   o f   th o v er all  tim e.   T h e   f r am ewo r k   is   v er y   r o b u s to   ch an g es   in   p ar am ete r s   an d   n o is s in ce   th p h y s ics  p en alty   is   c o n tin u o u s ly   m o n ito r ed   to   m ain tain   c o n s is ten cy   b etwe en   m ea s u r ed   an d   p r e d icted   elec tr i ca q u an titi es,  wh ich   r esu lts   in   th r esis tan ce   o r   in d u ctan ce   d r if b ein g   co r r ec te d   im m ed iately ,   as  well  as  m ain ta in in g   lev el  o f   in v e r ter   s af ety   m ar g in .   I n   p r ac tice,   th tech n iq u o f f e r s   f ea s ib le  p ath   to   s elf - tu n in g   c o n tr o o v er   ex tr a - lo w - v o ltag ca s es  lik e - b ik es,  s co o ter s ,   an d   r o b o t ic  ac tu ato r s ,   wh ich   h av less   lab o r io u s   ca lib r atio n   r eq u ir em e n ts   an d   ar m o r e   en er g y - ef f icien t.  T h tr ain e d   p o licy   g en er ates  f o r war d   i n f er en ce   in   ap p r o x i m ately   1 8   µs  u s in g   a   1 5 0   MH DSP  an d   is   f ea s ib le  in   cu r r en t - co n tr o cy cle  o f   on ly   1 0 0   µs ,   m ak i n g   it  p r ac tic al   o n   m o s t e m b e d d ed   s y s tem s .   I n   ad d itio n   to   am p litu d ad a p tatio n ,   th id en tical  f r am ewo r k   ca n   b g en er alize d   to   co - o p tim ize  in jectio n   f r e q u e n cy ,   to r q u e ,   an d   f lu x   co n tr o o r   b in teg r ated   in to   th s etu p   o f   d ig ital  twin   t o   f ac ilit ate  p r ed ictio n - ad a p tatio n   an d   n ev er - e n d in g   im p r o v em e n t.  E x p lain a b le - AI   to o ls ,   co u p led   with   o t h er s ,   m i g h h elp   to   in c r ea s tr an s p ar e n cy   an d   tr u s in   th in d u s tr y .   All  in   all,   p h y s ical   in s ig h in   r ein f o r ce m en t   lear n i n g   tr a n s f o r m s   m o d el - b ased   an d   d ata - d r iv e n   p a r ad ig m s   b y   f a cilitatin g   ef f icien t,   r o b u s t ,   an d   r ea l - tim e   a d ap tiv co n tr o l in   t h n ex g en er atio n   s en s o r less   PM SM  d r iv es.       6.   CO NCLU SI O AND  F U T U RE   WO RK   T h is   p ap er   d em o n s tr ated   p h y s ics - in f o r m ed   r ein f o r ce m e n lear n in g   ( PIRL)   ar ch itectu r o f   ad ap tiv e   o p er atio n   o f   h ig h - f r e q u en c y   in jectio n   am p litu d co n t r o l in   e n co d er less   lo w - v o ltag PMSM  d r iv es.  T h ar ticle  d ea lt  with   th o ld   p r o b lem   o f   f in d i n g   th e   co r r ec a m p litu d o f   in jectio n   at  v a r y in g   s p ee d s ,   lo ad s ,   an d   u n ce r tain ties   in   p ar am ete r s   p r o b lem   t h at  d ir ec tly   r elate s   t o   p o s itio n   esti m atio n   ac cu r ac y ,   to r q u r ip p le ,   an d   en er g y   e f f icien cy   i n   ex tr a - lo w - v o ltag s y s tem s .   T h p r o p o s ed   a p p r o ac h   lim ite d   th r ein f o r ce m e n t le ar n in g   r ewa r d s   f u n ctio n ,   with   th PM SM  v o ltag eq u atio n s   em b e d d ed ,   to   p h y s ically   co n s is ten o p er atin g   r e g io n s .   T h is   in te g r atio n   s u cc e s s f u lly   r eg u lar ize d   ex p lo r atio n   a n d   m ad ac tio n s   in f ea s ib le  as  well  a s   co n v er g en ce   to   b r ap id   an d   m o r s tab le  th an   p u r ely   d ata - d r iv en   r ein f o r ce m e n lear n i n g   m eth o d s .   T h u s o f   s im u latio n   estab lis h ed   th at   th e   PIRL  co n tr o ller   i n cu r r e d   co n s id er ab le  d ec r ea s in   to r q u r ip p le  in   ad d itio n   to   in c r ea s in g   th ac cu r ac y   o f   p o s itio n   es tim atio n   in   lo s p ee d   an d   s tab ilit y   to   p ar a m eter   d r i f t a n d   n o is in   m ea s u r em en ts .   Alth o u g h   th ese  ar p o s itiv r esu lts ,   th cu r r en r esear ch   is   co n f in ed   t o   th v alid atio n   o f   s im u latio n - b ased   v alid atio n .   T h er ar o th er   f ac to r s   th at  m ay   af f ec p r ac tical  im p lem en tatio n ,   in clu d in g   ADC  q u an tizatio n ,   non - lin ea r ities   o f   in v er ter s ,   P W r eso lu tio n ,   an d   co n s tr ain ts   o f   r ea l - tim co m p u tatio n ,   b u t h ese  wer n o t   ex p licitly   m o d elled .   M o r eo v e r ,   th lear n in g   p r o ce s s   p r esu p p o s es  f air ly   p r ec is in itial  m o to r   p ar a m eter s   in   t h tr ain in g   th at  ca n   in f lu e n ce   g en er ali z atio n   in   ac tu al  h a r d war co n d itio n s .   T h n e x s tag o f   wo r k   will  b e   ca r r ied   o u i n   th e   ex p er im en tal   v alid atio n   with   th e   u s e   o f   4 8   PMSM   p r o to ty p to   p r o v th f ea s ib il ity   o f   th wo r k   i n   r ea tim an d   its   s tr en g th .   Oth er   ar ea s   o f   f u tu r r esear ch   ar e   co m b in in g   o p tim izatio n   o f   th in jectio n   am p litu d an d   f r eq u e n cy ,   th in v e r ter   n o n - lin ea r   m o d els ,   an d   ex p lo r in g   en h an ce d   lear n in g   a p p r o ac h es,   lik ex p lain ab le  r ein f o r ce m e n lear n in g ,   to   in cr ea s tr an s p a r en cy   an d   in d u s tr ial   ac ce p tan ce .   T h s u g g ested   f r a m ewo r k   ca n   b a p p lied   t o   o t h er   elec tr ic  d r iv e   s y s tem s   as  well ,   in d u ctio n   an d   s witch ed - r elu ctan ce   m ac h i n es.       ACK NO WL E DG M E N T S   T h is   r esear ch   was su p p o r ted   b y   ad v a n ce d   s cien tific   r esear ch .       F UNDING   I NF O R M A T I O N   T h is   r esear ch   r ec ei v ed   n o   s p e cif ic  g r an t   f r o m   an y   f u n d in g   a g en cy   i n   th e   p u b lic,   co m m er ci al,   o r   n o t - f o r - p r o f it secto r s .       AUTHO CO NT RI B UT I O NS ST A T E M E N T   T h is   jo u r n al  u s es  th C o n tr ib u to r   R o les  T ax o n o m y   ( C R ed iT)   to   r ec o g n ize  in d iv id u al  au th o r   co n tr ib u tio n s ,   r ed u ce   au th o r s h ip   d is p u tes,  an d   f ac ilit ate  co llab o r atio n .     Evaluation Warning : The document was created with Spire.PDF for Python.