C omp u te r   S c i e n c e   an d   I n for mati on   T e c h n ol ogi e s   V ol .   6 ,   N o .   3 N ove m b e r   20 25 ,   p p.   253 ~ 261   IS S N :   2722 - 3221 D O I :   10. 1 1591 / c s i t . v 6 i 3 . pp 25 3 - 261             253     Jou r n al   h o m e pa ge ht t p: / / i ae s pr i m e . c om / i nd e x . php / c s i t   J a v a n e s e   a n d   S u n d a n e s e   sp e e c h   r e c o g n i t i o n   u si n g   W h i sp e r       A l i m   R ah ar j o A ma l i a   Zah r a   D e p a rt m e n t   o Co m p u t e S c i e n c e ,   BIN U S   G ra d u a t e   P ro g ra m - M a s t e o Co m p u t e S c i e n c e ,   Bi n a   N u s a n t a ra   U n i v e rs i t y ,   J a k a rt a In d o n e s i a       A r ti c l e   I n fo     A BS TR A C T   Ar t i c l e   h i s t or y :   Re c e i v e d   N ov   12 202 4   Re vi s e M a y   27 20 25   A c c e pt e J un   13 2025       A ut o m a t i c   s pe e c h   r e c ogn i t i on   ( A S R )   t e c h nol ogy   is   e s s e n t i a l   f o r   a dva nc i n g   hum a n - c o m pu t e r   i n t e r a c t i on ,   p a r t i c ul a r l y   in   a   l i ng ui s t i c a l l y   d i v e r s e   c o unt r y   l i k e   I nd one s i a ,   w he r e   a p pr o xi m a t e l y   700   n a t i ve   l a ng ua g e s   a r e   s po ke n ,   i nc l ud i ng   w i d e l y   us e d   l a ngu a ge s   l i k e   J a va n e s e   a nd   S und a ne s e .   T hi s   s t udy   l e v e r a ge s   t he   pr e - t r a i n e d   W h i s p e r   S m a l l   m o de l   an   e n d‑ t o e nd   t r a ns f o r m e r   pr e t r a i n e d   on   6 80 , 000   h our s   of   m u l t i l i n gua l   s p e e c h,   f i ne   t uni n g   it   s pe c i f i c a l l y   to   i m p r ov e   A S R   p e r f o r m a nc e   f or   t h e s e   l ow   r e s o ur c e   l a ngua ge s .   T he   pr i m a r y   goa l   is   to   i n c r e a s e   t r a n s c r i p t i on   a c c ur a c y   a nd   r e l i a bi l i t y   f o r   J a va ne s e   a nd   S und a ne s e ,   w h i c h   h a ve   h i s t or i c a l l y   ha d   l i m i t e d   A S R   r e s ou r c e s .   A ppr ox i m a t e l y   100   h ou r s   of   s pe e c h   f r o m   O pe nS L R   w e r e   s e l e c t e d,   c o ve r i n g   bot h   r e a di ng   a nd   c onv e r s a t i on a l   pr om pt s ,   t h e   da t a   e xh i b i t e d   d i a l e c t a l   va r i a t i o n,   a m b i e n t   no i s e ,   a nd   i n c o m p l e t e   d e m og r a ph i c   m e t a d a t a ,   ne c e s s i t a t i ng   n or m a l i z a t i on   a nd   f i x e d l e ng t h   pa d di n g.   w i t h   m od e l   e va l u a t i on   ba s e d   on   t h e   w o r d   e r r o r   r a t e   ( W E R )   m e t r i c .   U n l i ke   a pp r o a c he s   t h a t   c o m b i n e   s e pa r a t e   a c ou s t i c   e nc od e r s   w i t h   e x t e r na l   l a ngu a ge   m od e l s ,   W h i s p e r   un i f i e d   a r c h i t e c t u r e   s t r e a m l i ne s   a d a p t a t i o n   f or   l ow r e s ou r c e   s e t t i ngs .   E v a l ua t e d   on   he l d ou t   t e s t   s e t s ,   t he   f i ne t une d   m od e l s   a c h i e v e d   W o r d   E r r or   R a t e s   of   14. 9 7%   f o r   J a va ne s e   a n d   2 . 03 %   f or   S und a ne s e ,   s ubs t a n t i a l l y   ou t p e r f or m i ng   ba s e l i ne   s y s t e m s .   T he s e   r e s ul t s   d e m ons t r a t e   W h i s pe r   e f f e c t i v e ne s s   in   l ow r e s ou r c e   A S R   a nd   hi g hl i gh t   i t s   po t e n t i a l   to   e nha nc e   t r a ns c r i p t i on   a c c u r a c y,   s uppo r t   l a n gua ge   pr e s e r v a t i on ,   a nd   b r oa de n   d i g i t a l   a c c e s s   f o r   unde r r e pr e s e nt e d   s pe e c h   c o m m uni t i e s .     Ke y w or d s :   F i ne   t un e   J a v a n e s e   S pe e c r e c ogni t i o n   S unda n e s e   W hi s p e r   T hi s   i s   an   op e n   ac c e s s   ar t i c l e   u nde r   t he   C C   B Y - SA   l i c e n s e .     Cor r e s pon di n g   Au t h or :   A l i m   R a ha r j o   D e pa r t m e nt   of   Co m pu t e r   S c i e n c e ,   BIN U S   G r a dua t e   P rogr a m - M a s t e r   of   Co m pu t e r   S c i e n c e   Bi na   N us a n t a ra   U ni v e rs i t y   D K J a k a rt a ,   Indo ne s i a ,   114 80   E m a i l :   a l i m . r a ha rj o @ bi n us . a c . i d       1.   I N TR O D U C TI O N   A ut om a t i c   s p e e c h   re c ogn i t i on   (A S R)   i s   a   pi vot a l   t e c hn ol ogy   i n   hu m a n - c o m put e r   i nt e ra c t i on ,   a l l ow i ng   s e a m l e s s   c o m m uni c a t i on   b e t w e e n   hu m a ns   a nd   m a c hi n e s   t hrou gh  s p e e c h   [1] .   O ve r   t i m e ,   A S R   h a s   s e e n   s i gn i fi c a nt   a dva n c e m e nt s ,   l e a di ng   t o   t he   i nt e gra t i on   of   s pe e c h   i n t e r fa c e s   i n   a   w i d e   ra ng e   of   a ppl i c a t i ons ,   s uc a s   t ra ns c ri p t i on   s e r vi c e s ,   v i rt u a l   a s s i s t a n t s ,   a nd   vo i c e - c o nt rol l e d   d e vi c e s   [2] [ 8] .   T he   gl o ba l   A S R   m a rke t   i s   e x pe c t e t grow   s u bs t a n t i a l l y,   dr i ve by   t he   i n c re a s i ng  d e m a nd   for   e ff i c i e n t   a nd   a c c u ra t e   s pe e c h   re c og ni t i on   t e c hnol ogi e s   [9 ] .   L a ngu a g e   di v e rs i t i s   o ne   of   t h e   c or e   c ha ra c t e ri s t i c s   of   hu m a n   c i v i l i z a t i on,   w i t h   ove 7, 0 00  l a ng ua g e s   s pok e n   w orl dw i de ,   s h ow c a s i ng  t h e   c om p l e xi t of   hu m a n   c om m un i c a t i on  [1 0] L a ng ua g e   go e s   be yond  s i m p l e   c o m m un i c a t i on ;   i t   e n c a ps ul a t e s   w orl dv i e w s ,   c u l t u ra l   e x pre s s i o ns ,   a nd  un i qu e   gra m m a t i c a l   a nd  phon e t i c   s ys t e m s .   I ndon e s i a ,   w i t h   i t s   popu l a t i on  of  a pprox i m a t e l 280   m i l l i on ,   i s   ho m e   t o   a round   70 n a t i ve   l a ng ua g e s ,   i a dd i t i on  t o   t h e   na t i o na l   l a ngu a ge ,   Ba ha s a   In done s i a   [10] .   T hi s   m a ke s   Indone s i a   o ne   of   t h e   m os t   l i ngu i s t i c a l l y   di v e rs e   na t i ons   i n   t he   w o rl d ,   a c c ount i ng  f or  roug hl 10%  of   t h e   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2722 - 3221   Com pu t   S c i   Inf   T e c h nol V o l .   6 ,   N o .   3 N ov e m be r   20 25 :   253 - 261   254   gl oba l   l a ng ua g e s .   J a va n e s e   a nd   S unda ne s e ,   s po ke by  a p proxi m a t e l 90  m i l l i on  a nd  40  m i l l i o p e opl e   re s pe c t i ve l y,   a re   t h e   s e c on a nd   t h i rd   m os t   w i de l s po ke n   l a ngua g e s   i I ndon e s i a   [11] .   Re c e nt   a d va n c e m e nt s   i A S for  In done s i a n   l a ngu a ge s   ha v e   b e e n   dr i ve n   by  s e l f - s u pe rv i s e d   l e a rni n m od e l s ,   no t a b l y   W a v2V e c 2   [12] ,   w hi c ha s   s h o w pro m i s e   i l ow - r e s ourc e   l a n gua ge   s e t t i n gs .   S t udi e s   ha v e   r e por t e w ord   e rro r a t e s   (W E R)   a s   l ow   a s   22%  i s o m e   a pp l i c a t i ons   [13] [ 22] .   N ot a bl y,   re s e a rc h   on   S un da n e s e   A S R   ut i l i z i ng  t h e   O p e nS L R   da t a s e t   a c hi e ve d   a   W E R   of   23 . 5%   t hrough   f i n e - t un i ng   of   t he   W a v2V e c m od e l   [ 23] .   S i m i l a rl y,   a no t he r   s t udy   on  J a va ne s e   A S R,   l e ve r a gi ng  t he   X L S - v a ri a n t   of   W a v 2V e c 2,   a c hi e ve a   W E of  17 . 95 [24 ] .   T h e s e   r e s ul t s   hi gh l i g ht   t h e   e f fe c t i ve n e s s   of  s e l f - s up e rv i s e d   m ode l s   i n   t a c k l i ng   t he   c ha l l e nge s   pos e by   l ow - r e s ourc e   l a ngu a ge s   w i t l i m i t e d   t ra i ni ng   d a t a .   T hi s   s t udy   foc us e s   o fi n e - t uni n t h e   W hi s p e m od e l   [7 ],   a   s t a t e - of - t he - a rt   A S m od e l ,   t e va l ua t e   i t s   p e rfor m a nc e   for   l ow - re s ou rc e   l a n gua g e s ,   s p e c i fi c a l l y   J a v a n e s e   a n S u nda n e s e .   T he   d a t a s e t s   us e a re   s o u rc e d   fro m   O p e nS L [11],   a   re p os i t o ry  of fe r i ng   va l ua b l e   r e s ourc e s   for   l a ngu a g e s   w i t h   l i m i t e s p e e c d a t a .   W hi s p e r’s   e xt e ns i v e   pre - t r a i ni ng  on  a   da t a s e t   of  ove r   680 , 000  h ours   of  a udi o - t r a ns c r i pt i on  d a t a ,   i nc l ud i ng  11 7, 0 00  m ul t i l i ngu a l   hours   c ov e ri ng   m ore   t h a n   96   l a ngu a g e s   [7] ,   pos i t i ons   i t   a s   a   s t rong   c a ndi d a t e   for   t hi s   t a s k .   A   r e c e nt   s t udy  [25] [27]   c o m pa ri ng  W h i s pe r   t W a v2V e c 2. foun t h a t   W hi s p e c ons i s t e nt l ou t p e rfor m s   W a v2V e c 2 . 0   a c ros s   m u l t i pl e   l a ng ua g e s ,   a c hi e vi ng  l ow e W E Rs ,   e s pe c i a l l i n   no i s e nvi ron m e n t s   s uc a s   t he   G RA C E   [2 5]  a nd   CO RA A   [28]   c orpo ra .   F or   i ns t a n c e ,   W hi s pe yi e l d e d   a n   a ve r a g e   W E R   ra nge   of   11. 3 %   t o   2 4. 9 %,   no t a bl y   out pe rfor m i ng  W a v2V e c 2 . 0,   w hi c ra nge fro m   13 . 1%  t 34. 8%   i s i m i l a c on di t i ons   [2 5].   T h e   s t a t i s t i c a l   s i gni f i c a nc e   of  W h i s pe r’s   p e rfor m a n c e ,   a s   v e ri f i e d   by   a   M a nn - W h i t n e y   t e s t ,   u nde r l i n e s   i t s   a d a p t a b i l i t y   a n e ffi c i e nc y   i n   di ve rs e   m ul t i l i ngu a l   s c e na r i os .   U nl i ke   W a v2V e c   2. 0 ,   w h i c r e l y   on  u ns upe r vi s e d   pr e - t r a i n i ng   on  unl a b e l l e da t a ,   W hi s p e b e ne fi t s   from   i t s   pre - t r a i n i ng   di r e c t l on  s pe e c h - to - t e xt   t a s ks ,   e na b l i ng   i t   t o   ge ne r a l i z e   w e l l   a c r os s   di ve rs e   l a ng ua g e s ,   do m a i ns ,   a n d a t a s e t s .   W hi s p e us e   of  l a b e l e da t a   a l l ow s   i t   t o   p e rfor m   A S R   t a s ks   w i t h   m i n i m a l   fi n e - t uni n c om pa r e t o   m ode l s   t h a t   r e qu i re   e x t e ns i ve   f i ne - t un i ng   fo r   opt i m a l   pe rfo r m a n c e .   It s   pre - t ra i ni ng   on   a   di ve rs e   m u l t i l i ngua l   da t a s e t   m a k e s   i t   pa r t i c ul a rl s ui t e fo u nde rr e pr e s e n t e d   l a n gua g e s   l i ke   J a v a n e s e   a nd   S und a n e s e ,   w h i c h   l a c k   s uffi c i e n t   A S R   m od e l s .   F ur t he rm o re ,   W hi s p e a r c hi t e c t ur e   a   t ra ns fo rm e b a s e d   e nc od e r - d e c ode r     m ode l f a c i l i t a t e s   a c c ur a t e   t r a ns c r i pt i ons   by   c onv e rt i ng   ra w   a udi o   i nt o   l og - M e l   s p e c t rogr a m s ,   w hi c h   a r e   e nc o de d   i nt o   hi dd e n   s t a t e s   a nd   a ut o re gr e s s i v e l y   d e c ode d   i nt o   t e x t   t r a ns c r i pt i ons   [7] .   T h e   m ode l ’s   de e p   fus i on  l a ngu a g e   m od e l   i n t e gr a t i on   prov i d e s   s up e ri or   p e rfor m a n c e   c om pa re d   t o   s ha l l ow   fus i on  a ppr oa c he s .   W hi s p e r   e x c e pt i ona l   pe rfor m a n c e   i n   m u l t i l i ngu a l   A S R   t a s ks ,   w i t h   W E Rs   of   3%   o t h e   L i bri S p e e c t e s t - c l e a n   s ubs e t   a nd  4. 7 on  t he   T E D - L IU M   c orp us   [7] ,   und e rs c or e s   i t s   pot e n t i a l   t ge ne r a l i z e   a c ros s   va ri o us   l a n gua g e s   a n dom a i ns .   T he s e   q ua l i t i e s   m a k e   i t   a n   i de a l   c a ndi da t e   for   i m p rovi ng   A S R   for   J a v a n e s e   a nd  S u nda n e s e ,   w h e re   d a t a   s c a r c i t a nd  l i n gui s t i c   v a ri a bi l i t pre s e nt   s i gn i fi c a nt   c h a l l e ng e s .   S und a ne s e   a nd   J a v a n e s e   w e r e   c h os e n   for   t hi s   s t u dy   du e   t o   t he i w i d e s pre a d   us e   i n   Ind one s i a ,   de s pi t e   t he   l i m i t e d   a va i l a bi l i t of  hi gh - qu a l i t y ,   a nno t a t e d   s pe e c d a t a .   S und a ne s e ,   s pok e by  a pprox i m a t e l y   40   m i l l i on   p e opl e ,   r e pre s e nt s   one   o In done s i a ’s   l a rge s t   l i ngu i s t i c   groups   but   ha s   re c e i ve re l a t i v e l y   l i t t l e   a t t e nt i on   i n   A S r e s e a rc h   [11] .   T he   s u c c e s s   of  f i ne - t un i ng  W a v2V e c for   S unda ne s e   A S R,   a s   s how n   by  [2 3],   s ugge s t s   t h a t   f urt h e i m pro ve m e n t s   m a b e   a c hi e va b l e ,   pa r t i c ul a rl y   w i t h   W h i s pe r s   c o m pre he ns i ve   m ul t i l i ngu a l   c a pa bi l i t i e s .   In  I ndon e s i a ’s   d i ve rs e   l i ngu i s t i c   l a nds c a pe ,   S und a ne s e ,   o ne   of  t h e   m os t   s pok e n   r e gi o na l   l a ngua ge s ,   i l l us t ra t e s   t he   c h a l l e ng e s   of  l a n gua g e   c om pl e xi t a nd  v a ri a t i on.   A s   a   pr i m a ry  l a ngua ge   f or  c o m m uni t i e s   i n   W e s t   J a va ,   S unda ne s e   s e rve s   a s   a   k e y   c ul t ura l   a nd   c om m un i c a t i v e   t oo l .   H ow e ve r ,   t h e   a do pt i on  of   Indon e s i a a s   t he   na t i o na l   l a ng ua g e   a nd   t h e   c l os e   prox i m i t y   of   S und a n e s e - s pe a k i ng  a r e a s   t o   J a v a ne s e - s pe a ki ng  r e g i ons   ha ve   i nt rod uc e a dd i t i ona l   l a y e rs   of  v a r i a t i on   w i t hi n   S und a ne s e .   In   a re a s   l i k e   B a nj a r   Ci t y,   w h e re   S und a ne s e   a nd   J a v a ne s e   c o m m uni t i e s   i n t e rs e c t ,   d i s t i n c t   s ub - di a l e c t s   h a ve   e m e rg e d,   i n c l ud i ng   J a va - i nfl u e n c e d   a nd     J a v a - do m i na t e d   S un da n e s e   v a ri e t i e s   [29] .   A   de t a i l e d   s t ud y   of   B a nj a r   S und a n e s e   i d e n t i fi e d   t hre e   pr i m a ry    s ub - di a l e c t :   s t a nda r S und a ne s e ,   J a va - i nfl ue n c e S unda ne s e ,   a nd  J a va - d om i na t e d   S unda ne s e .   E a c r e fl e c t   di ffe r e n t   l e v e l s   of  J a va ne s e   i nt e gra t i o obs e rv a bl e   i l e xi c a l   a nd  phono l ogi c a l   s hi ft s   [29] .   W h i l e   s pe e c h   r e c o g ni t i on   t e c h no l og y   h a s   s e e n   r a p i d   d e v e l op m e n t   i n   r e c e n t   y e a rs ,   i t s   a pp l i c a t i o ns   re m a i n   l a rg e l c o nc e n t r a t e on   m a j o r   n a t i o n a l   a n i n t e r n a t i on a l   l a ng u a g e s   s u c a s   E ng l i s h ,   M a n d a r i C hi n e s e ,   a nd   I nd o n e s i a n .   C o ns e q u e n t l y ,   m a ny   r e g i o n a l   a nd   i nd i ge n o us   l a ng u a g e s   l i k e   J a v a n e s e   a n d   S u n d a n e s e   h a v e   re c e i v e d   l i m i t e a t t e nt i on   i n   t e c h n ol o gi c a l   r e s e a r c h   a nd   i n no v a t i o n .   T h i s   l a c k   o r e p r e s e nt a t i on   n o t   o n l y   r e f l e c t s   a   d i g i t a l   d i v i d e   bu t   a l s o   c o n t r i bu t e s   t o   t h e   o ng o i n g   t hr e a t   of   l a ng u a g e   e n d a n g e r m e n t .   T o   a dd r e s s   t h i s ,   i n t e g r a t i n s p e e c h   t e c hn o l o gy   i n t o   l a ng u a g e   p re s e r v a t i o n   e f fo r t s   h a s   b e c o m e   i n c r e a s i ng l y   i m p or t a nt .   F o r   i n s t a n c e ,   i m p l e m e n t i n g   A S R   s ys t e m s   fo r   u n d e r - r e pr e s e n t e d   l a ng u a g e s   c a n   e n c ou r a g e   br o a d e r   us e   a m on g   s p e a k e r s   a n fos t e r   l i n g ui s t i c   p r i d e   w i t h i n   c o m m u n i t i e s .   I n   t h e   c a s e   o f   S u n d a n e s e ,   t h e   a v a i l a b i l i t y   o f   t oo l s   s u c h   a s   s p e e c h - to - t e x t   a p p l i c a t i on s   c a r a i s e   a w a r e n e s s   a b ou t   t h e   l a n gu a g e   d e c l i n i ng   u s e ,   pr o m ot e   e v e r yd a c o m m u n i c a t i o i S un d a ne s e ,   a n i ns p i r e   y o un g e r   g e n e r a t i on s   t o   l e a r a n e n ga g e   w i t h   t h e i l i ng u i s t i c   h e r i t a g e .   F u r t h e r m o r e ,   s u c h   s ys t e m s   c a n   b r i d g e   c o m m u ni c a t i on   g a p s   a n d   m a k e   d i g i t a l   c o n t e n t   m o re   a c c e s s i b l e   i n   l o c a l   l a n gu a g e s ,   s up p or t i n g   bo t h   c u l t u r a l   p r e s e r v a t i o n   a n d   i n c l us i v i t y   i n   di g i t a l   e nv i r o n m e n t s .   Evaluation Warning : The document was created with Spire.PDF for Python.
Com pu t   S c i   Inf   T e c h nol     IS S N :   2722 - 3221       J av a ne s e   and   s unda ne s e   s p e e c r e c og ni t i on   us i n W hi s pe r   ( A l i m   R ahar j o )   255   Be yon d   i t s   r ol e   i n   l a ngu a g e   pr e s e rv a t i on ,   s p e e c h   r e c og ni t i on   t e c h no l og a l s of fe rs   s i gn i f i c a nt   pot e n t i a l   i n   e du c a t i o na l   c on t e x t s ,   pa rt i c u l a rl y   fo r   s up por t i ng   t he   l e a rn i ng   of   r e g i on a l   l a n gu a g e s   s u c h   a s   S und a n e s e   a nd   J a va n e s e   [3 0] ,   [ 31] .   By   e na bl i n g   t h e   d e v e l o pm e n t   of   l a ng ua ge   l e a rn i n g   s ys t e m s   t h a t   c a p t u re   a nd   t r a ns c r i b e   n a t i v e   s p e e c h ,   A S R   t oo l s   c a n   h e l p   e ve ry da us e rs   b e c o m e   m or e   f a m i l i a w i t t h e   pr on un c i a t i on ,   s t ru c t ur e ,   a nd   us e   of   t h e s e   l a ng ua ge s   i n   r e a l - l i f e   s c e n a ri os .   T hi s   i s   e s p e c i a l l y   v a l ua bl e   f or   l a n gu a g e s   l i k e   S und a n e s e   a nd   J a va ne s e ,   w h i c h   fe a t ur e   c o m pl e x   s p e e c h   l e v e l s   or   r e g i s t e rs   r a ng i n g   fr o m   i nfo r m a l   f or m s   us e a m on p e e rs   t o   m o re   re fi ne d   a nd   p ol i t e   f or m s   us e d   w h e n   a d dr e s s i ng   e l de rs   or   i n   fo r m a l   s e t t i ngs .   T he s e   l i ng ui s t i c   nu a n c e s   a r e   oft e n   di f fi c ul t   f or   l e a rn e rs   or   n on - na t i v e   s p e a ke rs   t o   gr a s p ,   e s pe c i a l l w i t hou t   gu i de d   e x pos ure   t n a t i ve   us a g e .   A   s pe e c h - to - t e x t   o a ud i o - b a s e l e a rni ng  s ys t e m   p ow e r e by   A S c a provi de   r e a l - t i m e   f e e d ba c a nd  s t r uc t ure l a ngu a ge   m a t e ri a l s   t h a t   i nc o rpor a t e   t h e s e   v a ri a t i ons ,   m a ki ng  t he   l e a rn i ng  p roc e s s   m o re   i nt e r a c t i v e   a nd  c ul t ura l l y   i nf orm e d.   T hr ough  s u c a pp l i c a t i ons ,   A S t e c hno l ogy   not   onl y   h e l ps   br i dg e   t he   a c c e s s i b i l i t y   g a p   i n   l a ngu a g e   l e a rn i ng   but   a l s o   s t r e ngt h e ns   c o m m uni t y   e ng a g e m e nt   w i t l oc a l   l a ngu a ge s ,   e ns uri ng  t ha t   t he s e   c u l t ura l   i de n t i t i e s   re m a i n   vi b ra n t   i t he   di g i t a l   a g e .   F or  J a va n e s e ,   s poke n   by   a ro und   90   m i l l i on   p e opl e ,   a ddi t i ona l   c ha l l e ng e s   s t e m   fro m   i t s   l i ngu i s t i c   c o m pl e x i t y   a nd  di a l e c t a l   va ri a t i ons .   P re v i ous   re s e a r c us i ng   t h e   X L S - R   va r i a n t   of  W a v 2V e c a c h i e v e d   a   W E R   of   17 . 95%   [24] ,   but   t he r e   re m a i ns   s i gn i fi c a n t   roo m   for   i m prov e m e n t .   W hi s p e r,   w i t h   i t s   br oa d e r   pr e - t r a i n i ng   a nd   m u l t i l i ngu a l   a rc h i t e c t ure ,   i s   e xpe c t e d   t o   e nh a nc e   A S R   pe r form a n c e   for   J a va ne s e .   S t udi e s   ha v e   a l s s h ow t h a t   fi ne - t uni ng  W hi s p e fo l ow - re s our c e   c h i l d   s pe e c h   yi e l ds   p rom i s i ng   re s u l t s   c om p a re t non - fi n e t un e m od e l s   [ 32] [3 4] furt h e s up port i ng   i t s   po t e n t i a l   t o   i m prov e   A S fo un de rr e pr e s e nt e d   l a ngu a ge s   l i ke   J a v a ne s e   a nd   S und a ne s e .       2.   M ET H O D   2. 1 .     R e s e a r c h   s tag e s   T he   fi rs t   s t a ge   of  t h i s   re s e a r c i nvo l ve g a t h e ri ng  t he   re l e va n t   d a t a s e t s   fro m   p ubl i c l a va i l a bl e   s ourc e s ,   a s   i l l us t r a t e d   i F i gur e   1.   W e   u t i l i z e d   t w o   da t a s e t s :   O pe nS L R   (S L R35)   fo J a va ne s e   a nd   O p e nS L R   (S L R36)   for   S und a n e s e   [11] .   T h e s e   da t a s e t s   w e r e   s e l e c t e d   du e   t o   t h e i r   c om pr e h e ns i v e ne s s ,   c ons i s t i ng   of   t hous a n ds   of   ho urs   of   t ra ns c ri b e d   s pe e c h .   A ft e r   da t a s e t   c o l l e c t i on ,   w e   proc e e de d   w i t h   t h e   pre - proc e s s i ng   s t a ge .   T h i s   ph a s e   i nvo l ve org a ni z i ng  t he   da t a   i n t t ra i ni ng  a nd  v a l i da t i o s e t s ,   e ns ur i ng   i t   w a s   a ppr opri a t e l y   pre pa re d   f or   t h e   W hi s pe r   m o de l ’s   r e qu i re m e nt s .   P a rt   o f   t h i s   pre pa ra t i on   i nc l ud e d   e x t r a c t i ng   a udi o   fe a t u re s   by   c onv e rt i ng  t h e   r a w   s ou nd  f i l e s   i nt o   l o g - M e l   s p e c t rogr a m s ,   t h e   i nput   for m a t   W h i s pe r   us e s .   T h i s   t r a ns for m a t i o c a p t ure s   e s s e nt i a l   fr e qu e nc y   d e t a i l s   i n   t he   s pe e c h ,   m a ki n t he   da t a   w e l l - s u i t e for  t h e   f i ne - t un i ng   pro c e s s .   N ot a b l y,   t he   t e s t i n d a t a s e t   w a s   k e pt   s e p a ra t e   t o   e ns ure   a un bi a s e f i na l   e v a l u a t i on.   W i t h   p re - pr oc e s s i ng  c o m pl e t e ,   t h e   ne x t   s t a g e   i nvo l ve d   fi ne - t uni n t he   W hi s p e m od e l ,   a   s t a t e - of - t he - a rt   s e qu e n c e - to - s e q ue n c e   A S m od e l   ori g i n a l l t ra i ne d   on  o ve r   680 , 000   hours   of   m u l t i l i ngua l   s p e e c h   da t a   [ 7].   T hi s   e x t e ns i ve   pr e - t ra i ni ng   pr ovi d e d   a   s t ro ng  fou nda t i on ,   b ut   du e   t o   t h e   uni q ue   c h a r a c t e r i s t i c s   o J a v a n e s e   a nd   S und a n e s e ,   s p e c i fi c   a d a pt a t i ons   w e re   n e c e s s a ry.   W e   fi ne - t une W h i s pe r   us i n t he   t r a i ni ng   s ubs e t ,   m odi fy i ng  m od e l   w e i ght s   t e nh a nc e   i t s   r e c o gni t i o a c c ur a c y   for   t h e s e   l a n gua g e s .   T hr oughou t   t he   t ra i ni ng ,   w e   pe r i odi c a l l y   a s s e s s e d   m od e l   p e rfo rm a nc e   w i t h   t he   v a l i da t i o n   da t a s e t   t o   t r a c k   i t s   pro gre s s   a nd  m i t i g a t e   ov e rf i t t i ng .   K e y   pe rfor m a n c e   m e t ri c s ,   i n c l ud i ng   W E R ,   w e r e   c a l c ul a t e a t   va ri ous   i n t e r va l s   t m oni t or   t r a ns c r i pt i on   a c c u ra c y,   a nd  t ra i ni ng  c on t i nu e d   unt i l   pre de fi n e s t opp i ng   c r i t e ri a   w e re   m e t .           F i gure   1 .   R e s e a rc h   s t a ge s       In  t h e   f i na l   e va l ua t i o s t a ge ,   i l l us t r a t e i F i gu re   1,   t h e   m ode l   w a s   t e s t e on  t he   he l d - ou t   d a t a s e t s   for   bot h   J a v a ne s e   (S L R3 5)  a nd   S und a n e s e   (S L R 36) .   T hi s   s t a ge   w a s   e s s e nt i a l   fo a s s e s s i ng   how   w e l l   t he   m od e l   c oul d   g e ne ra l i z e   t o   n e w ,   uns e e n   da t a .   P e rfor m a nc e   w a s   m e a s ure d   us i ng  W E R,   pr ovi d i ng   a   qu a nt i t a t i ve   a s s e s s m e n t   of   t r a ns c ri p t i on   a c c ur a c y   i n   bot h   l a n gua g e s .   T h e   out c om e s   w e r e   t h e n   c o m p a re d   w i t h   pr e vi ous   s t udi e s   on  J a va n e s e   a nd   S und a ne s e   A S [2 3],   [24]   t ga ug e   t he   i m prov e m e nt s   W h i s pe r’s   fi n e - t u ni ng   brou ght   t o   A S R   a c c ur a c y   for   l ow - re s ou rc e   l a ngu a ge s .   T h e s e   f i ndi ng s   off e r   i ns i ght s   i nt o   t h e   pot e nt i a l   of   W hi s p e r   i a dva nc i ng  A S p e rfor m a nc e   for  unde rre pr e s e n t e l a ngu a ge s   l i ke   J a va n e s e   a nd  S u nda n e s e ,   s uppo rt i ng  broa d e e ffor t s   t m a ke   A S m or e   i nc l us i v e .   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2722 - 3221   Com pu t   S c i   Inf   T e c h nol V o l .   6 ,   N o .   3 N ov e m be r   20 25 :   253 - 261   256   2. 2 .     D ata   c o l l e c t i on   T he   d a t a s e t s   e m p l o ye d   i n   t h i s   s t ud y   w e r e   s o ur c e d   f r o m   O pe n S L R ,   s p e c i f i c a l l y   t h e   S L R 35   c or p us   f or   J a v a n e s e   a nd   S L R 36   f or   S u nd a n e s e   [ 1 1] .   S L R 35   c ons i s t s   o f   18 5 , 0 7 6   u t t e r a n c e s   a m o u nt i ng   t o   a p p ro x i m a t e l 29 ho u rs   o a ud i o ,   c on t ri b u t e d   b 1 , 0 1 n a t i v e   J a v a n e s e   s p e a k e rs .   S L R3 c o nt a i ns   2 19 , 15 6   u t t e r a n c e s   t o t a l i ng   a pp ro x i m a t e l 3 33   h o urs   of   S un d a n e s e   s p e e c h   fr o m   5 42   s p e a k e rs .   Bo t d a t a s e t s   w e r e   r e c or d e d   a t   1 kH z ,   a n d   a l l   s p e a k e rs   w e r e   b e t w e e n   t h e   a g e s   of   1 8   a n d   35 .   H ow e ve r ,   g e n d e r - s p e c i f i c   m e t a d a t a   w a s   n ot   p r ov i d e d   i n   t h e   d a t a s e t   do c u m e n t a t i o n .   T h e   s p e e c h   d a t a   w a s   c o l l e c t e d   i c ol l a bo r a t i o n   w i t h   t h e   D e p a rt m e n t   o f   J a v a n e s e   L i t e r a t u r e   a t   U n i v e rs i t a s   G a d j a h   M a d a   (U G M )   i n   Y o g y a k a rt a   a nd   U ni v e rs i t a s   P e nd i di k a n   I n do n e s i a   (U P I)   i n   B a n du ng .   T h e   r e c or di n gs   c a p t ur e   a   v a ri e t o s p e a ki n s t y l e s ,   i n c l ud i ng   r e a d i n g   s p e e c h   a n d   c o nv e rs a t i o n a l   ph r a s e s ,   a nd   a r e   a c c o m p a n i e d   b y   m a n u a l l y   t r a n s c r i b e d   t e x t .   N e v e r t h e l e s s ,   c h a l l e ng e s   s u c h   a s   i n c on s i s t e n t   s p e l l i ng ,   i nf or m a l   pu n c t u a t i o n ,   a n d   o c c a s i on a l   t r a ns c r i p t i o e rr or s   w e r e   i d e n t i f i e d   du r i n g   p r e p ro c e s s i n g .   T h e s e   w e r e   a d dr e s s e d   t hr ou g h   a   n or m a l i z a t i o n   p ro c e s s ,   i n c l u d i n g   l o w e r c a s i n g   a n d   re m o v a l   o f   s p e c i a l   c h a r a c t e rs .   T fa c i l i t a t e   c on t rol l e e v a l u a t i on  a nd  t re pl i c a t e   pri o e x p e ri m e n t a l   s e t ups   [24] ,   on l a   por t i on   of  t he   t o t a l   da t a   w a s   ut i l i z e d.   A s   s how i n   T a bl e   1,   t r a i n i ng   a nd   va l i d a t i on   us e d   c ont e nt   fro m   z i a r c hi v e s   t hrough   2,   w h i l e   t e s t i ng  w a s   c ond uc t e s o l e l on  a r c hi v e   num b e 3 .   T h e   r e s ul t i ng  da t a   s p l i t ,   a s   s how i T a b l e   2 ,   c o m pri s e 44  hours   a nd   3 3   m i nu t e s   for   J a v a n e s e   t r a i ni ng   a nd   11   hours   a n 9   m i nu t e s   for   v a l i da t i on .   F or  S und a ne s e ,   t he   t r a i n i ng   da t a s e t   t o t a l e d   4 h ours   a nd   52   m i nu t e s ,   w h i l e   t h e   v a l i da t i on  da t a s e t   c ov e re 1 hours   a nd  28  m i n ut e s .   T h e   t e s t i ng   da t a s e t   i nv ol v e 18  h our s   a nd   28   m i nut e s   o J a va n e s e   da t a   a n 2 ho urs   a nd   55   m i nu t e s   of   S und a n e s e .   A l t ho ugh   t h e   c o rpor a   a r e   e xt e ns i ve ,   s e v e ra l   l i m i t a t i o ns   w e re   no t e d.   T he s e   i nc l ude   t h e   l a c of  s pe a ke ge n de m e t a da t a ,   va ri a t i o ns   i a u di q ua l i t du e   t d i ff e ri n re c ord i ng   e nvi r onm e nt s ,   a nd  t h e   w i de   r a ng e   of  u t t e ra n c e   dur a t i on s .   S i nc e   W hi s p e r e qui r e s   fi xe d - l e ngt i npu t   s e que n c e s   of  30   s e c o nds ,   a ud i c l i ps   w e r e   e i t he t run c a t e d   or  z e ro - p a dd e a s   ne e de d.   T h e s e   pr e pro c e s s i ng  a dj us t m e nt s   e ns ur e d   uni f orm i t y   a nd  m od e l   c om p a t i bi l i t t hro ughout   t h e   fi ne - t uni ng   pro c e s s .       T a b l e   1 .   D a t a s e t   s pl i t t i ng   S u n d a n e s e   J a v a n e s e   U s e d   i n   S u n d a n e s e - a s r - 1 . . . 2   J a v a n e s e - a s r - 1 . . . 2   T ra i n i n g   &   v a l i d a t i o n   S u n d a n e s e - a s r - 3   J a v a n e s e - a s r - 3   T e s t i n g   S u n d a n e s e - a s r - 4 …1 5   J a v a n e s e - a s r - 4 …1 5   N o t   u s e d       T a b l e   2 .   D a t a s e t   dur a t i on   a nd   p a rt i t i oni n g   L a n g u a g e   T ra i n i n g   d u ra t i o n   V a l i d a t i o n   d u ra t i o n   T e s t i n g   d u ra t i o n   T o t a l   u s e d   J a v a n e s e   44   h   3 3   m   11   h   0 9   m   18   h   2 8   m   74   h   1 0   m   S u n d a n e s e   49   h   5 2   m   12   h   2 8   m   20   h   5 5   m   83   h   1 5   m       2. 3 .     P r e - p r oc e s s s   an d   f e atu r e   e xt r a c ti on   T he   O pe nS L R   da t a s e t s   w e re   di vi d e i nt t w m a i s ubs e t s ,   8 0%  a l l o c a t e d   t o   t r a i n i ng   a n 20 re s e rv e f or  v a l i da t i o n.   T h i s   di vi s i o m a x i m i z e t he   a m oun t   of   da t a   a v a i l a b l e   for  t ra i n i ng  w h i l e   pr ovi d i ng   a   va l i da t i on   s e t   fo r   t un i ng   a nd   m oni t o r i ng   m ode l   pe rfor m a n c e   dur i ng   t ra i ni ng.   E a c h   a udi o   fi l e   w a s   p a i re d   w i t h   i t s   re s p e c t i v e   t r a ns c r i pt i ons ,   f orm i ng   or ga n i z e d   a n d   c ons i s t e nt   s ubs e t s .   T o   e ns ure   u ni for m i t y   a c ros s   t h e   t ra ns c ri p t i ons ,   a   t e xt   no rm a l i z a t i on  proc e s s   w a s   a pp l i e d,   w hi c i nvo l ve re m ovi ng  a ny   s p e c i a l   c ha r a c t e rs   a nd   re t a i n i ng   onl y   l ow e r c a s e   a l ph a b e t i c   c h a ra c t e rs .   S i m pl i fyi ng  t he   t e xt   i n   t h i s   w a m i ni m i z e d   po t e n t i a l   i nc ons i s t e nc i e s ,   h e l p i ng   t o   a l i gn   t he   t r a ns c r i pt i ons   w i t h   t he   m ode l ' s   e xpe c t a t i ons .   T o   fi n e - t une   t he   W hi s p e r   m ode l   w i t h   t he   O p e nS L R   d a t a ,   a i m port a nt   s t e p   w a s   e ns uri ng  c om p a t i bi l i t y   w i t W h i s pe r’s   i n put   for m a t   re q ui r e m e nt s .   T h e   m od e l   do e s   n ot   di r e c t l a c c e p t   a ud i o   i n   . f l a c   form a t .   T he r e for e ,   f i l e s   ne e d e t be   c o nve r t e d   i nt o   l og - M e l   s p e c t rogr a m s ,   w hi c i s   t h e   for m a t   W hi s p e p roc e s s e s .   Conv e rt i ng  t h e   a udi d a t a   r e qu i re s   a n   und e rs t a ndi ng  of   how   di g i t a l   s ys t e m s   i nt e rpre t   s ou nd:   a u di o   i s   re pr e s e n t e a s   a   o ne - d i m e ns i ona l   a rra y   of  a m pl i t ud e   v a l ue s   o ve t i m e .   S i nc e   c ont i nuous   a ud i h a s   a i nfi n i t e   ra nge   o f   va l ue s ,   i t   m us t   be   di s c r e t i z e d   by   s a m pl i ng   a m p l i t ude   a t   fi x e d   i n t e rva l s ,   a   pro c e s s   know n   a s   s a m pl i ng .   S a m pl i ng  r a t e ,   t ypi c a l l y   m e a s u re d   i n   H e rt z   (H z ),   d e fi n e s   t he s e   i nt e rva l s .   M a i nt a i ni ng   c ons i s t e n t   s a m pl i ng   r a t e s   i s   e s s e n t i a l   t o   pr e ve n t   e r rors   dur i ng   A S R   pro c e s s i ng.   M i s m a t c h e s a m p l i n r a t e s   be t w e e t he   a ud i i npu t s   a n W h i s pe r   m o de l   r e qui r e m e n t s   c o ul d   re s u l t   i une xp e c t e out p ut s .   F o i ns t a n c e ,   pl a y i ng  a   16   kH z   a u di f i l e   a t   a 8   kH z   r a t e   di s t ort s   p l a yba c s pe e a nd   qua l i t y .   F or   t hi s   s t ud y,   W h i s pe r’s   f e a t ure   e x t ra c t or   re qu i re d   a   16   kH z   s a m pl i ng   ra t e ,   s o   a udi o   da t a   w a s   up - s a m pl e d   or   dow n - s a m p l e d   a s   n e c e s s a ry   t o   e ns u re   c o m p a t i bi l i t y .   E ns uri ng  c orr e c t   s a m p l i n r a t e s   a l l ow e d   t h e   m ode l   t proc e s s   t he   da t a   a c c ur a t e l a nd  r e du c e d   t he   ri s k   o m i s i nt e rpr e t a t i ons   d uri n A S t a s ks .   E ns uri ng  co rre c t   s a m p l i ng   r a t e s   a l l ow e t he   m od e l   t proc e s s   t he   da t a   a c c ura t e l y   a nd   r e du c e d   t he   r i s of  m i s i n t e r pre t a t i ons   dur i ng   A S t a s ks .   Evaluation Warning : The document was created with Spire.PDF for Python.
Com pu t   S c i   Inf   T e c h nol     IS S N :   2722 - 3221       J av a ne s e   and   s unda ne s e   s p e e c r e c og ni t i on   us i n W hi s pe r   ( A l i m   R ahar j o )   257   In  t e r m s   of   d a t a   a ug m e nt a t i on,   no   a d va n c e d   t e c hn i qu e s   s u c h   a s   no i s e   i nj e c t i on ,   pi t c h   s hi ft i ng ,   or   t i m e   s t r e t c hi n g   w e r e   a pp l i e d   i n   t hi s   s t udy.   W h i l e   t h e s e   m e t h ods   h a ve   be e n   s how n   t o   e nh a nc e   g e ne r a l i z a t i on  i A S R   m ode l s   b s i m u l a t i ng   v a ri o us   a c ous t i c   c ond i t i ons   a nd  s pe a k e va r i a b i l i t y   [5] ,   [35] ,   t h e   f oc us   of   t h i s   re s e a rc w a s   t e v a l ua t e   t he   e ff e c t i v e n e s s   of  t h e   W hi s p e m ode l   w i t m i n i m a l   i n t e rv e n t i on .   N on e t he l e s s ,   s i m pl e   pa dd i ng   a n t run c a t i on   t e c h ni qu e s   w e re   us e t s t a nda rd i z e   a udi s a m p l e   l e ngt hs   t 30   s e c onds ,   a s   re qui re d   by   t he   W hi s p e r   a rc h i t e c t ure .   S hort e r   c l i ps   w e re   z e r o - pa dd e d   (r e pre s e nt i ng   s i l e n c e ) ,   a n d   l ong e r   c l i ps   w e re   t run c a t e d   t o   m a i nt a i n   uni f orm   i np ut   di m e ns i ons .   T h e s e   s t e ps   e ns u re   i npu t   c o m pa t i b i l i t y   a nd   s t a bi l i t duri ng   m ode l   t r a i n i ng ,   a l t hou gh  fut ur e   w ork   m a y   e xpl o re   m ore   s oph i s t i c a t e d   a ug m e n t a t i o s t ra t e g i e s   t o   furt h e i m p rove   rob us t n e s s .     2. 4 .     F i n e   tu n i n g   In  t h i s   s t a ge ,   t h e   f i ne - t un i ng  proc e s s   be ga by  l oa d i ng  t he   pre - t r a i ne d   W h i s pe r - S m a l l   m od e l   fro m   t he   H ug gi ng   F a c e   H ub ,   a   popul a r   r e pos i t ory   f or   m a c hi n e   l e a rn i ng   m od e l s .   W h i s pe r ,   pr e - t r a i ne d   on   a   l a rg e s c a l e   m ul t i l i ng ua l   d a t a s e t ,   i n c l ude s   a u t o m a t i c   l a n gu a ge   d e t e c t i on .   H ow e v e r,   du e   t o   t he   l i ngu i s t i c   s i m i l a r i t i e s   be t w e e r e gi o na l   l a ngu a g e s ,   pa r t i c ul a rl i In d one s i a ,   i t   w a s   ne c e s s a ry  t e xp l i c i t l de f i ne   t h e   t a rg e t   l a ngu a ge .   T o   e ns u re   t h a t   t r a ns c r i pt i ons   w e r e   g e n e ra t e i n   e i t h e r   J a v a ne s e   or   S und a n e s e ,   t he   l a ngu a ge   a nd  t a s k   a rgum e n t s   w e re   s pe c i f i e d   i n   t he   ge ne r a t i on  c onf i gur a t i on  p ri or   t o   t ra i ni ng .     F or  fi n e - t un i ng ,   t he   m od e l   w a s   t r a i n e us i ng  l a ngu a g e - s pe c i fi c   da t a s e t s   w i t i n put   fe a t u re s     (l og - M e l   s pe c t ro gra m s a nd   c orre s p ondi n t ra ns c ri pt i on  l a b e l s .   T he   t ra i ni ng   w a s   p e rfor m e us i ng   t h e   t r a i n e a ppl i c a t i on   prog ra m m i ng   i nt e rfa c e   ( API )   pr ovi d e d   by   H u g gi ng   F a c e ,   w hi c h   a l l ow e d   c o nt ro l   ov e r   va r i ous   hype rp a ra m e t e rs .   T he   m od e l   w a s   t r a i ne d   w i t h   a   ba t c h   s i z e   o 16 ,   a   l e a rn i ng   ra t e   of   1e - 5,   a nd   a   t ot a l   o 5 , 0 00  t ra i ni ng   s t e ps ,   us i ng  t h e   A d a m W   op t i m i z e r   und e t h e   ho od.   A   w a rm u of  50 s t e ps   w a s   a ppl i e t g ra du a l l ra m p   up  t he   l e a rn i ng   ra t e   duri n t h e   e a r l p ha s e   of  t ra i ni ng.   E va l ua t i o w a s   p e rfo rm e e ve r 1 , 000  s t e ps ,   a nd  c he c kpo i nt   s a vi n o c c urr e a t   t h e   s a m e   i nt e rv a l .   T e nha n c e   m e m ory   e ff i c i e n c y ,   gr a di e nt   c h e c k poi n t i n w a s   e na b l e d ,   a nd   t he   m o de l   w a s   t r a i n e d   us i ng   m i x e pre c i s i on  ( f p16)  fo f a s t e c om put a t i on .   T he   b e s t   m od e l   w a s   s e l e c t e a u t om a t i c a l l ba s e on   t he   l ow e s t   W E R   obs e rve d   on  t he   va l i d a t i on   s e t .   A l l   t ra i ni ng   pr ogre s s   a nd   e va l ua t i on   m e t ri c s   w e re   l og ge d   t h rough   T e ns orB oa rd .   A l t houg t h e   foc us   of   e va l u a t i on   w a s   on   W E R ,   w hi c h   i s   w i d e l y   us e d   i n   A S R   t a s ks ,   w e   a l s o   c ons i d e re o t he r   po t e n t i a l   m e t r i c s   s u c h   a s   s e nt e nc e   e rro r a t e   (S E R)  a nd   w ord   re c ogn i t i on  a c c ur a c y   ( W RA ).   H ow e ve r ,   du e   t o   t h e   l i m i t e a v a i l a b i l i t y   of   s e n t e n c e - s e g m e n t e d   l a be l s   i t h e   da t a s e t ,   S E w a s   not   c a l c u l a t e d .   W RA ,   t h e   p e rc e n t a g e   of   c or re c t l r e c og ni z e d   w ords   ou t   of   a l l   a c t ua l   w ords ,   w a s   e x a m i ne d   dur i ng  i nt e rn a l   e va l ua t i on   t o   s uppor t   W E R   re s u l t s .   Inc l ud i ng  W RA ,   i t   h e l p e pro vi d e   a ddi t i on a l   i ns i ght   i nt how   oft e t h m ode l   a c c ur a t e l y   r e c ogni z e d   fu l l   w ords ,   pa r t i c ul a rl i n   noi s or   di a l e c t - i n fl u e nc e d   s a m pl e s .   F ut u re   s t ud i e s   c oul d   b e n e fi t   f rom   m ore   e xt e ns i v e   us e   of   t he s e   c om pl e m e nt a ry   m e t r i c s   t o   of fe r   a   b roa d e r   e v a l ua t i on   of     A S pe rf orm a n c e .     2. 5 .     Eva l u ati on   T he   e v a l u a t i on  proc e s s   w a s   don e   i t w o   m a i n   s t a ge s :   a i ni t i a l   s t a g e   du ri ng   t r a i n i ng   t o   fi n e - t u ne   t h e   m ode l ,   a nd   a   f i na l   e va l ua t i o a f t e t h e   fi n e - t uni n w a s   c om p l e t e .   In  t h e   fi rs t   s t a ge ,   e va l ua t i ons   w e re   pe rfor m e w i t hi n   t h e   t ra i ni ng   c y c l e   us i ng  t he   va l i d a t i on  d a t a   s pl i t .   T he   pri m a r m e t ri c   w a s   W E R,   w he r e   l ow e r   va l ue s   i n di c a t e d   be t t e m od e l   a c c u ra c y.   T he s e   e va l ua t i ons   w e r e   p e rfor m e a t   e a c h   c he c kpo i nt   s pe c i f i e d   i t he   t r a i ni ng   c onfi g ura t i on ,   us i ng   t h e   va l i d a t i on   da t a s e t   t o   a s s e s s   m ode l   p e rfor m a nc e .   T hi s   c y c l e   c ont i nu e unt i l   t he   s t op pi ng   c ri t e ri a   w e r e   m e t ,   w i t t h e   m od e l   s a vi n i t s   b e s t   ve rs i on  ba s e on   t he   l ow e s t   re c ord e W E R .   In   t he   s e c o nd   s t a ge ,   t h e   be s t - pe rfor m i ng   m od e l   fr om   f i ne - t uni ng   w a s   r e l o a de d   for   t e s t i ng   on   a   s e p a ra t e   s e t   of  a ud i d a t a .   In  t hi s   e va l ua t i o n,   t h e   m ode l   t r a ns c ri b e e a c a udi o   s a m pl e   di r e c t l y,   a nd  W E w a s   c a l c u l a t e d   by   c o m p a ri n t he   pr e di c t i ons   t t h e   pr ovi d e d   t r a ns c ri p t i on   f i l e s .   T e ns ure   a c c ur a t e   W E c a l c u l a t i on ,   a   nor m a l i z a t i on  proc e s s   w a s   a pp l i e t bot t h e   pr e di c t e a nd  t rue   t r a ns c r i p t i ons .   T hi s   pro c e s s   i n c l ud e d   c on ve r t i ng   a l l   t e x t   t l ow e r c a s e ,   r e m ov i ng   pun c t u a t i on ,   t ri m m i ng   s pa c e s ,   e l i m i n a t i ng   m ul t i p l e   s p a c e s ,   a nd   f i l t e r i ng   o ut   e m p t y   s t ri ngs .   T h e s e   a dj us t m e nt s   s t a nd a rdi z e d   t h e   t e xt   for  c ons i s t e nt   W E R   e v a l ua t i on .   T h e   ov e r a l l   m ode l   pe rfo rm a nc e   w a s   t he n   a s s e s s e by   a ve r a gi ng  t he   W E R   a c ros s   t h e   d a t a s e t ,   w i t h   a l l   i ndi v i du a l   W E R   s c or e s   s u m m e d   a nd   di vi d e d   by   t he   t ot a l   nu m b e r   of   a udi o   fi l e s .   T hi s   e v a l ua t i on   pr oc e s s   w a s   c a rr i e d   o ut   s e p a ra t e l y   for   J a va ne s e   a n d   S unda ne s e ,   w i t h   e a c h   l a ng ua g e   t e s t e d   us i ng  i t s   re s p e c t i v e   f i ne - t un e d   m o de l .       3.   R ES U LTS   A N D   D I S C U S S I O N   In  t h i s   s t udy ,   a l l   pro c e s s e s   i n c l udi ng   d a t a   pr e - pr oc e s s i ng ,   m ode l   fi n e   t uni ng,   a nd  e va l u a t i on  w e re   i m p l e m e n t e d   us i ng   P y t hon   w i t h i n   t h e   K a ggl e   e n vi ron m e nt ,   l e v e ra g i ng   4   c or e s   of   a n   N V ID IA   T e s l a   P 1 00  G P U   w i t 29  G B   of  RA M ,   a nd  a n   Int e l   X e on   2. 20  G H z   CP U   w i t h   30  G B   of   RA M .   L i bra r i e s   pri m a ri l a va i l a bl e   i n   t h e   K a g gl e   not e book   e nvi ronm e n t ,   s uc a s   t r a ns for m e rs ,   hugg i ngf a c e _hub ,   j i w e r ,   t or c h ,   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2722 - 3221   Com pu t   S c i   Inf   T e c h nol V o l .   6 ,   N o .   3 N ov e m be r   20 25 :   253 - 261   258   t orc h a ud i o,   a nd   s k l e a rn ,   w e r e   us e d   e x t e ns i ve l y   t hrough out   t he   re s e a r c h .   F or   t h e   W hi s p e r   m ode l   g e ne r a t i on ,   t ra ns for m e rs   a nd   hug gi ng fa c e _h ub   l i bra r i e s   w e r e   ut i l i z e d.   B e for e   fi n e   t un i ng ,   t h e   T ok e ni z e a nd   F e a t u re E xt r a c t or  f rom   t h e   t r a ns for m e rs   l i bra r w e r e   i m po rt e d;   t h e   F e a t ure E xt ra c t or  proc e s s e t h e   ra w   a ud i o   i npu t s ,   w h i l e   t he   T oke ni z e r   c o nve r t e m od e l   out p ut s   i nt r e a da bl e   t e x t .   T he   us e   of   t he   W hi s p e S m a l l   m ode l   re pr e s e n t s   a   nove l   c on t ri bu t i o t A S R   r e s e a rc h   for   J a va n e s e   a nd   S und a ne s e .   P r e vi ous   s t udi e s ,   s uc h   a s   t h os e   by   Cr ys s i ove r   a nd   Z a hr a   [23]   a nd   A ri s a put r a   e t   al .   [24] ,   pri m a ri l y   re l i e d   on   W a v2V e c 2   B a s e ,   W a v2V e c 2   l a rg e ,   or   X L S - m od e l s ,   oft e n   re q ui r i ng   a d di t i on a l   N - gr a m   l a ngu a g e   m od e l s   t boos t   pe r form a n c e .   I c ont r a s t ,   W hi s p e i s   pre - t ra i ne on   a   m a s s i v e ,   s upe rvi s e d a t a s e t   a nd  i nt e gr a t e s   bo t h   a c ous t i c   m o de l i ng   a n l a ng ua g e   ge n e ra t i on  i nt a   s i ngl e   t ra ns fo rm e r - b a s e d   a r c hi t e c t u re .   T hi s   e nd - to - e nd  a ppr oa c e l i m i na t e s   t h e   n e e d   for   pos t - pro c e s s i ng  w i t e xt e rn a l   de c od e rs ,   w hi c i s   e s p e c i a l l y   a dva nt a ge ous   for   l ow - re s o urc e   l a ngua ge s   w he r e   t e xt   c orpor a   a r e   s c a rc e .   M or e ov e r,   un l i k e   m o de l s   l i k e   B E R T   or  m BA RT   t ha t   foc us   on   t e xt ua l   l a ng ua g e   und e rs t a ndi ng,   W h i s pe r   i s   op t i m i z e d   fo s p e e c h - to - t e xt   t ra ns c ri p t i on   t a s ks   a nd   do e s   n ot   r e qui r e   s e p a ra t e   t ok e ni z e r s   or   A S R - s pe c i f i c   a rc hi t e c t ur e s .   T hi s   m a k e s   i t   i nhe r e n t l y   b e t t e r   s ui t e for   di re c t   t r a ns c ri p t i on   i n   l a ngu a ge s   w i t h   l i m i t e d   di g i t a l   r e s our c e s .   T o   t he   b e s t   of   our   know l e dge ,   t hi s   s t udy   re p re s e nt s   t he   fi rs t   a ppl i c a t i on   of  W hi s pe r   S m a l l   t o   J a v a n e s e   a nd   S und a ne s e   A S R,   e s t a b l i s h i ng   a   ne w   b e nc h m a rk  f or  t he s e   l a n gua g e s   i n   t e rm s   o s i m pl i c i t y ,   p e rfor m a nc e ,   a nd  s c a l a b i l i t y .   T h e   J a v a ne s e   a nd  S un da ne s e   d a t a s e t s ,   c o l l e c t e d   f ro m   t h e   O pe nS L w e bs i t e ,   w e r e   dow nl oa de a s   fi l e s   nu m b e r e d   z e r o   t o   t hr e e   a l on g   w i t h   t he i r   r e s p e c t i v e   t r a n s c r i p t i on   fi l e s   [1 1] .   T h e   a u di o   f i l e s   w e r e   i n   . f l a c   for m a t ,   a n d   t h e   t r a ns c r i p t i on   fi l e s   i n c l ud e d   c ol um ns   s u c h   a s   F i l e ID ,   U s e rID ,   a n d   T r a ns c r i p t i on .   S i n c e   t h e   U s e r ID   c o l u m n   w a s   i r re l e v a n t   t o   t hi s   s t ud y,   i t   w a s   r e m o ve d,   a nd  t h e   F i l e ID   c ol u m w a s   r e n a m e t o   A ud i o   t o   c l a r i f y   i t s   f un c t i o n .   T o   e ns ur e   e a c h   e nt ry   l i nk e d   c o rr e c t l y   t i t s   c orr e s p on di ng   a ud i o   fi l e ,   c om pl e t e   fi l e   p a t hs   w e r e   a dd e d   t t h e   A ud i o   c o l u m n .   T he   d a t a s e t   w a s   s p l i t   by   a l l oc a t i n fo l d e rs   z e r t o   t w o   fo t r a i n i ng   ( 80% a n va l i da t i on   (20 %) ,   a s   de s c r i b e i n   T a b l e   1,   w hi l e   t h e   f i l e s   i n   f o l d e r   t hr e e   c om pr i s e d   t he   t e s t i ng   s e t   (10 0% ) .   U s i ng  t h e   m od i fi e t ra ns c ri pt i on  f i l e s ,   fe a t ur e   e xt ra c t i on  w a s   pe rfor m e w i t t h e   W hi s p e rP roc e s s or  l i br a ry ,   w h i c h   s uppor t s   b ot h   a u di o   pr e - pro c e s s i ng   a nd  t ok e ni z a t i on.   A ud i f i l e s   w e re   t r a ns for m e i nt o   l o g - M e l   s p e c t rog r a m s ,   c a p t uri ng  fr e qu e nc d a t a   ov e t i m e   t o   be t t e r   pr e pa r e   t he   d a t a   for   m o de l   fi ne - t uni ng.   T he   t ra ns for m e d a t a s e t s   c ons i s t e o t w m a i c o m pon e nt s :   i np ut _fe a t ure s   a nd   L a b e l s .   Inpu t _f e a t ure s   c o nt a i n e t he   l og - M e l   s pe c t rog ra m s   de ri v e fr om   t h e   on e - di m e ns i o n a l   a ud i a rra ys ,   w h i c h   re p re s e nt   t he   fre que nc y   c ont e nt   of  a udi o   s i gn a l s .   T h i s   t r a ns for m a t i on   prov i de t h e   m ode l   w i t h   i nfo rm a t i on  t ha t   s pa ns   b ot fre q ue n c a nd  t i m e ,   c r uc i a l   for  a c c ura t e   s pe e c re c ogni t i on.   L a be l s ,   ge n e r a t e by  t he   T ok e n i z e fun c t i on ,   w e r e   t oke n i z e re pr e s e n t a t i ons   of  t he   t r a ns c r i pt i on  t e x t ,   e n c od i ng   e a c t ra ns c ri pt i on  a s   a   s e qu e nc e   o i n t e ge r   ID s   (L a b e l ID s )   t ha t   t h e   m od e l   c oul d   i n t e rpr e t .   W i t i npu t _f e a t ur e s   a nd   L a b e l s   i n   m e m ory ,   t h e   m o de l s   w e re   r e a d for  f i ne - t un i ng .   T h e   s a m e   pr e - t r a i n e d   W hi s p e r   ba s e   m od e l   w a s   us e for   bo t h   l a ngua ge s ,   but   e a c m od e l   w a s   t ra i ne d   s e pa r a t e l y   w i t h   l a ngu a g e - s pe c i f i c   d a t a :   J a v a n e s e   d a t a   f or   t h e   W hi s p e r - s m a l l - j v”   m ode l   a n S unda n e s e   da t a   for   t h e   W hi s p e r - s m a l l - s u”   m o de l .   A ft e r   fi ne - t uni ng,   t he   e va l ua t i on   ph a s e   c om m e nc e d.   T hi s   p ha s e   i nv ol v e d   t e s t i n t he   m od e l s   w i t di s t i n c t   t e s t i ng   d a t a s e t s   s p e c i fi c   t o   e a c h   l a ngu a g e .   D ur i ng   t hi s   ph a s e ,   e a c h   m od e l   t r a ns c ri b e d   i t s   t e s t i ng   da t a s e t ,   w i t t ra ns c ri p t i o a c c ur a c y   m e a s ure d   by   W E R .   F or  e xa m pl e ,   t he   m ode l   fi n e - t u ne d   on   J a v a n e s e   da t a   t ra ns c ri b e t he   J a v a ne s e   t e s t   s e t ,   w h i l e   t h e   m od e l   fi n e - t u ne on  S und a n e s e   d a t a   h a nd l e d   t h e   S und a n e s e   t e s t   s e t .   A ft e t r a ns c r i p t i on ,   a   nor m a l i z a t i on   s t e w a s   a ppl i e t bo t pr e di c t e a nd  t rue   t r a ns c r i pt i ons .   T h i s   i nc l ude re m ov i ng  e m p t s t r i ngs ,   c on ve r t i ng   a l l   t e xt   t l ow e r c a s e ,   e l i m i na t i ng  e x t ra   s p a c e s ,   t ri m m i ng   w hi t e s p a c e ,   a nd   r e m o vi ng   p unc t ua t i on ,   e ns uri ng   c ons i s t e n c a c ros s   W E R   c a l c u l a t i ons .   T h e   W E R   for   e a c m ode l   w a s   c a l c ul a t e by  a ve ra g i ng  i nd i vi du a l   W E Rs   a c r os s   a l l   t r a ns c ri b e f i l e s .   T h e   J a va n e s e   da t a s e t   c ont a i n e d   11 , 574   a ud i o   fi l e s ,   w h i l e   t he   S und a ne s e   d a t a s e t   h a 1 3, 8 20  a ud i f i l e s .   T h e   a v e ra g e   W E R   re s u l t s ,   a s   s how i n   T a bl e   3 ,   re v e a l e d   t h a t   t he   W hi s p e r - s m a l l - j v   m ode l   a c hi e v e a   W E of   14 . 97 on   t h e   J a va ne s e   t e s t   s e t ,   w hi l e   t he   W hi s p e r - s m a l l - s u”   m od e l   a c hi e ve a   l o w e W E o 2. 03%  o t h e   S und a n e s e   t e s t   s e t ,   de m o ns t ra t i n W h i s pe r’s   e ff e c t i v e n e s s   i n   l ow - re s our c e   A S R   for  t he s e   l a ngu a g e s .   T he   pe rf orm a nc e   o t h e   W hi s p e m od e l s   w a s   t h e c om pa re t pr e vi o us   re s e a r c [2 3],   [24] ,   a s   s how i n   T a bl e   4 .   O t he   S u nda n e s e   da t a s e t ,   t he   W h i s pe r   m ode l   d e m ons t r a t e s i gni f i c a nt   i m pro ve m e n t s   i W E R   ov e t h e   W a v2V e c B a s e   a nd  W a v2V e c L a r ge   m od e l s ,   w hi c a c h i e v e W E Rs   of  2 3. 5 a n 24 %,   re s pe c t i ve l y.   H ow e ve r ,   de s p i t e   t he s e   ga i ns ,   t h e   W hi s pe m ode l ' s   p e rfo rm a nc e   on   t h e   J a va ne s e   d a t a s e t   f e l l   s hort   c o m p a re d   t o   t h e   X L S - R   m od e l   w i t h   a n   N - gra m   l a ngu a ge   m o de l ,   w hi c h   r e por t e d   a   l ow e r   W E R   of   5 . 4% .   W hi l e   t h e   W hi s p e m od e l ’s   out c om e s   on   S und a ne s e   d a t a   m a rk   a   m e a n i ngfu l   a dv a nc e m e n t   i l ow - re s our c e   A S R,   t h e   fi nd i ngs   i n di c a t e   t ha t   a dd i t i ona l   i m prov e m e n t   c o ul d   be   a c hi e ve d   b i n t e gr a t i ng   l a ngu a g e   m od e l s   w i t A S m od e l s .   A s   d e t a i l e i T a b l e   3,   t he   W h i s pe m ode l s   a c hi e v e t r a i n i ng  W E Rs   of  21 . 4%   for   J a v a n e s e   a nd   2. 1%   for   S un da n e s e ,   w i t h   t e s t i ng   W E Rs   of   1 4. 97%   a nd   2 . 03 %,   r e s pe c t i ve l y.   T h e   s i gni fi c a n t   di ffe r e n c e   be t w e e n   W E Rs   for   S unda ne s e   a nd  J a va ne s e   i s   b e l i e v e t o   s t e m ,   i p a r t ,   fro m   i n c ons i s t e nc i e s   i n   t he   t ra ns c ri p t i o n   qua l i t y   of   t he   J a va n e s e   d a t a s e t .   A l t ho ugh   t h e   da t a s e t ’s   c r e a t ors   m a nu a l l y   r e vi e w e d   t ra ns c ri p t i ons ,   s o m e   e rrors   m a s t i l l   be   pre s e nt   [11 ].   Evaluation Warning : The document was created with Spire.PDF for Python.
Com pu t   S c i   Inf   T e c h nol     IS S N :   2722 - 3221       J av a ne s e   and   s unda ne s e   s p e e c r e c og ni t i on   us i n W hi s pe r   ( A l i m   R ahar j o )   259   T a b l e   3 .   E va l ua t i o r e s ul t   M o d e l   L a n g u a g e   V a l i d a t i o n   W E R   (% )   T e s t i n g   W E R   (% )   W h i s p e r - s m a l l - jv   J a v a n e s e   2 1 . 4   1 4 . 9 7   W h i s p e r - s m a l l - su   S u n d a n e s e   2 . 1   2 . 0 3       T a b l e   4 .   P r e vi ous   w ork   c om p a ri s on   P re v i o u s   w o rk   M o d e l   T e s t i n g   W E R   J a v a n e s e   (% )   S u n d a n e s e   (% )   [2 4 ]   X L S R - 300   m   +   N - g ra m   1 0 . 1   5 . 4   [2 3 ]   W a v 2 V e c 2   Ba s e   -   2 3 . 5     W a v 2 V e c 2   L a rg e   -   24   T h i s   s t u d y   F i n e   t u n e d   w h i s p e s m a l l   1 4 . 9 7   2 . 0 3       T he   n ot i c e a b l e   g a p   i n   W E R   b e t w e e n   t h e   t w o   l a n gua g e s   2 . 03%   for   S un da n e s e   v e rs us   14 . 97%   for  J a v a n e s e   c a n   b e   a t t r i but e d   t o   s e ve ra l   f a c t ors .   F i rs t ,   t r a ns c r i pt i on   q ua l i t y   pl a ys   a   c ri t i c a l   r ol e   i n   s up e rvi s e l e a rni n g,   a nd  t h e   J a va ne s e   d a t a s e t   i s   k now n   t o   c ont a i n   m ore   i nc o ns i s t e nt   a nnot a t i ons   a nd   o rt hog ra ph i c   va ri a bi l i t y,   a s   a c know l e dg e d   b y   t h e   da t a s e t ’s   c re a t ors   [1 1].   T he s e   i n c ons i s t e n c i e s   m a y   ha ve   i nt ro duc e d   no i s e   duri ng  t ra i ni ng,   m a ki n i t   ha rde r   for  t he   m od e l   t l e a rn  re l i a b l e   m a ppi ngs   be t w e e s pe e c h   a n t e xt .   In   c ont r a s t ,   t h e   S und a n e s e   d a t a s e t   a pp e a rs   t b e   m ore   s t a n da rd i z e d,   w h i c l i ke l i m pro ve d   m od e l   c onv e rg e nc e   a nd  r e c o gni t i on   a c c u ra c y.   S e c ond ,   l i ngu i s t i c   c om pl e xi t a nd  va r i a bi l i t y   m a c on t ri b ut e   t o   t h e   d i ffe re n c e .   J a v a n e s e   e xh i bi t s   a   m or e   i nt r i c a t e   s p e e c l e v e l   s ys t e m ,   i n c l udi ng  m u l t i pl e   r e gi s t e rs   s u c a s   N goko ,   M a dy a ,   a nd   K ra m a ,   e a c h   w i t h   i t s   ow n   vo c a bul a ry   a nd   us a ge   ru l e s .   T he s e   ho nori f i c   di s t i nc t i o ns   i nt rodu c e   vo c a bul a ry   di ve rs i t a nd  c on t e x t ua l   a m b i gui t y ,   w hi c c a i n c re a s e   m od e l   c onfus i on  dur i ng  d e c odi n g.   S u nda n e s e ,   w hi l e   i t   a l s o   ha s   po l i t e   f orm s ,   ge n e r a l l y   fe a t u re s   l e s s   m orp hol og i c a l   va r i a t i on   a nd   a   fl a t t e r   s t ruc t ure   i n   s pok e n   for m ,   w hi c h   m a y   s i m pl i fy  t he   l e a rni n t a s k   for   t h e   m od e l .   T hi rd ,   t h e   di ffe r e n c e   m a a l s re f l e c t   pronun c i a t i on  va r i a b i l i t a nd   di a l e c t a l   i nfl u e nc e s .   J a v a ne s e   i s   s poke n   a c ros s   a   b roa d e r   ge ogra phi c a l   r e gi on  w i t h   s t ro ng e di a l e c t a l   v a r i a t i on   s uc a s   S ol o,   Y ogy a ka rt a ,   Ba nyu m a s ,   a n d   E a s t e rn   J a v a ne s e   v a ri e t i e s ,   w h i l e   t h e   S un da ne s e   da t a s e t   i s   m or e   re gi on a l l y   c onc e nt ra t e d   a round   W e s t   J a va ,   p a rt i c u l a r l y   B a ndung .   T hi s   re g i on a l   fo c us   m a y   h a ve   r e du c e d   va r i a b i l i t y   i n   s pe a ke r   a c c e n t s   a nd  phon e t i c   re a l i z a t i o ns ,   re s u l t i ng  i a   c l e a n e r   t r a i n i ng   s i g na l .   L a s t l y ,   t he   di s t ri bu t i on  of   u t t e ra n c e   l e ng t hs   a nd  s p e a k i ng   ra t e s   m i ght   ha v e   pl a ye d   a   rol e .   P re l i m i n a r i ns p e c t i on   s ugg e s t s   t ha t   J a v a n e s e   r e c ordi n gs   i nc l ude   a   w i de r   r a ng e   of   s p e a k i ng   s p e e ds   a nd   m ore   c o m pl e x   s e n t e n c e   c ons t ruc t i o ns ,   w h i l e   S unda ne s e   re c or di ngs   t e nd  t be   m or e   c on c i s e   a nd  c ons i s t e n t .   T h e s e   s ubt l e   d i ff e re n c e s   i n   s pe a ki n s t y l e   c oul d   a ff e c t   how   w e l l   t h e   m od e l   g e ne r a l i z e s   a c ros s   ut t e r a nc e s   d uri n d e c odi ng .       4.   C O N C LU S I O N   T hi s   s t ud y   s e t   o ut   t o   i nv e s t i ga t e   t he   e ffe c t i ve n e s s   of   t h e   W h i s pe r   A S R   m ode l   for   t w l ow   r e s ourc e   l a ngu a g e s ,   J a va ne s e   a n S und a n e s e ,   a i m i ng   t o   i m prov e   t r a ns c ri p t i on   a c c u ra c f or  un de rr e pr e s e n t e d   l a ngu a g e s   i n   Ind one s i a .   By   fi ne   t uni n g   W h i s pe r   a   m ode l   pr e   t r a i n e d   on   o v e r   680 , 00 0   hours   of   m ul t i l i ng ua l   a udi o   d a t a   t hi s   s t udy  e v a l u a t e t he   m ode l ’s   c a p a c i t y   t o   r e c ogni z e   a nd   t r a ns c r i be   s pe e c i t he s e   l a ngu a g e s   a c c ura t e l y.   T he   da t a s e t s   w h i c h   w e r e   ob t a i ne fro m   t h e   ope ns l r   (S L R 35  f or  J a va n e s e   a nd   S L R3 for   S unda n e s e )   w e re   us e d   for   t he   t ra i ni ng   a n d   t e s t i n g   of   t h e   W hi s pe r   m od e l   on   l a rge   c ol l e c t i ons   of   a udi o   da t a ,   w he re   t h e   p e rfor m a n c e   e v a l ua t i on   w a s   b a s e on  t he   W E m e t r i c .   T he   re s u l t s   d e m o ns t r a t e s ubs t a nt i a l   i m pro ve m e n t s   i n   W E f or  S und a ne s e ,   w he r e   W hi s p e ou t p e rfor m e d   pre v i ou s   m od e l s   l i k e   W a v2V e c 2   Ba s e   a nd  W a v 2V e c L a rg e ,   a c hi e vi ng  a   s i gn i fi c a n t l y   l ow e W E R   on  t h e   t e s t i ng  s e t .   H ow e ve r ,   w h i l e   t h e   W hi s p e m ode l ’s   pe rfo rm a nc e   on  S u nda n e s e   da t a   w a s   not e w or t hy ,   t he   o ut c om e s   fo J a va n e s e   hi g hl i ght e a r e a s   for  furt h e r   e nh a n c e m e n t .   C o m p a r e d   t o   t he   X L S - m od e l ,   w hi c h   us e d   a n   N - gr a m   l a ng ua g e   m o de l   a nd   a c h i e v e d   a   l ow e r   W E R   on   J a v a ne s e ,   t h e   W h i s pe r   m ode l   s h ow e d   s l i ght l hi ghe r   W E R   s c o re s ,   s ugg e s t i ng  t ha t   a dd i t i ona l   l a ngu a g e - s pe c i f i c   m ode l i n s t ra t e g i e s   m i ght   e nha nc e   W hi s p e r’s   pe rf orm a nc e   f or   J a v a ne s e .   F ut ure   i m pro ve m e n t   for  J a va ne s e   l a ngua ge   s p e c i fi c   c o ul be   do ne   w i t m ore   h ype r pa r a m e t e t uni n a nd   m or e   t e s t i ng.   T hi s   di s c re p a nc b e t w e e n   S und a ne s e   a nd   J a v a ne s e   W E Rs   a p pe a rs   t s t e m   p a rt l from   t ra ns c ri p t i on   i nc ons i s t e nc i e s   w i t h i t he   J a v a ne s e   d a t a s e t ,   a s   n ot e b t he   da t a s e t ' s   c re a t ors .   T he s e   f i nd i ngs   un de rs c ore   t h e   i m por t a nc e   of   hi gh - qu a l i t y ,   c ons i s t e n t   t ra ns c ri p t i o ns   i n   A S t r a i n i ng  da t a ,   e s pe c i a l l for   l a ngu a ge s   w i t l i m i t e r e s our c e s .   I m prov e m e n t s   t o   t r a ns c r i pt i on  a c c ur a c y   i t r a i n i ng  d a t a s e t s   c o ul d   furt he r   re d uc e   W E R   i n   fut ur e   A S m od e l s   for  l ow - r e s ourc e   l a n gua g e s .   T h e   pe rf orm a nc e   d i s pa r i t y   be t w e e t he   t w o   l a ngu a ge s   unde rs c ore s   t h e   i m por t a n c e   of   bo t h   t r a ns c r i pt i on   qu a l i t y   a n l i ngu i s t i c   c o m p l e x i t y   i A S R   m od e l   t r a i n i ng .   F ut ure   w o rk  m a b e n e fi t   fro m   a d dre s s i n t h e s e   i s s ue s   t h r ough  i m prov e a nno t a t i on  pra c t i c e s   a nd   m or e   di a l e c t - a w a r e   m od e l i ng  s t ra t e g i e s ,   p a r t i c ul a rl y   for   J a v a n e s e .       Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2722 - 3221   Com pu t   S c i   Inf   T e c h nol V o l .   6 ,   N o .   3 N ov e m be r   20 25 :   253 - 261   260   F U N D I N G   I N F O R M A TI O N   N fund i ng   i nv ol v e d.       A U TH O R   C O N TR I BU TI O N S   S TA T EM EN T   T hi s   j our na l   us e s   t h e   Cont ri bu t or   Rol e s   T a x ono m ( C Re di T )   t o   re c ogn i z e   i nd i vi du a l   a ut hor   c ont r i bu t i ons ,   r e du c e   a ut hors h i p   di s pu t e s ,   a nd   fa c i l i t a t e   c o l l a bora t i on .     N ame   of  A u th o r   C   M   So   Va   Fo   I   R   D   O   E   Vi   Su   P   Fu   A l i m   R a ha r j o                               A m a l i a   Z a hr a                                 C     C o n c e p t u a l i z a t i o n   M     M e t h o d o l o g y   So     So ft w a re   Va     Va l i d a t i o n   Fo     Fo rm a l   a n a l y s i s   I     I n v e s t i g a t i o n   R     R e s o u rc e s   D   :   D a t a   Cu ra t i o n   O   :   W ri t i n g   -   O ri g i n a l   D ra ft   E   :   W ri t i n g   -   Re v i e w   &   E d i t i n g   Vi     Vi s u a l i z a t i o n   Su     Su p e rv i s i o n   P     P ro j e c t   a d m i n i s t ra t i o n   Fu     Fu n d i n g   a c q u i s i t i o n         C O N F LI C T   O F   I N T ER ES S TA T EM EN T   N c o nfl i c t   of   i n t e re s t .       D A TA   A V A I LA BI LI TY   T he   da t a   t ha t   s uppo rt   t he   fi nd i ngs   of   t h i s   s t udy   a r e   ope n l a va i l a bl e   i n   [ O pe nS L R a t   ht t ps : / / w w w . ope ns l r . org/ re s our c e s . php ,   re f e re n c e   nu m b e [1 1].       R EF ER EN C ES   [1 ]   D .   Y u   a n d   L .   D e n g ,   A u t o m a t i c   s p e e c h   re c o g n i t i o n ,   S p r i n g e r   L o n d o n ,   2 0 1 5 .   [2 ]   Y .   Z h a n g   e t   a l . ,   G o o g l e   U S M :   s c a l i n g   a u t o m a t i c   s p e e c h   re c o g n i t i o n   b e y o n d   1 0 0   l a n g u a g e s ,   a r X i v   Co m p u t e r   S c i e n c e ,   2 0 2 3 .   [3 ]   J .   L i ,   Re c e n t   a d v a n c e s   i n   e n d - to - e n d   a u t o m a t i c   s p e e c h   re c o g n i t i o n ,   A P S IP A   T r a n s a c t i o n s   o n   S i g n a l   a n d   In f o r m a t i o n   P r o c e s s i n g ,   v o l .   1 1 ,   n o .   1 ,   2 0 2 2 ,   d o i :   h t t p s : / / d o i . o rg / 1 0 . 1 5 6 1 / 1 1 6 . 0 0 0 0 0 0 5 0 .   [4 ]   D .   A m o d e i   e t   a l . ,   D e e p   s p e e c h   2 :   e nd - to - e n d   s p e e c h   re c o g n i t i o n   i n   E n g l i s h   a n d   M a n d a ri n ,   3 3 r d   In t e r n a t i o n a l   Co n f e r e n c e   o n   M a c h i n e   L e a r n i n g ,   ICM L   2 0 1 6 ,   v o l .   1 ,   p p .   3 1 2 3 2 1 ,   2 0 1 6 .   [5 ]   A .   G u l a t i   e t   a l . ,   C o n f o rm e r :   c o n v o l u t i o n - a u g m e n t e d   t r a n s f o r m e f o s p e e c h   re c o g n i t i o n ,   P r o c e e d i n g s   o f   t h e   A n n u a l   C o n f e r e n c e   o f   t h e   I n t e r n a t i o n a l   S p e e c h   Co m m u n i c a t i o n   A s s o c i a t i o n ,   INT E R S P E E CH ,   p p .   5 0 3 6 5 0 4 0 ,   2 0 2 0 ,   d o i :   1 0 . 2 1 4 3 7 / I n t e r s p e e c h . 2 0 2 0 - 3 0 1 5 .   [6 ]   S .   K ri m a n   e t   a l . ,   Q u a rt z n e t :   d e e p   a u t o m a t i c   s p e e c h   re c o g n i t i o n   w i t h   1 D   t i m e - c h a n n e l   s e p a ra b l e   c o n v o l u t i o n s ,   i n   ICA S S P ,   IE E E   In t e r n a t i o n a l   Co n f e r e n c e   o n   A c o u s t i c s ,   S p e e c h   a n d   S i g n a l   P r o c e s s i n g   -   P r o c e e d i n g s ,   2 0 2 0 ,   p p .   6 1 2 4 6 1 2 8 ,     d o i :   1 0 . 1 1 0 9 / ICA S S P 4 0 7 7 6 . 2 0 2 0 . 9 0 5 3 8 8 9 .   [7 ]   A .   Ra d fo rd ,   J .   W .   K i m ,   T .   X u ,   G .   Bro c k m a n ,   C.   M c L e a v e y ,   a n d   I.   S u t s k e v e r,   Ro b u s t   s p e e c h   re c o g n i t i o n   v i a   l a r g e - s c a l e   w e a k   s u p e rv i s i o n ,   P r o c e e d i n g s   o f   M a c h i n e   L e a r n i n g   R e s e a r c h ,   v o l .   2 0 2 ,   p p .   2 8 4 9 2 2 8 5 1 8 ,   2 0 2 3 .   [8 ]   Z .   Z h a o   a n d   W .   Q .   Z h a n g ,   E n d - to - e n d   k e y w o rd   s e a r c h   b a s e d   o n   a t t e n t i o n   a n d   e n e rg y   s c o re fo l o w   re s o u rc e   l a n g u a g e s ,   P r o c e e d i n g s   o f   t h e   A n n u a l   Co n f e r e n c e   o f   t h e   In t e r n a t i o n a l   S p e e c h   Co m m u n i c a t i o n   A s s o c i a t i o n ,   INT E R S P E E CH ,   p p .   2 5 8 7 2 5 9 1 ,   2 0 2 0 ,   d o i :   1 0 . 2 1 4 3 7 / In t e rs p e e c h . 2 0 2 0 - 2 6 1 3 .   [9 ]   C.   M .   R.   K .   Ra j e ,   A u t o m a t i c   s p e e c h   re c o g n i t i o n   -   A S s o ft w a re   m a rk e t   re p o rt   2 0 2 4 , ”  c o g n i t i v e m a r k e t r e s e a r c h . c o m ,   2 0 2 5 [O n l i n e ].   A v a i l a b l e :   h t t p s : / / w w w . c o g n i t i v e m a rk e t re s e a rc h . c o m / a u t o m a t i c - s p e e c h - re c o g n i t i o n - % 2 8 a s r% 2 9 - s o ft w a re - m a r k e t - re p o rt . [ a c c e s s e d   O c t .   2 5 ,   2 0 2 4 ] .   [1 0 ]   D .   M .   E b e rh a rd ,   G .   F .   S i m o n s ,   a n d   C.   D .   F e n n i g ,   E t h n o l o g u e :   l a n g u a g e s   o t h e   w o rl d .   t w e n t y - s e v e n t h   e d i t i o n ,   L a n g u a g e s   o f   t h e   W o r l d ,   2 0 2 4 .   [O n l i n e ].   A v a i l a b l e :   h t t p s : / / w w w . e t h n o l o g u e . c o m .   [1 1 ]   O .   K j a rt a n s s o n ,   S .   S a ri n ,   K .   P i p a t s ri s a w a t ,   M .   J a n s c h e ,   a n d   L .   H a ,   Cro w d - s o u rc e d   s p e e c h   c o rp o ra   fo J a v a n e s e ,   S u n d a n e s e ,   S i n h a l a ,   N e p a l i ,   a n d   Ba n g l a d e s h i   Be n g a l i ,   6 t h   W o r k s h o p   o n   S p o k e n   L a n g u a g e   T e c h n o l o g i e s   f o r   U n d e r - R e s o u r c e d   L a n g u a g e s ,   S L T U   2 0 1 8 ,   p p .   5 2 5 5 ,   2 0 1 8 ,   d o i :   1 0 . 2 1 4 3 7 / S L T U . 2 0 1 8 - 11.   [1 2 ]   A .   Ba e v s k i ,   H .   Z h o u ,   A .   M o h a m e d ,   a n d   M .   A u l i ,   W a v 2 v e c   2 . 0 :   a   fra m e w o rk   fo s e l f - s u p e rv i s e d   l e a rn i n g   o s p e e c h   re p re s e n t a t i o n s ,   A d v a n c e s   i n   Ne u r a l   In f o r m a t i o n   P r o c e s s i n g   S y s t e m s ,   2 0 2 0 .   [1 3 ]   Z .   M a x w e l l - S m i t h   a n d   B.   F o l e y ,   A u t o m a t e d   s p e e c h   re c o g n i t i o n   o In d o n e s i a n - E n g l i s h   l a n g u a g e   l e s s o n s   o n   Y o u T u b e   u s i n g   t ra n s fe l e a rn i n g ,   F i e l d M a t t e r s   2 0 2 3   -   2 n d   W o r k s h o p   o n   NL P   A p p l i c a t i o n s   t o   F i e l d   L i n g u i s t i c s ,   P r o c e e d i n g s ,   p p .   1 1 6 ,   2 0 2 3 ,   d o i :   1 0 . 1 8 6 5 3 / v 1 / 2 0 2 3 . fi e l d m a t t e rs - 1 . 1 .   [1 4 ]   K .   A z i z a h   a n d   M .   A d ri a n i ,   H i e ra rc h i c a l   t ra n s fe r   l e a rn i n g   fo t e x t - to - s p e e c h   i n   In d o n e s i a n ,   J a v a n e s e ,   a n d   S u n d a n e s e   l a n g u a g e s ,   2 0 2 0   In t e r n a t i o n a l   Co n f e r e n c e   o n   A d v a n c e d   Co m p u t e r   S c i e n c e   a n d   In f o r m a t i o n   S y s t e m s ,   ICA CS IS   2 0 2 0 ,   p p .   4 2 1 4 2 8 ,   2 0 2 0 ,     d o i :   1 0 . 1 1 0 9 / ICA CS I S 5 1 0 2 5 . 2 0 2 0 . 9 2 6 3 0 8 6 .   [1 5 ]   A .   A d i l a ,   D .   L e s t a ri ,   A .   P u rw a ri a n t i ,   D .   T a n a y a ,   K .   A z i z a h ,   a n d   S .   S a k t i ,   E n h a n c i n g   In d o n e s i a n   a u t o m a t i c   s p e e c h   re c o g n i t i o n :   e v a l u a t i n g   m u l t i l i n g u a l   m o d e l s   w i t h   d i v e rs e   s p e e c h   v a ri a b i l i t i e s ,   2 0 2 4   2 7 t h   Co n f e r e n c e   o n   t h e   O r i e n t a l   CO C O S D A   In t e r n a t i o n a l   Co m m i t t e e   f o r   t h e   Co - O r d i n a t i o n   a n d   S t a n d a r d i s a t i o n   o f   S p e e c h   D a t a b a s e s   a n d   A s s e s s m e n t   T e c h n i q u e s ,   O - CO CO S D A   2 0 2 4   -   P r o c e e d i n g s ,   2 0 2 4 ,   d o i :   1 0 . 1 1 0 9 / O - CO CO S D A 6 4 3 8 2 . 2 0 2 4 . 1 0 8 0 0 3 3 6 .   [1 6 ]   O .   H .   A n i d j a r,   R .   M a rb e l ,   a n d   R.   Y o z e v i t c h ,   W h i s p e t u rn s   s t ro n g e r:   a u g m e n t i n g   W a v 2 V e c   2 . 0   fo s u p e ri o A S i n   l o w - re s o u rc e   l a n g u a g e s ,   a r X i v   Co m p u t e r   S c i e n c e 2 0 2 4 .   [1 7 ]   M. - H .   H s u   a n d   H .   L e e ,   S M IL E :   s p e e c h   m e t a   i n - c o n t e x t   l e a rn i n g   fo l o w - re s o u rc e   l a n g u a g e   a u t o m a t i c   s p e e c h   re c o g n i t i o n ,   a r X i v   E l e c t r i c a l   E n g i n e e r i n g   a n d   S y s t e m s   S c i e n c e 2 0 2 5 .   Evaluation Warning : The document was created with Spire.PDF for Python.
Com pu t   S c i   Inf   T e c h nol     IS S N :   2722 - 3221       J av a ne s e   and   s unda ne s e   s p e e c r e c og ni t i on   us i n W hi s pe r   ( A l i m   R ahar j o )   261   [1 8 ]   Y .   L i u ,   X .   Y a n g ,   a n d   D .   Q u ,   E x p l o ra t i o n   o w h i s p e fi n e - t u n i n g   s t ra t e g i e s   fo l o w - re s o u rc e   A S R,   E u r a s i p   J o u r n a l   o n   A u d i o ,   S p e e c h ,   a n d   M u s i c   P r o c e s s i n g ,   n o .   1 ,   2 0 2 4 ,   d o i :   1 0 . 1 1 8 6 / s 1 3 6 3 6 - 024 - 0 0 3 4 9 - 3.   [1 9 ]   L .   Z h a n g ,   N .   J i a n g ,   Q .   W a n g ,   Y .   L i ,   Q .   L u ,   a n d   L .   X i e ,   W h i s p e r - S V :   a d a p t i n g   w h i s p e fo l o w - d a t a - re s o u rc e   s p e a k e r   v e ri fi c a t i o n ,   S p e e c h   Co m m u n i c a t i o n ,   v o l .   1 6 3 ,   2 0 2 4 ,   d o i :   1 0 . 1 0 1 6 / j . s p e c o m . 2 0 2 4 . 1 0 3 1 0 3 .   [2 0 ]   V .   T i m m e l ,   C.   P a o n e s s a ,   R.   K a k o o e e ,   M .   V o g e l ,   a n d   D .   P e rru c h o u d ,   F i n e - t u n i n g   w h i s p e o n   l o w - re s o u rc e   l a n g u a g e s   fo re a l - w o rl d   a p p l i c a t i o n s ,   a r X i v   Co m p u t e r   S c i e n c e 2024.   [2 1 ]   D .   K .   G e t e   e t   a l . ,   W h i s p e ri n g   i n   A m h a ri c :   f i n e - t u n i n g   w h i s p e fo l o w - re s o u rc e   l a n g u a g e ,   a r X i v   Co m p u t e r   S c i e n c e 2025.   [2 2 ]   X .   d e   Z u a z o ,   E .   N a v a s ,   I .   S a ra t x a g a ,   a n d   I.   H .   Ri o j a ,   W h i s p e r - L M :   i m p ro v i n g   A S m o d e l s   w i t h   l a n g u a g e   m o d e l s   fo l o w - re s o u rc e   l a n g u a g e s ,   a r X i v   Co m p u t e r   S c i e n c e 2 0 2 5 .   [2 3 ]   A .   Cry s s i o v e a n d   A .   Z a h ra ,   S p e e c h   re c o g n i t i o n   m o d e l   d e s i g n   fo S u n d a n e s e   l a n g u a g e   u s i n g   W A V 2 V E 2 . 0 ,   In t e r n a t i o n a l   J o u r n a l   o f   S p e e c h   T e c h n o l o g y ,   v o l .   2 7 ,   n o .   1 ,   p p .   1 7 1 1 7 7 ,   2 0 2 4 ,   d o i :   1 0 . 1 0 0 7 / s 1 0 7 7 2 - 0 2 3 - 1 0 0 6 6 - 5.   [2 4 ]   P .   A r i s a p u t ra ,   A .   T .   H a n d o y o ,   a n d   A .   Z a h ra ,   X L S - d e e p   l e a rn i n g   m o d e l   fo m u l t i l i n g u a l   A S R   o n   l o w - re s o u rc e   l a n g u a g e s :   In d o n e s i a n ,   J a v a n e s e ,   a n d   S u n d a n e s e ,   ICIC  E x p r e s s   L e t t e r s ,   P a r t   B A p p l i c a t i o n s ,   v o l .   1 5 ,   n o .   6 ,   p p .   5 5 1 5 5 9 ,   2 0 2 4 .   [2 5 ]   J .   C.   V á s q u e z - Co rre a   a n d   A .   Á l v a re z   M u n i a i n ,   N o v e l   s p e e c h   re c o g n i t i o n   s y s t e m s   a p p l i e d   t o   fo re n s i c s   w i t h i n   c h i l d   e x p l o i t a t i o n :   W a v 2 v e c 2 . 0   v s .   w h i s p e r,   S e n s o r s ,   v o l .   2 3 ,   n o .   4 ,   2 0 2 3 ,   d o i :   1 0 . 3 3 9 0 / s 2 3 0 4 1 8 4 3 .   [2 6 ]   D .   R.   Y e rra m re d d y ,   J .   M a ra s a n i ,   P .   S .   V .   G o w t h a m ,   G .   H a rs h i t ,   a n d   A n j a l i ,   S p e e c h   re c o g n i t i o n   p a ra d i g m s :   a   c o m p a ra t i v e   e v a l u a t i o n   o s p e e c h b ra i n ,   w h i s p e a n d   W a v 2 V e c 2   m o d e l s ,   2 0 2 4   IE E E   9 t h   In t e r n a t i o n a l   Co n f e r e n c e   f o r   Co n v e r g e n c e   i n   T e c h n o l o g y ,   I2 CT   2 0 2 4 ,   2 0 2 4 ,   d o i :   1 0 . 1 1 0 9 / I2 CT 6 1 2 2 3 . 2 0 2 4 . 1 0 5 4 4 1 3 3 .   [2 7 ]   A .   Ba rc o v s c h i ,   R.   J a i n ,   a n d   P .   Co rc o ra n ,   A   c o m p a ra t i v e   a n a l y s i s   b e t w e e n   c o n f o rm e r - t ra n s d u c e r,   w h i s p e r,   a n d   w a v 2 v e c 2   fo r   i m p ro v i n g   t h e   c h i l d   s p e e c h   re c o g n i t i o n ,   i n   2 0 2 3   I n t e r n a t i o n a l   Co n f e r e n c e   o n   S p e e c h   T e c h n o l o g y   a n d   H u m a n - Co m p u t e r   D i a l o g u e ,   S p e D   2 0 2 3 ,   2 0 2 3 ,   p p .   4 2 4 7 ,   d o i :   1 0 . 1 1 0 9 / S p e D 5 9 2 4 1 . 2 0 2 3 . 1 0 3 1 4 8 6 7 .   [2 8 ]   A .   Ca n d i d o   J u n i o r   e t   a l . ,   CO RA A   A S R :   a   l a r g e   c o r p u s   o s p o n t a n e o u s   a n d   p re p a r e d   s p e e c h   m a n u a l l y   v a l i d a t e d   f o s p e e c h   r e c o g n i t i o n   i n   B ra z i l i a n   P o rt u g u e s e ,   L a n g u a g e   R e s o u r c e s   a n d   E v a l u a t i o n ,   v o l .   5 7 ,   n o .   3 ,   p p .   1 1 3 9 11 7 1 ,   2 0 2 3 ,   d o i :   1 0 . 1 0 0 7 / s 1 0 5 7 9 - 0 2 2 - 09621 - 4.   [2 9 ]   W a g i a t i ,   N .   D a rm a y a n t i ,   Y .   Y o h a n a ri s a g a rn i w a ,   a n d   D .   Z e i n ,   M a p p i n g   t h e   d i m e n s i o n s   o l i n g u i s t i c   d i s t a n c e :   a   s t u d y   o n   q u a n t i t a t i v e   a n d   q u a l i t a t i v e   g e o l i n g u i s t i c s   o Ba n j a S u n d a n e s e   d i a l e c t ,   E u r o p e a n   J o u r n a l   o f   L a n g u a g e   a n d   Cu l t u r e   S t u d i e s   v o l .   2 ,   n o .   4 ,   p p .   8 1 7 ,   2 0 2 3 ,   d o i :   1 0 . 2 4 0 1 8 / e j l a n g . 2 0 2 3 . 2 . 4 . 8 7 .   [3 0 ]   W .   U d a s m o ro   e t   a l . ,   T h e   p re s e rv a t i o n   o t h e   J a v a n e s e   l a n g u a g e   i n   t h e   S p e c i a l   Re g i o n   o Y o g y a k a rt a ,   In d o n e s i a n   J o u r n a l   o f   G e o g r a p h y ,   v o l .   5 5 ,   n o .   1 ,   p p .   5 9 5 9 ,   F e b .   2 0 2 3 ,   d o i :   h t t p s : / / d o i . o rg / 1 0 . 2 2 1 4 6 / i j g . 6 8 1 8 3 .   [3 1 ]   R.   A l h a m m a d ,   T h e   p h o n o l o g y ,   m o rp h o l o g y ,   a n d   s y n t a x   o S u n d a n e s e ,   F o r u m   f o r   L i n g u i s t i c   S t u d i e s ,   v o l .   5 ,   n o .   3 ,   D e c .   2 0 2 3 ,   d o i :   h t t p s : / / d o i . o rg / 1 0 . 5 9 4 0 0 / fl s . v 5 i 3 . 1 9 4 5 .   [3 2 ]   R.   J a i n ,   A .   Ba rc o v s c h i ,   M .   Y i w e re ,   P .   Co rc o ra n ,   a n d   H .   Cu c u ,   A d a p t a t i o n   o w h i s p e m o d e l s   t o   c h i l d   s p e e c h   re c o g n i t i o n ,   P r o c e e d i n g s   o f   t h e   A n n u a l   Co n f e r e n c e   o f   t h e   In t e r n a t i o n a l   S p e e c h   Co m m u n i c a t i o n   A s s o c i a t i o n ,   INT E R S P E E CH ,   p p .   5 2 4 2 5 2 4 6 ,   2 0 2 3 ,   d o i :   1 0 . 2 1 4 3 7 / In t e rs p e e c h . 2 0 2 3 - 9 3 5 .   [3 3 ]   R.   J a i n ,   A .   Ba rc o v s c h i ,   M .   Y .   Y i w e re ,   P .   Co rc o ra n ,   a n d   H .   Cu c u ,   E x p l o ri n g   n a t i v e   a n d   n o n - n a t i v e   E n g l i s h   c h i l d   s p e e c h   re c o g n i t i o n   w i t h   w h i s p e r,   IE E E   A c c e s s ,   v o l .   1 2 ,   p p .   4 1 6 0 1 4 1 6 1 0 ,   2 0 2 4 ,   d o i :   1 0 . 1 1 0 9 / A CCE S S . 2 0 2 4 . 3 3 7 8 7 3 8 .   [3 4 ]   W .   L i u ,   Y .   Q i n ,   Z .   P e n g ,   a n d   T .   L e e ,   S p a rs e l y   s h a re d   l o ra   o n   w h i s p e fo r   c h i l d   s p e e c h   re c o g n i t i o n ,   ICA S S P ,   I E E E   In t e r n a t i o n a l   Co n f e r e n c e   o n   A c o u s t i c s ,   S p e e c h   a n d   S i g n a l   P r o c e s s i n g   -   P r o c e e d i n g s ,   p p .   1 1 7 5 1 1 1 7 5 5 ,   2 0 2 4 ,     d o i :   1 0 . 1 1 0 9 / ICA S S P 4 8 4 8 5 . 2 0 2 4 . 1 0 4 4 7 0 0 4 .   [3 5 ]   D .   S .   P a rk   e t   a l . ,   S p e c a u g m e n t :   a   s i m p l e   d a t a   a u g m e n t a t i o n   m e t h o d   fo a u t o m a t i c   s p e e c h   re c o g n i t i o n ,   P r o c e e d i n g s   o f   t h e   A n n u a l   Co n f e r e n c e   o f   t h e   In t e r n a t i o n a l   S p e e c h   Co m m u n i c a t i o n   A s s o c i a t i o n ,   INT E R S P E E CH ,   p p .   2 6 1 3 2 6 1 7 ,   2 0 1 9 ,     d o i :   1 0 . 2 1 4 3 7 / In t e rs p e e c h . 2 0 1 9 - 2 6 8 0 .       BI O G R A P H I ES   O F   A U T H O R S       A l i m   R ah a r j o           R e c e i ve d   a   ba c he l o r s   de gr e e   i n   c o m pu t e r   s c i e nc e   f r om   t h e   F a c ul t of   C o m p ut e r   S c i e n c e ,   B i na   N us a nt a r a   U n i ve r s i t y,   I ndone s i a   i 2023 .   C u r r e nt l y   ge t t i n h i s   m a s t e r s   d e gr e e   a t   C o m p ut e r   S c i e nc e   i n   B i na   N us a nt a r a   U ni v e r s i t y,   I nd one s i a .   H i s   m a i n   i nt e r e s t s   i n c l ud e   s p e e c r e c ogn i t i on ,   s o f t w a r e   d e ve l op m e nt ,   a nd   m a c hi ne   l e a r ni n g.   H e   c a b e   c ont a c t e d   a t   e m a i l :   a l i m . r a ha r j o @b i nu s . a c . i d .         A m a l i a   Z ah r a           i s   a   l e c t ur e r   a t   t he   M a s t e r   of   I n f or m a t i on   T e c hn ol ogy ,   B i n a   N us a n t a r a   U ni ve r s i t y ,   I nd one s i a .   S he   r e c e i v e he r   b a c h e l o r s   de g r e e   i n   c o m pu t e r   s c i e n c e   f r o m   t he   F a c u l t y   o f   C o m pu t e r   S c i e nc e ,   U n i ve r s i t y   of   I ndo ne s i a   ( U I )   i n   200 8.   S h e   doe s   no t   ha ve   a   m a s t e r s   de gr e e .   H e r   P h . D .   w a s   obt a i ne d   f r o m   t he   S c hoo l   o f   C o m p ut e r   S c i e n c e   a nd   I nf o r m a t i c s ,   U ni ve r s i t y   C o l l e ge   D u bl i n   ( U C D ) ,   I r e l a n d   i n   201 4.   H e r   r e s e a r c h   i n t e r e s t s   c o ve r   va r i o us   f i e l d s   i s pe e c h   t e c hn ol ogy ,   s uc a s   s p e e c r e c ogn i t i o n,   s poke l a n g ua ge   i de n t i f i c a t i on ,   s pe a ke r   ve r i f i c a t i on ,   s p e e c e m ot i on   r e c ogn i t i o n,   a nd   s o   o n.   A dd i t i o na l l y ,   s he   a l s o   ha s   a n   i nt e r e s t   i n   na t u r a l   l a ngua ge   pr oc e s s i ng   ( N L P ) ,   c o m pu t a t i o na l   l i ngu i s t i c s ,   m a c hi n e   l e a r n i ng ,   a n a r t i f i c i a l   i nt e l l i ge n c e .   S he   c a be   c on t a c t e d   a t   e m a i l :   a m a l i a . z a hr a @b i nu s . e d u .     Evaluation Warning : The document was created with Spire.PDF for Python.