Co m pu t er   Science  a nd   I nfo r m a t io n T ec hn o lo g ies   Vo l.  6 ,   No .   2 J u ly   20 25 ,   p p .   1 4 7 ~ 1 5 8   I SS N:  2722 - 3 2 2 1 DOI 1 0 . 1 1 5 9 1 /csi t . v6 i 2 . p p 1 4 7 - 1 5 8          147     J o ur na l ho m ep a g e h ttp : //ia e s p r ime. co m/in d ex . p h p /csi t   Cla ss ificatio n and   sim ila rity de tect i o n of Indo nesia scientifi journa l articles       Ny im a s   Sa bil ina   Ca hy a ni 1 Der is   Stia wa n 2 ,   Abd ia ns a Abdi a ns a h 1 ,   Nurul Af if a h 3 ,     Dendi Re na l do   P er m a na 1   1 D e p a r t me n t   o f   C o m p u t e r   S c i e n c e ,   U n i v e r s i t y   o f   S r i w i j a y a ,   P a l e m b a n g ,   I n d o n e s i a   2 D e p a r t me n t   o f   C o m p u t e r   En g i n e e r i n g ,   U n i v e r s i t y   o f   S r i w i j a y a ,   P a l e m b a n g ,   I n d o n e si a   3 D e p a r t me n t   o f   I n f o r mat i c s   E n g i n e e r i n g ,   U n i v e r si t y   o f   S r i w i j a y a ,   P a l e m b a n g ,   I n d o n e s i a       Art icle  I nfo     AB S T RAC T   A r ticle  his to r y:   R ec eiv ed   Feb   20 2 0 2 5   R ev is ed   Mar   24 2 0 2 5   Acc ep ted   May   23 2 0 2 5       Th e   d e v e lo p m e n o f   tec h n o lo g y   is  a c c e lera ti n g   in   fi n d i n g   re fe re n c e to   sc ien ti fic  a rti c les   o r   j o u r n a ls  re lat e d   t o   re se a rc h   t o p ics On e   o f   th e   so u rc e o f   n a ti o n a a g g re g a to se r v ice to   fin d   re fe re n c e is  G a rb a   Ru ju k a n   Dig it a l   (G AR UD A),  d e v e lo p e d   b y   th e   M in istr y   o Ed u c a ti o n ,   Cu lt u re ,   Re se a rc h ,   a n d   Tec h n o l o g y   ( Ke m e n d i k b u d r istek o th e   Re p u b li c   o I n d o n e sia .   Th e   n a ïv e   Ba y e m e th o d   c las sifies   a rti c les   in to   se v e ra c a teg o ries   b a se d   o n   ti tl e s   a n d   a b stra c ts Th e   sy ste m   a c h iev e s a n   F 1 - sc o re   o 9 8 % ,   wh ich   in d i c a tes   h ig h   c las sifica ti o n   a c c u ra c y ,   a n d   th e   c las sifica ti o n   p ro c e ss   tak e les th a n     6 0   m i n u tes .   Article   sim il a rit y   d e tec ti o n   is  d o n e   u s in g   th e   c o si n e   sim il a rit y   m e th o d ,   a n d   a   sim il a rit y   sc o re   o 0 . 0 7 1   re flec ts  th e   d e g re e   o sim il a rit y   b e twe e n   th e   ti tl e   a n d   th e   a b stra c t   th a h a b e e n   c o n c a ten a ted ,   wh i le  a   sc o re   c lo se   to   1   in d ica tes   a   h ig h e sim il a rit y .   S e a rc h i n g   f o sim il a r   sc ien ti fic   a rti c les   b a se d   o n   ti tl e   a n d   a b stra c t,   so rt  a rti c les   b a se d   o n   th e   re s u lt o f   th e   h ig h e st   sim il a rit y   sc o re   a re   th e   m o st  sim il a a rti c les ,   a n d   g e n e ra ti n g   a rti c le   c a teg o ries .   Th e   re su lt o th e   r e se a rc h   sh o th a t   t h e   p r o p o se d   m e th o d   sig n ifi c a n t ly   im p ro v e th e   c las sifica ti o n   a n d   se a rc h   p r o c e ss e in   G ARU DA ,   a s we ll   a s a c c u ra te an d   e fficie n sim il a rit y   d e tec ti o n .   K ey w o r d s :   C las s if icatio n   C o s in s im ilar ity   GARUD A   Naïv B ay es   Similar ity   T h is i a n   o p e n   a c c e ss   a rticle   u n d e r th e   CC B Y - SA   li c e n se .     C o r r e s p o nd ing   A uth o r :   Der is   Sti awa n   Dep ar tm en t o f   C o m p u ter   E n g i n ee r in g ,   U n iv er s ity   o f   Sriwijay a   I n d r alay a ,   Og an   I lir   3 0 6 6 2 ,   Palem b an g ,   I n d o n esia   E m ail:  d er is @ u n s r i.a c. id       1.   I NT RO D UCT I O N   T h d e v elo p m e n o f   tech n o lo g y   is   ac ce ler atin g   in   ag g r eg at o r   s er v ices  f o r   s cien tific   jo u r n al  s ea r ch es  as  r ef er en ce   o r   b ib lio g r a p h y   in   d eter m in in g   ar ticle  wr itin g   to p ics.  T h ag g r eg ato r   s er v ice  is   p latf o r m   th at  co llects  an d   co m p iles   in f o r m a tio n   f r o m   v ar i o u s   s o u r ce s   to   p r o v id e   ea s ier   an d   m o r o r g a n ized   ac ce s s   f o r   its   u s er s ,   o n e   o f   wh ich   is   th e   n ati o n al  a g g r eg at o r   Gar b a   R u ju k a n   Dig ital   ( GARUDA)   d e v elo p ed   b y   t h Min is tr y   o f   E d u ca tio n ,   C u ltu r e,   R esear ch ,   an d   T ec h n o lo g y   ( Kem e n d i k b u d r is tek )   o f   th R ep u b lic  o f   I n d o n esia.  Als o ,   it   h as  d atab ase  an d   n etwo r k   co n n ec ted   to   SIN T A,   B im a,   Ar ju n a,   PDDI KT I ,   R is b an g ,   Sco p u s ,   an d   R am a.   R es e a r c h   f r o m   a ll   l e ct u r e r s   i n   I n d o n e s i a   is   c o ll e c t e d   a n d   e n t e r e d   i n t o   t h e   s c ie n c e   a n d   t ec h n o l o g y   i n d e x   ( S I N T A )   p o r t a l   u s e d   t o   m e as u r e   a n d   m o n i t o r   t h e   p e r f o r m a n c e   o f   s c i e n ti f i c   r e s e a r c h   c o n d u c t e d   b y   r e s ea r c h e r s   [ 1 ] .   Naiv B ay es  i s   an   alg o r ith m   u s ed   f o r   class if icatio n   b ased   o n   B ay es  t h eo r em   [ 2 ] C lass if icatio n   is   a   tech n iq u to   g r o u p   d ata  s ets  in to   m u lti - class es  to   o b tain   co r r ec p r ed ictio n   an d   a n aly s is   r esu lts   [ 3 ] C las s if icatio n   with   th s u p p o r v ec to r   m a ch in L i n ea r   Ker n el  m eth o d   u s in g   2 0 5   f ea tu r es  o b tain ed   p o o r   ac cu r ac y   r ate  o f   5 8 . 3 %   [ 4 ] C lass if icatio n   b ased   o n   jo u r n al  ab s tr ac ts   u s in g   th n aiv B ay es  an d   n aiv B ay es   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 7 2 2 - 3 2 2 1   C o m p u t Sci  I n f   T ec h n o l ,   Vo l.  6 ,   No .   2 J u ly   20 25 147 - 1 5 8   148   m u ltin o m ial  m eth o d s   p r o v i d es  m o r ac cu r ate  class if icati o n   p er f o r m a n ce   with   f aster   an d   m o r e f f icien t   co m p u tin g   tim co m p ar ed   t o   o th er   class if icatio n   m eth o d s   [ 5 ] [ 6 ] .   Natu r al  lan g u ag e   p r o ce s s in g   ( NL P)  to   u n d er s tan d   h u m an   lan g u ag ef f ec tiv ely   an d   p r o v id e   tech n iq u es  f o r   m a n ag in g   t h class if icatio n   o f   lar g am o u n ts   o f   tex o r   d o cu m en ts   with   ac cu r ate    r esu lts   [ 7 ] [ 8 ] T e x class if icatio n   u s in g   NL ca n   au t o m atica lly   lear n   f r o m   tex t ,   s o   t h at  it  ca n   p r o v i d in f o r m atio n   f r o m   th tex in   an   o r g an ize d   m an n e r   with   th co r r ec class if icatio n   [ 9 ] [ 1 0 ] NL co m b in es   co m p u ter   s cien ce ,   lin g u is tics ,   an d   m ath em atics  [ 1 1 ] ,   NL ca n   b u s ed   f o r   p lag iar is m   d etec tio n   [ 1 2 ] T h is   r esear ch   u s es  tex p r o ce s s in g   to   class if y   ar ticles  an d   d ete ct  s im ilar ities   b ased   o n   titl es  an d   ab s tr ac ts   in to   s p ec if ic  ca teg o r ies T e x is   co n v er ted   to   n u m e r ical  f o r m   u s in g   th ter m   f r eq u e n c y - in v er s d o cu m en f r eq u e n cy   (TF - I DF)   tec h n iq u e   [ 1 3 ] .   C o s in s im ilar ity   in   m ea s u r in g   th d eg r ee   o f   s im ilar i ty   o f   s cien tific   ar ticle  citat io n s   with     r ef er en ce   s o u r ce s   g iv es   q u ite  g o o d   r esu lts   o f   7 0 % ,   an d   citat io n s   with   n o   r elatio n s h ip   with   r ef er e n ce   s o u r ce s   b y   3 0 %   [ 1 4 ] C o s in s im ilar it y   to   d etec p lag iar is m   i n   B en g ali  tex co n ten s u cc ess f u lly   d eter m in es  s im ilar ity   b y   co m p ar in g   v ec t o r s   in   n u m er ical  v alu es  [ 1 5 ] Me asu r e m en u s in g   co s in s im ilar ity   b y   m ea s u r in g   two   v ec to r s   an d   ca lcu latin g   th e   s ize  o f   th c o s in an g le  b etwe en   th em   [ 1 6 ] Ma tch in g   s cie n tific   ar ticle  titl es  u s in g   th co s in s im ilar ity   an d   J ac ca r d   s im ilar ity   m eth o d s   p r o v i d es  b etter   co s in s im ilar ity   p er f o r m a n ce   r esu lts   th an   J ac ca r d   s im ilar ity   in   s p ec if ic  s ce n ar io s   [ 1 7 ] C o s in s im ilar ity   i s   u s ed   f o r   b o o k   r ec o m m en d atio n   s y s tem   to   p r o v id e   r esu lts   r el ev an to   th e   co u r s e   to p ic  wit h   p r ec is io n   o f   0 . 7   an d   a   r ec all  o f   0 . 7 3   [ 1 8 ] C o m p ar in g   th r ee   d if f e r en m eth o d s ,   n am ely   co s in s im ilar ity ,   J ac ca r d   s im ilar i ty ,   an d   E u clid ea n   d is tan ce ,     to   m ea s u r th s im ilar ity   o f   two   n ews  ar ticles   in   Hin d a n d   E n g lis h   b ased   o n   to p ic.   T h m o s ac cu r ate     co s in s im ilar ity   r esu lts   co m p ar ed   to   th o th e r   two   m eth o d s ,   with   an   ac cu r ac y   o f   8 1 . 2 5 %,  r ec all  o f   1 0 0 %,  an d   F - m ea s u r o f   7 6 . 9 2 %   [ 1 9 ] .   T h m ap p in g   r elate d   to   th e   p r ev io u s   r esear ch   b ased   o n   th r esu lts   o f   th e   liter atu r e   r esear ch   co llec tio n   is   illu s tr ated   in   Fig u r 1   VOS  Viewe r   n aiv B ay es  an d   Fig u r 2   VOS  V iewe r   c o s in e   s im ilar ity .   Fig u r e   1   is   th VOS  V iewe r   f o r   m eth o d s   r elate d   to   n aiv B ay es  an d   p r ev io u s   r esear ch .   F ig u r 2   is   th VOS  V iewe r   f o r   m eth o d s   r elate d   to   co s in s im ilar ity   an d   p r ev io u s   r esear ch .   VOS  Viewe r   is   u s ed   f o r   m ap p i n g   th e   r elatio n s h ip s   b etwe en   k ey w o r d s ,   p r ev i o u s   au th o r s ,   an d   j o u r n als  u s e d   in   r esear ch .   R e s ea r ch er s   u s it  to   id en tify   e m er g in g   f ield s   an d   l o o k   at  in ter r elate d   s cien tific   c o n ce p ts T h is   r esear ch   co n tr i b u tes  to   e v alu atin g   th class if icatio n   o f   p u b lis h ed   ar ticles  in   GA R UDA   b y   ap p ly in g   th n ai v B ay es  m et h o d ,   an d   d etec tin g   s im ilar ities   u s in g   th co s in s im ilar ity   ap p r o ac h T h cl ass if icatio n   m eth o d   u s in g   n a iv B ay es  an d   th s im ilar ity   d etec tio n   m eth o d   u s in g   co s in s im ilar ity ,   in   th is   r esear ch   p r o d u ce   an   ac c u r ate  an d   g o o d   m o d el  in   class if y in g   ar ticles  an d   m ea s u r in g   ar ticle  s im ilar it y .   T h is   r esear ch   aim s   to   d eter m in th p er f o r m an ce   o f   class if ier s   u s in g   th n aïv B a y es  m eth o d   an d   to   d eter m in th p er f o r m an ce   o f   s im ilar ity   d etec tio n   u s in g   th e   co s in s im ilar ity   m eth o d .   T h e   d is cu s s io n   in   th is   r esear ch   is   as  f o llo ws:   s ec tio n   2   d is cu s s es  t h m eth o d s   u s ed   in   d eter m in in g   r e f er en ce s   an d   d atasets .   Sectio n   3   p r o v id es  th r esu lts   o f   class if icatio n ,   s im ilar ity   d etec tio n ,   an d   s ea r ch   o f   ar ticles .   Sectio n   4   p r o v id es c o n cl u s io n s   an d   s u g g esti o n s   f o r   f u r th e r   r esear ch .           Fig u r e   1 .   VOS  Viewe r   f o r   n v B ay es   Evaluation Warning : The document was created with Spire.PDF for Python.
C o m p u t Sci  I n f   T ec h n o l     I SS N:   2722 - 3 2 2 1       C la s s i fica tio n   a n d   s imila r ity  d etec tio n   o f I n d o n esia n   s cien tifi jo u r n a l     ( N yima s   S a b ilin a   C a h ya n i )   149       Fig u r e   2 VOS  Viewe r   f o r   C o s in S im ilar ity       2.   M E T H O D   2. 1   Resea rc f ra m ewo r k   T h is   r esear ch   r eq u ir es  f r am ewo r k ,   r esear c h   f lo w,   a n d   s ev er al  s tag es.  T h th eo r y   u s ed   b y   p r ev i o u s   r esear ch ,   th ap p r o p r iate  m eth o d o lo g y   to   s o lv th m a in   p r o b lem   u s in g   th n aiv e   B ay es  m eth o d   in   class if icatio n ,   th co s in s im ilar ity   m eth o d   in   s im ilar ity   d e te ctio n ,   an d   th e   co s in s im ilar it y   m eth o d   in   ar ticle   s ea r ch ,   th e   r esear ch   f r a m ewo r k   is   d r awn   in   Fig u r e   3 .   T h e   r esear ch   f r am ew o r k   in   Fig u r 3   d escr ib es  t h p r o ce s s ,   s tar tin g   with   d ata  co l lectio n ,   d ata  e n g in ee r i n g ,   lab e lin g   u s in g   r u le - b ased   au to   lab elin g ,   cl ass if icatio n   u s in g   n aiv B ay es,  s im ilar ity   d etec tio n   u s in g   co s in s im ilar ity ,   an d   ar ticle  s ea r ch   u s in g   co s in s im ilar ity Data   en g in ee r in g   is   ca r r ied   o u to   clea n   u p   d u p licate  d a ta  an d   co n s is ts   o f   s ev er al  s t ag es:  to k en izatio n ,   co n ca ten atio n ,   b alan cin g ,   f la tten in g   d ata,   a n d   s p litt in g .   R u le - b ased   au to - lab elin g   is   d o n b y   m atch i n g   k ey wo r d s   in   th tex t   with   p r e d eter m in ed   ca te g o r ies.  C lass if icatio n   was  ca r r ied   o u to   d ete r m in th ca te g o r y   o f   tex b ased   o n   th e   p r o b ab i lity   o f   wo r d s ,   i f   th class if icatio n   r esu lts   ar i n co r r ec t,   g o   b ac k   to   t h d at a   en g in ee r in g   p r o ce s s Me an w h ile,   th c o r r ec class if icatio n   r esu lts   will  p r o ce e d   to   th e   s im ilar ity   d etec tio n   p r o ce s s .   Similar ity   d etec tio n   an d   s cien tific   ar ticle  s ea r ch es   wer ca r r ied   o u t   to   an al y ze   t h r esu lts   o f   c o s in s im ilar it y   to   ass es s   th s im ila r ity   o f   ar ticles  b ased   o n   th s im ilar ity   s co r e T h e   c l a s s i f i ca t i o n   m e t h o d   u s i n g   n a i v e   B a y e s   a n d   t h e   s i m il a r i t y   d e t e c t i o n   m e t h o d   u s i n g   C o s i n S i m i l a r it y   p r o d u c e   a n   a c c u r a t e   a n d   g o o d   m o d e l   i n   c l a s s i f y i n g   a r ti c l es   a n d   m e as u r in g   a r t i c l e   s i m il a r i t y .     2. 1 . 1.   Da t a   c o llect io n   T h d ataset  co llectio n   tech n iq u o b tain e d   f r o m   GARUDA   in   th f o r m   o f   E x ce is   s ec o n d ar y   d ata.   T h er ar e   3 5 , 9 0 8   r o ws  an d   1 3   co l u m n s   o f   Au th o r   I D,   GARUDA_ I D,   OJS _ I DE NT I FIE R ,   an d   GARUD A_ DOI .   AKREDI T ASI ,   GARUDA_ T I T L E ,   GARUDA_ A B ST R AC T ,   GA R UDA  J OU R NAL ,   GARUD A_ YE AR _ PU B L I SH ,   GARUDA_ DAT E _ PU B L I SH,  GARUDA_ C I T E ,   GARUDA_ U R L ,   OR I GI NAL _ UR L .   T h is   r esea r ch   u s ed   th e   titl an d   a b s tr ac to   class if y ,   d etec s im ilar ities   an d   s ea r ch   f o r   s cien tific   ar ticles.  T h d ata   wa s   p r o ce s s ed   b y   d eletin g   d u p lic ate  d ata  in to   2 9 , 2 3 9   r o ws  an d   1 3   c o lu m n s .   G o o d   class if icatio n   r esu lts   u s in g   n aiv B ay es,  ar ticle  s im ilar ity   d etec tio n   u s in g   co s in s im il ar ity ,   ar ticle  s ea r ch   u s in g   co s in s im ilar ity ,   an d   r e s ea r ch   d ata  ar o b tain ed   a n d   d ep icted   in   Fig u r 4 .     2 . 1 . 2 .   Da t a   eng ineering   Data   en g in ee r in g   is   co llectin g   an d   p r ep ar i n g   d atasets   f r o m   t h Min is tr y   o f   E d u ca tio n   an d   C u ltu r e's   GARUD A,   clea n in g   d u p licate   d ata ,   an d   lab elin g .   T h s tag es   ca r r ied   o u in   d ata  en g i n ee r in g   ar illu s tr ated   in   Fig u r 5 .   T h s tag es  o f   d ata  e n g in ee r in g   ar s h o w n   in   Fig u r 5 .   T h f ir s s tag is   to k en izin g ,   th s ec o n d   s tag e   is   co n ca th d ata  to   c o m b in e   th tex d ata   b etwe en   th e   titl an d   a b s tr ac co lu m n s   to   g e n e r ate  n ew  c o lu m n   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 7 2 2 - 3 2 2 1   C o m p u t Sci  I n f   T ec h n o l ,   Vo l.  6 ,   No .   2 J u ly   20 25 147 - 1 5 8   150   with   th n am e   C ONCAT_ D AT A.   T h th ir d   s tag is   b ala n cin g   d ata  to   b alan ce   d ata   b e twee n   m in o r ity   an d   m ajo r ity   class es.  W alr ea d y   tr ied   to   u s a n   u n b alan ce d   d ataset,   b u we  g o u n s atis f ac to r y   r esu lts   an d   n eg ativ ely   im p ac te d   th p e r f o r m an ce   o f   m ac h in lea r n in g   a lg o r ith m s   [ 2 0 ] [ 2 1 ] .   T h f o u r th   s tag f latten s   th d ata  to   ch an g th s tr u ctu r o f   m u lti - d im en s io n al  ar r a y   in to   o n e - d im e n s io n al  ar r ay .   T h last   s tag s p li ts   th d ata  to   s ep ar ate  th d ataset   in to   two   s u b s ets:   tr ain in g   an d   test   d ata.   I n   th is   s tu d y ,   r an d o m   s p lit  m eth o d   is   u s ed   b y   s am p lin g   d ata   to   en s u r th at   r ef r ac tio n   ag ain s d if f er en d ata   ch ar ac te r is tics   d o es  n o t   af f ec t   th d ata  m o d elin g   p r o ce s s .   Af ter   p e r f o r m in g   th d ata  en g i n ee r in g   s tag e,   lab elin g   is   d e p icted   in   Fig u r 6 .   T h ca teg o r y   lab elin g   in   Fig u r 6   d escr ib es  th r esu lts   o f   th au to   lab el  u s r u le - b ased   a u to .   T h er is   n ew  co lu m n   with   th n a m o f   th ca teg o r y .   T h ca teg o r ie s   th at  h av b ee n   d eter m in e d   i n   th is   s tu d y   ar n in ca teg o r ies,  n am el y   o th er ,   m a n ag em en t   in f o r m atio n   s y s tem s ,   d ec is io n   s u p p o r s y s tem s ,   s ales  in f o r m atio n   s y s tem s ,   cu s to m er   r elatio n s h i p   m an ag em en t,  m a r k etin g   in f o r m atio n   s y s tem s ,   f in an cial  in f o r m atio n   s y s tem s ,   ex ec u tiv in f o r m atio n   s y s tem s ,   an d   h u m an   r eso u r ce s   in f o r m atio n   s y s tem s .           Fig u r 3 .   R esear ch   f r am ewo r k           Fig u r 4 .   R esear ch   d ataset   Evaluation Warning : The document was created with Spire.PDF for Python.
C o m p u t Sci  I n f   T ec h n o l     I SS N:   2722 - 3 2 2 1       C la s s i fica tio n   a n d   s imila r ity  d etec tio n   o f I n d o n esia n   s cien tifi jo u r n a l     ( N yima s   S a b ilin a   C a h ya n i )   151       Fig u r 5 .   Stag es o f   d ata  en g in ee r in g           Fig u r 6 .   C ateg o r y   l ab elin g       2. 1 . 3.   L a belin g   L ab elin g   in   th is   r esear ch   u s in g   r u le - b ased   m eth o d   is   ca r r ied   o u t b ased   o n   p r ed eter m i n e d   k ey wo r d s .   T h is   m eth o d   ca teg o r izes  th l ab els  au to m atica lly ,   th s p ec if ied   k ey wo r d s   m u s b r elev a n to   th titl an d   ab s tr ac o f   th ar ticle .   T h e   lab elin g   p r o ce s s   in   th is   s tu d y   c h a n g es  wo r d s   to   lo we r ca s letter s .   L ab els  b ased   o n   p r ed ef in e d   k ey wo r d s ,   th r esu lt  is   th at  if   th er ar k ey wo r d s ,   th ey   will  au to m atica lly   en ter   th ca teg o r y   lab els   th at  h av b ee n   d eter m in ed ,   if   th er ar n o   k e y wo r d s ,   th e y   wi ll a u to m atica lly   en t er   o t h er   lab els.     2. 1 . 4.   Cla s s if ica t io n us ing   n a iv B a y es   C las s if icatio n   is   ca r r ied   o u af ter   th d ataset  p r e - p r o ce s s in g   s tag is   co m p leted ,   an d   clas s if icatio n   m o d el  is   ca r r ied   out   u s in g   t h e   n aïv B ay es  m eth o d .   Pr o ce s s   s tep s   to   m ea s u r class if icatio n   p er f o r m a n ce   b y   ca lcu latin g   ac cu r ac y ,   r ec all,   p r ec is io n ,   an d   F 1 - s co r e   [ 2 2 ] .   C a lcu latin g   ac cu r ac y   ca n   u s ( 1 ) .        =      +      +   +     +        100%   ( 1 )     C alcu latin g   th p r ec is io n   ca n   b d o n u s in g   ( 2 ) .         =         +         ( 2 )     C alcu l atin g   r ec alls   ca n   b d o n u s in g   ( 3 ) .         =         +       ( 3 )     C alcu latin g   th F1 - s co r ca n   b d o n u s in g   ( 4 ) .     F1  = 2            +     ( 4 )     I n f o r m atio n :   T r u p o s itiv e t h am o u n o f   c o r r ec tly   class if ied   p o s itiv d at a .   T r u n e g ativ e t h am o u n t o f   co r r ec tly   class if ied   n eg ativ d ata .   Fals p o s itiv e t h am o u n t o f   n eg ativ d ata  th at  is   in c o r r ec tl y   class if ied   as p o s itiv e .   Fals n eg ativ e t h am o u n t   o f   p o s itiv d ata  th at  is   in co r r ec tl y   class if ied   as n eg ativ e .     Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 7 2 2 - 3 2 2 1   C o m p u t Sci  I n f   T ec h n o l ,   Vo l.  6 ,   No .   2 J u ly   20 25 147 - 1 5 8   152   2. 1 . 5.   Art icle  s im ila rit y   d et ec t io n us ing   c o s ine  s im ila rit y   T h d etec tio n   o f   s im ilar ity   in   ar ticles  u s in g   th co s in s i m ilar ity   m eth o d   is   v er y   ap p r o p r iate  to   ev alu ate  h o m u c h   s im ilar ity   b etwe en   class es  an d   th r e s u lt   is   in   th f o r m   o f   v ec to r   an g le  p ar am ete r s .   C alcu latin g   s im ilar ity   h as a   r an g v alu e   f r o m   0 - 1 .   T h e   ca lcu latio n   f o r m u la  f o r   th s im ilar ity   r es u lts   u s es  ( 5 ) .      =   . . 1 2 1 2 1   ( 5 )     I n f o r m atio n :   a i   an d   b i   :   c o m p o n en ts   o f   two   v ec to r s   a n d   B .   Σa i b i :   d o t p r o d u ct  ( m u ltip licatio n   o f   d o ts )   b etwe en   two   v ec to r s .     2   an d     2 t h len g th   ( m ag n itu d e)   o f   ea ch   v ec to r .   n :   u n iq u wo r d   co u n t .   T h is   r esear ch   u s es  v ec to r   we ig h tin g   to   ca lcu late  c o s in s im ilar ity   in   v ec to r   f o r m   u s in g   T F - I DF.     TF - I DF  is   s tatis tical  m eth o d   u s ed   to   m ea s u r e   th e   lev el  o f   im p o r tan ce   o f   a   ter m   in   a   d o c u m en t   [ 2 3 ] .   T in d icate s   th f r eq u en c y   o f   th wo r d   ap p ea r i n g   in   th d o cu m en t;  th h ig h er   th T v alu is   co n s id er ed   th e   m o r r elev an th wo r d   is   in   th d o cu m e n [ 2 4 ] .   T h wo r d   weig h is   o b tain ed   f r o m   th m u ltip licatio n   o f   T an d   I DF  [ 2 5 ] .   T h is   ca lcu lati o n   b e g in s   b y   d eter m i n in g   two   v ec to r s ,   n am ely   ar ticle  1   a n d   ar ticle  2 ,   wh ich   r ep r esen th o b ject  b ein g   c o m p ar ed ,   in   th is   r esear ch ,   b ased   o n   th titl an d   ab s tr a ct  th at  h av b ee n   co n ca ten ated .   T h e   f ir s s tep   i n   th e   ca lcu latio n   p r o ce s s   is   t o   d eter m i n th e   d o p r o d u ct  o f   th e   two   v ec to r s ,   wh ich   is   o b tain e d   b y   ad d in g   th r esu lt  o f   th e   m u ltip licatio n   o f   ea ch   co r r esp o n d i n g   elem e n in   ea ch   v ec to r .   I n   th s ec o n d   s tep ,   th len g th   o r   m ag n itu d e   o f   ea c h   v ec t o r   is   c alcu lated   b y   tak in g   th s q u ar e   r o o o f   th e   s u m   o f   th s q u ar es  o f   ea ch   elem en in   th at  v ec to r .   T h co s in s im ilar ity   v alu is   th en   o b tain ed   b y   d iv id in g   th d o t   p r o d u ct  r esu lt  b y   th p r o d u ct  m u ltip licatio n   o f   th len g th s   o f   th two   v ec to r s ,   ac co r d in g   t o   th eq u atio n .   T h e   r esu lts   o f   th is   ca lcu lat io n   ar in   th r an g o f   0   to   1 ,   wh e r v alu es  clo s to   1   in d icate   h ig h   d eg r ee   o f   s im ilar ity ,   v alu es  clo s to   0   in d icate   th ab s en ce   o f   s ig n if i ca n r elatio n s h ip ,   an d   v alu es  clo s to   - 1   in d icate   th at  th two   v ec to r s   h av o p p o s ite  d ir ec tio n s .   T h s im ilar ity   d etec tio n   s tag es a r d ep icted   in   Fig u r 7 .           Fig u r 7 .   Stag es o f   co s in s im ilar ity       3.   RE SU L T S AN D I SCU SS I O N   T h i s   s e c t i o n   d e s c r i b e s   t h e   r e s u l t s   a n d   d i s c u s s i o n   o f   t h e   d a t a   b a l a n c i n g   p r o c e s s .   T h e   r e s u l t s   o f   d a t a   b a l a n c i n g   a r e   i l l u s t r a t e d   i n   T a b l e   1 ,   a n d   t h e   d a t a   d i f f e r e n c e   g r a p h   i s   i l l u s t r a t e d   i n   F i g u r e   8 .   F i g u r e   8   s h o w s   a   g r a p h   o f   t h e   d a t a   c l a s s i f i c a t i o n   r e s u l t s ,   F i g u r e   8 ( a )   g r a p h s   t h a t   p r o v i d e   c l a s s i f i c a t i o n   r e s u l t s   u s i n g   i m b a l a n c e d   d a t a ,   a n d   F i g u r e   8 ( b )   g r a p h s   t h a t   p r o v i d e   c l a s s i f i c a t i o n   r e s u l t s   u s i n g   b a l a n c e d   d a t a   u s i n g   t h e   r a n d o m   o v e r - s a m p l i n g   ( R O S )   m e t h o d .   T h e   f i n a l   s t a g e   d i s c u s s e s   t h e   r e s u l t s   o f   c l a s s i f i c a t i o n   u s i n g   t h e   n a i v e   B a y e s   m e t h o d ,   t h e   r e s u l t s   o f   a r t i c l e   s i m i l a r i t y   d e t e c t i o n ,   a n d   t h e   r e s u l t s   o f   s c i e n t i f i c   a r t i c l e   s e a r c h   u s i n g   t h e   c o s i n e   s i m i l a r i t y   m e t h o d .   T a b l e   1   d e s c r i b e s   t h e   d a t a s e t   t h a t   h a s   d o n e   c a t e g o r y   a u t o - l a b e l i n g   b a s e d   o n   t h e   k e y w o r d s   t h a t   h a v e   b e e n   d e f i n e d .   T h e r e   a r e   t w o   c o l u m n s   i n   t h e   n u m b e r   o f   d a t a s e t s :   t h e   n u m b e r   b e f o r e   a n d   t h e   n u m b e r   a f t e r .   T h e   p r e v i o u s   n u m b e r   r e s u l t s   f r o m   a u t o - l a b e l i n g   w i t h o u t   u s i n g   t h e   o v e r - s a m p l i n g   m e t h o d .   T h e   n u m b e r   a f t e r   i s   t h e   r e s u l t   o f   a u t o - l a b e l i n g   w i t h   d a t a   b a l a n c i n g   u s i n g   R O S ,   w h i c h   h a s   a   w a y   o f   w o r k i n g   b y   i d e n t i f y i n g   m i n o r i t y   c l a s s e s   a n d   m a j o r i t y   c l a s s e s .   D u p l i c a t e   d a t a   f r o m   t h e   m i n o r i t y   c l a s s e s   o f   2 0 , 9 1 4   c l a s s e s   t o   b e   b a l a n c e d   w i t h   t h e   m a j o r i t y   c l a s s   [ 2 6 ] F i g u r e   8 ( a )   d e p i c t s   i m b a l a n c e d   d a t a   w i t h   o t h e r   c a t e g o r i e s   a s   m a n y   a s   2 0 , 9 1 4 ,   c o u n t   o f   a p p o i n t m e n t   i n f o r m a t i o n   s y s t e m   i s   1 6 9 ,   d e c i s i o n   s u p p o r t   s y s t e m   i s   1 , 0 0 3 ,   s a l e s   i n f o r m a t i o n   s y s t e m   i s   1 1 1 ,   c u s t o m e r   r e l a t i o n s h i p   m a n a g e m e n t   i s   6 3 ,   m a r k e t i n g   i n f o r m a t i o n   s y s t e m   i s   9 ,   f i n a n c i a l   i n f o r m a t i o n   s y s t e m   i s   8 ,   e x e c u t i v e   i n f o r m a t i o n   s y s t e m   i s   5 ,   a n d   Evaluation Warning : The document was created with Spire.PDF for Python.
C o m p u t Sci  I n f   T ec h n o l     I SS N:   2722 - 3 2 2 1       C la s s i fica tio n   a n d   s imila r ity  d etec tio n   o f I n d o n esia n   s cien tifi jo u r n a l     ( N yima s   S a b ilin a   C a h ya n i )   153   h u m a n   r e s o u r c e s   i n f o r m a t i o n   s y s t e m   i s   4 .   F i g u r e   8 ( b )   i l l u s t r a t e s   t h e   b a l a n c e d   d a t a   t h a t   h a s   b e e n   c a r r i e d   o u t   u s i n g   R O S a n d   a l l   c a t e g o r i e s   a r e   b a l a n c e d   a s   m a n y   a s   2 0 , 9 1 4   i n   e a c h   c a t e g o r y .       T ab le  1 .   B alan cin g   d ata  u s in g   R OS   C a t e g o r y   To t a l   B e f o r e   R O S   A f t e r   R O S   O t h e r   2 0 , 9 1 4   2 0 , 9 1 4   M a n a g e m e n t   i n f o r ma t i o n   s y st e ms   1 6 9   2 0 , 9 1 4   D e c i s i o n   s u p p o r t   sy s t e m   1 , 0 0 3   2 0 , 9 1 4   S a l e s   i n f o r m a t i o n   s y st e m   1 1 1   2 0 , 9 1 4   C u s t o mer r e l a t i o n s h i p   ma n a g e m e n t   63   2 0 , 9 1 4   M a r k e t i n g   i n f o r m a t i o n   s y st e m   9   2 0 , 9 1 4   F i n a n c i a l   i n f o r ma t i o n   s y st e m   8   2 0 , 9 1 4   Ex e c u t i v e   i n f o r m a t i o n   s y s t e ms   5   2 0 , 9 1 4   H u ma n   r e s o u r c e   i n f o r m a t i o n   s y st e ms   4   2 0 , 9 1 4         ( a)       ( b )     Fig u r 8 Gr a p h   o f   th d ata  class if icatio n   r esu lts ( a)   im b alan ce d   d ata  an d   ( b )   b alan ce d   d ata       3. 1   Cla s s if ica t io n us ing   n a iv B a y es   T h is   class if icatio n   co n d u cted   o n ex p er im e n with   8 0 o f   th tr ain in g   d ata  an d   2 0 o f   th test   d at a   f r o m   2 9 , 2 3 9   r o ws.  T h r esu lts   o f   th n aiv B ay es  class if icati o n   m o d el  test   ca n   b s ee n   in   T ab le  2 ,   wh ich   u s es  im b alan ce d   d ata ,   an d   T ab le  3 ,   wh ich   u s es  b alan ce d   d ata.   T h r esu lts   o f   two   test s   with   d if f er en d ata  g a v ex ce llen F1 - s co r e   ac cu r ac y   r e s u lts .   T h test   r esu lt s   u s in g   im b alan ce d   d ata  d id   n o t p r o v id g o o d   class if icatio n   r esu lts ,   an d   n o   ca teg o r y   lab els  wer d etec ted   c o r r ec tly .   T h test   r esu lt  u s in g   b alan c ed   d ata  g iv es  g o o d   class if icatio n   r esu lts   an d   co r r e ctly   d etec ts   ca teg o r y   lab els .   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 7 2 2 - 3 2 2 1   C o m p u t Sci  I n f   T ec h n o l ,   Vo l.  6 ,   No .   2 J u ly   20 25 147 - 1 5 8   154   T h class if icatio n   r esu lts   in   T ab le  2   s h o w   th im p ac o f   i m b alan ce d   d ata   o n   m o d el  p e r f o r m a n ce .   B ased   o n   th class if icatio n   r e s u lts ,   th o th er   ca teg o r y   h as  a   p r ec is io n   v al u o f   0 . 9 4 ,   a   r ec all  o f   1 . 0 0 ,   a n d   a n   F1 - s co r o f   0 . 9 6 ,   with   th to t al  d ata  r ea ch in g   4 , 1 9 7   s am p les.  T h is   s u g g ests   th at  th m o d el  ten d s   to   class if y   m o s o f   th d ata  in to   o th er   ca teg o r ies  ca u s ed   b y   u n b ala n ce d   d ata.   I n   co n tr ast,  o th er   ca teg o r ies,  s u ch   as   m an ag em en in f o r m atio n   s y s tem s ,   m ar k etin g   in f o r m atio n   s y s tem s ,   an d   d ec is io n   s u p p o r t   s y s tem s ,   h av an     F1   s co r o f   0 . 0 0 ,   in d icatin g   th at  th m o d el  ca n n o ea s ily   r ec o g n ize  d ata  i n   th o s ca te g o r ies.  L o m ac r o   av er ag v alu es  in clu d e   p r ec is i o n   0 . 1 1 ,   r ec all  0 . 1 2 ,   an d   F1 - s co r 0 . 1 2 .   I s h o ws  th at  t h m o d el  is   in ac cu r ate  in   class if y in g   class es  with   f e s am p les.  T h weig h ted   av er a g is   h ig h er   b ec au s th e   m ajo r i ty   class   in f lu en ce s   it Alth o u g h   t h m o d el  h as  a n   o v er all  ac c u r ac y   o f   0 . 9 4 ,   th is   v alu ca n n o i n d icate   th at  t h m o d el  class if ies  well  d u to   r ef r ac tio n   to war d s   th m ajo r ity   class .   T o   im p r o v e   th e   m o d el' s   p er f o r m an ce   in   cl ass if y in g   m in o r ity   class es,  s tr ateg ies  s u ch   as  o v er s am p lin g   ar n ee d ed   s o   th at  th lab els  o f   class   ca teg o r ies  ar m o r b ala n ce d   an d   th class if icatio n   r esu lts   ar m o r a p p r o p r iate .       T ab le  2 .   C lass if icatio n   r esu lts   u s in g   im b alan ce d   d ata     P r e c i s i o n   R e c a l l   F1 - s c o r e   S u p p o r t   O t h e r   0 . 9 4   1 . 0 0   0 . 9 6   4 , 1 9 7   C u s t o mer r e l a t i o n s h i p   ma n a g e m e n t   0 . 0 0   0 . 0 0   0 . 0 0   10   Ex e c u t i v e   i n f o r m a t i o n   s y s t e ms   0 . 0 0   0 . 0 0   0 . 0 0   3   F i n a n c i a l   i n f o r ma t i o n   s y st e m   -   -   -   -   M a n a g e m e n t   i n f o r ma t i o n   s y st e ms   0 . 0 0   0 . 0 0   0 . 0 0   36   M a r k e t i n g   i n f o r m a t i o n   s y st e m   0 . 0 0   0 . 0 0   0 . 0 0   1   S a l e s   i n f o r m a t i o n   s y st e m   0 . 0 0   0 . 0 0   0 . 0 0   21   H u ma n   r e s o u r c e   i n f o r m a t i o n   s y st e ms   0 . 0 0   0 . 0 0   0 . 0 0   3   D e c i s i o n   s u p p o r t   sy s t e m   0 . 0 0   0 . 0 0   0 . 0 0   1 8 7   A c c u r a c y       0 . 9 4   4 , 4 5 8   M a c r o   a v g   0 . 1 1   0 . 1 2   0 . 1 2   4 , 4 5 8   W e i g h t e d   a v g   0 . 8 8   0 . 9 4   0 . 9 1   4 , 4 5 8       T ab le  3 .   C lass if icatio n   r esu lts   u s in g   b alan ce d   d ata     P r e c i s i o n   R e c a l l   F1 - s c o r e   S u p p o r t   O t h e r   0 . 9 8   0 . 8 5   0 . 9 1   4 , 1 2 5   C u s t o mer r e l a t i o n s h i p   ma n a g e m e n t   0 . 9 9   1 . 0 0   1 . 0 0   4 , 2 1 1   Ex e c u t i v e   i n f o r m a t i o n   s y s t e ms   1 . 0 0   1 . 0 0   1 . 0 0   4 , 1 0 2   F i n a n c i a l   i n f o r ma t i o n   s y st e m   1 . 0 0   1 . 0 0   1 . 0 0   4 , 2 3 5   M a n a g e m e n t   i n f o r ma t i o n   s y st e ms   0 . 9 4   1 . 0 0   0 . 9 7   4 , 2 0 7   M a r k e t i n g   i n f o r m a t i o n   s y st e m   1 . 0 0   1 . 0 0   1 . 0 0   4 , 1 2 4   S a l e s   i n f o r m a t i o n   s y st e m   0 . 9 7   1 . 0 0   0 . 9 9   4 , 2 0 6   H u ma n   r e s o u r c e   i n f o r m a t i o n   s y st e ms   1 . 0 0   1 . 0 0   1 . 0 0   4 , 2 4 8   D e c i s i o n   s u p p o r t   sy s t e m   0 . 9 5   0 . 9 8   0 . 9 6   4 , 1 8 8   A c c u r a c y       0 . 9 8   3 7 , 6 4 6   M a c r o   a v g   0 . 9 8   0 . 9 8   0 . 9 8   3 7 , 6 4 6   W e i g h t e d   a v g   0 . 9 8   0 . 9 8   0 . 9 8   3 7 , 6 4 6       T h class if icatio n   r esu lts   ill u s tr ated   in   T ab le  3   s h o th class if icatio n   r esu lts   o b tain ed   u s in g   b alan ce d   d ata,   n a m ely   ca teg o r y   lab el  d ata   th at  h as  b ee n   b al an ce d   u s in g   R OS.  T h m o d el' s   p er f o r m an ce   was  ev alu ated   b ased   o n   t h r ee   p r im ar y   m ea s u r em en ts p r ec is io n ,   r ec all ,   an d   F1 - Sco r e ,   wh ic h   s h o wed   t h ac c u r ac y   an d   co n s is ten cy   o f   th m o d e in   class if y in g   d ata.   T h an aly s is   r esu lts   s h o th at  alm o s all  cla s s es  h av e   p r ec is io n   an d   r ec all   ab o v 0 . 9 4 ,   a n d   t h m o d el  ca n   p e r f o r m   class if icatio n   with   m in im al   er r o r   r ate,   w ith o u t   r ef r ac tio n   th at  im p ac ts   ce r tain   class es.  T h o v er all  Acc u r a cy   v alu r ea ch e d   0 . 9 8 ,   in d icatin g   th m o d el  h as  ex ce llen p r e d ictio n   p er f o r m a n ce .   T h e   m ac r o   av e r ag a n d   weig h ted   av e r ag v alu es,  ea ch   v alu ed   at  0 . 9 8 ,   also   in d icate   th m o d el  h as  b ala n ce d   p er f o r m a n ce   ac r o s s   ca teg o r ies.  T h u s ,   c o r r ec tly   ap p l y in g   d ata  b ala n cin g   c an   im p r o v e   th m o d el' s   p er f o r m an ce   co m p ar ed   to   th im b alan ce d   d ata   co n d itio n ,   w h e r s o m ca teg o r ies  p r ev io u s ly   h ad   lo wer   F1 - s co r e.   T h ese  r esu lts   s h o th at  th e   d ata  b alan ci n g   s tr ateg y   ca n   r ed u ce   r e f r ac tio n   in   class if icatio n   an d   im p r o v ac c u r ac y .   T h co n f u s io n   m atr ix   r esu lts   f r o m   th class if icatio n   m o d el  test   u s in g   n aiv B ay es  ar e   s h o wn   in   Fig u r 9 ( a)   co n f u s io n   m atr ix   with   im b alan ce d   d ata  an d   Fig u r 9 ( b )   co n f u s io n   m atr ix   with   b alan ce d   d a ta .   Fig u r e   9 ( a)   s h o ws  th at  th m o d el  ten d s   to   class if y   d ata  in t o   o n ly   o n d o m in a n ca teg o r y ,   with   m an y   o th er   class es   h av in g   n ea r - ze r o   p r e d ictio n   co u n t.  T h is   s h o ws  th at  th m o d el  is   b iased   to war d s   th m ajo r ity   class ,   s o   it  ca n n o t   r ec o g n ize  th e   p atter n s   o f   th e   m in o r it y   class es  well.   Fig u r e   9 ( b )   o f   th co n f u s io n   m atr ix   f o r   b alan ce d   d ata  s h o ws  m o r e v en   d is tr ib u tio n   o f   p r e d ictio n s   alo n g   th d iag o n al  o f   t h m at r ix T h m o d el  ca n   class if y   s am p les  in to   ap p r o p r i ate  class es  with   f ewe r   er r o r s .   co m p ar is o n   o f   th ese  two   m atr i ce s   s h o ws  th at  Evaluation Warning : The document was created with Spire.PDF for Python.
C o m p u t Sci  I n f   T ec h n o l     I SS N:   2722 - 3 2 2 1       C la s s i fica tio n   a n d   s imila r ity  d etec tio n   o f I n d o n esia n   s cien tifi jo u r n a l     ( N yima s   S a b ilin a   C a h ya n i )   155   r elev an d ata  b alan ci n g   im p r o v es  m o d el  p er f o r m a n ce   b y   r e d u cin g   b ias  ag ain s m ajo r ity   c lass es  an d   en ab lin g   m o r ac cu r ate  class if icatio n   ac r o s s   ca teg o r ies .           ( a)   ( b )     Fig u r 9 .   C o n f u s io n   m atr i x   f o r   ( a)   im b ala n ce d   d ata   an d   ( b )   b alan ce d   d ata       3. 2.     Art icle  s im ila rit y   det ec t io n us in C o s i ne  Sim ila rit y   T h is   p r o ce s s   d etec ts   s im ilar it ies  u s in g   th titl an d   ab s tr a ct  o f   Ar ticle  1   a n d   Ar ticle  2 .   Af ter   th e   ex p er im en t,  th s im ilar ity   d ete ctio n   s co r was  o b tain ed   as  0 . 0 7 1 ,   s h o wn   i n   T ab le  4 .   T ab le  4   s h o ws  th r esu lts   o f   th s im ilar ity   d etec tio n   an aly s is   b etwe en   two   ar tic les  b as ed   o n   th ca lcu latio n   o f   s im ilar ity   s co r es.  Ar ticle   1   is   titl ed   " W eb - b ased   d ec is i o n   s u p p o r s y s tem   ass es s m en t . . . wh ich   f o c u s es  o n   th im p lem en tatio n   o f   a   d ec is io n   s u p p o r t sy s tem   in   th e   co n tex t o f   ass ess m en t in   v illag e,   wh ile  Ar ticle  2   is   en titl ed   "De s ig n   an d   b u ild   au to m atic  b o ttle  f illi n g   an d   ca p p in g   s y s tem   b ased   o n   b o ttle  h eig h . . . wh ich   d is cu s s es  au to m atio n   s y s tem s   in   th m an u f ac tu r in g   in d u s tr y .   T h ca lcu l atio n   r esu lts   s h o wed   th at  th s im ilar ity   s co r b etwe en   th two   a r ticles  was  0 . 0 7 1 ,   wh ich   in d icate s   v er y   lo lev el  o f   s im ilar i ty .   T h is   v alu in d icate s   th at   th two   ar ticles   s ig n if ican tly   d if f er   in   to p ic,   ter m in o lo g y ,   an d   co n ten t.  T h u s ,   th s im ilar ity   d ete ctio n   m eth o d   is   p r o v e n   to   d is tin g u is h   ar ticles  with   d if f er en to p ics  well.   B ased   o n   s im ilar ity   s co r r an g o f   0   to   1 p r o v id g o o d   s co r to   d etec a r ticle  s im ilar ities I n   th is   r esear ch ,   th h i g h est  s co r e   was  u s ed   t o   o b ta in   an   ac cu r ate   an d   r elev an t a r t icle  ac co r d in g   t o   th r esear ch   to p ic .       T ab le  4 .   Similar ity   d etec tio n   r esu lts   A r t i c l e   Ti t l e   B r i e f   a b s t r a c t   1   W e b - b a se d   d e c i s i o n   su p p o r t   s y st e m a ssessme n t   . . .   P r i n g sari   V i l l a g e   i o n e   o f   t h e   v i l l a g e i n   t h e   su b - d i s t r i c t   . . . .   W h e r e   i e a c h   v i l l a g e   ...   2   D e si g n   a n d   b u i l d   a u t o ma t i c   b o t t l e   f i l l i n g   a n d   c a p p i n g   s y s t e ms  b a se d   o n   b o t t l e   h e i g h t . . .   To d a y 's  i n d u st r i a l   w o r l d   c a n   n o   l o n g e r   b e   s e p a r a t e d   b y   t h e   p r o b l e m   o f   a u t o ma t i o n   f o r   v a r i o u p r o d u c t i o n   f a c i l i t i e s . …   S c o r e   c o si n e   si m i l a r i t y   0 . 0 7 1       3. 3.     Art icle  s ea rc h us ing   c o s ine  s im ila rit y   T h is   p r o ce s s   s ea r ch es  f o r   s cien tific   ar ticles  th at  ar s im ilar   t o   th m ai n   ar ticle  b ased   o n   th titl an d   ab s tr ac th at  h a v b ee n   c o n ca ten ated .   T h v al u r a n g e   is   0   to   1 .   T h r esu lts   o f   th e   s ea r ch   d is p lay   tab le   co n tain in g   th c o lu m n s   g a r u d titl e,   g ar u d a   ab s tr ac t,  s im ilar ity   s co r e,   ca teg o r y ,   an d   p r e d icted   ca teg o r y .   T h e   p r ed icted   ca teg o r y   is   th wr o n g   ca teg o r y   lab el  co lu m n   in   class if y in g   th ca teg o r y ,   as sh o w n   in   Fig u r 10 .   T h s ea r ch   r esu lts   o f   ar ticles  i n   Fig u r e   10   s h o w   th e   r esu lts   o f   th e   s im ilar ity   s co r e   ca lcu latio n ,   w h er e   th ar ticle  with   th e   h ig h est  s co r h as  t h m o s s ig n if ica n le v el  o f   s im ilar ity   with   th m ain   ar ticle.   T h ar ticle   with   th h ig h est  s im ilar ity   s c o r is   p lace d   f ir s in   th s ea r ch   r esu lts .   T h is   p r o ce s s   co m p ar es  th s ea r ch   tex t   with   th titl an d   a b s tr ac f r o m   th a v ailab le  d ataset.   Nex t,  th s ea r ch   r esu lts   ar s o r te d   b y   s im ilar ity   s co r e   i n   d escen d in g   o r d e r   s o   th at  th e   m o s co m m o n   d o c u m en ts   ap p ea r   f ir s t.   T h r esu lts   o f   th is   s tu d y   s h o th at  t h to p   f iv d o c u m en ts   h av e   th h ig h e s t le v el  o f   s im ilar ity   to   th k e y wo r d s   o f   web - b ased   d ec is io n   s u p p o r t sy s tem s .   T h ese  r esu lts   ar d is p lay ed   i n   tab le  t h at  in clu d es  th ti tle  co lu m n s ,   a b s tr ac t,  s im ilar ity   s co r e,   o r ig in al  ca teg o r y ,   an d   p r e d icted   ca teg o r y .   T h s im ilar ity   s co r o b tain e d   r an g ed   f r o m   0 . 3 9   to   0 . 2 6 ,   wh ic h   in d icate s   d i f f er en ce   in   th e   le v el  o f   s im ilar ity   o f   d o cu m en ts .   T h e   o r i g in al  a n d   p r e d icted   c ateg o r ies   s h o wed   a   Evaluation Warning : The document was created with Spire.PDF for Python.
                      I SS N :   2 7 2 2 - 3 2 2 1   C o m p u t Sci  I n f   T ec h n o l ,   Vo l.  6 ,   No .   2 J u ly   20 25 147 - 1 5 8   156   r ea s o n ab ly   h ig h   m atch ,   in d icat in g   th at  th m o d el  ca n   r ec o g n i ze   an d   g r o u p   d o cu m e n ts   q u ite  well  b ased   o n   tex s im ilar ity   an aly s is .           Fig u r 10 .   Ar ticle  s ea r ch   r esu l ts       T ab le  5 .   Ar ticle  s ea r ch   r esu lts     G A R U D A _ TI TLE   G A R U D A _ A B S T R A C T   S I M I LA R I TY _ S C O R E   C A TEG O R Y   C A TEG O R Y _   P R ED I C TED   0   D e c i s i o n   s u p p o r t   sy s t e m   f o r   r e c i p i e n t   s e l e c t i o n   D e c i s i o n   s u p p o r t   sy s t e m   a s   a   sy st e m…   0. 3 9 1 5 9 6   D e c i s i o n   s u p p o r t   sy st e m   D e c i s i o n   s u p p o r t   sy st e m   1   D e c i s i o n   s u p p o r t   sy s t e m   f o r   n e w   s t u d e n t   a d m i ssi o n   A   d e c i s i o n   s u p p o r t   sy s t e m   i s   a   sy st e m…   0. 2 9 5 9 6 7   D e c i s i o n   s u p p o r t   sy st e m   D e c i s i o n   s u p p o r t   sy st e m   2   D e c i s i o n   s u p p o r t   sy s t e m   f o r   e mp l o y e e   r e c r u i t m e n t   C u r r e n t   i n f o r m a t i o n   t e c h n o l o g y   d e v e l o p m e n t s…   0. 2 7 5 6 7 9   D e c i s i o n   s u p p o r t   sy st e m   D e c i s i o n   s u p p o r t   sy st e m   3   D e c i s i o n   s u p p o r t   sy s t e m   f o r   r e st a u r a n t   sel e c t i o n   Th e   a b st r a c t   o f   t h i s r e se a r c h   a i ms  t o   h e l p   0. 2 6 9 3 1 4   D e c i s i o n   s u p p o r t   sy st e m   D e c i s i o n   s u p p o r t   sy st e m   4   D e c i s i o n   s u p p o r t   sy s t e m   f o r   e mp l o y e e   p e r f o r m a n c e   e v a l u a t i o n   Emp l o y e e   p e r f o r m a n c e   e v a l u a t i o n   d e c i si o n   s u p p o r t   sy st e m…   0. 2 6 7 9 5 9   D e c i s i o n   s u p p o r t   sy st e m   D e c i s i o n   s u p p o r t   sy st e m       4.   CO NCLU SI O N   T h n aiv e   B ay es  m eth o d   u s ed   f o r   class if icatio n   p r o v i d es  g o o d   le v el  o f   F1 - s co r e   ac c u r ac y   b y   u s in g   b alan ce d   d ata  o f   9 8 an d   im b alan ce d   d ata  o f   9 4 %.  T h cl ass if icatio n   p r o ce s s   tak es   les s   th an   6 0   m in u tes   to   p r o ce s s   an d   class if y   th ar ticle  ca teg o r ies.  T h co s in s im ilar ity   m eth o d   u s ed   f o r   s im ilar ity   d etec tio n   an d   s ea r ch   f o r   th m ain   ar ticle   with   o th er   ar ticles  g av g o o d   s im ilar ity   d etec tio n   s co r o f   0 . 0 7 1 .   I n   co n tr ast,  a   s im ilar ity   s co r clo s t o   1   in d icate s   h ig h er   s im ilar ity   in   s ea r ch in g   f o r   a r ticles  r elev a n to   th s p ec if ie d   r esear ch   to p ic .   Sear ch es  f o r   s cien tific   ar ticles  th at  ar s im i lar   to   th e   m ain   ar ticle  p r o v id ex ce llen s ea r ch   r esu lts .   T h r esear ch   r esu lts   s h o w   th at  th p r o p o s ed   m eth o d   s ig n if ican tly   im p r o v es  th e   class if icatio n   an d   s ea r ch   p r o ce s s es  in   GARUDA,   an d   p r o v id es  ac cu r ate  an d   ef f icien s im ilar ity   d etec tio n Fu r th er   r esear ch   ca n   b d ev el o p ed   b y   ad d in g   m o r d atasets   in   th s cien tific   f ie ld ,   n o t   o n ly   in   t h e   I n d o n esia n   lan g u ag e,   a n d   b y   ap p ly in g   f ea tu r es   to   f in d   ar ticl es si m ilar   to   th GARUDA .       ACK NO WL E DG M E N T S   T h au th o r s   wo u ld   lik to   th a n k   th C o m n ets  R esear ch   Gr o u p ,   Un iv er s ity   o f   Sriwijay a,   I n d o n esia  f o r   p r o v id i n g   f u ll su p p o r t f o r   th eir   r esear ch   n ec ess ar y .       F UNDING   I NF O R M A T I O N   Au th o r s   s tate  n o   f u n d in g   in v o lv ed .       AUTHO CO NT RI B UT I O NS ST A T E M E N T   T h is   jo u r n al   u s es  th C o n t r ib u to r   R o les  T a x o n o m y   ( C R ed iT)   to   r ec o g n ize   in d iv i d u al  au th o r   co n tr ib u tio n s ,   r ed u ce   au th o r s h ip   d is p u tes,  an d   f ac ilit ate  co llab o r atio n .     Na m o f   Aut ho r   C   M   So   Va   Fo   I   R   D   O   E   Vi   Su   P   Fu   Ny im as Sab ilin C ah y an i                               Der is   Sti awa n                               Ab d ian s ah   Ab d ian s ah                               Nu r u l A f if ah                               Den d i Ren ald o   Per m an a                                 Evaluation Warning : The document was created with Spire.PDF for Python.