I n te r n ati o n al   Jo u r n al   o El e c tr i c a l   an d   C o m p u te r   En gi n e e r i n g   (I JEC E )   V o l .   11 ,   N o .   1 F e b r ua r y   2021 ,   pp .   664 ~ 6 70   IS S N :   2088 - 8708 D O I :   10. 1 1591 / i j e c e . v 11 i 1 . pp 664 - 6 70             664       Jou r n al   h o m e pa ge ht t p: / / i j e c e . i ae s c or e . c om   T e x t   d o c u m e n t s c l u st e r i n g   u si n g   d a t a   m i n i n g   t e c h n i q u e s       A h m e d   A d e e b   Ja l a l B as h e e r   H u s h am   A l i   C o m put e r   E ng i ne e r i ng   D e pa r t m e n t ,   C o l l e g e   o f   E ng i n e e r i ng ,   A l - I r a qi a   U n i v e r s i t y ,   I r a q       A r ti c l e   I n fo     A B S TR A C T     Ar t i c l e   h i s t or y :   R e c e i v e A pr   12 ,   20 20   R e v i s e J ul   1 0 ,   20 20   A c c e pt e J ul   25 ,   20 20       I n c r e a s i ng   p r o g r e s s   i n   num e r o us   r e s e a r c h   f i e l d s   a nd   i n f o r m a t i o t e c hno l o g i e s ,   l e t o   a i nc r e a s e   i n   t he   pub l i c a t i o o f   r e s e a r c pa p e r s .   T he r e f o r e ,   r e s e a r c he r s   t a ke   a   l o t   o f   t i m e   t o   f i nd   i n t e r e s t i ng   r e s e a r c pa pe r s   t ha t   a r e   c l o s e   t o   t he i r   f i e l d   o f   s pe c i a l i z a t i o n.   C o ns e qu e nt l y ,   i n   t hi s   pa pe r   w e   ha v e   pr o po s e d   do c um e nt s   c l a s s i f i c a t i o a ppr o a c t ha t   c a n   c l us t e r   t he   t e xt   do c um e nt s   o f   r e s e a r c pa pe r s   i nt o   t he   m e a ni ng f ul   c a t e g o r i e s   i w hi c c o nt a i a   s i m i l a r   s c i e nt i f i c   f i e l d .   O ur   pr e s e nt e a ppr o a c ba s e d   o e s s e n t i a l   f oc us   a n d   s c o pe s   o f   t he   t a r g e t   c a t e g o r i e s ,   w he r e   e a c o f   t he s e   c a t e g o r i e s   i nc l ud e s   m a ny   t o pi c s .   A c c o r di ng l y ,   w e   e x t r a c t   w o r d   t o ke ns   f r o m   t h e s e   t o pi c s   t ha t   r e l a t e   t o   a   s pe c i f i c   c a t e g o r y ,   s e pa r a t e l y .   T he   f r e que nc y   o f   w or t o ke ns     i n   do c um e nt s   i m pa c t s   o n   w e i g ht   o f   do c um e nt   t ha t   c a l c ul a t e d   by   us i ng     num e r i c a l   s t a t i s t i c   o f   t e r m   f r e qu e nc y - i nv e r s e   do c um e nt   f r e que nc y     ( T F - I D F ) .   T he   p r o po s e a pp r o a c us e s   t i t l e ,   a b s t r a c t ,   a nd   ke y w o r ds   o f     t he   p a pe r ,   i n   a dd i t i o t o   t he   c a t e g o r i e s   t o pi c s   t o   pe r f o r m   t he   c l a s s i f i c a t i o n   pr o c e s s .   S ub s e q ue n t l y ,   do c um e nt s   a r e   c l a s s i f i e a nd   c l us t e r e d   i nt o     t he   pr i m a r y   c a t e go r i e s   ba s e d   o t h e   h i g he s t   m e a s u r e   o f   c o s i ne   s i m i l a r i t y   be t w e e n   c a t e g o r y   w e i g ht   a n do c um e nt s   w e i g ht s .   Ke y w or d s :   Co s i n e   s i m i l a ri t y   D o c um e n t   c l us t e r i ng   TF - ID F   T o pi c s   W e b   da t a   m i ni n g   T hi s   i s   an   ope n   ac c e s s   ar t i c l e   u nde r   t he   C C   B Y - SA   l i c e ns e .     Cor r e s pon di n g   Au t h or :   A hm e A de e b   J a l a l ,     Co m put e E n gi n e e r i n g   D e pa rt m e n t ,   Co l l e ge   of   E n gi n e e r i n g ,   A l - I ra qi a   U ni v e r s i t y ,     B a gh d a d,   I ra q .   E m a i l :   a hm e da de e b @ a l i ra q i a . e du. i q       1.   I N TR O D U C TI O N     W e b   do c um e n t   c l us t e ri n i s   a   s u i t a b l e   t e c hn i que   f o r   c o l l e c t i n g   do c um e nt s   w i t h   s i m i l a r   c o nt e nt   f r o m   a   s e t   o f   do c um e n t s   t ha t   s p r e a d   o n   t h e   w e b   pa ge s   [1 - 3].   D o c um e n t   c l us t e ri n g   p r o v i de s   o n e   o f   us e f ul   a n d   e ff i c i e n t   t e c hn i que s   t o   f i n d   a nd   u n de r s t a n d   t h e   do c um e nt s   [4] ,   w h e r e   c l us t e ri n g   c a g r o up   t h e   s i m i l a do c um e n t s   i n   o n e   pl a c e .   A c c o r di n g l y ,   w e b   doc um e n t s   c a n   b e   c l a s s i f i e a c c o r di n t o   a   c o l l e c t i o n   o f   t o pi c s   fo r   e a c h   c a t e go r y .   T h e s e   t o pi c s   fo c us   o n   w o r t o ke n s   t ha t   m a y   a ppe a du ri n g   do c um e n t   a na l y s i s .   T h e   w o r t o ke n s   a l s o   r e f e r s   t o   t h e   r e pe t i t i o o f   t e r m s   i do c um e n t s ,   w h e r e   e xt ra c t i ng   t e r m s   f r o m   t e x t ua l   da t a   h e l ps   i n   t h e   c l a s s i f i c a t i o n   o f   do c um e n t s   [5 ] .   Co n s e que nt l y ,   t h e   do c um e n t s   a r e   c l a s s i f i e b y   a   c l us t e o f   t e r m s   i n t o   a   s e t   of   c a t e go r i e s ,   b a s e o t h e   n um b e o f   o c c ur r e n c e s   w i t e a c w o r t o ke n s   f o a   s pe c i f i c   t o pi c   i t h o s e   do c um e n t s   [6 ] .   T h e   c l a s s i f i c a t i o n   o f   do c um e n t s   i s   e xpe di e n t   f o r   r e s e a r c h e r s   w h o   pe r f o r m   i nt e r d i s c i pl i n a r y   r e s e a r c o n   v a r i o us   t o pi c s   [ 7 ].   O r d i n a ri l y ,   do c um e n t   c l us t e ri n g   i s   a i m po r t a nt   p i l l a i n   a c h i e v i n g   t h i s   o bj e c t i v e   [8,   9 ] Cl us t e r i n g   w i l l   h e l t h e   us e r   t o   ge t   a l l   r e l e v a n t   do c um e n t s   i o n e   c a t e go r y   a n d   t h e   s e a r c h   c a b e   l i m i t e t o   s o m e   i m po rt a nt   do c um e nt s   o f   h i s   c h o i c e .   Co n v e r s e l y ,   f i ndi n g   m e a ni n gf ul   do c um e nt s   f o r e s e a r c h e r s   by   n o rm a l   s e a r c h   p r o c e s s ,   i s   a   c h a l l e n gi ng  a n t i m e - c o n s um i n p r o b l e m   e s pe c i a l l y   i v i e w   of   t h e   s t e a d y   i n c r e a s e   i t h e   n um b e o f   do c um e n t s .   M o r e o v e r ,   d i v e r s i t y   of   t h e   m a j o r   s o u r c e s   o f   doc um e n t s   s uc a s   Evaluation Warning : The document was created with Spire.PDF for Python.
Int   J   E l e c   &   Co m E n g     IS S N :   2088 - 8708       T e x t   do c um e n t s   c l us t e r i n us i ng   dat a   m i ni ng   t e c hni qu e s   ( A h m e A de e b   J a l al )   665   r e s e a r c pa pe r s ,   w e b   pa ge s ,   a r c h i v e s ,   t e c hn i c a l   r e po rt s ,   a n d   di gi t a l   r e po s i t o r i e s   t h a t   a v a i l a b l e   t o   t h e   us e r   o v e r   t h e   i nt e rn e t .   N ow a da y s ,   a   l a rge   n u m b e r   o f   pe o pl e   us e   t h e   i nt e rn e t   a s   t h e i m a i s o ur c e   o f   i n f o r m a t i o n .   Co n s e que n t l y ,   t h e   us e r s   n e e t o   f i n t h e i r   i nt e r e s t i n r e q ue s t s   e a s i l y   a n c o n v e n i e n t l y   w h i c h   r e p r e s e nt s     t h e   m o s t   r e l e v a n t   i n f o r m a t i o n   t ha t   w a s   que ri e [10 - 12] .   H ow e ve r ,   t h e   s e a r c h   e n g i n e   r e t r i e v e s   m o r e   i rr e l e v a n t   pa ge s   b a s e o a   f e w   ke y w o r ds   f o r   a   us e r ’s   que r y ,   r e s ul t i n g   i l o n g   l i s t s   o f   U R L s .   S e a r c h i n g   o t h e   w e pa ge s   t o   di s c o ve r   k n o w l e dge   a c c o r di n t o   us e r   que r y ,   i s   n o t   a e a s y   t a s t o   pe r f o r m .   Co n s i de ri n g ,     t h e   p r o b l e m   o f   i n f o r m a t i o o v e r l o a t ha t   f a c i n g   i nt e rn e t   d a t a   w a r e h o us e s .   T h e r e f o r e ,   w e b   da t a   m i ni n g   c a b e   a n   e a s y   a n d   i m po rt a nt   t e c hn o l o g y   fo r   d i s c o ve r i n g   a nd  r e t ri e v i n g   us e f ul   i n f o r m a t i o a nd  k n o w l e dge   [13,   14] .   W e b   da t a   m i n i ng  i s   a   s ub   di s c i pl i n e   o f   da t a   m i ni n g   a ppl i c a t i o n s   t o   di s c o ve r   pa t t e rn s   t h a t   m a i n l y   d e a l   w i t h     t h e   i n t e rn e t .   W e b   da t a   m i n i ng   c a b e   c a t e go r i z e d   i nt o   t hr e e   t y pe s :   w e b   s t r uc t u r e   m i ni n g ,   w e b   c o n t e nt   m i n i ng,   a n w e b   us a ge   m i ni n g   [15] .   A l l   t h e s e   t y pe s   us e   a   d i v e r s i t y   of  a pp r o a c h e s ,   t e c hn i que s ,   t o o l s ,   a n d   a l go r i t hm s   t o   di s c ov e r   t h e   pa t t e rn s   o f   i n f o r m a t i o n   [ 14] .   A c c o r di n gl y ,   i m p r o v i n s e a r c h   e n gi n e   us i n da t a   m i ni n g   t e c hn i q ue s   a i m s   t o   di s c o ve r   us e f ul   i n f o r m a t i o f r o m   t h e   l a r g e   a m o u n t   o f   da t a   [16 ,   17] .   O v e r   t h e   p a s t   de c a de s ,   i n s t i t u t i o n s ,   u n i v e r s i t i e s ,   a nd  j o urna l s   ha v e   pub l i s h e num e r o us   r e s e a r c pa pe r s   i n   v a ri o us   s c i e n t i f i c   f i e l ds .   O r d i n a ri l y ,   r e s e a r c h   p a pe rs   a r e   n o t   c l a s s i f i e a n d   c l us t e r i n g   i nt o   c a t e go r i e s .   Co n s e que n t l y ,   t h e r e   a r e   m a n y   do c um e n t s   c l us t e ri n g   a p p r o a c h e s   [ 8]  a n d   r e c o m m e n de s y s t e m s   [ 1 8 t h a t   pr o po s e fo r   c l a s s i fy i n r e s e a r c pa pe r s   b a s e o n   t h e   d o c um e n t s   c o n t e n t   c ha r a c t e r i s t i c s   o r   a t t ri b ut e s .     E a c h   o f   t h e s e   t e c hn i q ue s   di f fe r s   i n   m a n y   pa r t s ,   s uc h   a s   t h e   t y pe s   of   a t t ri b ut e s   t h e y   us e t o   c h a ra c t e ri z e     t h e   do c um e nt s ,   t h e   s i m i l a r i t y   m e a s ur e   us e d ,   t h e   r e p r e s e n t a t i o n   o f   t h e   c l us t e r s   e t c .   T h e   l i t e r a t u r e   r e v i e w s   o r e l a t e w o r ks   o r e s e a r c pa pe c l a s s i f i c a t i o a n d   i t s   a pp l i c a t i o n s   a r e   a s   f o l l ow s .   T h us h a ra   e t   a l . ,   [ 19 ]   p r o po s e a   do c um e nt - c e n t e r e d   s y s t e m   f o r   c l a s s i f y i n r e s e a r c a rt i c l e s   t ha t   pub l i s h e d   i t h e   do m a i n s   o f   c o m put e s c i e n c e .   I t   i s   b a s e o n   a ut o m a t i c   ke y w o r ds   e xt r a c t i o f r o m   r e s e a r c h   a r t i c l e s   us i n g   r a pi d   a u t o m a t i c   ke y w o r e xt ra c t i o (R A K E )   a l go ri t hm   t o   ge t   b e s t   s c o r e - m a t r i o f   ke y w o r ds .   M o r e ov e r ,   t h e   p r o po s e s y s t e m   a do pt s   a   h y b r i a pp r o a c h   t o   t h e   c l a s s i f i c a t i o p r o c e s s   by   a ppl y i n d i f fe r e nt   m e t h o ds   a t   v a r i o us   p ha s e s   of   t h e   s y s t e m .   T hi s   c l a s s i f i c a t i o n   pr o c e s s   r e l a t e s   t o   t h e   s e m a nt i c   a na l y s i s   by   us i n g   s c o r e - m a t r i x   o f   ke y w o r ds   a n d   c o s i n e   s i m i l a ri t y   f o r   a rt i c l e s   c l a s s i f i c a t i o i nt o   r e l e v a nt   do m a i n .   Co n s e que n t l y ,   do m a i c l a s s i f i c a t i o f a c i l i t a t e s   t h e   i de n t i f i c a t i o a n d   r e t r i e v a l   o f   i m po r t a n t   a r t i c l e s   f o r e s e a r c h e r s   t h a t   a r e   i n   l i n e   w i t t h e i a c t u a l   f i e l ds   o f   i n t e r e s t .   K i m   a nd   G i l   [2 0 ]   p r o po s e t h e   pa pe c l a s s i f i c a t i o s y s t e m   c o n s i s t s   o f   fo ur  m a j o r   p r o c e s s e s :   c r a w l i n g ,   T F - ID F ,   t o pi c   m o de l i n g   a n d   d a t a   m a n a ge m e nt ,   a n d   c l a s s i f i c a t i o n.   T hi s   p r o po s e s y s t e m   a i m s   t o   c l us t e r   t h e   r e s e a r c h   pa pe r s   i nt o   t h e   m e a ni n gf ul   c a t e go ri e s   i n   w h i c h   c o n t a i s i m i l a r   t o pi c s .   A c c o r di n g l y ,     t h e   p r o po s e s y s t e m   c r e a t e s   a   d i c t i o na r y   of   ke y w o r ds   f r o m   t h e   a b s t r a c t   a n d   ke y w o r ds   da t a   t h a t   c ra w l e d.   T h e s e   ke y w o r ds   c o n s i s t   o f   t o p - N   o f   h i g f r e que n c y   ke y w o r ds   a m o ng  t h e   e nt i r e   ke y w o r ds .   A l s o ,   i t   e xt ra c t s   t o pi c s   f r o m   t h e   a b s t r a c t   d a t a   o f   e a c h   p a pe r   b y   l a t e nt   di ri c hl e t   a l l o c a t i o (L D A s c h e m e .   F i na l l y ,   r e s e a r c pa pe r s   a r e   c l a s s i f i e i nt o   s i m i l a r   s ub j e c t s   by   us i n K - m e a ns   c l us t e ri n g   a l go r i t hm .   T h e   K - m e a n s   c l us t e r i ng  a l go ri t hm   i s   b a s e o t h e   t e r m   f r e que n c y - i n v e r s e   do c um e nt   f r e q ue n c y   (T F - ID F v a l ue s   o f   e a c h   pa pe r.   N a h a e t   al . ,   [2 1 p r e s e n t e d   a a pp r o a c f o r   c l a s s i fy i n a nd  c l us t e r i ng  t h e   r e s e a r c h’s   p a pe r s   i n t o   c l us t e r s   b a s e o n   c o n c e pt s   a n d   c o n t e nt s .   T hi s   c l us t e r i n g   p r o c e s s   us e s   t i t l e ,   ke y w o r ds ,   a nd  a b s t ra c t   o   t h e   p a pe f o r   pe r f o r m i n g   t h e   c l a s s i f i c a t i o p r o c e s s .   T h e   p r o p o s e a pp r o a c i s   m a i nl y   de pe n ds   o i n f o r m a t i o n   r e t ri e v a l   (IR a s   c o r e   pr o c e s s   a l o n w i t h   s o m e   na t u ra l   l a n gu a ge   p r o c e s s i n (N L P t e c hn i q ue s ,   l a t e n t   d i r i c h l e t   a l l o c a t i o n   (L D A ),   a nd  l a t e nt   s e m a n t i c   i n de xi ng  (L S I) .   M o r e ov e r ,   i t   a i m s   t o   i m p r o v e   t h e   L D A   m o de l   t ha t   i s   us e f o r   c l a s s i f i c a t i o us i n g   t h e   c o n c e pt   o f   t o pi c   m o de l i ng   a n d   t h e   L S m o de l   us e d   f o r   pe r f o r m i ng   que r y i n g.   Co n s e que n t l y ,   t h e   p r e s e nt e a pp r o a c h   p r o v i de s   a n   a u t o m a t i c ,   s h o r t   t i m e ,   a n a c c ura t e   s o l ut i o n   f o r   c l a s s i fy i n g   r e s e a r c p a pe r s   t ha t   pub l i s h e i t h e   f i e l o f   i n f o r m a t i o n   t e c hn o l o g y .   S a a e t   al . ,   [2 2 p r e s e nt e e m o t i o n s   c l a s s i f i c a t i o f o r   M a l a y   fo l kl o r e   f r o m   c hi l d r e n   s h o rt   s t o r i e s   us i n f o ur   t y pe s   of   c o m m o n   e m o t i o n s :   ha ppy ,   a n g r y ,   f e a r f ul ,   a n s a d.   T hi s   w o r b a s e o n   t e rm   f r e que n c y - i n v e r s e   do c um e n t   f r e que n c y   (T F - ID F )   t ha t   e xt ra c t e d   f r o m   t he   t e xt   s t o r i e s .   T h e n,   t e xt   s t o r i e s   w i l l   b e   c l a s s i f i e by   s uppo r t   v e c t o r   m a c hi n e   (S V M a n d   de c i s i o t r e e   (D T ) .   T hi s   w o r a i m s   t o   a dd   e m o t i o n s   f o r   a   m o r e     na t u ra l   s t o r y t e l l i n g .   In  a d di t i o n,   t h e r e   a r e   a l s o   v a ri o us   o t h e r   a pp r o a c h e s   f o r   c l a s s i fy i n t h e   do c um e nt s   by   a ppl y i n g   di f fe r e nt   t e c hni que s   s uc h   a s   us i n g   t e xt   m i ni n b a s e o n   t h e   t e c hn o l o gy   of   n a t u r a l   l a n gu a ge     pr o c e s s i n [2 3 ,   2 4 ],   b ui l d i n g   a   s e m a nt i c   r e p r e s e nt a t i o o a rt i c l e s   f r o m   t h e i a s s o c i a t e e n t i t i e s   [2 5 ,   2 6 ],     a n d   us i ng   N - g r a m s   a nd   e ff i c i e n t   s i m i l a ri t y   m e a s u r e   t ha t   k n o w n   a s   i m p r o v e s q rt - c o s i n e   s i m i l a ri t y   m e a s u r e   [ 27 ].   A s   m e n t i o n e d   i t h e   e x a m p l e s   a b ov e ,   t h e   i m p o r t a n c e   o f   do c um e n t s   c l us t e ri n g   a n d   c l a s s i fy i n i s   h i g h l i g h t e d   t o   s a t i s fy   us e r s   a n d   f a c i l i t a t e   t h e   r e t r i e v a l   p r o c e s s   of   r e l e v a n t   do c um e nt s .   T h i s   p a pe r   a i m s   t o   c l a s s i fy   a n c l us t e t h e   r e s e a r c pa pe r s   i n t o   c a t e go ri e s   t o   ov e r c o m e     t h e   r e s pe c t i v e   di f f i c ul t i e s   f o r   t h e   s e a r c us e r s .   M o r e o ve r,   c l us t e ri n g   p r o v i de s   a   b e t t e c o ve r a ge   w h i l e   a v o i di n c o m pl e xi t y ,   n o t   o nl y   w i t h   r e s e a r c pa pe r s   b ut   w i t h   v a r i o us   do m a i n s   a s   w e l l   [ 2 8 - 3 0].   T h us ,   t hi s   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2088 - 8708   Int   J   E l e c   &   Co m E n g ,   V o l .   11 ,   N o .   1,   F e b r ua r y   2021   :     66 4   -   6 70   666   pr o po s e a pp r o a c o f   t e xt   do c um e nt s   c l us t e ri n g   h a s   a   s i g ni f i c a n t   i m pa c t   t o   f i n d   us e f ul   i n f o r m a t i o n,   a dd r e s s   t h e   l a c o f   un de r s t a n d - a b i l i t y ,   a nd  i m p r o v e   s e a r c h - a b i l i t y   fo r   us e r s .   Co n s e que n t l y ,   w e   pr o po s e r e s e a r c pa pe r s   c l a s s i f i c a t i o s y s t e m   b a s e o t e rm   f r e que n c y   ( TF ),   T e r m   f r e que n c y - i n v e r s e   do c um e n t   f r e que n c y   (T F - ID F ),   a nd  c o s i n e   s i m i l a r i t y ,   t o   gui de   t h e   us e r s   by   t h e i ne e ds   i t h e   do m a i o f   r e s e a r c pa pe r s .   T h e   s e c o n s e c t i o e xpl a i n s   t h e   m e t h o do l o g y   a n d   de s c r i b e s   p r o po s e m e t h o ds   f o r   t e xt   do c um e n t s   c l us t e r i ng   s uc a s   w e b   m i n i ng,   d a t a   e xt ra c t i o n,   T F - ID F ,   a n d   c os i n e   s i m i l a r i t y .   T h e s e   t e c hni que s   c o nt r i b ut e   t o   t h e   a n a l y s i s   of   s c i e n t i f i c   pa pe r s   by   e xt r a c t i ng   da t a   f r o m   i t ,   i o rde t o   c l a s s i f y   t h e   pa pe r s   i n t o   g r o ups   o r ga ni z e d   a c c o r di n g   t o   s i m i l a r i t y .   T h e   t hi r d   s e c t i o h i g hl i g ht s   o n   t h e   r e s ul t s   o f   t h e   p r o po s e c l a s s i f i c a t i o n   a pp r o a c a n d   t h e   a l go r i t h m s   t h a t   us e t o   i m p l e m e nt   i t .   F i n a l l y ,   t hi s   r e s e a r c o ut l i n e s   t h e   c h a l l e n ge s   o r e s e a r c p a pe r s   c l a s s i f i c a t i o n   a n d   a i m s   t o   p r o v i de   a   b e t t e r   c l us t e r i ng  f o r   t h e   r e s e a r c p a pe r s .       2.   R ES EA R C H   M ET H O D     In  t hi s   pa pe r,   a   c l a s s i f i c a t i o a p p r o a c h   f o r   c l us t e ri n t h e   r e s e a r c h   p a pe r s   i s   p r e s e n t e d,   a s   r e s e a r c h e r s   s pe n a   l o t   o f   t i m e   t o   i de nt i f y i n t h e   r e l e v a nt   c l us t e r   o f   t he   un de r t a ke n   p a pe r s .   O r d i na r i l y ,   t h e   p a pe r s   a r e   c l a s s i f i e i n t o   c l us t e r s   b a s e o t h e   c o n c e pt s   a n d   t h e   c o n t e n t s .   A c c o r di ngl y ,   o ur   a pp r o a c h   p r o v i de s   a   c l us t e r i ng  p r o c e s s   de p e n ds   o n   t hr e e   m a j o r   p a r t s   o f   t h e   r e s e a r c h   pa pe r s :   t i t l e ,   a b s t ra c t ,   a nd  ke y w o r ds .     T h e   a b s t ra c t   w a s   c h o s e a s   o n e   o f   t h e   i m po r t a n t   p a r t s   o f   t h e   p a pe t h a t   de s c r i b e s   i t s   e s s e n c e   a f t e   t h e   t i t l e   [3 1,   32] ,   a n i t   i s   o f t e n   t h e   n e xt   p a rt   t ha t   us e r s   t e n d   t o   r e a d.   M o r e o ve r ,   t h e   a b s t ra c t   i s   e nri c h e d   w i t i n t e r e s t i n a n f u n d a m e n t a l   w o r ds / t e rm s   t ha t   e xpr e s s   t h e   d i r e c t i o o f   t h e   pa pe r   a n a   s u m m a r y   of   a l l   o t h e r   c o n t e n t s   o f   t h e   p a pe r .   Th e   da t a   s e t   c o n t a i n s   518  p a pe r s   t ha t   pub l i s h e i n   B ul l e t i n   o f   E l e c t r i c a l   E ngi n e e r i n g   a n d   I n f o r m a t i c s   (B E E I)   j o urn a l ,   s i n c e   2012   t o   20 19.   T h e s e   s c i e nt i f i c   p a pe r s   i n c l ude   di f f e r e n t   t o pi c   s c o pe s   w h i c a r e   w r i t t e i E n g l i s h.   T h e   B E E I   j o urn a l   i s   i s s ue d   by   t h e   I n s t i t u t e   o f   A dv a n c e E n gi n e e r i n g   a n d   S c i e n c e   (IA E S )   o A hm a d   D a hl a U n i v e r s i t y .   O ur  go a l   i s   t o   c l a s s i fy   t h e s e   pa p e r s   i nt o   f i v e   c l us t e r s   a c c o r di n g   t o   t h e   f o l l o w i n s c o pe s   of   t h e   j o urna l :   -   Cl us t e r   1 :   Co m put e r   S c i e n c e ,   Co m pu t e E n gi n e e r i n g ,   a n d   I n f o r m a t i c s .   -   Cl us t e r   2 :   E l e c t r o ni c s .   -   Cl us t e r   3 :   E l e c t r i c a l   a n d   P o w e r   E n gi n e e r i n g .   -   Cl us t e r   4 :   T e l e c o m m u n i c a t i o a nd  I n f o rm a t i o T e c hn o l o g y .   -   Cl us t e r   5 :   I n s t r u m e n t a t i o n   a n d   Co nt r o l   E ngi n e e r i n g .   O r d i n a ri l y ,   t h e   r e s e a r c pa pe r s   a r e   o f t e n   c l a s s i f i e a nd   r e t r i e v e a c c o r di ng   t o   t h e   us e r ’s   que r y   o r   by   s e m a n t i c   r e p r e s e n t a t i o n   a n d   m a n y   o t h e m e t h o ds ,   a s   w e   m e nt i o n e d   i t h e   l i t e r a t u r e   r e v i e w s   of   r e l a t e d   w o r ks   i n   t h e   f i r s t   s e c t i o n .   I o ur  a pp r o a c h,   w e   a ppl y   b a s i c   c r a w l e r   a l go r i t hm   [15]   t o   e xt ra c t   t h e   c o n t e n t s   o   t h e   t o pi c s   f o e a c c l us t e s e pa ra t e l y ,   a s   w e l l   a s   t h e   t i t l e ,   a b s t r a c t ,   a n d   ke y w o r ds   o f   a l l   pa pe r s .   S ub s e que n t l y ,   w e   s ugge s t   c l a s s i fy i n pa pe r s   b a s e o n   w o r t o ke n s   w h i c h   e xt ra c t e f r o m   t h e   t o pi c s   o f   t h e   a b ov e   f i ve   c l us t e r s   t ha t   c o ve r e by   t h e   B E E I   j o urn a l .   M o r e o v e r ,   c l a s s i f i c a t i o n   a pp r o a c t e c hni que s   i n c l ude   T F - ID F   a nd  c os i n e   s i m i l a ri t y .   F i gu r e   s h o w s   ge n e ra l   s t e ps   o f   t h e   f l ow   di a g ra m   f o r   t e c hni que s   t ha t   us e i t h e   p r o po s e d   c l a s s i f i c a t i o a p p r o a c h.           F i gu r e   1 .   C l a s s i f i c a t i o a p p r o a c f l ow   di a g ra m   Evaluation Warning : The document was created with Spire.PDF for Python.
Int   J   E l e c   &   Co m E n g     IS S N :   2088 - 8708       T e x t   do c um e n t s   c l us t e r i n us i ng   dat a   m i ni ng   t e c hni qu e s   ( A h m e A de e b   J a l al )   667   2 . 1 .     Te x p r e p r o c e s s i n g   T e xt   p r e pr o c e s s i n g   i s   a   o n e   o f   m a j o c o m po n e nt   i m a n y   a l go ri t hm s   o f   t e xt   m i ni n g .   It   us ua l l y   c o n s i s t s   o f   t h e   t a s ks   s uc h   a s   t o ke ni z a t i o n ,   f i l t e r i n g ,   l e m m a t i z a t i o n ,   a n d   s t e m m i n g   [33] .   O r d i n a ri l y ,     c l us t e r i ng  a l go r i t hm s   r e qui r e   t o   s pe c i fy i n g   t h e   t y pe   of   a t t r i b ut e s   (e . g.   w o r ds ,   t e rm s ,   o p hra s e s t o   e xt ra c t   f r o m   t h e   do c um e n t s   t h a t   u n de r pi t h e   c l us t e r i n g   a l go ri t hm   pe r f o r m a n c e .     A s   s h o w n   i t h e   t e xt   p r e pr o c e s s i n g   s t e p   o f   F i gu r e   1,   i t   a ut o m a t i c a l l y   e xt r a c t s   w o r t o ke n s   l i s t s   us i n g   t e xt   p r e p r o c e s s i n t a s ks .   T o ke n i z a t i o n   i s   t h e   t a s o f   b r e a ki n t h e   c ha r a c t e r   s e que n c e   i n   t o pi c s   t ha t   a r e   c r a w l e i n t o   pi e c e s   (w o r ds / t e r m s c a l l e t o ke n s .   F i l t e r i n g   i s   a   t a s i nt e nde t o   pe r f o r m   f u r t h e r   p r o c e s s i n o w o r t o ke n s   l i s t s   t o   r e m o v e   s t o a n s i m i l a w o r ds   t o   r e duc e   t h e   i n de xi n g   s i z e   a n i n c r e a s e   t h e   a c c ura c y   o r e s ul t s .   M o r e o ve r ,   i t   n e c e s s a r y   b e   t a ke i n t o   c o n s i de ra t i o t h e   m o r p h o l o gi c a l   a n a l y s i s   of   w o r ds   t o   g r o up    t h e   v a r i o us   r e l a t e w o r ds   t o ge t h e t o   b e   a na l y z e a s   o n e   i t e m ,   l e m m a t i z a t i o t a s is   p r e f e rr e i p ra c t i c e .   S t e m m i ng  t a s a i m s   t o   ge t   a   s t e m   ( r o o t of   de r i v a t i v e   w o r ds   t ha t   a r e   a c t u a l l y   l a n gu a ge   de pe n de n t .   Co n s e que n t l y ,   w e   ge t   f i v e   l i s t s   o f   w o r t o ke n s   f r o m   c l us t e r s   t o pi c s ,   o n e   f o r   e a c h   c l us t e r .     2 . 2   Te r m   fr e q u e n c y - i n v e r s e   d o c u m e n fr e q u e n c ( TF - I D F )   TF - ID F   i s   a   num e r i c a l   a n d   de s c r i p t i v e   s t a t i s t i c a l   m e c ha n i s m   t ha t   us e a s   a   w e i gh t i n f a c t o i   t h e   f i e l ds   o f   i n f o r m a t i o n   r e t ri e v a l .   T h e   T F - ID F   w e i gh t i n p r o v i de s   a   go o i n s i g ht   o f   h o w   i m po r t a nt   w o r ds   a r e   by   t h e   a p pe a r a n c e   o f   s pe c i f i c   w o r ds   i do c um e nt s   c o n t e nt .   Co n s e que nt l y ,   t h e   T F - ID F   i s   us e t o   e xt ra c t   w o r t o ke n s   f r o m   do c um e n t s ,   c a l c ul a t e   de g r e e s   of   s i m i l a r i t y   a m o n do c um e nt s ,   de t e rm i n e   i m po r t a nt   ra n ki ng,   e t c .   I n   o u r   a pp r o a c h ,   w e   c a l c ul a t e   T F ,   ID F   a nd  T F - ID F   fo r   e a c w o r t o ke n   i n   t h e   l i s t s   o n   b o t c l us t e r s   a n d   do c um e n t s .   T h e   t e r m   f r e que n c y   ( TF )   c o un t s   h o w   of t e n   t h e   s pe c i f i c   w or ds   a ppe a i do c um e n t   c o n t e n t ,   w h i c c a b e   c a l c ul a t e a s   i (1) .   T h e   w o r ds   w i t a   h i g T F   v a l ue   a r e   m o r e   i m po r t a n c e   i do c um e n t s      , = , m ax { ,       }   (1)     w h e r e ,   ,   de n o t e s   t o   t h e   f r e que n c y   o f   w o r d/ t e rm     t ha t   o c c ur s   i do c um e n t   .   O t h e   o t h e ha n d ,   t h e   i n v e r s e   d o c um e nt   f r e que n c y   (ID F m e a s u r e s   t h e   r a ri t y   a n d   i m po r t a n c e   o   a   w o r d/ t e rm   a c r o s s   a l l   do c um e nt s ,   w hi c c a b e   c a l c ul a t e a s   i (2) .   T h e   w o r ds   w i t a   h i g ID F   v a l ue   a r e   c o n s i de r e ra r e   i a l l   do c um e nt s .      , = {             }   ( 2 )     w h e r e  ,   i s   a   l o ga r i t h m i c   s c a l e   f o r   d i v i di n g   t h e   t o t a l   n u m b e r   o f   doc um e n t s     by   t h e   n um b e of  do c um e n t s   i n   w hi c t h e   w o r d/ t e r m     a ppe a r s .   Co n s e que n t l y ,   t h e   T e rm   F r e que n c y In v e r s e   D oc um e n t   F r e q ue n c y   (T F - ID F w e i gh t i n g   i s   c a l c ul a t e a s   i (3) .   T h e   T F - ID F   w e i g h t i ng  v a l ue   i n c r e a s e s   w h e a   s pe c i f i c   w o r d/ t e rm   ha s   hi g f r e que n c y   i a   do c um e nt   a n t h e   n u m b e r   o f   do c um e n t s   i w h i c h   t h e   w o r d/ t e rm   a ppe a rs   i s   l o w .       =  ,   ×    ,   ( 3 )     2 . 3   C o s i n e   s i m i l a r i t y   Co s i n e   s i m i l a r i t y   i s   a   o n e   of   t h e   po w e r f ul   s i m i l a r i t y   m e a s ur e s   c o m pa r e t o   a l l   o t h e t e c hni que s ,     t h a t   us e t o   m e a s u r e   s i m i l a r i t i e s   b e t w e e n   t w o   ve c t o r s   b a s e o n   t h e   c o s i n e   o f   t h e   a n gl e   a s   i (4) .     M o r e ov e r ,   t h e   c o s i n e   s i m i l a r i t y   i s   w i de l y   us e i n   do c um e nt   c l us t e ri n i n   t h e   f i e l o f   da t a   m i n i ng.     O r d i n a ri l y ,   t h e   c o s i n e   s i m i l a r i t y   m e t h o m e a s u r e s   t h e   s i m i l a ri t y   be t w e e n   a   us e que r y   a n r e t ri e v e d   do c um e n t s   b a s e d   o t h e   t e rm s   t h a t   e xt ra c t e f r o m   t h e   us e que r y .   N e v e r t h e l e s s ,   i o u a pp r o a c w e   s ugge s t   m e a s u r i n g   t h e   s i m i l a ri t y   b e t w e e t h e   c o nt e nt   o f   c l us t e r s   a n d   do c um e nt s   b a s e o t h e   w o r t o ke n s   l i s t s ,     a s   s h o w n   i t h e   c l a s s i f i c a t i o n   s t e o f   F i gur e   1.       , = = 1   ×   2 = 1   ×   2 = 1   ( 4 )     w h e r e   a n d     a r e   de n o t e   t o   t h e   c l us t e a n d   do c um e n t   v e c t o r s ,   r e s pe c t i v e l y .   T h e   hi g h e r - ra n k i n g   do c um e n t s   a r e   m o r e   r e l e v a nt   t o   t h e   c l us t e r.       Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2088 - 8708   Int   J   E l e c   &   Co m E n g ,   V o l .   11 ,   N o .   1,   F e b r ua r y   2021   :     66 4   -   6 70   668   3.   R ES U LTS   A ND  DISCUSSIO NS   T h e   p r o po s e r e s e a r c p a pe r s   c l a s s i f i c a t i o s y s t e m   i s   b a s e o n   w e b   da t a   m i ni n g   t e c hni que s   t o   m a na ge   a n d   p r o c e s s   r e s e a r c pa pe r s   d a t a .   I t h i s   s e c t i o n,   w e   w i l l   de s c ri b e   t h e   da t a   s e t s   c o l l e c t e a n d     t h e   s t e ps   t a ke w h i l e   r u nni n g   t h e   e xpe ri m e n t s   a l o n g   w i t d i s c us s i n g   t h e   r e s ul t s   do w n   t o   t h e   e v a l ua t i o n.     W e   c o l l e c t e 518  r e s e a r c pa pe r s   f o r   us e   i e xpe r i m e nt s ,   t ha t   a r e   pub l i s h e d   i B E E I   j o urn a l   i v a r i o us   s ub j e c t   a n d   s c o pe s .   T h e   p a pe r s   a r e   r e l a t e d   t o   t h e   f i e l d   o f   c o m put e r   s c i e n c e ,   c o m put e e ngi n e e ri n g ,   i n f o r m a t i c s ,   e l e c t r o n i c s ,   e l e c t r i c a l ,   po w e r   e ngi n e e ri n g ,   t e l e c o m m uni c a t i o n,   i n f o r m a t i o n   t e c hn o l o g y ,   i n s t r u m e nt a t i o n ,   c o n t r o l   e n g i n e e r i ng.   E a c h   o f   t h e s e   s c ope   c o n t a i n s   s e v e r a l   t o pi c s   s uc h   a s   c o m put e r   a r c hi t e c t u r e ,   p r o gra m m i ng,   c o m put e r   s e c uri t y ,   e l e c t r o ni c   m a t e r i a l s ,   m i c r o e l e c t r o n i c   s y s t e m ,   e l e c t ri c a l   e n gi n e e r i n g   m a t e ri a l s ,   a nt e nn a   a nd   w a v e   pr o pa ga t i o n,   di s t ri b ut e pl a t f o r m ,   a n d   r o b o t i c s .   O u r   go a l   i s   t c l a s s i fy   t h e s e   pa pe r s   i n t o   f i v e   c l us t e r s   a c c o r di n g   t o   t h o s e   s c o pe s .   Co n s e que n t l y ,   a s   w e   e xpl a i n e d   e a r l y   i n   r e s e a r c m e t h o s e c t i o n,   w e   c ra w l e t h e   t i t l e ,   ke y w o r ds   a nd  a b s t ra c t   f o r   e a c p a pe t o   us e   a s   c o r e   da t a   f o r   c l a s s i f i c a t i o n.   M e a n w hi l e ,   w e   e xt ra c t   f i v e   l i s t s   of   w o r t o ke ns   f r o m   t h e   t o pi c s   of   s c o pe s .   O n c e   t h e s e   s t e ps   a r e   c o m pl e t e d,   t h e   c o r pus   b e c a m e   r e a dy   t o   b e   us e a s   i n pu t   f o T F - ID F   c a l c ul a t i o m o dul e   t o   c a l c u l a t e     t h e   w e i gh t   f o r   e a c w o r t o ke n   f o r   b o t c l us t e r s   a nd  p a pe r s ,   a s   s h o w n   i F i g u r e   2.   S ub s e que n t l y ,   t h e   c o s i n e   s i m i l a ri t y   a l go ri t hm   i s   i m pl e m e nt e b a s e o T F - ID F   w e i ght s ,   a s   s h o w n   i F i g u r e   3 .   T y pi c a l l y ,   t h e   c o s i n e   s i m i l a ri t y   v a l ue   r a nge s   f r o m   t o   1,   w h e r e   a   h i g v a l ue   i ndi c a t e s   t ha t   d a t a   a r e   w e l l - m a t c h e t o   t h e i o w n   c l us t e a n d   po o r l y   m a t c h e t o   n e i g h b o r i n g   c l us t e r s .           F i gu r e   2 TF - ID F   w e i g ht s           F i gu r e   3 Co s i n e   s i m i l a ri t y   r e s ul t s       A s   w e   s e e   i n   F i g u r e   2,   t h e r e   a r e   f i v e   di f fe r e n t   c l us t e r s .   F o r   i n s t a n c e ,   t h e   f i r s t   c l us t e r   r e v o l ve s   a bo ut   c o m put e r   s c i e n c e ,   c o m put e r   e ngi n e e ri n g ,   a nd  i n f o rm a t i c s .   T h e   f i r s t   c l us t e c o n s i s t s   o f   m a n y   w o r t o ke n s   s uc h   a s   c o m put e r ,   p r o gra m m i ng,   c o m put i n g ,   a n s e c uri t y ,   t o   m e nt i o n   a   f e w .   S i m i l a r l y ,   w e   c a n   e xa m i n e     t h e   r e s t   o f   c l us t e r s   by   a na l y z i ng  t h e   s e t   o f   e xt ra c t e t o pi c s .   T h e   r e s ul t s   s h o w e t h a t   m o s t   o f   t h e   p a pe r s   ha v e   b e e n   l i n ke t o   t h e   ri g ht   c l us t e r,   de pe ndi n g   o n   t h e   r e s ul t s   of   c o s i n e   s i m i l a r i t y   a l go r i t hm .   F i gu r e   s h o w s     t h e   c l a s s i f i c a t i o n,   n u m b e r ,   a nd  di s t ri b ut i o o f   o ve r   9 6%   o f   pa pe r s ,   s i n c e   201 t o   201 9.   T h e s e   r e s ul t s   c o n s t i t u t e   t h e   e f f i c i e n c y   of   t h e   p r o po s e a pp r o a c h.   T h e   v a l i da t i o f a c t o r   a l l o w s   e v a l ua t i n g   t h e   c l a s s i f i c a t i o o f   pa pe r s   a c c o r di n g   t o   t h e   s e l e c t e a l go ri t hm s .   W e   e v a l ua t e   t h e   p r o po s e s y s t e m   us i ng  p r e c i s i o n   a n d   r e c a l l   m e t ri c s   w hi c a r e   o n e   o f   t h e   m o s t   c o m m o n   v a l i d a t i o m e t ri c s   t ha t   b a s e o n   s e pa ra t i o b e t w e e n   r e l e v a nt   a n i rr e l e v a nt   i t e m s .   A s   s h o w n   i n   F i gu r e   5,   t h e   v a l i d a t i o n   g i v e s   m o r e   a c c ur a t e   l a b e l i n f o r   t h e   pa pe r s   c l a s s i f i c a t i o n .   W e   f o un t ha t   s o m e   pa pe r s   c o n t a i m i xe s ub j e c t s ,   w h i c h   m e a n s   t h a t   m a n y   di f f e r e nt   m o dul e ,   c o nt r i b ut i o n ,   a nd  t o o l s   ha v e   be e n   e m pl oy e i n   t h e   p a pe r .   C lu s t e r   1 C lu s t e r   2 C lu s t e r   3 C lu s t e r   4 C lu s t e r   5 P a p e r   1 0 . 0 6 6 0 0 0 . 0 2 2 0 P a p e r   2 0 0 . 4 3 0 . 2 7 0 0 P a p e r   3 0 0 . 1 5 0 . 2 1 0 0 P a p e r   4 0 0 0 0 . 0 4 4 0 . 0 1 3 P a p e r   5 0 . 0 1 5 0 0 0 0 . 0 3 4 …. Evaluation Warning : The document was created with Spire.PDF for Python.
Int   J   E l e c   &   Co m E n g     IS S N :   2088 - 8708       T e x t   do c um e n t s   c l us t e r i n us i ng   dat a   m i ni ng   t e c hni qu e s   ( A h m e A de e b   J a l al )   669       F i gu r e   4 P a pe r s   c l a s s i f i c a t i o n   a n d   di s t r i b ut i o n           F i gu r e   5 V a l i da t i o r e s ul t s       4.   C O N C LU S I O N     In   t h i s   pa pe r ,   w e   pr o po s e a   c l a s s i f i c a t i o a pp r o a c h   f o r   c l u s t e r i ng  t h e   r e s e a r c h   pa pe r s   t o   i m p r o ve   a n a ut o m a t e   t h e   p r o c e s s   of   o r ga ni z i n a n d   c l a s s i fy i n s c i e n t i f i c   pa pe r s .   T h e   c l a s s i f i c a t i o n   a pp r o a c t ha t   i n t r o duc e i t hi s   p a pe r   us e s   w e b   da t a   m i ni n g   t e c hni que s   t o   c l a s s i fy   r e s e a r c p a pe r s   de pe n di n g   o t h e   f o c u s   a n d   s c o pe   t o pi c s .   T h e   s e l e c t e a l go r i t h m s   ha v e   s h o w n   a c c ur a t e   a n d   r e l i a b l e   r e s ul t s   i t h e   c l a s s i f i c a t i o n   a c c o r di n t o   p r e de f i n e c l us t e r s .   O r d i n a ri l y ,   c l a s s i f i c a t i o n   of   pa pe r s   i s   e s s e n t i a l   t o   f a c i l i t a t e   t h e   f i n d i n g   o s c i e n t i f i c   r e s e a r c a n d   i n c r e a s e   t h e   e ff e c t i v e n e s s   of   i de n t i f y i n t h e   n e e ds   o f   r e s e a r c h e r s .   T h e   e xpe r i m e n t a l   r e s ul t s   s h o w e t ha t   i t   i s   po s s i b l e   t o   c l a s s i fy   m o r e   t h a 96%   o f   t h e   p a pe r s   i s i m i l a s c o pe s   us i n g   t h e   c o s i n e   s i m i l a ri t y   a l go ri t hm ,   a s   t h e s e   r e s ul t s   w e r e   v e r i f i e by   pr e c i s i o n   a nd  r e c a l l   m e t r i c s .   T hi s   pa pe r   m a i nl y   f oc us e s   o n   de v e l o pi n a nd  a n a l y z i n g   t h e   c l a s s i f i c a t i o o f   r e s e a r c pa pe r s   b a s e o n   c l u s t e r s   t o pi c s .   F ut u r e   w o r s h o ul b e   e xt e nde t o   i n c l ude   v a r i o us   t o pi c s   e xt ra c t e f r o m   t h e   p a pe r s   t o   c l a s s i fy   t h e   w h o l e   p a pe r s   a c c u r a t e l y   a n e f f i c i e n t l y .       R EF ER EN C ES     [ 1]   J .   A v a ni j a ,   e t   a l . ,   S e m a nt i c   S i m i l a r i t y   ba s e d   W e b   D o c um e nt   C l us t e r i ng   U s i ng   H y br i d   S w a r m   I nt e l l i g e nc e   a nd   F uz z y   C - M e a ns ,   H E L I X   - T he   Sc i e nt i f i c   E x p l o r e r ,   v o l .   7 ,   no .   5 ,   pp .   2007 - 201 2,   20 17.   [ 2]   A .   P .   S i ng h ,   e t   a l . ,   P h r a s e   ba s e d   W e b   D o c um e nt   C l u s t e r i ng :   a I nde x i ng   A ppr o a c h,   C om pu t e r   C om m uni c a t i on,   N e t w or k i ng   and   I nt e r ne t   Se c u r i t y ,   v o l .   5 ,   p p.   4 81 - 492 ,   2017 .   [ 3]   R .   K .   R o ul ,   e t   a l . ,   W e D o c um e nt   C l us t e r i ng   a n R a n ki ng   U s i ng   TF - I D F   ba s e A pr i o r i   A ppr o a c h,   i I J C A   P r oc e e di ngs   on   I n t e r na t i ona l   C on f e r e nc e   on   A d v anc e s   i n   C om p ut e r   E ng i ne e r i ng   an A pp l i c at i on s   ( I C A C E A ) ,     v o l .   2,   pp .   34 - 39 ,   2014 .   [ 4]   N .   K .   N a g w a n i ,   S um m a r i z i ng   L a r g e   T e xt   C o l l e c t i o U s i ng   T o pi c   M o de l i ng   a nd   C l us t e r i ng   ba s e d   o n   M a p r e duc e   F r a m e w o r k ,   J o ur n al   o f   B i g   D a t a,   v o l .   2,   no .   1 ,   p p.   1 - 18 ,   2015 .   [ 5]   I .   A l s m a di   a n I .   A l ha m i ,   C l us t e r i ng   a nd  C l a s s i f i c a t i o o f   E m a i l   C o nt e nt s ,   J o ur n al   of   K i n Sa ud  U n i v e r s i t y   -   C om put e r   and   I nf or m a t i on   Sc i e nc e s ,   v o l .   2 7,   no .   1,   p p.   46 - 57 ,   201 5 .   92 93 94 95 96 97 98 99 C lu s t e r   1 C l u s t e r   2 C l u s t e r   3 C l u s t e r   4 C l u s t e r   5 P r e c i si o n Re ca l l Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2088 - 8708   Int   J   E l e c   &   Co m E n g ,   V o l .   11 ,   N o .   1,   F e b r ua r y   2021   :     66 4   -   6 70   670   [ 6]   P .   G ur u ng   a nd   R .   W a g h,   A   S t udy   o T o pi c   I de nt i f i c a t i o U s i ng   K   M e a ns   C l us t e r i ng   A l g o r i t hm :   B i g   v s .   S m a l l   D o c um e nt s ,   A d v anc e s   i C om pu t at i on al   S c i e nc e s   a nd   T e c hno l o gy ,   v o l .   10 ,   no .   2,   pp .   22 1 - 233,   2 017 .   [ 7]   P .   B .   B a f n a ,   e t   a l . ,   D o c um e nt   C l us t e r i ng:   T F - I D F   A ppr o a c h ,   i n   I E E E   201 I n t e r na t i o na l   C on f e r e nc e   on   E l e c t r i c al ,   E l e c t r on i c s ,   an O p t i m i z at i on   T e c hn i q ue s   ( I C E E O T ) ,   p p .   61 - 66,   2 016 .   [ 8]   N .   O i ko no m a ko a nd  M .   V a z i r g i a nn i s ,   A   R e v i e w   o f   W e D o c um e nt   C l u s t e r i ng   A ppr o a c he s ,   D a t a   M i n i ng   and   K now l e dge   D i s c o v e r y   H andb ook ,   pp .   931 - 948 ,   201 0.   [ 9]   N .   M .   N .   M a t hi v a n a n ,   e t   a l . ,   I m pr o v i ng   C l a s s i f i c a t i o n   A c c ur a c y   U s i ng   C l us t e r i ng   T e c hn i que ,   B ul l e t i of   E l e c t r i c al   E ng i ne e r i ng   a nd  I n f or m at i c s ,   v o l .   7 ,   no .   3,   pp .   465 - 47 0,   2018 .   [ 10]   A .   S .   A l - H e g a m i   a n d   H .   H .   A l - O m a i s i D a t a   M i n i ng   T e c hni que s   f o r   M i n i ng   Q ue r y   L og s   i n   W e b   S e a r c h   E ng i n e s ,   I nt e r n at i on al   J o ur n al   o f   C om put e r   Sc i e nc e   a nd  N e t w or k v o l .   6 ,   no .   2 ,   p p.   22 77 - 5420 ,   201 7.   [ 11]   S .   G i r i s h ,   e t   a l . ,   M i ni ng   t h e   W e b   D a t a   f o r   C l a s s i f y i ng   a nd  P r e di c t i ng   U s e r s   R e qu e s t s ,   I nt e r na t i ona l   J o ur na l   o f   E l e c t r i c al   an C om put e r   E ng i ne e r i ng v o l .   8 ,   no .   4 ,   pp .   208 8 - 8708 ,   2018 .   [ 12]   S .   K h a n ,   e t   a l . ,   W e M i ni ng   i S e a r c E ng i ne s   f o r   I m pr o v i ng   P a g e   R a nk ,   I n t e r nat i on al   J ou r na l   o f   S of t   C om put i ng   an E ng i ne e r i ng ,   v o l .   5 ,   no .   4 ,   pp .   2 231 - 230 7 ,   20 15 .   [ 13]   M .   J .   H .   M ug ha l ,   D a t a   M i n i ng :   W e D a t a   M i n i ng   T e c hn i que s ,   T o o l s   a nd   A l g o r i t hm s :   A O v e r v i e w ,   I nt e r n at i on al   J o ur n al   o f   A dv an c e C om p ut e r   Sc i e nc e   an A ppl i c at i ons ,   v o l .   9,   no .   6 ,   pp.   2 08 - 215 ,   2018 .   [ 14]   A .   A .   J a l a l B i g   D a t a   a nd   I nt e l l i g e n t   S o f t w a r e   S y s t e m s ,   I nt e r n at i o nal   J o ur na l   of   K n ow l e dge - bas e an I n t e l l i ge nt   E ngi ne e r i n Sy s t e m s v o l .   22 ,   no .   3 ,   p p.   17 7 - 193 ,   2 018 .   [ 15]   B .   L i u ,   W e b   D a t a   M i n i ng :   E xpl o r i ng   H y pe r l i nks ,   C o nt e n t s ,   a nd   U s a g e   D a t a ,   S p r i ng e r ,   20 1 1 .   [ 16]   K .   O .   K ho r s he e d S e a r c E ng i n e   O p t i m i z a t i o U s i ng   D a t a   M i n i ng   A ppr o a c h ,   I n t e r nat i o nal   J o ur n al   o f   C om put e r   E ngi ne e r i n and   A pp l i c a t i o ns ,   v o l .   9 ,   no .   6 ,   pp .   184 - 200 ,   201 5.   [ 17]   N .   D u kl a n ,   e t   a l . ,   C l a s s i f i c a t i o o f   S e a r c E ng i ne   O p t i m i z a t i o T e c hni qu e s :   A   D a t a   M i n i ng   A ppr o a c h ,   in   2nd   I nt e r n at i on al   C on f e r e nc e   on   Sy s t e m   M ode l i n &   A dv anc e m e nt   i n   R e s e ar c T r e nds   ( S M A R T ) ,   2 015 .   [ 18]   B .   M .   M a a ke ,   e t   a l . ,   I nf o r m a t i o P r o c e s s i ng   i n   R e s e a r c P a pe r   R e c o m m e nde r   S y s t e m   C l a s s e s ,   R e s e ar c D a t a   A c c e s s   and   M an age m e nt   i M o de r L i b r ar i e s ,   pp .   90 - 118 ,   201 9.   [ 19]   M .   G .   T h us h a r a ,   e t   a l . ,   D o m a i C l a s s i f i c a t i o o f   R e s e a r c P a pe r s   U s i ng   H y br i K e y phr a s e   E x t r a c t i o M e t ho d ,   R e c e nt   F i ndi ngs   i I nt e l l i ge nt   C om pu t i n T e c h ni q ue s .   A dv anc e s   i I nt e l l i ge n t   S y s t e m s   an C om put i n g ,   v o l .   70 8,   pp.   38 7 - 398 ,   2 018 .   [ 20]   S .   K i m   a n d   J .   G i l R e s e a r c h   P a pe r   C l a s s i f i c a t i o S y s t e m s   b a s e o T F - I D F   a nd  L D A   S c he m e s ,   H um an - c e nt r i c   C om put i ng   an I n f or m at i on   Sc i e nc e s ,   v o l .   9,   no .   30 ,   pp .   1 - 21 ,   201 9.   [ 21]   K .   M .   O .   N a ha r ,   e t   a l . ,   N L P   a n I R   B a s e S o l u t i o f o r   C o nf i r m i ng   C l a s s i f i c a t i o n ,   J our nal   o f   T he or e t i c al   an d   A ppl i e I nf or m a t i on  T e c hno l og y ,   v o l .   9 6,   no .   16 ,   pp .   5 269 - 527 9 ,   20 18.   [ 22]   M .   M .   S a a d ,   e t   a l . ,   E v a l ua t i o o f   S uppo r t   V e c t o r   M a c hi ne   a n D e c i s i o T r e e   f o r   E m o t i o R e c og ni t i o o f   M a l a y   F o l kl o r e s ,   B u l l e t i n   o f   E l e c t r i c a l   E n gi ne e r i ng  and   I nf o r m a t i c s ,   v o l .   7,   no .   3,   pp .   479 - 48 6,   20 18.   [ 23]   S.   S ul o v a ,   e t   a l . ,   U s i ng   T e x t   M i n i ng   t o   C l a s s i f y   R e s e a r c P a pe r s ,   in   17 t h   I nt e r na t i ona l   M ul t i di s c i pl i na r y   Sc i e nt i f i c   G e oC on f e r e nc e   SG E M   2 017 ,   v o l .   17 ,   no .   21,   p p.   64 7 - 654 ,   201 7.   [ 24]   S .   A .   S a l l o um ,   e t   a l . U s i ng   T e x t   M i ni ng   T e c hni q ue s   f o r   E x t r a c t i ng   I nf o r m a t i o f r o m   R e s e a r c A r t i c l e s ,   I nt e l l i ge nt   N at ur a l   L ang uage   P r oc e s s i ng :   T r e nds   a nd  A pp l i c a t i o ns ,   St u di e s   i n   C om put at i on al   I n t e l l i ge nc e ,     v o l .   740 ,   pp.   3 73 - 397 ,   2018 .   [ 25]   S .   W a ng   a nd  R .   K o o pm a n,   C l us t e r i ng   A r t i c l e s   b a s e o S e m a nt i c   S i m i l a r i t y ,   Sc i e nt om e t r i c s ,   v o l .   111 ,     pp.   10 17 - 1031 ,   201 7.   [ 26]   R.   K .   I br a h i m ,   e t   a l . S ur v e y   o S e m a n t i c   S i m i l a r i t y   B a s e d   o n   D o c um e nt   C l us t e r i ng ,   A dv a nc e s   i n   Sc i e nc e ,   T e c hnol o gy   and   E n gi ne e r i ng  Sy s t e m s   J ou r na l ,   v o l .   4 ,   no .   5,   p p.   11 5 - 122 ,   201 9.   [ 27]   D .   B .   B i s a nd u ,   e t   a l . C l us t e r i ng   N e w s   A r t i c l e s   U s i ng   E f f i c i e n t   S i m i l a r i t y   M e a s u r e   a nd  N - g r a m s ,   I nt e r n at i on al   J our nal   o f   K now l e dge   E ng i ne e r i ng   and   D a t a   M i n i ng ,   v o l .   5 ,   no .   4 ,   pp.   33 3 - 348,   2 018 .   [ 28]   A .   H .   N a s ut i o n ,   e t   a l . ,   G e ne r a t i ng   S i m i l a r i t y   C l us t e r   o f   I ndo ne s i a L a ng ua g e s   w i t S e m i - s up e r v i s e C l us t e r i ng ,   I nt e r n at i on al   J o ur n al   o f   E l e c t r i c al   a nd  C om pu t e r   E n gi ne e r i n g ,   v o l .   9 ,   no .   1 ,   pp .   5 31 - 53 8 ,   2019 .   [ 29]   H .   M .   A l g ha m di   a n A .   S e l a m a t A r a b i c   W e P a g e   C l u s t e r i ng :   A   R e v i e w ,   J our n al   of   K i ng  S aud  U ni v e r s i t y   -   C om put e r   and   I nf or m a t i on   Sc i e nc e s ,   v o l .   3 1,   no .   1,   p p.   1 - 14 ,   2019 .   [ 30]   S .   S i ng a n P .   S i ng h S pe a ke r   S p e c i f i c   F e a t ur e   B a s e d   C l u s t e r i n g   a nd  I t s   A ppl i c a t i o ns   i L a ng ua g e   I nde pe nde n t   F o r e ns i c   S pe a ke r   R e c o g ni t i o n ,   I nt e r n at i on al   J our nal   o f   E l e c t r i c al   and   C om put e r   E n gi ne e r i n g ,   v o l .   10 ,   no .   4 ,     pp.   35 08 - 35 1 8 ,   202 0.   [ 31]   J .   P e t r us ,   e t   a l . S o f t   a nd   H a r d   C l us t e r i ng   f o r   A bs t r a c t   S c i e nt i f i c   P a pe r   i n   I ndo ne s i a n ,   in   2 019   I n t e r nat i on al   C onf e r e nc e   on   I nf or m a t i c s ,   M u l t i m e di a ,   C y be r   and   I nf or m a t i on   Sy s t e m   ( I C I M C I S) ,   pp.   1 31 - 136 ,   20 19 .   [ 32]   B .   N i e   a nd  S .   S un U s i ng   T e xt   M i ni ng   T e c hni q ue s   t o   I de nt i f y   R e s e a r c T r e nds :   A   C a s e   S t udy   of   D e s i g Re s e a r c h ,   A ppl i e S c i e nc e s ,   v o l .   7 ,   no .   4 ,   pp .   401: 1 - 21,   2 017 .   [ 33]   M .   A l l a hy a r i ,   e t   a l . A   B r i e f   S u r v e y   o f   T e xt   M i ni ng :   C l a s s i f i c a t i o n,   C l us t e r i ng   a nd   E x t r a c t i o T e c hni q ue s ,   i n   P r oc e e di ngs   o f   K D D   B i gd as ,   2 017 .   Evaluation Warning : The document was created with Spire.PDF for Python.