I n d on e s i an   Jo u r n al   o El e c t r i c al   En gi n e e r i n g   an d   C o m p u te r   S c i e n c e   V o l .   1 9 ,   N o .   3 S e pt e m b e r   20 20 ,   pp .   1533 ~ 153 9   IS S N :   25 02 - 4752 ,   D O I :   10. 1 1591 / i j e e c s . v 19 .i 3 . pp 153 3 - 153 9             1533       Jou r n al   h o m e pa ge ht t p: / / i j e e c s . i a e s c or e . c om   M a i n   k e y w o r d   c o m p a r i s o n   b a s e d   o n   d o c u m e n t   a n a l y si s   sy st e m         Jo n gw o n   Le e ,   J ae s e u n g   L e e H o e k yu n Ju n g   D e pa r t m e n t   o f   C o m put e r   E ng i n e e r i ng ,   P a i c ha i   U n i v e r s i t y ,   S o ut h   K o r e a       A r ti c l e   I n fo     A B S TR A C T   Ar t i c l e   h i s t or y :   R e c e i v e d   F e b   10,   2 0 20   R e v i s e M a r   1 ,   20 20   A c c e pt e M a r   1 5 ,   20 20       E xi s t i ng   do c um e nt   a na l y s i s   s y s t e m s   l i s t   w o r d s   i t h e   do c um e n t   u s i ng   a   m o r phe m e   a n a l y z e r .   S uc a   s t r uc t u r a l   f e a t ur e   i s   d i f f i c ul t   t o   he l us e r s   t o   unde r s t a nd   t he   do c um e nt .   T o   un de r s t a nd   a   do c um e nt ,   y o ne e t o   a na l y z e   t he   k e y w o r i t he   do c um e nt   a nd  e x t r a c t   t h e   pa r a g r a phs   i nc l udi ng   t h e   ke y w o r d.   T h e   p r o po s e s y s t e m   r e t r i e v e s   ke y w o r ds   f r o m   doc um e nt s   w r i t t e n   i X M L   f o r m a t ,   e xt r a c t s   t h e m ,   a nd  d i s p l a y s   t he m   t o   t h e   us e r .   I a ddi t i o n,     i t   e xt r a c t s   t he   p a r a g r a ph s   i nc l udi ng   t he   ke y w o r e nt e r e by   t he   us e r   a nd   m a i n t a i ns   p a r a g r a ph  s e que nc e   a nd  de l e t e   f o r   dupl i c a t e   p a r a g r a ph s .   T he n ,   t he   f r e que nc y   a nd  w e i g ht   o f   t he   ke y w o r a r e   c a l c ul a t e d,   a nd  t he   n um be r   o f   pa r a g r a ph s   i s   r e duc e b y   r e m ov i ng   t he   pa r a g r a p hs   i nc l ud i ng   t he   ke y w o r d   ha v i ng   a   w e i g ht   l e s s   t ha o t h e r   ke y w o r ds   w e i g he d .   T h i s   m e t ho m a y   r e duc e   t he   t i m e   a n e f f o r t   r e qu i r e f o r   t he   us e r   t o   unde r s t a nd  t he   do c um e nt   a s   c om pa r e d   t o   t he   e xi s t i ng   do c um e nt   a n a l y s i s   s y s t e m s .     Ke y w or d s :   D e dupl i c a t i o n   D o c um e n t   a n a l y s i s   K e y w o r d   P a ra g ra p e xt r a c t i o n   S e que n c e   m a i nt e n a n c e   C opy r i gh t   ©   2020   I n s t i t ut e   o f   A dv anc e E ng i ne e r i ng   and   S c i e nc e .     A l l   r i gh t s   r e s e r v e d .   Cor r e s pon di n g   Au t h or :   H o e k y un J u n g ,     D e pa rt m e n t   o f   Co m put e E ngi n e e ri n g ,     P a i c ha i   U n i v e r s i t y ,     155 - 40   B a e j a e - r o ,   S e o - gu,   D a e j e o n ,   S o ut K o r e a .     E m a i l :   h kj u n g @ pc u. a c . k r         1.   I N TR O D U C TI O N   M o s t   e xi s t i n do c um e nt   a n a l y s i s   s y s t e m s   us e   m o r p h o l o gi c a l   a n a l y s i s .   T h o s e   s y s t e m s   us e   t h e   f un c t i o n s   o f   t h e   m o r p h e m e   a na l y z e r .   A l s o ,   t h e   s y s t e m s   s h o w   w o r l i s t .   T h e   w o r l i s t   c o n s i s t s   o f   w o r ds   i n   t h e   do c um e n t   [1 - 3 ] .   O t h e r   s y s t e m s   pe r f o r m   t h e   f un c t i o n   o f   s e a r c hi n f o r   do c um e n t s   o r   pa ra g ra p h s   i n c l ud i n g   ke y w o r ds   t h a t   t h e   us e i n p ut s   [ 4 ] .   H ow e v e r ,   e xi s t i ng  s y s t e m s   do   n o t   u n de r s t a nd  do c um e nt s   e f f i c i e n t l y   b e c a us e   t h e y   j us t   s h o w   k e y w o r ds   o r   pa ra g ra p h s   [5 - 7] .   I n   o r d e r   t o   e f f i c i e n t l y   un de r s t a nd  a   do c um e nt ,   i f   a   us e i n put s   a   ke y w o r t h e n ,   t h e   s y s t e m   m us t   s e a r c h   f o r   pa r a g ra p h s   i n c l ud i n t ha t   ke y w o r a n e xt ra c t   t h e m   [8],   [9] .   A l s o ,   e xt ra c t e p a r a g ra p h s   a r e   a na l y z e t o   f o r m   i m po rt a nt   p a r a g r a p h s   a n di s pl a y e t o   t h e   us e r   [ 10 - 12 ].   In   t h i s   pa pe r,   w e   pr o po s e   a   s y s t e m   f o r   e xt r a c t i n i m po rt a nt   pa ra g r a p h s .   T h e   s y s t e m   h e l ps   us e r   t o   e ff i c i e n t l y   a n a l y z e   X M L   doc um e n t   t y pe   r e po r t s   a nd  a rt i c l e s   [13] .   It   a l s o   m a i n t a i n s   t h e   s e que n c e   of   t h e   pa r a g ra p h s   a n d   r e m o v e s   dupl i c a t e   pa ra g ra p h s .   T h e n,   t h e   w e i ght   o f   t h e   ke y w o r i s   c a l c ul a t e d,   a n t h e   s y s t e m   r e m o v e s   pa r a g ra p h s   i n c l ud i n ke y w o r of  l ow e s t   w e i gh t   [ 14 - 16] .   T h i s   f un c t i o n   i n c r e a s e s   t h e   c o m pr e s s i o n   ra t e .   T hi s   s ugge s t s   t h a t   t h e   p r o po s e s y s t e m   c a n   s h o r t e n   t h e   t i m e   r e qui r e t o   a n a l y z e   d oc um e n t s   c o m pa r e t o   e xi s t i n g   s y s t e m s   [17] .       2.   S Y S TE M   D ES I G N   T h i s   s e c t i o n   de s c r i b e s   t h e   de s i g n   o f   t h e   pr o po s e s y s t e m .   T h e   s y s t e m   i s   de s i gn e i n   t hr e e   hi e ra r c h i c a l   s t r uc t u r e s   [18 - 2 0] .   T h e   s y s t e m   w a s   i m pl e m e nt e i n   J a v a ,   w h i c h   m a ke s   i t   po s s i b l e   t o   r un   i n   v a r i o us   e n v i r o n m e n t s   w i t h o ut   de pe n di n o n   O S .   F i gu r e   1   s h o w s   t h e   s t r uc t u r e   o t h e   s y s t e m   t o   m e e t   t h e   r e qui r e m e nt s   a n d   F i gu r e   s h o w s   t h e   f l o w   of   t h e   s y s t e m   [21]       Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   1 9 ,   N o .   3 S e pt e m b e r   20 20  :     15 33   -   15 3 9   1534       F i gu r e   1 .   S y s t e m   c o n f i gur a t i o n           F i gu r e   2 .   S y s t e m   pr o c e s s i n g       T h e   f un c t i o n s   r e qu i r e f o r   s y s t e m   de s i gn  a r e   a s   f o l l o w s .   a)   F un c t i o n   t o   l o a us e r - e n t e r e do c um e n t s .   b)   F un c t i o n   t o   s e a r c a nd  e xt ra c t   ke y w o r f r o m   a   do c um e nt .   c)   F un c t i o n   t o   s e a r c a nd  e xt ra c t   pa ra g ra p h s   i n c l ud i n g   ke y w o r d.   d)   F un c t i o n   t o   m a i nt a i n   a n d   s o r t   t h e   s e que n c e   o f   e xt r a c t e pa ra gra p h s .   e)   F un c t i o n   t o   c h e c f o r   du pl i c a t e s   o f   e xt r a c t e d   pa ra g ra p h s .   f)   F un c t i o n   t o   c a l c ul a t e   t h e   f r e que n c y   of   ke y w o r a n d   c o m pa r e   i t   t o   w e i ght   o f   o t h e r   g)   F un c t i o n   t o   r e m o v e   pa ra g r a p h s   i n c l udi ng  ke y w o r o f   l o w e s t   w e i ght .   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Mai n   k e y w or c om par i s on   bas e on  d oc um e nt   ana l y s i s   s y s t e m   ( J ongw on  L e e )   1535   T h e   S y s t e m   P r o c e s s o r   r e t r i e v e s   ke y w o r t a gs ,   e xt ra c t s   ke y w o r d,   a nd  di s p l a y s   t h e   ke y w o r d.   S ub s e que n t l y ,   t h e   us e r   i n pu t s   a   ke y w o r t ha t   t h e y   w a n t   t o   s e a r c h.   W h e n   t h e   us e r   i nput s   a   ke y w o r d,   t h e   s y s t e m   s e a r c h e s   a n e xt ra c t s   t h e   pa ra g ra p h s   i n c l udi ng  t h e   ke y w o r d.   T h e n   t h e   s y s t e m   s o r t s   t h e   e xt ra c t e pa r a g ra p h s   i n   t h e i r   o ri gi na l   o r de r   a nd  c h e c fo r   dupl i c a t e   p a r a g ra p h s .   If   a   r e du n d a n t   p a r a g ra p h   i s   de t e c t e d,   t h e   s y s t e m   w i l l   de dupl i c a t e   r e pe t i t i v e   pa r a g ra p h s .   T h e   s y s t e m   t h e n   c a l c u l a t e s   t h e   f r e que n c y   a n w e i gh t   o f   t h e   ke y w o r d.   A l s o ,   t h e   s y s t e m   r e m o v e s   pa r a g ra p h s   i n c l udi ng  ke y w o r o f   l ow e s t   w e i gh t   [22 - 25] T h e   s y s t e m   di s pl a y s   t h e   ke y w o r d,   w e i ght   o f   k e y w o r d,   a n p a r a g ra p h s .   It   c a n   r e c e i v e   r e f i n e i n f o r m a t i o n   m o r e   t h a e xi s t i n s y s t e m s   b a s e o n   m o r p h e m e   a na l y s i s .   In   a d di t i o n,   t h e   s y s t e m   e xt r a c t i n m a i n   p a ra g r a p h s   a r e   c o n s i de r e t o   b e   a b l e   t o   s h o rt e t h e   t i m e   r e qu i r e f o r   do c um e n t   c o m pr e h e n s i o n.       3.   S Y S TE M   I M P LEM EN TA TI O N   T h i s   c h a pt e r   de s c r i b e s   t h e   i m pl e m e nt a t i o a n d   e ff i c i e n c y   of   t h e   p r o po s e s y s t e m .   Im p l e m e n t a t i o n   a n e xpe r i m e nt s   w e r e   us i n g   a   P C.   T h e   P C   i s   O S   W i n do w s ,   CP U   -   Int e l   i 5 - 4690 ,   R A M   -   8.   W h e t h e   s y s t e m   s t a r t s ,   t h e   us e r   i n p ut s   t h e   f i l e   n a m e   us e r   w a nt s   t o   a na l y z e .   T h e n   t h e   f i l e   l o a ds   us i n f un c t i o n   o f   t h e   F i l e Input S t r e a m   c l a s s .   A n d ,   f un c t i o n   o f   B u f fe r   c l a s s   i s   ut i l i z e d,   t ha t   r e a ds   t h e   c o n t e nt s   o f   t h e   f i l e .   F i gu r e   s h o w s   t h e   f l o w   o f   t h e   f un c t i o n.     T h e   s y s t e m   s e a r c h e s   f o r   t h e   do c um e n t   w i t t h e   f i l e   na m e   e nt e r e by   t h e   us e r .   T h e n   s y s t e m   s e a r c h e s   t h e   ke y w o r t a a n e xt r a c t s   t h e   ke y w o r d,   t h e n   s y s t e m   di s pl a y s   i t   t o   t h e   us e r .   F i gu r e   s h o w s   t h e   f l ow     of   t h e   f un c t i o n .   W h e n   t h e   ke y w o r e xt ra c t i o n   i s   c o m pl e t e d,   t h e   us e r   i n pu t s   a   ke y w o r d.   T h e n   t h e   s y s t e m   s e a r c h e s   fo r   pa ra g ra p h s   t ha t   c o nt a i n   t h e   ke y w o r t h a t   t h e   us e r   e nt e r e a n e xt ra c t s   t h e m .   F i g u r e   s h o w s   t h e     f un c t i o n   f l o w .   A f t e r   c o m pl e t i n pa ra g ra p h s   s e a r c h   i n c l ud i n ke y w o r ds ,   t h e   s y s t e m   c o un t s   t h e   n u m b e r   of  pa r a g ra p h s .   F i gu r e   s h o w s   t h e   f l o w   of   t h e   f u n c t i o t o   c o unt   t h e   num b e o f   pa ra g r a p h s   i n c l udi ng  ke y w o r d.   T h e   s y s t e m   d o e s   s e que n c e   m a i nt e n a n c e   f un c t i o n   a n de dupl i c a t i o n   f u n c t i o n   o f   t h e   pa ra g r a p h.   T h e n,   t h e   s y s t e m   c a l c ul a t e s   n u m b e r   o f   pa r a g r a p h s   a n ke y w o r w e i ght .   F i g u r e   s h o w s   t h e   s e que n c e   m a i nt e na n c e   a n de dupl i c a t i o f l ow .             F i gu r e   3 .   X M L   do c um e nt   f i l e   o pe n   f l o w c h a rt           F i gu r e   4 .   K e y w o r e xt r a c t i o f l ow c h a r t           F i gu r e   5 S e a r c h   pa ra g ra p h   f l o w c h a rt           F i gu r e   6 .   Co u n t i n g   pa ra g ra p h s   f l o w c h a rt   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   1 9 ,   N o .   3 S e pt e m b e r   20 20  :     15 33   -   15 3 9   1536       F i gu r e   7 .   C h e c d upl i c a t i o n   f l o w c h a rt       A f t e r   s e que n c e   m a i n t e n a n c e   a n de dup l i c a t i o n,   s y s t e m   c h e c ks   t h e   f r e que n c y   a n w e i gh t   of  ke y w o r d.   T h e n,   t h e   f r e que n c y   of   t h e   ke y w o r i s   e xpr e s s e a s   a   pe r c e n t a ge .   N e xt ,   t h e   s y s t e m   c h e c ks   fo r   ke y w o r o f   t h e   l o w e s t   f r e que n c y ,   a l s o   t h e   s y s t e m   c h e c k s   fo r   ke y w o r of   l ow e s t   f r e que n c y   a n t h e   s y s t e m   r e m o v e s   t h e   p a r a g r a p h s   i n c l udi ng  t h e   ke y w o r o f   l ow e s t   f r e que n c y .   If   t h e r e   a r e   p a ra g r a p h s   t ha t   c o n t a i n   o n l y   a   s pe c i f i c   ke y w o r b ut   n o   o t h e r   ke y w o r d,   t h e   s y s t e m   r e m o v e s   pa r a g ra p h s .   If   t h e r e   a r e   t w o   o r   m o r e   o t h e r   ke y w o r ds   w h i c h   f o r m   pa rt   o t h e   ke y w o r w i t h   l o w e s t   w e i ght ,   t h e n   s y s t e m   do e s   n o t   r e m o v e   s uc h   ke y w o r ds .   If   a   pa ra g r a p h   c o n t a i n s   m o r e   t h a o n e   w o r d,   i t   m a ke s   i t   di f f i c ul t   t o   unde r s t a n d   t h e   do c um e nt .   F i gu r e   8   s h o w s   t h e   f l ow   o f   f un c t i o n.   T h i s   c a l c ul a t e s   ke y w o r f r e que n c y   a n ke y w o r w e i ght   a n d   de t e r m i n e s   w h e t h e r   t o   o ut put   pa ra g ra p h s   b a s e o ke y w o r f r e que n c y .           F i gu r e   8 .   P a ra g ra p a na l y s i s   f l ow c h a rt       M o s t   e xi s t i n do c um e n t   a n a l y s i s   s y s t e m s   w e r e   de ve l o pe d   b a s e o n   m o r p h e m e   a n a l y z e r .   F o r   t h i s   r e a s o n,   t h e   m a i n   pu r po s e   of   t h e   e xi s t i ng  s y s t e m   w a s   t o   c l a s s i fy   t h e   w o r ds   us e i t h e   c r e a t i o n   o f   t h e   do c um e n t   a nd  t o   c h e c t h e   f r e que n c y .   In   a ddi t i o n ,   t h e   e xi s t i n s y s t e m   o n l y   c h e c ks   i de n t i t y   t o   w h e t h e r   t h e   do c um e n t   i n c l ude s   a   ke y w o r d.   T h e n   us e r   m us t   r e a a l l   p a r a gr a p h s   i n   t h e   do c um e n t .   T h e s e   r e s ul t s   a   p r o b l e m   of   n o t   b e i n g   a b l e   t o   r e duc e   t h e   t i m e   r e qui r e t o   u n de r s t a n d   t h e   do c um e n t .   S o ,   e xi s t i n g   s y s t e m s   c a nn o t   h e l us e r s   t o   un de r s t a nd  do c um e n t s   b e c a us e   of   s t r uc t u r a l   l i m i t a t i o n s .   If   t h e   s y s t e m   c a n   e xt ra c t   pa ra g r a p h s   i n c l udi ng  us e r   i n pu t t e ke y w o r t h e n ,   t h e   s y s t e m   c a h e l p   t o   u n de r s t a nd  t h e   do c um e nt .   T o   s o l v e   t he s e   p ro b l e m s ,   t he   p ro p o s e d   s y s t e m   e x t r a c t s   t he   p a r a g r a p h s   i nc l u d i n g   t h e   k e y w o rd   e n t e re d   b y   t he   u s e r.   A l s o ,   t he   s y s t e m   d o e s   s e q u e nc e   m a i n t e n a nc e   o f   e x t r a c t e d   p a r a g r a p h s   a n d   re m o v e   d u p l i c a t e   p a r a g r a p hs .     T he n ,   t he   f re q u e nc y   o f   t he   k e y w o rd   i s   c he c k e d ,   a n d   t he   w e i g h t   i s   c a l c u l a t e d   a n d   d i s p l a y e d   t o   t he   u s e r .   E x p e r i m e n t s   w e re   c o n d u c t e d   w i t h   s i x   no r m a l i z e d   X M L   d o c u m e n t s .   W e   c o m p a re   t h e   e x i s t i n g   s y s t e m   a n d   p ro p o s e d   s y s t e m .   F i gu r e   9   s h o w s   e xpe r i m e nt   T e s t   1 .   I n   t h e   f i r s t   e xpe r i m e n t   T e s t   1 ‟,   t h e   e xi s t i ng  s y s t e m   e xt r a c t e 108   pa r a g ra p h s .   A nd  p r o po s e s y s t e m   e xt r a c t e 1 02   p a ra g r a p h s   a n d   s y s t e m   de l e t e s   6   p a r a g ra p h s .   A l s o ,   s y s t e m   c o m pa r e   e a c h   s e c t i o n   c e nt r a l i t y   t h e n,   t h e   s y s t e m   s e l e c t s   a   m a i n   s e c t i o n   i n c l udi ng  10   m a i n   pa ra g ra p h s .     F i gu r e   10  s h o w s   e xpe r i m e nt   T e s t 2 .   I n   t h e   s e c o n e xpe r i m e n t   T e s t   2‟ ,   t h e   e xi s t i n s y s t e m   e xt ra c t e 160  pa r a g ra p h s .   A nd  p r o po s e s y s t e m   e xt r a c t e 7 p a r a g r a p h s   a n s y s t e m   de l e t e s   88  pa ra g ra p h s .   A l s o ,   s y s t e m   c o m pa r e s   e a c h   s e c t i o n   c e n t r a l i t y   t h e n ,   t h e   s y s t e m   s e l e c t s   a   m a i n   s e c t i o n   i n c l u di n m a i n   p a ra g r a p h s .     F i gu r e   11  s h o w s   e xpe r i m e nt   T e s t   3.   I n   t h e   t h i rd  e xpe r i m e n t   „T e s t   3‟ ,   t h e   e xi s t i n s y s t e m   e xt r a c t e 62  Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Mai n   k e y w or c om par i s on   bas e on  d oc um e nt   ana l y s i s   s y s t e m   ( J ongw on  L e e )   1537   pa r a g ra p h s .   A nd  p r o po s e s y s t e m   e xt r a c t e 4 p a r a g r a p h s   a n s y s t e m   de l e t e s   22  pa ra g ra p h s .   A l s o ,   s y s t e m   c o m pa r e s   e a c h   s e c t i o n   c e n t r a l i t y   t h e n ,   t h e   s y s t e m   s e l e c t s   a   m a i n   s e c t i o n   i n c l u di n m a i n   p a ra g r a p h s .     F i gu r e   12  s h o w s   e xpe r i m e nt   T e s t   4 .   I n   t h e   f o ur t h   e xpe ri m e n t   T e s t   4‟.   T h e   e xi s t i n s y s t e m   e xt r a c t e 29   pa r a g ra p h s .   A n p r o po s e s y s t e m   e xt r a c t e 20  pa ra g ra p h s   a n s y s t e m   de l e t e s   pa r a g r a p h s .   A l s o ,   s y s t e m   c o m pa r e s   e a c h   s e c t i o c e n t ra l i t y   t h e n,   t h e   s y s t e m   s e l e c t s   a   m a i s e c t i o n   i n c l ud i n m a i pa ra g ra p h s .     F i gu r e   13  s h o w s   e xp e r i m e nt   T e s t   5.   I n   t h e   f i f t h   e xpe r i m e n t   T e s t   5‟,   t h e   e xi s t i n s y s t e m   e xt r a c t e 29  pa r a g ra p h s .   A n p r o po s e s y s t e m   e xt r a c t e 26  pa ra g ra p h s   a n s y s t e m   de l e t e s   pa r a g r a p h s .   A l s o ,   s y s t e m   c o m pa r e s   e a c h   s e c t i o n   c e n t r a l i t y   t h e n ,   t h e   s y s t e m   s e l e c t s   a   m a i n   s e c t i o n   i n c l u di n m a i n   p a ra g r a p h s .     F i gu r e   14  s h o w s   e xpe r i m e n t   T e s t   6.   I n   t h e   s i xt h   e xpe r i m e n t   T e s t   6‟,   t h e   e xi s t i ng  s y s t e m   e xt r a c t e 49  pa r a g ra p h s .   A n p r o po s e s y s t e m   e xt r a c t e 42  pa ra g ra p h s   a n s y s t e m   de l e t e s   pa r a g r a p h s .   A l s o ,   s y s t e m   c o m pa r e s   e a c h   s e c t i o c e n t ra l i t y   t h e n,   t h e   s y s t e m   s e l e c t s   a   m a i s e c t i o n   i n c l ud i n m a i pa ra g ra p h s .           F i gu r e   9 .   E xpe r i m e nt   t e s t   1           F i gu r e   10 .   E xpe r i m e n t   t e s t   2           F i gu r e   11 .   E xpe r i m e n t   t e s t   3           F i gu r e   12 .   E xpe r i m e n t   t e s t   4           F i gu r e   13 .   E xpe r i m e n t   t e s t   5       F i gu r e   14 .   E xpe r i m e n t   t e s t   6   Evaluation Warning : The document was created with Spire.PDF for Python.
                                IS S N :   2502 - 4752   In do n e s i a J   E l e c   E ng  &   Co m S c i ,   V o l .   1 9 ,   N o .   3 S e pt e m b e r   20 20  :     15 33   -   15 3 9   1538   F i gu r e   15  s h o w s   de l e t e pa r a g ra p h   f o r   e a c h   e xpe ri m e nt   a nd  F i gu r e   16  s h o w s   n um b e r   o f   e xt ra c t e m a i n   pa ra g ra p h s .   T h e   E xpe r i m e n t a l   R e s ul t   p r o po s e t h a t   d e l e t e pa ra g ra p h   m o r e   t h a n   e x i s t i ng  s y s t e m .     A l s o ,   p r o po s e s y s t e m   c o m pr e s s i o n   ra t e   i n c r e a s e s   f o r   p r o po s e s y s t e m .   B e c a us e ,   t h e   e xi s t i n g   s y s t e m   e xt ra c t e a l l   t h e   pa r a g r a p h s   i n c l udi ng  t h e   ke y w o r t h a t   t h e   us e r   i n pu t s .   T h e   e xi s t i n s y s t e m   e xt r a c t e a l l   t h e   pa r a g ra p h s   i n c l u di n g   t h e   ke y w o r t ha t   t h e   us e r   i n pu t s .   T h e   pr o po s e s y s t e m   i s   a b l e   t o   s e que nt i a l l y   m a i n t a i f un c t i o n,   de dup l i c a t i o n   f u n c t i o n ,   a n d   r e m o v e   pa r a g ra p h s   i n c l udi ng  ke y w o r o f   l ow e s t   w e i gh t .   B a s e o n   t hi s ,   t h e   us e c a n   s e e   i m po r t a n t   p a r a g ra p h s   a n d   i t   i s   c o n f i rm e t ha t   t h e   p r o po s e s y s t e m   h e l ps   t h e   us e t o   unde r s t a n d   t h e   do c um e n t   m o r e   e f f i c i e n t l y   t h a t h e   t ra di t i o n a l   s y s t e m .             F i gu r e   15 .   D e l e t e   p a ra g r a p h s     F i gu r e   16 .   E xt ra c t e m a i pa ra g ra p h s       4.   C O N C LU S I O N S   T he   p ro p o s e s y s t e m   re t ri e v e s   t he   X M L   do c u m e nt   t y pe   i np u t t e d   b y   t he   u s e a nd   t he d i s p l a y s   t he   k e y w o rd   o f   t he   d o c u m e nt .   A nd ,   w he n   u s e i np u t s   t he   k e y w o rd ,   t he   s y s t e m   s e a rc he s   a nd   e x t r a c t s   t he   p a ra g ra p hs   i nc l u d i ng   t he   k e y w o rd .   T he n ,   t he   s y s t e m   do e s   s e q u e nc e   m a i nt e na nc e   o f   p a ra g ra p hs ,   a nd   d e l e t e   d u p l i c a t e   p a r a g ra p hs   i f   t he y   e x i s t .   T he n ,   t he   s y s t e m   c a l c u l a t e s   f re q ue nc y   o f   t he   k e y w o rd   a nd   t he   k e y w o rd   w e i g ht .   S u b s e q ue nt l y ,   t he   s y s t e m   re m o v e s   t he   p a ra g ra p hs   i nc l u d i ng   t he   k e y w o rd   o f   l o w e s t   w e i g ht .   I f   a   p a ra g ra p i nc l u d e s   t w o   o m o re   k e y w o rds ,   t he   s y s t e m   do e s   no t   re m o v e   t he   p a ra g r a p h.   B e c a u s e ,   do i ng   t hi s   b re a k s   t he   o ri g i na l   d o c u m e nt   c o nt e x t .   A l s o ,   t h i s   s i t u a t i o i s   s a m e   w he t he   s y s t e m   s e a rc he s   o nl y   o ne   k e y w o rd .   N e x t ,   t he   s y s t e m   s o rt s   p a r a g ra p hs   t he n,   d i s p l a y s   t he   p a ra g ra p hs   t o   t he   u s e r.   S o ,   t he   s y s t e m   c a he l p   u s e rs   b e t t e u nd e rs t a nd   t he   d o c u m e nt .   T he re f o re ,   t he   p ro p o s e d   s y s t e m   i s   m o re   e f f i c i e nt   i a na l y z i ng   d o c u m e nt s   b e t t e t h a e x i s t i ng   s y s t e m .       A C K N O WL ED G E M EN TS     T h i s   w o r w a s   s uppo r t e d   by   t h e   r e s e a r c g ra n t   o f   P a i c ha i   U ni v e r s i t y   i 2020 .       R EF ER EN C ES   [ 1]   J .   R .   L i ,   E .   H .   L e e ,   a nd   J .   H .   L e e ,   S e q ue nc e - to - s e que nc e   ba s e M o r p ho l o g i c a l   A na l y s i s   a nd   P a r t - Of - S pe e c T a g g i ng   f o r   K o r e a L a ng ua g e   w i t h   C o nv o l ut i o na l   F e a t ur e s ,   J ou r nal   of   K o r e an  I ns t i t u t e   of   I nf o r m a t i o S c i e nt i s t s   and  E ng i ne e r i ng ,   v o l .   44 ,   no .   1 ,   pp .   57 - 62 ,   J a n   20 17.     [ 2]   K .   S .   S hi m ,   C l o ni ng   of   K o r e a M o r pho l o g i c a l   A na l y z e r s   us i ng   P r e - a na l y z e E o j e o l   D i c t i o na r y   a nd  S y l l a bl e - ba s e d   P r o ba bi l i s t i c   M o de l ,   J ou r na l   of   K or e an  I ns t i t u t e   of   I n f o r m at i o Sc i e n t i s t s   and  E n gi ne e r i ng ,   v o l .   22 ,   no .   3 ,     pp.   11 9 - 126,   M a r   2 016 .   [ 3]   K .   S .   S hi m ,   A ut o m a t i c   W o r S pa c i ng   U s i ng   R a w   C o r pu s   a n a   M o r pho l o g i c a l   A na l y z e r ,   J our nal   of   K or e an   I ns t i t u t e   o f   I n f or m a t i on   Sc i e nt i s t s   and   E n gi ne e r i ng ,   v o l .   42,   no .   1 ,   p p.   68 - 75 ,   J a n   20 15 .   [ 4]   J .   H .   L e e ,   K .   S .   S o ng ,   J .   A .   K a ng ,   a n J .   R .   H w a ng ,   A   s t udy   o t he   e f f i c i e n t   e x t r a c t i o n   m e t ho o f   S N S   d a t a   r e l a t e t o   c r i m e   r i s k   f a c t o r ,   J ou r na l   o f   T he   K o r e a   S o c i e t y   o f   C o m p u t e r   a n d   I n f or m a t i o n ,   v o l .   2 0 ,   no .   1 ,   pp .   2 55 - 2 63 ,   J a n   2 0 15 .   [ 5 ]   H .   Y .   L e e ,   J .   S .   L e e ,   B .   D .   K a n g ,   a n d   S .   W .   Y a n g ,   F u n c t i o n a l   E x p a n s i o n   o f   M o r p h o l o g i c a l   A n a l y z e r   B a s e d   o n   L o n g e s t   P h r a s e   M a t c h i n g   F o r   E f f i c i e n t   K o r e a n   P a r s i n g ,   J o u r n a l   o f   D i g i t a l   C o n t e n t s   S o c i e t y ,   v o l .   1 7 ,   n o .   3 ,   p p .   2 0 3 - 2 1 0 ,   J u n   2 0 1 6 .     [ 6]   J .   Y .   L e e ,   J .   H .   L e e ,   a nd   Y .   H .   P a r k ,   A   de s i g a nd   i m p l e m e nt a t i o o f   t he   m a n a g e m e nt   s y s t e m   f o r   num b e r   o f   ke y w o r s e a r c h i ng   r e s ul t s   u s i ng   G oog l e   s e a r c hi ng   e ng i n e ,   J ou r nal   o f   T he   K or e I n s t i t ut e   o f   I n f o r m at i on  and   C om m uni c at i on   E n gi ne e r i ng ,   v o l .   20,   no .   5 ,   pp.   8 80 - 886 ,   M a y   2016 .   [ 7]   J .   Y .   L e e ,   J .   H .   L e e ,   a n Y .   H .   P a r k ,   D o c um e nt   C l a s s i f i c a t i o n   M o de l   U s i ng   W e b   D o c um e nt s   f o r   B a l a nc i ng   T r a i ni ng   C o r pus   S i z e   pe r   C a t e g o r y ,   J o ur n al   of   I nf o r m a t i o a nd  C om m u ni c at i on   C on v e r ge nc e   E ng i ne e r i ng   v o l .   11,   no .   4 ,   pp.   2 68 - 273 ,   D e c   201 3.   Evaluation Warning : The document was created with Spire.PDF for Python.
In do n e s i a J   E l e c   E ng  &   Co m S c i     IS S N :   2502 - 4752       Mai n   k e y w or c om par i s on   bas e on  d oc um e nt   ana l y s i s   s y s t e m   ( J ongw on  L e e )   1539   [ 8]   K .   C a o ,   J .   W .   L e e ,   a nd  H .   K .   J ung ,   K e y w o r A na l y s i s   B a s e d   D oc um e nt   C o m pr e s s i o S y s t e m ,   J o ur n al   o f   I nf or m a t i on  and   C om m un i c at i on   C on v e r ge nc e   E ng i ne e r i ng ,   v o l .   1 6 ,   no .   1 ,   pp .   48 - 51,   M a r   2 018 .   [ 9]   H .   S .   H a ,   a n B .   Y .   H w a ng ,   K e y w o r d   F i l t e r i ng   a bo u t   D i s a s t e r   a n t he   M e t ho d   o f   D e t e c t i ng   A r e a   i n   D e t e c t i ng   R e a l - T i m e   E v e n t   U s i ng   T w i t t e r , ”  J ou r n a l   o f   K o r e a   I n f o r m a t i o n   P r o c e s s i n g   S o c i e t y ,   v o l .   5 ,   no .   7 ,   pp .   3 45 - 3 50 ,   J u l   20 1 6 .   [ 10]   J .   Y i m ,   B .   H w a ng ,   T w i t t e r   B a s e R e a l t i m e   E v e nt - L oc a t i o D e t e c t o r ,   J our na l   of   K or e I n f or m a t i on  P r oc e s s i ng   Soc i e t y   T r an s ac t i on s   o Sof t w ar e   and   D a t a   E ng i ne e r i ng v o l .   4 ,   n o .   8 ,   p p.   30 1 - 308 ,   2 015 .   [ 11]   X .   Z ho u,   L .   C he n,   E v e nt   D e t e c t i o o v e r   T w i t t e r   S o c i a l   M e d i a   S t r e a m s ,   T he   I nt e r nat i on al   J our nal   o V e r y   L ar ge   D at a   B as e s v o l .   23 ,   n o .   3,   pp .   381 - 40 0,   J u 2014 .   [ 12]   S .   H .   N a ,   J .   I .   K i m ,   E .   J .   L e e ,   P .   K .   K i m ,   A   S t ud y   o t he   S ho r t   T e x t   C a t e g o r i z a t i o us i ng   S N S   F e a t ur e   I n f o r m a t i o ns ,   J our n al   o f   K or e an   I n s t i t ut e   of   I nf o r m a t i o T e c h nol o gy v o l .   1 4,   n o .   6 ,   p p.   15 9 - 165 ,   J un   20 16.   [ 13]   J .   H .   K w o n,   D .   K .   L e e ,   S o c i a l   S e a r c E ng i ne   us i ng   L oc a t i o ba s e S o c i a l   N e t w o r S e r v i c e , ”  J ou r na l   of   T he   Ko r e an  I ns t i t u t e   o f   I n f or m at i on   T e c hno l o gy v o l .   10 ,   n o .   3 ,   pp .   179 - 187,   M a r   2 012 .   [ 14]   D .   W .   K i m   a nd  M .   W .   K o o .   C a t e g o r i z a t i o o f   K o r e a N e w s   A r t i c l e s   B a s e o C o nv o l ut i o na l   N e u r a l   N e t w o r k   U s i ng   D o c 2V e c   a nd  W o r d2V e c , ”  J o ur n al   of   K or e an  I ns t i t u t e   of   I nf or m at i on  Sc i e nt i s t s   a nd  E n gi ne e r i n g v o l .   4 4.     n o .   7 ,   pp.   7 42 - 747 ,   J u l   2 017 .   [ 15]   J .   M .   K i m   a nd  J .   H .   L e e ,   T e xt   D o c um e nt   C l a s s i f i c a t i o B a s e o R e c ur r e n t   N e u r a l   N e t w o r U s i ng   W o r d2v e c , ”  J our nal   o f   K or e an   I n s t i t ut e   of   I nt e l l i ge nt   Sy s t e m s v o l .   2 ,   n o .   6,   pp .   560 - 565 ,   D e c 2 017 .   [ 16]   R .   L i ,   K .   H .   L e i ,   R .   K h a d i w a l a ,   a nd  K .   C ha ng ,   T E D A S :   a   T w i t t e r   B a s e d   E v e nt   D e t e c t i o a n A na l y s i s   S y s t e m , ”  P r oc .   of   t he   I E E E   2 8t h   I nt e r n at i on al   C on f e r e nc e   on   D a t E ng i ne e r i ng ,   pp .   127 3 - 1276 ,   A pr   201 2.   [ 17]   M .   Y .   R e a nd  S .   J .   K a ng .   C o m pa r i s o B e t w e e O p t i m a l   F e a t u r e s   of   K o r e a a nd  C hi n e s e   f o r   T e xt   C l a s s i f i c a t i o n , ”  J our nal   o f   K or e an   I n s t i t ut e   of   I nt e l l i ge nt   Sy s t e m s v o l .   2 5,   n o .   4 ,   p p.   386 - 39 1,   A ug   2015 .     [ 18]   J .   S hi a nd  C .   O c k,   A   S t a g e   T r a n s i t i o M o de l   f o r   K o r e a n   P a r t - of - S pe e c a nd   H o m og r a ph  T a g g i ng , ”  J ou r na l   o f   K or e an  I ns t i t u t e   o f   I n f or m at i on   Sc i e nt i s t s   an E ngi ne e r s v o l .   39 ,   n o .   11 ,   pp.   8 89 - 901 ,   N o v   2012 .   [ 19]   I .   S .   K a ng .   A   C o m pa r a t i v e   S t udy   o U s i ng   S e nt i W o r dN e t   f o r   E ng l i s h   T w i t t e r   S e n t i m e nt   A na l y s i s , ”  J ou r na l   o f   K or e an  I ns t i t u t e   o f   I n t e l l i ge nt   Sy s t e m s ,   v o l .   23 ,   n o .   4 ,   pp .   317 - 32 4,   A u g   2013 .   [ 20]   K .   R .   K i m ,   D .   Y .   L e e   a n H .   G .   C ho ,   K e y w o r N e t w o r V i s ua l i z a t i o f o r   T e x t   S u m m a r i z a t i o a n C o m pa r a t i v e   A na l y s i s , ”  J o u r n a l   o f   K o r e a I n s t i t u t e   o f   I n f o r m a t i on  S c i e n t i s t s   a n E ng i ne e r i n g v o l .   4 4 ,   n o .   2 ,   p p .   1 39 - 1 47 F e b   20 1 7 .   [ 21]   K .   B .   L e e ,   J .   B .   B a i k ,   S .   W .   L e e ,   E s t i m a t i ng   a   P l e a s ur e - D i s p l e a s ur e   I nde o f   W o r ba s e d   o W o r S i m i l a r i t y   i S N S , ”  J o ur n al   o f   K or e an  I n s t i t ut e   o f   I n f o r m at i on   S c i e n t i s t s   a nd   E n gi ne e r s v o l .   2 0,   n o .   3 ,   p p.   1 59 - 164 ,   M a r   2014 .   [ 22]   S .   J .   C ho i ,   J .   W .   L e e ,   A   M o r pho l o g i c a l   A na l y s i s   M e t ho o f   P r e di c t i o pl a c e - E v e nt   P e r f o r m a nc e   by   O nl i ne   N e w s   T i t l e s , ”  J our na l   o f   K or e a   A s s oc i a t i o o f   C om m un i t y   W e l f ar e   St u di e s v o l .   2 1,   n o .   1,   p p.   15 - 32 ,   F e b   20 16 .   [ 23]   S E P r a t a m a ,   W D a r m a l a ks a na ,   D S .   M a y l a w a t i ,   H S ug i l a r ,   T M a nt o r o ,   M A .   R a m dha ni ,   W e i g ht e i nv e r s e   do c um e nt   f r e que nc y   a nd  v e c t o r   s pa c e   m o de l   f o r   ha di t s e a r c e ng i ne , ”  I ndo ne s i a J ou r na l   o f   E l e c t r i c a l   E ngi ne e r i n and   C om pu t e r   Sc i e nc e ,   v o l .   18 ,   no .   2 ,   pp .   1 004 - 101 4 M a y   20 20 .   [ 24]   E .   S e s ha t he r i ,   T .   B h uv a ne s w a r i , “ E f f e c t i v e   X Q ue r y   ke y w o r us i ng   X M L   que r y   pr oc e s s i ng , ”  I ndo ne s i a J ou r na l   of   E l e c t r i c al   E ng i ne e r i ng   a nd  C om pu t e r   S c i e nc e v o l .   14 n o .   1 ,   p p.   450 - 454 A pr   2 01 9 .   [ 25]   N .   K a m a r ud di n ,   A .   W .   A .   R a hm a n ,   R .   A .   M .   L a w i ,   J o bs e e ke r - i nd us t r y   m a t c hi ng   s y s t e m   us i ng   a u t o m a t e d   ke y w o r s e l e c t i o a n v i s u a l i z a t i o a pp r o a c h , ”  I ndo ne s i an   J ou r na l   o f   E l e c t r i c a l   E ng i ne e r i n and   C om pu t e r   Sc i e nc e v o l .   13 n o .   3 ,   p p.   11 24 - 1129 M a r   201 9 .       B I O G R A P H I ES   O F   A U T H O R S       Jo n gw o n   r e c e i v e d   t h e   M . S .   d e g r e e   i 2 016   a n P h.   D .   d e g r e e   i 20 1 9   f r o m   t he   D e p a r t m e n t   o f   C o m put e r   E ng i n e e r i ng   o f   P a i   C ha i   U ni v e r s i t y ,   K o r e a .   H i s   c ur r e nt   r e s e a r c i n t e r e s t s   i nc l ud e   m ul t i m e d i a   i nf o r m a t i o pr o c e s s i ng ,   i nf o r m a t i o r e t r i e v a l   s y s t e m ,   a nd  s e m a n t i c   w e b .           Jae s e u n L e e   r e c e i v e t he   M . S .   d e g r e e   i 2019  f r o m   t he   D e p a r t m e nt   o f   C o m put e r   E ng i ne e r i ng   a t   P a i   C ha i   U ni v e r s i t y .   H e   i s   c ur r e n t l y   a   doc t o r a l   c a ndi da t e   i t he   D e pa r t m e nt   o f   C o m put e r   E ng i ne e r i ng   a t   P a i   C h a i   U n i v e r s i t y .   S i nc e   2016 ,   he   ha s   be e w o r ki ng   a s   a e nc r y pt i o c u r r e nc y   s pe c i a l i s t .   H i s   c ur r e n t   r e s e a r c i nt e r e s t s   i nc l ud e   i nf o r m a t i o p r o c e s s i ng ,   I o T ,   bi g   da t a ,   a nd   bl o c kc ha i n.         H o e k y u n Ju n g   re c e i v e t he   B . S   de g r e e   i 19 87  a nd  P h .   D .   de g r e e   i 1993  f r o m   t he   D e pa r t m e n t   o f   C o m put e r   E ng i ne e r i ng   o f   K w a ng w o o n   U ni v e r s i t y ,   K o r e a .   F r o m   1994  t o   1995 ,   he   w o r ke f o r   E T R I   a s   a   r e s e a r c he r .   S i nc e   199 4,   he   ha s   w o r ke i t he   de p a r t m e n t   o f   C o m put e r   E ng i ne e r i ng   a t   P a i c ha i   U n i v e r s i t y ,   w he r e   he   no w   w o r ks   a s   a   p r o f e s s o r .   H i s   c ur r e n t   r e s e a r c h   i nt e r e s t s   i nc l ud e   m ul t i m e di a   do c um e nt   a r c hi t e c t ur e   m o de l i ng ,   m a c hi ne   l e a r ni ng ,   I o T ,   bi g da t a ,   a nd  a r t i f i c i a l   i n t e l l i g e nc e .       Evaluation Warning : The document was created with Spire.PDF for Python.