T E L KO M NIK A In d o n e s i a n  J o u r n a l o f   E le c t r ic a E n g in e e r in g V o l . 1 2 , No .  9 S e p te m b e r  2 0 1 4 , p p . 6 9 5 4 ~ 6 9 5 7 DO I: 1 0 . 1 1 5 9 1 /t e l k o m n i k a .v 1 2 i 9 . 4 6 8 2 6 9 5 4 Re c e i v e d O c to b e r 9 , 2 0 1 3 ;   Re v i s e d J u n e 7 , 2 0 1 4 A c c e p te d J u n e 2 7 ,  2 0 1 4 In v est i g at i o n o f Dist r ib u t e d  S ea r ch  E n g i n e B as ed  o n Had o o p Nin g  Ch e n * Ch a X ia n g y a n g C o l l e g e   o f   C o m p u t e S c i e n c e , X i a n   Po l y t e c h n i c   U n i v e r s i t y ,   X i a n ,   C h i n a * C o rre s p o n d i n g   a u t h o r, e - m a i l : c h e n n v i c t o r @ g m a i l . c o m Ab s t r a c t T h i s p a p e r b e g i n s   w i t h a   re v i e w   o n t h e   re s e a rc h   s t a t u s o f   s e a rc h   e n g i n e , f o l l o w e d   b y   d i s c u s s i o n o n g o a l s   o f   s e a rc h   e n g i n e ,   a n d   t h e n t h e   p ri n c i p l e   o f   d i s t ri b u t e d   c o m p u t i n g i s   e x p l a i n e d . C o n s e q u e n t l y   t h e M a p R e d u c e   d i s t ri b u t e d   c o m p u t i n g   m o d e l   a n d   t h e   H a d o o p   d i s t r i b u t e d   f i l e s y s t e m ( H D F S )   a re a n a l y z e d   i n d e t a i l .   F i n a l l y t h e   d i s t ri b u t e d   s e a r c h   e n g i n e   a r c h i t e c t u re i s p re s e n t e d . O n   t h e   b a s i s   o f   t h e a rc h i t e c t u re , f u t u re   c h a l l e n g e s   a n d   o p p o rt u n i t i e s   o f   t h e   d i s t ri b u t e d   s e a rc h   e n g i n e   a r e   h i g h l i g h t e d . K e y w o r d s : s e a rc h   e n g i n e , h a d o o p , m a p re d u c e , d i s t ri b u t e d   f i l e s y s t e m a rc h i t e c t u re C o p y r i g h t © 2 0 1 4 I n s ti tu t e   o f   A d v a n c e d   En g i n e e r i n g   a n d   Sc i e n c e .   A l l   r i g h t s   r e s e r v e d . 1 . In t r o d u c t io n T h e   e m e r g e n c e   a n d d e v e l o p m e n o f   s e a r c h   e n g i n e   a r e   i n s e p a r a b l e   f r o m   th e   v i g o r o u s d e v e l o p m e n o f   th e   In t e r n e t. Un d e r   th e   i n f o r m a ti o n   b o o m , h o w   to   m e e u s e r s   r e q u i r e m e n ts   o f f i n d i n g   c o n te n te d   p a g e s   q u i c k l y   i s   i n c r e a s i n g l y   b e c o m i n g   a   m o r e   a n d   m o r e   i m p o r ta n t h o ts p o t , s o   th e   g o a l s w h i c h th e   s e a r c h   e n g i n e   n e e d s   to   m e e t , c a n   b e   s u m m a r i z e d   a s m o r e c o m p r e h e n s i v e q u i c k e r , m o r e   a c c u r a te . G o o g l e   a d o p te d   th e   P a g e R a n k   a l g o r i th m   to   e v a l u a t e th e   w e i g h ts   o f   th e   s i te s   a c c o r d i n g   to   t h e   w e b p a g e   o f   m u tu a l   l i n k s , w h i c h   g r e a t l y   i m p r o v e   th e p r e c i s i o n   o f   th e   s e a r c h   e n g i n e . G o o g l e   n e e d s   to   d e a l   wi th   th e   h u g e   a m o u n t s   o d a ta   a n d c o m p l i c a te d   c a l c u l a t i o n , wh i c h   c a n   b e   r u n   o n   a   c h e a p   c l u s te r   o f   c l o u d   c o m p u ti n g   p l a tf o r m   a n d k e e p   th e   h i g h   e f f i c i e n c y   a n d   th e   g o o d   s c a l a b i l i t y . H a d o o p   i s   a n   o p e n   s o u r c e   s o f t wa r e   th a i s   a d i s tr i b u te d   c o m p u ti n g   p r o g r a m m i n g   to o l   a n d   d i s tr i b u te d   f i l e s y s t e m   p l a tf o r m , w h i c h   m a i n l y i n c l u d e s   t w o   p a r ts th e   M a p Re d u c e   d i s tr i b u te d   c o m p u ti n g   m o d e l   a n d   Ha d o o p   d i s tr i b u te d   f i l e s y s t e m   ( HDF S ) T h e y   a r e   o p e n   s o u r c e   i m p l e m e n ta t i o n   b a s e d   o n   G o o g l e   M a p Re d u c e c o m p u ti n g  m o d e l  a n d  G o o g l e  f i l e s y s t e m [1 ] . 2 . Dis t r ib u t e d C o m p u t in g T h e   b a s i c   p r i n c i p l e   o f   d i s tr i b u t e d   c o m p u ti n g   i s   th a a   c o m p l e x   p r o b l e m i s d i v i d e d   i n to s e v e r a l   s u b p r o b l e m s   a n d   t h e s e   s u b p r o b l e m s a r e c a l c u l a t e d   b y   i n d e p e n d e n t   p a r a l l e l   c o m p u ti n g d e v i c e s . M a p R e d u c e   i s   a n   i m p o r ta n t e c h n o l o g y   o f   G o o g l e , i i s   a   k i n d   o f   s i m p l i f i e d   p a r a l l e l c o m p u ti n g   p r o g r a m m i n g   m o d e l , w h i c h   m a k e s   th e s e   d e v e l o p e r s   w h o   h a v e   n o m u c h   p a r a l l e l c o m p u ti n g   e x p e r i e n c e   c a n   d e v e l o p p a r a l l e l   a p p l i c a ti o n s [2 ] . M a p Re d u c e   c a n i m p l e m e n t th e m a s s i v e   d a ta   r e tr i e v a l , w h i c h c a n d i v i d e   m a s s i v e   d a t a   i n t o   a   p l u r a l i t y   o f   s m a l l   b l o c k s   c a l c u l a te d i n   a   d i s tr i b u t e d   m e th o d , a n d t h e n m a p   th e m   to   a   Re d u c e   c e n te r ,   s o   a s   to   a c h i e v e   r a p i d p r o c e s s i n g [3 ] . M a p Re d u c e   d i s tr i b u t e d   p r o g r a m m i n g   m o d e l   h a s   t wo   c o r e   o p e r a ti o n : M a p ( m a p p i n g )   a n d   Re d u c e   ( r e d u c ti o n ) . T h e   p r i n c i p l e   o f   M a p R e d u c e   i s   th e   d i v i d e   a n d   c o n q u e r m e th o d . In   th e   c o m p u ti n g   m o d e l , th e   m a i n   n o d e   f i r s t l y s p l i ts   th e   i n p u d a ta   s e t s   i n to   s m a l l e r s u b d a t a s e ts ; s e c o n d , th e  s u b d a ta  s e ts  a r e  p r o c e s s e d   b y   wo r k  n o d e s . If  th e  r u n n i n g wo r k n o d e s i n   th e   m o d e l   a r e   t o o   m a n y   ( h u n d r e d s   o f   th o u s a n d s ) wo r k   n o d e s   m a y   d o   t h e   a b o v e   o p e r a t i o n a g a i n , th e n th e   p r o b l e m   s e ts   wi l l   b e c o m e   i n to   a   m u l ti - l a y e r   tr e e   s tr u c tu r e . W h e n th e   s u b d a ta s e ts   a r e   c a l c u l a te d , th e   r e s u l ts   w i l l   b e   r e tu r n e d   t o   th e   m a s te r   n o d e . T h e   m a s te r   n o d e   c o l l e c ts   a l l th e   d a t a   s e ts   r e s u l ts   a n d   c l a s s i f i e s   th e m , th e n   m a s te r   n o d e   g e ts   f i n a l   r e s u l ts . T h e e x e c u ti o n p r o c e s s  i s  s h o w n   i n F i g u r e   1 . B u i l o n   th e   b a s i s   o f   d i s tr i b u t e d   c o m p u ti n g , th e   p r o c e d u r e s   c a n   b e   a u t o m a ti c a l l y d i s tr i b u te d   to   a   l a r g e   c l u s te r   th a i s   c o m p o s e d   o f   g e n e r a l   m a c h i n e s   a n d   c a n   b e   e x e c u te d Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NIK A IS S N: 2 3 0 2 - 4 0 4 6 In v e s ti g a ti o n o f Di s tr i b u t e d   S e a r c h   E n g i n e  B a s e d   o n  H a d o o p ( Ni n g  C h e n ) 6 9 5 5 c o n c u r r e n tl y T h e   s y s t e m   wi l l d e a l   w i th th e   d e ta i l s a b o u t d i s tr i b u t i o n o f i n p u t   d a ta , s u c h   a s c r o s s i n g   c l u s te r s   o f   m a c h i n e s , p r o c e s s i n g   m a c h i n e ' s   f a i l u r e , a n d   m a n a g i n g   c o m m u n i c a ti o n b e t w e e n   d i f f e r e n m a c h i n e s . S u c h   a   m o d e l   a l l o w s   p r o g r a m m e r s   w i th   n o t   m u c h   e x p e r i e n c e   o f c o n c u r r e n p r o c e s s i n g   o r   k n o w l e d g e   o f   d i s tr i b u t e d   s y s te m s   to   m a k e   f u l l   u s e   o f   th e   r e s o u r c e s   o f d i s tr i b u te d  s y s te m . F i g u r e   1 . E x e c u ti o n   P r o c e s s i n M a p R e d u c e M o d e l 3 . Dis t r ib u t e d S t o r a g e HDF S   a d o p ts   M a s t e r - S l a v e   a r c h i te c tu r e . A n   HDF S   c l u s te r   i s   c o m p o s e d   o f   a   Na m e No d e a n d   a   c e r ta i n   n u m b e r   o f   Da ta N o d e s . Na m e No d e   i s   a   c e n tr a l   s e r v e r   th a t r e s p o n s i b l e   f o r   th e m a n a g e m e n o f   th e   f i l e s y s te m s   n a m e s p a c e   a n d   th e   a c c e s s   to   f i l e s   b y   c l i e n ts . Da ta n o d e s   a r e th e   wo r k   h o r s e s   o f   th e   f i l e s y s t e m . T h e y   s to r e   a n d   r e t r i e v e   b l o c k s   w h e n   th e y   a r e   i n f o r m e d ( b y c l i e n ts   o r   th e   Na m e No d e ) , a n d   th e y   s e n d   h e a r t b e a t r e p o r b a c k   to   th e   Na m e No d e   p e r i o d i c a l l y wi th   l i s ts   o f   b l o c k s . W i th o u th e   Na m e No d e t h e   f i l e s y s t e m   c a n   n o b e   u s e d . It  i s   i m p o r ta n to m a k e   th e   Na m e No d e   r e s i l i e n to   f a i l u r e , s o   Ha d o o p   p r o v i d e s   t w o   m e c h a n i s m s   f o r   th i s . T h e   f i r s t wa y   i s  t o   b a c k  u p  th e  f i l e s  t h a t m a k e  u p  th e  p e r s i s te n t   s ta te  o f  t h e  f i l e s y s t e m   m e ta d a t a . H a d o o p c a n   b e   c o n f i g u r e d   s o   th a t h e   N a m e No d e   w r i te s   i ts   p e r s i s te n s ta t e   o f   m u l ti p l e   f i l e s y s te m s . It  i s a l s o   p o s s i b l e   to   r u n   a   s e c o n d a r y   Na m e No d e , d e s p i te   i ts   n a m e i s   n o t a   Na m e No d e Its   m a i n   r o l e i s   to   p e r i o d i c a l l y   m e r g e   th e   n a m e s p a c e   i m a g e   w i th   t h e   a u d i l o g   t o   p r e v e n th e   a u d i l o g   f r o m b e c o m i n g  to o  l a r g e [4 ] . T h e   b a s i c   u n i o f   s to r a g e   i n   HDF S   i s   a   d a ta   b l o c k   th a g e n e r a l l y   i s   6 4 M , wh i c h   i s   th e s a m e  s i z e   wi t h  th e  p a r t i t i o n  i n  t h e   M a p Re d u c e  p r o g r a m m i n g  m o d e l . T h e s e  b l o c k s  a r e  p r e s e r v e d i n   m e m o r y . T h e   HDF S   f i l e s y s te m   u s e s   a   r e p l i c a ti o n   s tr a te g y   t o   a c h i e v e   h i g h   r e l i a b i l i t y . T h e n u m b e r   o r e p l i c a t i o n s   i s   3 ,   w h i c h   m e a n s   th a th e   s a m e   ti m e   e a c h   b l o c k   w i l l   h a v e   3   c o p i e s . T h e r e p l i c a ti o n s   a r e   s t o r e d   i n   3   Da ta No d e s , e a c h i n d i f f e r e n r a c k T h e   m e ta d a ta   o f   th e s e   b l o c k s   i s r e g i s te r e d  i n  th e  Na m e No d e . W h e n  a  Da ta N o d e   h a s  s o m e th i n g   w r o n g , t h e   d a t a  o f  th e  b l o c k  c a n s ti l l  b e  r e a d  f r o m  o th e r  Da t e No d e s . D a t a   r e a d i n g   a n d   s to r a g e   m e c h a n i s m i n   t h e   HDF S   d i s tr i b u t e d   f i l e s y s t e m   a r e d i f f e r e n f r o m   th e   g e n e r a l   f i l e s y s te m . W h e n   u s e r s   n e e d   to   r e a d   a   f i l e   i n   t h e   f i l e s y s t e m u s e r s s h o u l d s u b m i t r e a d   r e q u e s ts to   th e   Na m e No d e , th e n   u s e r s   g e th e   m e ta d a ta   a f t e r   Na m e No d e q u e r y   m e ta d a t a   ta b l e s , f i n a l l y   c o n n e c ti o n i s b r o k e n   b y   Na m e No d e . Ne x t, u s e r s   d i r e c tl y   a c c e s s Da ta N o d e s   t o   o b ta i n   th e   r e q u i r e d   b l o c k s a n d g e t h e   e n ti r e   f i l e s . W h e n   u s e r s   n e e d   t o   s a v e   t h e f i l e s , u s e r s a l s o   s u b m i t w r i te   r e q u e s ts to   Na m e No d e . A   Na m e n o d e   w r i t e s   th e   f i l e   n a m e   i n   th e n a m e s p a c e th e n   t h e Na m e n o d e   s p l i ts   th e   f i l e s   i n t o   m a n y   f r a g m e n ts   d e p e n d i n g   o n   th e   s i z e   o f th e   f i l e   a n d   q u e r y   th e   m e ta d a ta   ta b l e   f o r   th e   d i s tr i b u t i o n   o f   f r e e   b l o c k   f i l e s A f te r   r e tu r n i n g   t o   th e u s e r   d a ta , th e   c o n n e c ti o n i s b r o k e n . Ne x t, u s e r s   g e a c c e s s to   th e   Da t a No d e s a n d w r i te   d a t a   t o th e  b l o c k s . T h e  a r c h i te c t u r e  o f  d i s tr i b u te d  f i l e s y s te m  a s  s h o w n   i n F i g u r e  2 . Evaluation Warning : The document was created with Spire.PDF for Python.
IS S N: 2 3 0 2 - 4 0 4 6 T E L KO M NIK A V o l 1 2 , No . 9 S e p t e m b e r  2 0 1 4 : 6 9 5 4 6 9 5 7 6 9 5 6 F i g u r e   2 . D i s tr i b u te d F i l e   S y s t e m 4 . Ke y T e c h n o lo g ie s  o f S e a r c h E n g in e 4 .1 . S e a r c h E n g in e   A r c h it e c t u r e A s   o n e   o f   th e   m o s te c h n i c a l l y a p p l i c a t i o n   i n   I n te r n e t , i n   o r d e r   to   g e a c c e s s   to   m a s s d a ta , r e s p o n d   u s e r s   q u i c k l y   a n d   a c c u r a t e l y , s e a r c h   e n g i n e s   n e e d   c o m p l e x   a r c h i te c tu r e   a n d a l g o r i th m s . S e a r c h   e n g i n e s   g e e n ti r e   In t e r n e i n f o r m a t i o n   t h r o u g h   t h e   we b   c r a w l e r . T h e   m o d u l e o f   r e m o v i n g d u p l i c a te d   w e b   p a g e s   ( RD W P ) , w h i c h   f i l te r s   th e   w e b   p a g e s   d o w n l o a d e d   b y   t h e c r a w l e r   m o d u l e   a n d   g e ts   r i d   o f   th e   d u p l i c a te d   p a g e s A f te r   th i s th e   s e a r c h   e n g i n e   c a n   p a r s e   th e we b   p a g e s , e x tr a c th e   m a i n   c o n te n o f   we b   p a g e s   a n d   l i n k s   to   o th e r   p a g e s . In   o r d e r to   g e a q u i c k   r e s p o n s e , we b   p a g e s   c o n te n a n d   l i n k s a r e s to r e d   b y " i n v e r te d   i n d e x " , a n   e f f i c i e n q u e r y d a ta   s tr u c tu r e . S a v i n g   th e   l i n k s   to   o th e r   p a g e s   i s   i m p o r ta n t, b e c a u s e   th i s   l i n k   i s   a v a i l a b l e   i n   th e we b   p a g e s   r e l e v a n c e   r a n k i n g   s ta g e . T h r o u g h   th e   " l i n k a n a l y s i s " we c a n   d e te r m i n e   th e   r e l a ti v e i m p o r ta n c e  o f  p a g e s , wh i c h  i s  h e l p f u l  f o r  u s e r s   w i t h  a c c u r a te  s e a r c h  r e s u l ts [5 - 8 ] . F i g u r e   3 . A r c h i te c t u r e  o f S e a r c h  E n g i n e B e c a u s e   t h e   n u m b e r   o f   w e b   p a g e s   i s   to o   l a r g e , th e   s e a r c h   e n g i n e   n o o n l y   n e e d s   to s a v e   w e b   p a g e s   o r i g i n a l   i n f o r m a ti o n , b u a l s o   t h e   m i d d l e   r e s u l ts . Us i n g   a   s i n g l e   o r   a   f e w m a c h i n e s   i s   o b v i o u s l y   u n r e a l i s ti c . Di s tr i b u t e d   s e a r c h   e n g i n e s   e m e r g e   a s   th e   ti m e s   r e q u i r e d . G o o g l e   a n d   o th e r   c o m m e r c i a l   s e a r c h   e n g i n e s   d e v e l o p e d   a   s e o f   c l o u d   s to r a g e   a n d   c l o u d c o m p u ti n g   p l a tf o r m , th a i s     Ha d o o p   p l a tf o r m . Ha d o o p   p l a tf o r m   i s   c o m p o s e d   wi th   te n s   o f th o u s a n d s   o f   o r d i n a r y   P C,  b u i l d i n g   a   r e l i a b l e   s to r a g e   a n d   c o m p u ti n g   a r c h i t e c tu r e   o f   a   m a s s i v e i n f o r m a ti o n   s y s te m to s u p p o r th e   s e a r c h   e n g i n e . T e c h n i c a l   a r c h i te c t u r e   o f   a   s e a r c h   e n g i n e   a s s h o w n   i n  F i g u r e   3 . Evaluation Warning : The document was created with Spire.PDF for Python.
T E L KO M NIK A IS S N: 2 3 0 2 - 4 0 4 6 In v e s ti g a ti o n o f Di s tr i b u t e d   S e a r c h   E n g i n e  B a s e d   o n  H a d o o p ( Ni n g  C h e n ) 6 9 5 7 4 .2 . D is t r ib u t e d S e a r c h   E n g in e Di s tr i b u te d   s e a r c h   e n g i n e   c a n   b e   d i v i d e d   i n t o   th r e e   s u b s y s te m s : d i s tr i b u t e d   c r a w l e r s u b s y s te m , d i s tr i b u te d   i n d e x i n g   s u b s y s t e m   a n d   d i s tr i b u te d   r e tr i e v a l   s u b s y s te m .   A l l   o f   th r e e m o d u l e s   u s e   th e   M a p R e d u c e   p r o g r a m m i n g   m o d e l   o f   Ha d o o p , r u n n i n g   i n   th e   d i s t r i b u te d   s y s te m e n v i r o n m e n t. T h e   d e s i g n   o f   e a c h   m o d u l e   a d o p ts   t h e   o b j e c o r i e n t e d   m o d e l   a n d   u s e s   th e   s a m e d i s tr i b u te d   f i l e s y s te m , to   e n s u r e   d a t a   c o n s i s te n c y . W h e n   t h e   c r a wl e r   m o d u l e to   d o w n l o a d   w e b p a g e s , i h a s   d e f i n e d   a   s e r i e s   o f   M a p Re d u c e   t a s k to d o w n l o a d   i n f o r m a ti o n   s o u r c e s , to a n a l y s i s p a g e s , to e x tr a c U RL   l i n k s , to c o m p u t e r e v e r s e   l i n k s   a n d   P a g e R a n k . T h e   i n d e x   m o d u l e   u s e s th e   a n a l y ti c a l   p a c k a g e   to   m a k e   d o w n l o a d e d   c o n te n t s   i n to a   te x d o c u m e n t, a n d   u s e s   t h e   w o r d s e g m e n ta ti o n   f u n c ti o n   s e g m e n ts to a n a l y z e   g r a b b e d   c o n te n ts , to e x tr a c th e   wo r d   s e q u e n c e , to g e n e r a te   t h e   i n v e r te d   i n d e x . In   c o n s tr u c ti n g   o f   th e   i n d e x , i n d e x   m o d u l e   c a l l s   c o r e   c l a s s   n a m e d L u c e n e   t o   g e n e r a t e   th e   i n d e x   f i l e , a n d   s a v e s   i i n   a   d i s tr i b u te d   f i l e   s y s te m . W h e n   th e   r e tr i e v a l m o d u l e   p r o v i d e s d a ta f o r   u s e r s , th e   m o d u l e   n e e d s   to   e x tr a c th e   w o r d   s u b m i tte d   b y   u s e r s   f r o m s e r v i c e   p a g e s to d e f i n e   th e   M a p R e d u c e   t a s k s . T h e   M a p R e d u c e   t a s k s d r i v e   i n d e x m o d u l e to r e tr i e v e d a t a i n   th e   i n d e x   l i b r a r y th e n i n d e x m o d u l e   wi l l g e th e   r e s u l t s a n d   s o r ts , f i n a l l y M a p R e d u c e  ta s k s w i l l p r e s e n t r e s u l ts to   u s e r s . 5 . S u m m a r y In   r e c e n y e a r s th e   r e s e a r c h   o n   d i s tr i b u t e d   s e a r c h   e n g i n e   h a s   b e c o m e   m o r e   a n d   m o r e p o p u l a r . I i n c l u d e s d i s tr i b u te d   c o m p u ti n g , f u l l   t e x r e tr i e v a l , Ch i n e s e   wo r d   s e g m e n ta t i o n , q u e r y o p ti m i z a t i o n   a n d   a   s e r i e s   o f   te c h n o l o g i e s . B u t   th e   r e s e a r c h   f o r   s e a r c h   e n g i n e   h a s   s o m e s h o r tc o m i n g s . A s   In te r n e t   e n tr a n c e th e   s e a r c h   e n g i n e   i s   v e r y   i m p o r ta n f o r   g u i d i n g   a n d s h u n ti n g   n e t wo r k   tr a ff i c   f l o w , e v e n   u p   to   a   d e c i s i v e   r o l e . T h e r e f o r e , a   v a r i e t y   o f   m e th o d s   o f " c h e a t i n g "   g r a d u a l l y   p o p u l a r . Us i n g   v a r i o u s   m e a n s   i m p r o v e s   th e   w e b   p a g e   s e a r c h   r a n k i n g s , wh i c h   wi l l   s e r i o u s l y   a f f e c th e   u s e r s   s e a r c h   e x p e r i e n c e . T h e r e f o r e , h o w   to   a u to m a ti c a l l y d i s c o v e r   th e   we b   p a g e s   o f   c h e a ti n g   a n d   p u n i s h   th e m , b e c o m e   a   v e r y   i m p o r ta n p a r o f   s e a r c h e n g i n e . It   i s f o u n d   t h a t   th e   J o b T r a c k e r   o f   Ha d o o p   p l a tf o r m   a l s o   l a c k   g o o d   ta s k   p a r ti ti o n   a n d s c h e d u l i n g   a l g o r i th m , s o m e ti m e s   th e r e i s s o m e   n o d e s o v e r l o a d i n g w h i l e   o t h e r   n o d e s a r e i d l e . In   th e   f u tu r e   b y   i n tr o d u c i n g   a   m o r e   i n te l l i g e n d y n a m i c   l o a d   b a l a n c i n g   m e c h a n i s m , a d d i n g   t h e J o b T r a c k e r   d y n a m i c   ta s k   p a r ti ti o n   a n d   s c h e d u l i n g   a l g o r i th m , to   m a k e   f u l l   u s e   o f   th e   n o d e s . A t th e   s a m e   ti m e , i m p r o v i n g   Ch i n e s e   w o r d   s e g m e n ta t i o n   a n d   p a g e s   s c o r e s   s tr a te g i e s , w e   wi l l   g e t a   b e tte r   p e r f o r m a n c e   a n d   h i g h e r   a c c u r a c y   o f   a   d i s tr i b u te d   s e a r c h   e n g i n e . A n y wa y , d i s tr i b u te d s e a r c h  e n g i n e s  g r e a t l y  c h a n g e d  th e   w a y  p e o p l e   a c c e s s  to  i n f o r m a ti o n , t h e  s tu d y   o f  th e m  o r  th e i r a p p l i c a t i o n s   wi l l   h a v e  p r o f o u n d  s i g n i f i c a n c e . Re f e r e n c e s [ 1 ] W a n g   J u n s h e n g ,   Sh i   Y u n m e i ,   Z h a n g   Y a n g s e n .   Ke y   t e c h n o l o g i e s   o f   d i s t r i b u t e d   s e a rc h   e n g i n e   b a s e d o n   H a d o o p .   J o u r n a l   o f   Be i j i n g   I n f o rm a t i o n   Sc i e n c e   a n d   T e c h n o l o g y   U n i v e rs i t y . 2 0 1 1 ; 2 6 ( 4 ) :   5 3 - 5 7 . [ 2 ] W u   Ba o g u i ,   D i n g   Z h e n g u o .   R e s e a r c h   o f   D i s t ri b u t e d   Se a r c h   En g i n e   Ba s e d   o n   M a p   / R e d u c e . N e w T e c h n o l o g y   o f   L i b ra r y   a n d   I n f o rm a t i o n   Se r v i c e . 2 0 0 7 ; ( 8 ) : 5 2 - 5 5 . [ 3 ] Pe n g   F a n g ,   H u a n g   Q i n g y u n ,   Q i a n   Z h a o p e n g .   T h e   R e s e a r c h   o n   H a d o o p   a n d   C l o u d   C o m p u t i n g - B a s e d M a s s   D a t a   St o ra g e M o d e l   o f   C o m p u t a t i o n . Ap p l i e d   M e c h a n i c s   a n d   M a t e ri a l s . 2 0 1 2 : 2 8 9 9 - 2 9 0 2 . [ 4 ] D o n g   Sh o u b i n ,   Z h a o   T i e z h u .   Pe rf o rm a n c e   An a l y s i s   o f   D i s t ri b u t e d   F i l e   Sy s t e m   f o Se a r c h   En g i n e . J o u rn a l   o f   So u t h   C h i n a   U n i v e r s i t y   o f   T e c h n o l o g y   ( N a t u r a l   S c i e n c e   Ed i t i o n ) . 2 0 1 1 ; 3 9 ( 4 ) : 7 - 1 3 . [ 5 ] Z h a n g   J u n l i n .   T h i s   i s   S e a rc h   E n g i n e .   Be i j i n g :   Pu b l i s h i n g   H o u s e   o f   e l e c t ro n i c s   i n d u s t ry ,   2 0 1 2 . [ 6 ] T o m   W h i t e .   H a d o o p   D e f i n i t i v e   G u i d e .   A m e ri c a   O R e i l l y   M e d i a . 2 0 0 9 : 1 - 7 3 . [ 7 ] L i u   G a n g ,   H o u   Bi n ,   Z h a i   Z h o u w e i .   T h e   p l a t f o r m   o f   H a d o o p   o p e n   s o u r c e   c l o u d   c o m p u t i n g . Be i j i n g : U n i v e rs i t y   o f   Po s t s   a n d   T e l e c o m m u n i c a t i o n   Pre s s . 2 0 1 1 . [ 8 ] O w e n   O M a l l e y .   Pro g ra m m i n g   w i t h   H a d o o p s   M a p / R e d u c e .   A p a c h e C o n   EU ,   2 0 0 8 Evaluation Warning : The document was created with Spire.PDF for Python.