I n t ern a t i o n a l   J o u rn a l   o f   A d v a n ces   i n   A p p l i ed   S ci en ces   ( I J A A S )   V o l .   7 ,   N o .   2 ,   J une   201 8 ,   p p.   1 52 ~1 5 5   I S S N 225 2 - 88 14 ,   D O I 10. 115 91 /ij a a s . v7 . i 2 . p p15 2 - 1 55             1 52       Jo u r n al   h om e pa ge h t t p : / / i a e s co r e . c o m/ o n l i n e / i n d e x . p h p / I J A A S   D es i gn   and  A na l y s i s   o f  an I mpr ov e N uc l e ot i de  Seque nc e s   C o mpres s i o A l g or i t hm  U s i ng  L o o k up T a bl e  ( L U T )       G o v i nd  P r a s a A r y a 1 ,   R . K .   B h a r ti 2 ,   D ev en d r a   P ra s a d 3   1 U t t a ra kh a nd  T e c hni c a l  U ni v e rs i t y ,  D e hr a dun,  U t t a ra kh a nd,  Indi a   &  A s i s t a nt  P rofe s s or -   S i kki m  M a ni pa l  U ni ve rs i t y ,   G a ngt ok,  S i kk i m ,  Indi a   2 B T KI T  Dwa r a h a t ,  Di st - A l m ora ,  U t t a ra kh a nd,   Ind i a   3 U t t a ra kh a nd  T e c hni c a l  U ni v e rs i t y ,  D e hr a dun,  U t t a ra kh a nd,  Indi a         A r ti c l e   I nf o     A B S T RA C T   Ar t i c l e   h i s t o r y :   Re cei v ed  D ec    2 0,   2 018   R e vi s e A pr   2 4 ,   20 1 8   A ccep t e d   M ay   25 ,   2 01 8       DNA   (de ox y ri b onuc l e i c  a c i d) ,   i s  t h e h er ed i t ar y  m at er i al  i n  h u m an s  an d   a l m os t  a l l  ot he orga ni s m s .  N e a rl y  e v e r y  c e l l  i n a  pe rs on’s  body  h a s  t he  s a m e   D N A .  T he  i nfor m a t i on i n D N A  i s  s t ore d a s  a  c o de  m a de  up of f our c he m i c a l   ba s e s :  a de n i ne   (A ),  gua ni n e  ( G ),  c y t os i ne   ( C),  a nd t h y m i n e  (T ).   Wi t h   c ont i nuous  t e c h nol og y  d e ve l op m e nt  a nd grow t h of s e que nc i ng  da t a ,  l a rge   a m ount  of bi ol ogi c a l  da t a  i s  ge n e ra t e d.  T hi s  l a rg e  a m ount  of ge ne ra t e d da t a   c a us e s  di ffi c u l t y t o s t ore ,  a na l y s e  a nd proc e s s  D N A  s e que nc e s .  S o t he re  i s  a   w i de  ne e d of r e duc i ng t h e   s i z e ,  for t hi s  re a s on,  D N A  Com pre s s i on i s   em p l o y ed  t o  r e d u ce t h e s i ze o f  D N A  s eq u en ce . T h er ef o r e t h er e i s  a  h u g e   ne e d of c om pre s s i ng t he  D N A  s e que nc e .  In t h i s  pa pe r,  w e  ha ve  pr opos e d a n   e ffi c i e nt  a nd  fa s t  D N A  s e que nc e   c om pre s s i on a l g ori t hm  ba s e d on   di ffe re n tia di re c t  c od i ng  a n d va ri a bl e  l ook  u p t a b l e  (L U T ) .   Ke y wo r d :   C om pr e s s i on   D eco m p r es s i o n   D i f f e r e n t i a l   D i r e c t   Co d i n g   D N A   C o m p re s s i o n   A l g o ri t h m   L o ok   U T a bl e   LU T   N u c l e o t i d e   D a t a   Co m p r e s s i o n   Copy r i ght  ©  201 8   Ins t i t ut e  o f   A d v anc e d  E ngi n e e r i ng and S c i e nc e   A l l  ri g h t s re se rv e d .   C or r e s po n di n A u t h or :   G o v i n d   P ra s a d   Ary a ,     U t t a r a k h a n d   T e c h n i c a l   U n i v e r s i t y ,     D e hr a d un ,   U tt a r a kh a n d,   I nd ia .   E m a i l :   govi n d. a r y a 1 0@ gm a i l. c om       1.   I N T R O D U C T I O N     F o r  d eca d e,  D N A   s e q u en ce  co m p r es s i o n  h as  b eco m e an  ar ea o f  r es ea r c h  f o r   r es ear c h er s .  I n  l ab s ,   r e s e a r c he r s  a r e  c ont i n u ous l y   a na l y s i ng t he s e  DN A s e que nc e s  f or   va r i o us  p u r p os e s .  S o f or  a na l y s i n g t he s e   D N A  s e q ue nc e s ,  DN A s e q u e nc e s  ne e t o be   s t or e d s om e w he r e   a n t r a ns m i tt e f r om   one  p l ace t o  a n o t h er .   B ut   be c a u s e   o f   ha vi ng  ve r y   l a r ge   s i z e   o f   D N A   s e q ue nc e s ,   i t   r e s ul t s   i ve r y   hi gh  t r a ns m i s s i on  c os t .   F r om   19 8 2   t o p r e s e nt ,  t he   num be r s   of   ba s e s  i G e nB a n k a r e   ge t t i n g d ou bl e d  a p pr o xi m a t e ly  i n e ve r y  18 m ont hs .   S w e   r eq u i r e  a  v er y  ef f i ci e n t  a l g o r i t hm  t o c om pr e s s  t he s e   D N A  s e q ue nc e s .   T he r e  i s  a  di r e c t  c o di n g a l g or i t hm   w hi c us e s   b i t s   f or   r e p r e s e n t i ng  e a c o f   t h e   n uc l e ot i de s .   A s   DN A   s e q ue nc e   c o ns i s t s   of   n uc l e ot i de   ba s e s   A ,  C ,  G &  T   c a l l e d e xo ns ( i . e .  c o di n g r e gi ons   or   pr ot e i s y nt he s i s )   or   i nt r ons ( i . e .  no n - c od ing  r e g ions  o r   n pr ot e i s y nt he s i s ) ,  2  bi t s   a r e   s uf f i c i e nt   t o   r e p r e s e nt   e a c o f   t he   ba s e s .     1. 1.       Li m i t a t i o n s   o f   Ex i s t i n g  D N A   C o mp res s i o n   A l g o ri t h ms   a)   F ew   e xi s t i n g c om pr e s s i o n a l go r i t hm s  s uc h a s   G Z I P ,  C O M P R E S S ,  B Z I P 2 ,   W i n R A R  o W i n Z i p   u se m or e  t ha n 2  bi t s  pe r   by t e   f o r  c odi ng t he   D N A s e q ue nc e .   T he s e  a l g o r i t h m s  do not   u t i l i z e   t he  c om m on   pr o pe r t i e s   f o un i n   D N A   s e qu e nc e   a nd   t hi s   c a us e s   l ow e r   c o m pr e s s i on  r a t e .     b)   T h er e a r e f e w  a l go r i t hm s  l ike  G e nC om pr e s s ,  B i oC om pr e s s   w hi c u s es  p r o p er t i es   f oun d   i n  D N A   s eq u en ces  f o r  co m p r es s i o n .  T h ei r   ap p r o x i m at e co m p r es s i o n  r at e i s   1. 74  bi t s   pe r  ba s e  i . e .   7 8%  i n   c om pr e s s i o r a t e .   B ut   t he s e   a l go r i t hm s   ha ve   ve r y   hi g r u n n i ng  t i m e .   Evaluation Warning : The document was created with Spire.PDF for Python.
IJ A A S     I S S N 225 2 - 88 14       D e s ign   &   A nal y s i s   of   an   I m pr ov e d   N uc l e ot i d e   Se que nc e s   C om pr e s s i on   …    ( G ov i nd   P r as ad   A r y a )   1 53   1. 2.     S h o r t co mi n g s  o f  “ A  C o m p res s i o n  A l g o ri t h m f o r  N u cl eo t i d D at Ba s e d  o n  D i f f e r e n t i a l  D i r e ct   C od i n an d   V a r i a b l e   L e ng t L o o ku T a b l e   ( LU T) ”          T he  e xi s t i ng a l go r i t hm  us e s  A S C I I  c ode   r a ngi ng  f r om   - 6 5 t - 1   f o r  t r i p l e t  s t o r e d  i n   f i e l d  l e n g t h   LU T,    - 127  to  - 65  f or  m ul t i pl e s  of  t r i pl e t   ( 6, 9, 12 ,  s o n)   s t or e d i n   va r i a bl e  l e n gt h  L U T  ,   A S C I I  c o d e   - 12 w a s  u s e d t ha ndl e   un k no w c ha r a c t e r  N  &   ot he r  A S C I I   c ode s  ( f r om  0 to 1 2 7)   w e r e   us e d t o s t o r e  a ux i l i a r ch ar act e r s .         S o m e t im e s   t he r e   m a y  be  a n  a m bi g ui t y  i n  i de nt i f y i n g  t he  nu c l e ot i de  ba s e ;  i t   m a y  e i t he r   b e  a n   A  o r   C ,   a or   a nd  s on.   T h e   e x t e n de D N A   a l ph a b e t   c a b e   us e t i d e nti f y   a ll   t h e s e   po s s i b l e   c o m b i n a t i o n s   w he r e  a ll   t he  1 5 pos s i b le  c o m bi n a t ions  of  th e  s t a nda r d 4 nuc l e o ti d e s   a r e  gi v e n un i qu e  s y m bo ls .  W e  id e n t if y   t h e   e x t e n d e d   DN a l p h a b e t   a s   Σ =   { A,   B ,   C D ,   G ,   H,   K,   M ,   N ,   R ,   S ,   T ,   V ,   W ,   Y } .   T h e   a b o v e   a l g o ri t h m   h a s   not   u s e e xte n de DN a l ph a b e t .   T h e   d a ta   m o d e l   of   e x i s ting  a l gor it h m   i s   s how in  T a b le   1.       T a bl e   1.     Da t a   M ode l   U s e b y   E xi s t i ng   Al g or i t hm     T y p e o f  Data   Des cr ip tio n   R a nge   L ook - Up  T ab le   Au x iliar y  S y m b o l   ASC I I   0 t o 127     T r ip lets   Set o f  th r ee ch ar a c ter s  ( b as ae )   - 1 t - 64   Fix  L en g th  L UT   M u ltip le o f  T r ip let   Set o f  6 ,  9 ,  1 2 … c h ar acter s   ( b as e)   - 65 t - 127   Var iab le  L en g th  L UT   U nknow n   ?   - 128         1. 3.       P r op os e d   A l gor i t h m   I n   t hi s  pa pe r ,  w e  a r e  pr opo s i n g a n a l go r i t hm  whi c h  i s  t he  m odi f i c a t i on  of  “ A C o m p r e s s ion  A l g o r i t h m  f o r  N u c l e o t i d e   D at Ba s e d  o n   D i f f e r e n t i a l  D i r e c t   C odi n g a nd   V ar i ab l L e ngt h L o ok u p  T a bl e   ( LU T) ”  i f o llow ing  w a ys .   I n  t h e   e x i s t i n g  a l g o r i t h m   ,   a ll   t h e  A S C I I  c o de s  f r o m  0  to  127 w a s  r e s e r ve t r e pr e s e nt   a ux ili a r y   s ym b ol s   { A , G , T , C }   w hi c h d oe s   n ot  ut i l i z e  a l l  A S C I I  c o de s .   W e  ha ve   4 D N a l p ha be t s  a nd   1 6 do u bl e s ;   i t o t al  w e n eed  4 +1 6 =2 0  A S C I I  co d es .  H e n ce w e h a v e 2 5 6 - 2 0= 23 6 A S C I I  c o de s  w hi c h c a be  u s e d t o   r e p r e s e nt  m ul tipl e s  o f  d o ubl e s  t o s t or e  i n va r i a bl e  l e n gt h L U T .  B y  us i ng  t he s e  c o de s   w e  c a n a c hi e ve   be t t e r   c om pr e s s i o a s   c o m p a r e   t o   e x i s t i n g   a l g o r i t h m .       M o d e l :   W e c o n s i d e r  t h e  A S CI I  c h a r ac t e r s b e t w e e n t he   r an g es   - 12 t o 1 2 7.  T he   r a n g e   be t w e e n  ( 1 12  t o   1 2 7 )   =   1 m i nus   A S C I I   c o de s   of   r e s pe c t i ve   D NA   a l ph a be t s   Σ =   { A ,   C ,   G,   T }   i s   us e t r e pr e s e nt   d o ubl e s   s t or e d i f i x e s iz e   L U T  a n d r e m a i ni ng  A S C I I  c o de s  ( 2 56 - 16= 2 40 )  e x c e pt   - 1( us e d f or  E OF )  i s  u s e d t o   r e p r e s e nt  m ul t ipl e s  o f   do u bl e s  s t or e d i n v a r i a b l e   s i z e   L U T  e xc e pt  f o u r  A S C I I   c o de s  us e f o r   r e pr e s e nt i ng 4   D N A   s y m b o l s   w h i c h   a re   A ,   T ,   G ,   C .   T he   da ta   m od e of   pr o pos e a l go r it h m   is   s ho w i T a ble   2.       C o d i ng:   H e r e  w e  w ou ld  e nc ode   D NA   s eq u e n c e  us i ng  m e t ho de s c r i be d i n  t he  a b ove  m ode l .   W e   ha ve  a  da t a ba s e  whi c h c ont a i ns  t w o t a bl e s ;  one  F i xe d L e ngt h L UT  t o s t or e  f i xe d 1 do u bl e s  a nd s e c on V a r i a bl e  L e ngt h L U T  t o s t or e  m a xim u m  235  c om bi na t i o ns   of  m ul t i pl e s  o f   do u bl e s  ( 4,  6,  8 ,   1 0 s on ) .   W e   s can  t h D N A   s eq u en ces  ch a r act er  b y  c h a r a ct er  u n t i l  en d   o f  f i l e ( E O F )  c h ar act er  i s  e n c o u n t er e d .  E v er y  t i m e   w r ead   t w o   ch ar act er s   ( d o u b l es )   f r om   unc o m pr e s s e DN s e q ue nc e   w hi c de f i ni t e l y   f o u nd  i F i xe d   L e ngt h   L U T ,  t he n w e  r e a d ne xt   do ubl e s ,  no w  w e  ha ve  a  gr o u p of   fo u r   ch ar act e r s .  I n i t i a l l y  t h i s  g r o u p   o f  f o u r   c h a r a c t e r s  i s  n o t  a v a i l a b l e  i n  V a r i a b l e  L e n g t h  L U T .   H e n c e  w e  w i l l  s t o r e  t h a t  g r o u p  i n  t h i s  t a b l e  a n d  w r i t e   r es p ect i v e  A S C I I  c o d o f  l a s t   m a t c he d w o r d i n  t he   o ut p ut  f i l e .   W he ne ve r  we  f i nd  a   w o r d  i Va r i a bl e   L e n gt h   L U T ,  w e  w i l l   s e a r c h  a n o t h e r  m u l t i p l e  o f   do ub le s   ( 4,  6 ,  8,   10   a n d s on )  i n t he  t a bl e  a nd  i f   not   f ou n d t he n   s t or e  t ha t  c om bi na t i o of   dou b le s   i n  t h e  t a b l e  a n d   w r i t e   A S CI I  c o d e  o f  l a s t   m a t c h e d  t a b l e  e n t r y  i n  t h e  o u t p u t   f i l e .   W h e n   w e   f i n d  r e p e t i t i o n   o f  a   n u c l e o t i d e  b a s e  l i k e  R ( i . e  RRRRRR) ,  t h a t  w i l l   b e   w r i t t e n  i n  o u t p u t  f i l e  a s   i t   i s .   Th e   w or ha vi ng   l e n gt h   l e s s   t ha 2   c h a r a c t e r s   w i l l   a ls b e   w r i t t e n   a s   i t   i s .       T ab l 2 .     D a ta   Mo d e f or   P r op o s e A l g or ithm   T y p e o f  Data   Des cr ip tio n   R a nge   L ook - Up  T ab le   Au x iliar y  S y m b o ( 4  C h ar acte r s )   ASC I I  alp h ab ets   Σ = { A ,  T, G ,  C }   R es p ectiv e ASC I I   co d es  o f   Σ   NA   D oubl e  ( 16 W or ds )   Set o f  two  b as e ch ar acte r s   ( 112 t o 127)   -   Σ   Fix  L en g th  L UT   Mu l t ip le o f   D ou bl e s   ( M a x.  2 35  W or ds)   Set o f    4, 6 ,8   b a s e   c h ar a ct e rs   - 128 t o 111   Var iab le  L e ngt L U T   T ot a l  256 W or ds     - 128 t o 127           Evaluation Warning : The document was created with Spire.PDF for Python.
                                I S SN :   2 252 - 88 14   IJ A A S     V o l .   7 ,   N o .   2 ,   J un e   201 8   152     1 55   1 54   2.   R ES EA R C H   M ETH O D     O u r   pr o pos e d   a l go r i t hm   i s   gi ve n   be l ow -     W H I LE  ( E OF)   {   T r y  t o   r e a d  t w o  c h a r a c t e r s   ( d o u b l e s )  i n  s t r i n g  v a r i a b l e  d ou b  f r o m  u n c o m p r e s s e d  s e q u e n c e     If   ( l e n g t h  o f  d o u b  = = 2 )  a n d  d o u b  i s  a  v a l i d  d o u b l e s  t h e n       {         m d o u b =m d o u b  + d o u b         I ( m d o u b   f o u n d  i n   V ar i ab l L en g t h   L U T ) t h e n             C o n t i n u e  t o  w h i l e  l o o p  t o   r e a d  n e x t  d o u b l e s         ELS E         {   W r it e  th e  in t e g e r   c o d e  o f  l a s t m a tc h ed  s e q u e n c e  f r o m  Fix e d   L e ngt h   L U T   or   Va r i a bl e  L e n gt L U T  i nt o o ut put   f i l e  a nd  a l s o s t o r e  t ha t   s e q ue nc e   i V a r i a bl e   L e n gt L UT   a l on w i t ne w   i nt e ge r   c ode   }   }        ELS E I F   ( l e n g t h  o f  d o u b  <  2 )  t h e n     W r it e  s e q u e n c e  s to r e d  i n  d o u b  d i r e c t l y  t o  o u t p u t  f i l e     ELS E I F   (T h e re  i s   n   t i m e s  r e p e t i t i o n  o f  a   c h a r a c t e r   ( i . e   R )  o t h e r  t h a n  {A , G,  T ,  C })   Wr i t e  t h a t  c h a r a c t e r  a Rn   i n  o u t p u t  f i l e  a n d  a l s o  w r i t e  s e q u e n c e  s t o r e d  i n  d o u b  w i t h  l e n g t h  < 2   d i r e c t l y   t o  o u t p u t  f i l e     }     T h e  e x e c u t i o n   m e t h o d  o f  p r o p o s e d  a l g o r i t h m  i s   s h o w n  i n   T a b l e  3 .       T a b l e   3.     E n c o d ing   P r o ce s s   w i t h   P r opos e d A l gor it h m     S t e p   In p u Se q u en ce   D ou ble s( t)   M u lti p le  of   Do u b les ( st )   L oo k - Up   T a ble   E nc o de d   Se q u e n ce ( s )   Statu s  o f   s t   E n t r y   1   A C T GT GAC TG             2   A C   AC   AC   F ou nd   AC = #   TG= +     3   TG   TG   A C TG   N ot  F ound   A dd  w i t h   A C T G = $   #   4   TG   TG   TG TG   N ot  F ound   A dd  w i t h   TG TG = @   #+   5   AC   AC   T GAC   N ot  F ound   T G AC = ^   #+ +   6     TG   TG   A C TG   F ou nd   AC T G= $       # ++$       3.   R ES U LTS   A N A NA L Y S I S     O ur   p r op o s e a l g o r i t h m   h a s   b een   ap p l i ed   on   te typ e s   o f   D NA   s e qu e nc e s   s how in   T a ble   4 .   a .   T he   r e s ul t s   s h o w i T a bl e   4   pr o ve s   t ha t   ou r   p r o po s e a l g o r i t hm   wo ul p r o vi de   be t t e r   c om pr e s s i on  r a t i o   i c om pa r i s o n t o   e xi s t i n g m e t h o dol o gi e s  t c om pr e s s   D N A  s e q ue nc e s .   Th i a l g o r i t h m  u se s l e ss  a m o u n t   o m e m o r a c o m p ar ed   t o   the   o t h e r   a l g o r i t h m s   a nd  i t   t a ke s   l e s s   a m ount   of   t im e   t ha ot he r   a l go r i t hm s   a nd   i t   i s   ea s to   i m p l e m e n as  w el l .   b.   O u p ro p o s e d a l g or i t h m  c o m p r e sse bot h  DNA a nd R NA s e que nc e s .   M os t  of  t he   o t h er  co m p r e s s i o n   a l g o r i t h m s u se   th e   ot he r  p r o p er t i es   o f  se q ue n c es  s u ch  as   r ep e a t ed  a n n o n -   r ep ea t e d  p a t t e r n s   i n  D N A   s eq u en ces .   I t h s e q u e n c i s c o m p r es s e d us i n g our   p r o p o s e d   a l g o r i t h m   t h e n  i t   w ould   b e s o  ea s i er  t o   m ak e s eq u e n c e an a l y si a m o n g   c o m p r es s ed  s eq u e n ces .    I t   w o u l d  al s o  b e  eas i er   t m a k m u l t i - s e q u en ce   al i gn m e n t   a s   w e l l .   T h e   c o m p re ssi o n   r es u l ts   of  o ur   pr opos e d  a l go r i t hm   a r s h o w in   T a b l e   4 .           Evaluation Warning : The document was created with Spire.PDF for Python.
IJ A A S     I S S N 225 2 - 88 14       D e s ign   &   A nal y s i s   of   an   I m pr ov e d   N uc l e ot i d e   Se que nc e s   C om pr e s s i on   …    ( G ov i nd   P r as ad   A r y a )   1 55   T ab l 4 .     R es u l t C o n c l u si o n       S. N       Se q u en ce   T y pe     Si z e o f  Or ig in al  S e q u en ce  Be f o re   C o m p r e s s i on   S i z e o f   S e q u e n ce  Af ter   C o m p r e s s i on   U si n E x is tin g   M e t hodol ogy   U si n g P r opos e M e t hodol ogy   U si n g  L ates t Pr o p o s ed   M e t hodol ogy   1   AT AT SGS   9647   3101   2951   3011   2   AT E F1 A2 3   6022   1957   1858   1814   3   AT R DN AF   1001 4   3276   3165   3128   4   AT R DN AI   5287   1734   1700   1684   5   C HM PXX   1518 0   4874   4489   4160   6   C HNT X X   1558 44              50540   4801 1   4644 3   7   HE HC M VC G   2293 54   7473 6   7239 7   7420 5   8   HUM D YST R O P   1052 65   3434 7   3324 9   3226 0   9   HUM H DAB C D   5886 4   1920 1   1873 1   1825 2   10   VAC C G   4791 2   1537 4   1467 2   1544 5   Av er ag e   5381 2. 4   2091 4   2012 2. 3   2004 0. 2       4.   C O N CL U S I O N   T he  p r e vi o us  a l go r i t hm  whi c h w a s   ba s e o n t r i pl e t s  wa s   a bl e  t o c om pr e s s  t he  D N A s e que nc e  u pt 68 %   o f   i t s   or i g i na l   s i z e   b ut   o u r   p r op os e a l g or i t hm   t ha t   i s   b a s e on   d o ubl e s   c a c om pr e s s   t he   D N s e q u e nc e   upt o 70 % .   I n   t h i s   r e s ea r ch  p a p er ,   w ha v e  c om e  up  w i t t h e   i d ea  w h i ch  i s  act u al l y  a  m od i f i c a t i o i n   d i f f er en t i a l   d i r ect  co d i n g   w i t h  v a r i a b l e   l e n g t h   LU T .  Th e   re s u l t s   w h i c h   w e   a c h i e v e d   u s i n g   p ro p o s e a l g o r i t h m ,   ar s h o w n   b el o w   i n   t ab l e,   ar m u ch   b e t t e r   t ha t he   e x i s t i n g   r e s u l t s .   O u p r o pos e d   a l g o r i t h m   w ou ld  l ead   t o   m uc b e t t er   c o m p r e ssi o n   r a t i o   a s   t h e   m u l ti pl e s   of   do ubl e s   a r f o u n f r e qu e n tly  i n   D N A   s e q u e n c e s .       R EF ER E N C ES     [1]   G r e g o r y  V ey et al . ,  D i f f e re nt i a l  di re c t  c odi n g :  a c o m pre s s i on  a lg o r it h f o r nu c le o tid e  s e q u e n ce   d a t a D at ab as (O xford) ,  P ubl i s he d onl i ne  2009  S e p 14.   doi :    10 . 1093/ da t a ba s e / b a p013 .   [2]   J.   Z i v a n d A .   Le m p e l,   “A   uni ve r s al  al g ori t h m   f o r  s e que nt i a l   d at c o m p re s s i o n , I E E E   T r ans ac t io n s on Inf or m at i o Th e o r y v o l IT - 23 N O .  3,  pp.  337 - 343,  M A Y  19 77 .   [3]   X .  Che n   a nd  M . L i p , "   D NA  c o m p r e ss:  f a st  a n e ffe c t i v e  dna   s e q ue n c c o m p r e ssi o n , B i o in fo r m a tic s vol .  18 P a ge s  1696 169 8 , D E C   2002 .   [4]   B a o,   S . ,  e t a l. , "   A DNA  s e qu e n c e c o m pr e s s i on a l gori t h m  b a s e d on  LU an d  L Z 7 7 , DOI :   10. 1109/ IS S P IT . 2005. 1577064 ·   S ourc e :  I E E E  X pl ore pp.  1 - 14,   J a nua r y  2006 .   [5]   A t e e t M e ht a ,  e a l,  "   DNA  C o m p re s s i on  u s i ng H a sh   Ba s e D at a     S t ruc t u r e , I J I K M vol .  2,  pp .   383 - 38 6 2010 .   [6]   G ovi nd  P r a s a A r y a   a nd R. K .  Bha r t i , "   A  Com pre s s i on A l gori t h m  for N uc l e ot i d e   Da t a   Ba s e d on D i ffe re nt i a l  D i r e ct   C odi ng a nd  V ar i ab l L e ngt h L oo kup T a b l e   (L U T ) ,"   I J CSI T vol .  3 ,  pp .   4411 - 4416 ,  2012 .   [7]   L i  Ta n ,  et  al , "   K - m e a ns  c l us t e r i ng ba s e d c om p re s s i on a l gori t h m  for t he  hi gh - t hroughput  D N A  s e que nc e  I E E E   X pl ore ,   pp .  952 - 955,  2014 .   Evaluation Warning : The document was created with Spire.PDF for Python.