Pagini recente » Borderou de evaluare (job #542779) | Borderou de evaluare (job #1475981) | Borderou de evaluare (job #2604574) | Diferente pentru siruri-de-sufixe intre reviziile 2 si 3

Diferente pentru siruri-de-sufixe intre reviziile #2 si #3

Diferente intre #3 si #4

Diferente intre #1 si #2

Nu exista diferente intre titluri.

Diferente intre continut:

h2. Introducere

Un domeniu important in algoritmica folositÃ„ï¿½ ÃƒÂ®n practicÃ„ï¿½ este acela al algoritmilor pe Ã…ï¿½iruri de caractere. Astfel la concursurile de programare sunt prezente foarte multe probleme de prelucrare Ã…ï¿½i procesare a unor Ã…ï¿½iruri de caractere. Ãƒï¿½n cadrul concursurilor Ã…ï¿½i antrenamentelor mulÃ…Â£i dintre noi s-au lovit de probleme ce s-ar fi rezolvat uÃ…ï¿½or dacÃ„ï¿½ se reuÃ…ï¿½ea ÃƒÂ®n mod eficient determinarea existenÃ…Â£ei unui cuvÃƒÂ¢nt ca subsecvenÃ…Â£Ã„ï¿½ a unui alt cuvÃƒÂ¢nt. Vom prezenta o structura versatilÃ„ï¿½ ce permite acest lucru, ÃƒÂ®nlesnind de multe ori realizarea altor operaÃ…Â£ii utile pe un string dat.

Un domeniu important in algoritmica folosita Ã®n practica este acela al algoritmilor pe siruri de caractere. Astfel la concursurile de programare sunt prezente foarte multe probleme de prelucrare si procesare a unor siruri de caractere. ÃŽn cadrul concursurilor si antrenamentelor multi dintre noi s-au lovit de probleme ce s-ar fi rezolvat usor daca se reusea Ã®n mod eficient determinarea existentei unui cuvÃ¢nt ca subsecventa a unui alt cuvÃ¢nt. Vom prezenta o structura versatila ce permite acest lucru, Ã®nlesnind de multe ori realizarea altor operatii utile pe un string dat.

h2. Ce sunt Ã…ï¿½irurile de sufixe (suffix arrays)?

h2. Ce sunt sirurile de sufixe (suffix arrays)?

Pentru a avea o idee mai bunÃ„ï¿½ despre suffix arrays, vom face ÃƒÂ®nainte o scurtÃ„ï¿½ prezentare a structurii de date numitÃ„ï¿½ ÃƒÂ®n englezÃ„ï¿½ trie Ã…ï¿½i a arborilor de sufixe (suffix trees [1]) care sunt o formÃ„ï¿½ specialÃ„ï¿½ a structurii de date trie. Un trie este un arbore menit sÃ„ï¿½ stocheze Ã…ï¿½iruri. Fiecare nod al lui va avea ÃƒÂ®n general un numÃ„ï¿½r de fii egal cu mÃ„ï¿½rimea alfabetului Ã…ï¿½irurilor de caractere care trebuies stocate. Ãƒï¿½n cazul nostru, cu Ã…ï¿½iruri ce conÃ…Â£in litere mici ale alfabetului englez, fiecare nod va avea cel mult 26 de fii. Fiecare muchie care porneÃ…ï¿½te din tatÃ„ï¿½ spre fii Ã…ï¿½i va fi etichetatÃ„ï¿½ cu o literÃ„ï¿½ distinctÃ„ï¿½ a alfabetului. Etichetele legÃ„ï¿½turilor de pe un drum de la rÃ„ï¿½dÃ„ï¿½cina pÃƒÂ¢nÃ„ï¿½ la o frunzÃ„ï¿½ vor alcÃ„ï¿½tui un cuvÃƒÂ¢nt stocat in arbore. DupÃ„ï¿½ cum se observÃ„ï¿½, cÃ„ï¿½utarea existenÃ…Â£ei unui cuvÃƒÂ¢nt ÃƒÂ®n aceastÃ„ï¿½ structurÃ„ï¿½ de date este foarte eficientÃ„ï¿½ Ã…ï¿½i se realizeazÃ„ï¿½ ÃƒÂ®n complexitate O(M), unde M e lungimea cuvÃƒÂ¢ntului. Astfel, timpul de cÃ„ï¿½utare nu depinde de numÃ„ï¿½rul de cuvinte pe care trebuie sÃ„ï¿½ ÃƒÂ®l gestioneze structura de date, fapt ce face aceastÃ„ï¿½ structurÃ„ï¿½ idealÃ„ï¿½ pentru implementarea dicÃ…Â£ionarelor.

Pentru a avea o idee mai buna despre _suffix arrays_, vom face Ã®nainte o scurta prezentare a structurii de date numita Ã®n engleza _trie_ si a _arborilor de sufixe_ (suffix trees [1]) care sunt o forma speciala a structurii de date trie. Un trie este un arbore menit sa stocheze siruri. Fiecare nod al lui va avea Ã®n general un numar de fii egal cu marimea alfabetului sirurilor de caractere care trebuies stocate. ÃŽn cazul nostru, cu siruri ce contin litere mici ale alfabetului englez, fiecare nod va avea cel mult 26 de fii. Fiecare muchie care porneste din tata spre fii si va fi etichetata cu o litera distincta a alfabetului. Etichetele legaturilor de pe un drum de la radacina pÃ¢na la o frunza vor alcatui un cuvÃ¢nt stocat in arbore. Dupa cum se observa, cautarea existentei unui cuvÃ¢nt Ã®n aceasta structura de date este foarte eficienta si se realizeaza Ã®n complexitate O(M), unde M e lungimea cuvÃ¢ntului. Astfel, timpul de cautare nu depinde de numarul de cuvinte pe care trebuie sa Ã®l gestioneze structura de date, fapt ce face aceasta structura ideala pentru implementarea dictionarelor.
Sa vedem acum ce este un trie de sufixe:
Dat fiind un string $A$ = $a{~0~}a{~1~}â€¦a{~nâ€“1~}$, notam cu $A{~i~}$ = $a{~i~}a{~i+1~}â€¦a{~nâ€“1~}$ sufixul lui $A$ care Ã®ncepe la pozitia $i$. Fie $n$ = lungimea lui $A$. Trie-ul de sufixe este format prin comprimarea tuturor sufixelor $A{~1~}â€¦A{~nâ€“1~}$ Ã®ntr-un trie, ca Ã®n figura de mai jos.
Trie-ul de sufixe corespunzator stringului $abac$ este:
 
Operatiile pe aceasta structura se realizeaza extrem de usor:
* verificarea daca un string $W$ este substring al lui $A$ â€“ este suficienta parcurgerea nodurilor, Ã®ncepÃ¢nd din radacina si urmarind muchiile etichetate corespunzator caracterelor din $W$ (complexitate $O(|W|)$)
* cautarea celui mai lung prefix comun pentru doua sufixe ale lui $A$ â€“ se aleg nodurile $u$ si $v$ ale trie-ului corespunzatoare sfÃ¢rsitului celor doua prefixe, iar prin aplicarea unui algoritm de gasire a LCA (least common ancestor / cel mai apropiat stramos comun) se gaseste nodul corespunzator sfÃ¢rsitului prefixului cautat. De exemplu, pentru $abac$ si $ac$ se gasesc nodurile $5$ si $6$. Cel mai apropiat stramos comun al lor este $2$, de unde rezulta prefixul $a$. Autorii va recomanda articolul [2] pentru o rezolvare Ã®n $O(sqrt(n))$, [3] pentru o prezentare accesibila a unei rezolvari Ã®n $O(log n)$ sau $O(1)$, si articolul [4] pentru un algoritm _â€œstate of the artâ€_.
* gasirea celui de-al $k$-lea sufix Ã®n ordine lexicografica - (complexitate $O(n)$, cu o preprocesare corespunzatoare). De exemplu al $3$-lea sufix al sirului $abac$ este reprezentat Ã®n trie-ul nostru de a $3$-a frunza.

infoarena informatica de performanta

Diferente pentru siruri-de-sufixe intre reviziile #2 si #3

Nu exista diferente intre titluri.

Diferente intre continut:

Nu exista diferente intre securitate.

Topicul de forum nu a fost schimbat.