Search
V tomto úkolu budete implementovat jednoduchou variantu prefixového stromu (Trie) ve stylu standardní knihovny.
To znamená, že dostanete hlavičkový soubor definující třídu trie, včetně jejího rozhraní, a sadu testů, které ověří, zda vaše implementace funguje tak, jak má. Váš úkol pak bude naimplementovat jednotlivé metody třídy trie tak, aby všechny testy prošly.
trie
Varianta, kterou budete implementovat, reprezentuje každý znak jedním uzlem a má připravené odkazy pro každého možného potomka.
Tato varianta je zbytečně paměťově náročná, ale jednoduchá k implementaci.
Pro usnadnění implementace jsou testy rozděleny do 5 částí, které na sobě staví, a z nichž každá testuje jinou část vaší implementace. Díky tomu můžete pracovat dle testů bez toho, aby se na vás vyvalily chyby, které zatím ani nemůžete opravit.
Seznam metod, které musíte implementovat najdete v hlavičce trie.hpp. Co jednotlivé metody mají dělat pak najdete v téže hlavičce, ve formátu tzv. Doxygen komentářů1).
trie.hpp
Archiv s testy, hlavičkou trie.hpp a CMakeLists.txt najdete zde.
CMakeLists.txt
Jeden nebo více .cpp souborů, které implementují funkce deklarované v souboru trie.hpp tak, aby testy procházely a neztrácela se paměť. Při práci na úkolu soubor trie.hpp neměňte.
.cpp
Testy jsou schválně dělané tak, aby bylo možné se ve stromu pohybovat pomocí rekurze. Tedy se vám ani při naivní implementaci nestane, že vám dojde místo na stacku, a doporučujeme tedy při implementaci různých operací přemýšlet rekurzivně.
Stejně tak doporučujeme implementovat plnění všech dat do uzlů.
Funkce pracující s trií dostávají jako argument std::string const&. Abyste si nemuseli vždy předávat referenci na std::string a index, kde zrovna v průchodu jste, můžete si ze std::string vzít ukazatel na C-style řetězec.
std::string const&
std::string
Následující kód projde a vypíše celý řetězec ze std::string bez použití délky. Podobným způsobem se můžete posouvat v řetězci uvnitř trie.
#include <string> #include <iostream> int main() { std::string s = "Hello world"; const char* sptr = s.c_str(); while (*sptr) { std::cout << *sptr << '\n'; sptr++; } }
Dávejte si pozor na přístup ke smazané paměti, protože jakmile jednou kus paměti uvolníte, všechna data v ní jsou pro vás ztracena. To znamená, že například při mazání trie je potřeba každému uzlu nejdříve smazat potomky, a až potom uzel samotný.
Pro stage1 žádné hlavičky ze standardní knihovny nedoporučujeme. Implementaci iterátorů (stage2) a funkcí ze stage4 (get_prefixes, search_by_prefix, sjednocení, průnik) si můžete zjednodušit vhodným použitím funkcí ze dvou hlaviček, <utility> a <algorithm>.
get_prefixes
search_by_prefix
Implementaci relačních operací (stage3) si můžete zjednodušit chytrým využitím hlavičky <algorithm>.
Průnik a sjednocení nad trií se dají velmi snadno napsat rekurzivně a stále platí, že testovací vstupy jsou schválně nechané dostatečně malé, aby s tím nebyl problém.
Metody vnořených tříd (například trie::const_iterator) se definují stejně jako metody tříd, ale je potřeba si uvědomit, že k jejich plné identifikaci je potřeba zmínit i (všechny) vnější třídy.
trie::const_iterator
K této deklaraci
class trie { class const_iterator { const_iterator& operator++(); }; };
const_iterator::const_iterator& trie::const_iterator::operator--() { ... }
Testy v 5. kroku jsou časově náročné, a je potřeba je spouštět pouze pokud byly zkompilovány s optimalizacemi. Jsou proto schovány za tagem [.long]. V případě, že používáte CMake+CTest, pak se vám automaticky dají do sady testů, pokud jste konfigurovali build buďto v Release, nebo v RelWithDebInfo. V ostatních případech si je musíte spustit manuálně, například takto:
[.long]
Release
RelWithDebInfo
./tests "[.long]"
TIP: Obzvlášť na linuxu (a asi i Macu) doporučujeme psát kolem tagů uvozovky, protože hranaté závorky jsou interpretované shellem jako pattern souboru (tedy např. vector.[ch]pp se rozvine na vector.cpp vector.hpp, pokud oba soubory existují). Pokud žádný takový soubor neexistuje, některé shelly skončí s chybou (zsh), jiné to pak vezmou tak, jak to je, bez rozbalování (bash).
vector.[ch]pp
vector.cpp vector.hpp