Lemmatizer.org

Как быстро установить, попробовать и понять, как устроен лемматизатор.

Прежде всего нужно понять, что лемматизатор — набор статических библиотек, которые вы будете линковать со своим кодом, а вместе с программой вы должны тащить бинарные словари. В этом кратком введении описана установка и проба русского лемматизатора. Будем считать, что у вас в системе есть cmake, а также что ваша система — Unix-style. Любителям других ОС предлагается описать подобный процесс у них в системе и написать соответствующий мануал.

Ядром лемматизатора является библиотека libMAFSA. Именно с неё следует начать установку. Скачайте со странички download libMAFSA последней версии, далее распакуйте и скомпилируйте код:
# tar xzf libMAFSA-0.2.tar.gz
# cd libMAFSA-0.2/
# cmake .
# make
# sudo make install
После этого надо установить сам лемматизатор. С той же странички скачиваем libturglem:
# tar xzf libturglem-0.2.tar.gz
# cd libturglem-0.2
# cmake .
# make
# sudo make install
Далее устанавливаем словари русского языка и дополнительные функции для работы.
# tar xzf turglem-russian-0.2.tar.gz
# cd turglem-russian-0.2
# cmake .
# make
# sudo make install
Внимание! При выполнении make будут скомпилированы словари, это занимает несколько минут, а также требует 100 Мб памяти. Если вы не хотите компилировать словари сами, можете их установить скомпилированные, они будут доступны на страничке download.

Теперь можно установить примеры использования лемматизатора для русского языка. Должны скомпилироваться две простые программы, tast_01 и test_02 (первая написана на чистом Си, вторая на C++. Рекомендуется при мервом знакомстве сразу начать изучение со второго примера, большинство задач просто и ясно решаются оберткой tl::lemmatizer

На страничке tutorial можно посмотреть как начать использовать лемматизатор.


© 2007, Lemmatizer Team.
Contact e-mail: lemmatizer@mail.ru
(spammers are welcome, I always order your products nowhere. :) )