Lemmatizer.org

Lemmatizer.org — это сайт, посвященный морфологии и лемматизации европейских языков. В настоящий момент представлены только двая языка — русский и английский, но мы надеемся, что в будущем будут представлены большинство языков.

Цель лемматизации — это перечислить все формы данного слова и указать их морфологические признаки: число, род, падеж, род, время и др. Несмотря на то, что задача до нас решалась другими людьми, мы решили создать новый проект. Во-первых, большинство подобного рода ПО несвободно, ну а те что свободны написаны были не совсем удачно. Тем не менее, создатели проекта хотели бы высказать благодарность всей команде АОТ и лично Алексею Сокирко, ведь именно его продукт мы захотели перевести на новый этап развития.

С самого начала мы поставили следующие цели:

  • Все библиотеки должны быть кроссплатформенными, легко собираться на любой архитектуре. В качестве инструментария для сборки был выбран cmake.
  • Все библиотеки должны быть многопоточными, при этом не должна теряться производительность.
  • Работа со словарем должна быть максимально абстрагирована от рабочей кодировки проекта, никаких дополнительных переводов из UTF-8 в windows-1251 для лемматизации с последующим возвращением к старой кодировке.
  • Добавление нового языка должно быть легким и приятным, это должна быть скорее лингвистическая работа. Разумеется, что использование лемматизаторов для нескольких языков должно быть максимально похоже.
  • Простое редактирование словаря и простая перекомпилляция.
  • Удобство для тех, кому надо не так уж много — например, просто перечислить все возможные начальные формы слова.
  • Высокая производительность даже при предсказании, если слово не словарное.

    Все библиотеки предоставлены под лицензией GNU GPL.

    11 Сентября 2007, Lemmatizer.org был успешно запущен.

    Причем обе версии — русская и английская.


    © 2007, Lemmatizer Team.
    Contact e-mail: lemmatizer@mail.ru
    (spammers are welcome, I always order your products nowhere. :) )
    Рейтинг@Mail.ru