Лемматизация (от lemmatization) – использование метода анализа, который  для каждой словоформы возвращает ее лемму (первоначальную, словарную форму).

Поисковые системы используют лемматизацию в своих алгоритмах при поведении индексирования ресурсов.  После обработки текста остается текст, содержащий словарные  формы слов.  Правила русского языка определяют следующие словарные (основные) формы:

  • глаголы – в инфинитивной форме (делали - делать);
  • существительные – в единственном числе и именительном падеже (делами - дело);
  • прилагательные -  в именительном падеже, единственном числе и мужском роде (голубыми - голубой).

К примеру, текст «птицы наполняли лес звонкими голосами» после лемматизации будет выглядеть как «птица наполнять лес звонкий голос».

Русский, как и другие языки, содержит множество слов, имеющих с точки зрения лемм неоднозначное значение. К примеру, слово «бой»  может иметь леммой глагол «бить» или существительное «бой».  Такое положение приводит к неточным и неоднозначным  итогам лемматизации при использовании этого метода в алгоритмах систем поиска.

См. дополнительно: