Лемма — первісна, основна форма слова. Для іменників і прикметників, такою є форма однини, називного відмінка. Для дієслів — відповідь на питання «що робити?».
Лематизація — перетворення слова в словниковий вид або лемму. Даний метод використовується в алгоритмах пошукачів при індексуванні інтернет-сторінок. Процес дає можливість зберігання даних сторінки набором слів в індексі для зручної схематизації файлів. Це, у свою чергу, дозволяє прискорити індексацію і сформувати більш чітку відповідь на пошукової запит, так як скорочену форму слова пошуковик аналізує швидше.
При лематизації слово втрачає флективні закінчення і знаходить основну форму. Приміром, іменник [плечима — плече], дієслово [ходили — ходити], прикметник [смішним — смішний].
Слід розуміти, що в природній мові є деяка кількість слів, лематизації яких може призвести до неоднозначних результатів. Приміром, форму слова [виття] можна навести 2-му Лемма: сущ. «Вої» і глаг. «Вити». У зв’язку з цим лематизації іноді буває не точною, адже пошуковик враховує одну з потенційних лем слова в певному тексті.
Незважаючи на це, лематизації відіграє важливу роль в індексації веб-сторінок при гарній розробці та оптимізації сайту. Висока швидкість є критерієм ефективного індексування. Вона залежить від кількості форм слова — чим їх менше, тим раніше закінчиться схематизація документа.
Бувають ситуації, в яких необхідно коригувати мета лематизації для зміни зменшувальних / підсилювальних форм слова: [вилочкою — вилочка], а також зміни деепричастия інфінітивом: [стрибаючи — стрибати]. Це не входить в стандартний алгоритм лематизації, однак, може бути досягнуто за допомогою тезауруса — словникового інструменту.
Лемматізатори в Івано-Франкіську — ПЗ, завдання яких: зменшення числа словоформ і здійснення лематизації. Багато з них представлені в інтернеті у відкритому доступі, деякі — безкоштовні.
Найчастіше подібні програми є спрощеною версією аналогів, які використовують пошуковики або програмісти. Головна причина — неможливість купити хостинг, що аналізує велику кількість даних. Ультракомпактність стає головною метою індексаторів локальних пошуковиків, створюваних програмістами.
Лематизації також служить для оцінки унікальності контенту. У процесі дані сторінки розбиваються на шинглі і проводиться аналіз лем в кожному з них. У першу чергу, лематизації необхідна для збільшення релевантності пошуку. До порівняння шинглів пошукачем форми слів перетворюються лемматізатором в леми, потім нерелевантні файли фільтруються.
У нашій мові найменування словникових довідок відповідають стандартній формі іменників. Відповідно лематизації тут виступає другорядним процесом морфологічного аналізу. Але аналіз в принципі досить складний, необхідно наявність величезної словникової бази. У зв’язку з цим у багатьох ситуаціях корисні описані вище лемматізатори. Подібні програми набагато більш прості, зручні і вимагають зовсім небагато зовнішніх залежностей.
Також існує суміжний лематизації процес — стемінг. Алгоритм використовується в пошукових з метою розширення запиту і нормалізації текстової інформації. Але стемінг і лематизації — різні речі. При першій операції від словоформ відокремлюються закінчення, маючи на увазі, що в більшості ситуацій це себе виправдає. Найчастіше стемінг означає видалення похідних афіксів.