stemmer
این ماژول شامل کلاسها و توابعی برای ریشهیابی کلمات است.
فرق بین Lemmatizer و Stemmer این است که اِستمر درکی از معنای کلمه ندارد و صرفاً براساس حذف برخی از پسوندهای ساده تلاش میکند ریشهٔ کلمه را بیابد؛ بنابراین ممکن است در ریشهیابیِ برخی از کلمات نتایج نادرستی ارائه دهد؛ اما لماتایزر براساس لیستی از کلمات مرجع به همراه ریشهٔ آن این کار را انجام میدهد و نتایج دقیقتری ارائه میدهد. البته هزینهٔ این دقت، سرعتِ کمتر در ریشهیابی است.
Stemmer
¶
کلاس(های) پایه:
StemmerI
این کلاس شامل توابعی برای ریشهیابی کلمات است.
stem(word)
¶
ریشهٔ کلمه را پیدا میکند.
مثالها:
>>> stemmer = Stemmer()
>>> stemmer.stem('کتابی')
'کتاب'
>>> stemmer.stem('کتابها')
'کتاب'
>>> stemmer.stem('کتابهایی')
'کتاب'
>>> stemmer.stem('کتابهایشان')
'کتاب'
>>> stemmer.stem('اندیشهاش')
'اندیشه'
>>> stemmer.stem('خانۀ')
'خانه'
پارامترها:
نام | نوع | توضیحات | پیشفرض |
---|---|---|---|
word |
str
|
کلمهای که باید ریشهٔ آن پیدا شود. |
اجباری |
خروجیها:
نوع | توضیحات |
---|---|
str
|
ریشهٔ کلمه. |