sentence_tokenizer
کاربرد عملی
برای آشنایی با کاربرد این ماژول میتوانید به بخش کاربردهای هضم مراجعه کنید.
در پروژههای زیر از این ماژول استفاده شده است:
این ماژول شامل کلاسها و توابعی برای استخراج جملاتِ متن است.
برای استخراج کلمات از تابع WordTokenizer() استفاده کنید.
SentenceTokenizer
¶
کلاس(های) پایه:
TokenizerI
این کلاس شامل توابعی برای استخراج جملاتِ متن است.
tokenize(text)
¶
متن ورودی را به جملات سازندهٔ آن میشِکند.
مثالها:
>>> tokenizer = SentenceTokenizer()
>>> tokenizer.tokenize('جدا کردن ساده است. تقریبا البته!')
['جدا کردن ساده است.', 'تقریبا البته!']
پارامترها:
نام | نوع | توضیحات | پیشفرض |
---|---|---|---|
text |
str
|
متنی که باید جملات آن استخراج شود. |
اجباری |
خروجیها:
نوع | توضیحات |
---|---|
List[str]
|
فهرست جملات استخراجشده. |