token_splitter
این ماژول شامل کلاسها و توابعی برای تجزیه توکن به دو توکن کوچکتر است.
TokenSplitter
¶
این کلاس شامل توابعی برای تجزیه توکن به دو توکن کوچکتر است.
split_token_words(token)
¶
توکنِ ورودی را به دو توکن کوچکتر تجزیه میکند.
اگر توکن به بیش از یک روش قابل تجزیه باشد همهٔ
حالتهای ممکن را برمیگرداند؛ مثلاً «داستانسرا»
هم میتوان به
['داستان', 'سرا']
تجزیه شود و هم
میتواند به ['داستانسرا',]
شکسته
شود؛ پس هر دو را برمیگرداند:
[('داستان', 'سرا'), ('داستانسرا',)]
.
مثالها:
>>> splitter = TokenSplitter()
>>> splitter.split_token_words('صداوسیماجمهوری')
[('صداوسیما', 'جمهوری')]
>>> splitter.split_token_words('صداو')
[('صد', 'او'), ('صدا', 'و')]
>>> splitter.split_token_words('داستانسرا')
[('داستان', 'سرا'), ('داستانسرا',)]
>>> splitter.split_token_words('دستانسرا')
[('دستان', 'سرا')]
پارامترها:
نام | نوع | توضیحات | پیشفرض |
---|---|---|---|
token |
str
|
توکنی که باید پردازش شود. |
اجباری |
خروجیها:
نوع | توضیحات |
---|---|
List[Tuple[str, str]]
|
|