token_splitter

این ماژول شامل کلاس‌ها و توابعی برای تجزیه توکن به دو توکن کوچکتر است.

`TokenSplitter` ¶

این کلاس شامل توابعی برای تجزیه توکن به دو توکن کوچکتر است.

`split_token_words(token)` ¶

توکنِ ورودی را به دو توکن کوچکتر تجزیه می‌کند.

اگر توکن به بیش از یک روش قابل تجزیه باشد همهٔ حالت‌های ممکن را برمی‌گرداند؛ مثلاً «داستان‌سرا» هم می‌توان به ['داستان', 'سرا'] تجزیه شود و هم می‌تواند به ['داستان‌سرا',] شکسته شود؛ پس هر دو را برمی‌گرداند: [('داستان', 'سرا'), ('داستان‌سرا',)].

مثال‌ها:

>>> splitter = TokenSplitter()
>>> splitter.split_token_words('صداوسیماجمهوری')
[('صداوسیما', 'جمهوری')]
>>> splitter.split_token_words('صداو')
[('صد', 'او'), ('صدا', 'و')]
>>> splitter.split_token_words('داستان‌سرا')
[('داستان', 'سرا'), ('داستان‌سرا',)]
>>> splitter.split_token_words('دستان‌سرا')
[('دستان', 'سرا')]

پارامترها:

نام	نوع	توضیحات	پیش‌فرض
`token`	`str`	توکنی که باید پردازش شود.	اجباری

خروجی‌ها:

نوع	توضیحات
`List[Tuple[str, str]]`	لیستی از `[(توکن, توکن), (توکن, توکن), …]`ها.

token_splitter

TokenSplitter ¶

split_token_words(token) ¶

`TokenSplitter` ¶

`split_token_words(token)` ¶