پرش به محتویات

token_splitter

این ماژول شامل کلاس‌ها و توابعی برای تجزیه توکن به دو توکن کوچکتر است.

TokenSplitter

این کلاس شامل توابعی برای تجزیه توکن به دو توکن کوچکتر است.

split_token_words(token)

توکنِ ورودی را به دو توکن کوچکتر تجزیه می‌کند.

اگر توکن به بیش از یک روش قابل تجزیه باشد همهٔ حالت‌های ممکن را برمی‌گرداند؛ مثلاً «داستان‌سرا» هم می‌توان به ['داستان', 'سرا'] تجزیه شود و هم می‌تواند به ['داستان‌سرا',] شکسته شود؛ پس هر دو را برمی‌گرداند: [('داستان', 'سرا'), ('داستان‌سرا',)].

مثال‌ها:

>>> splitter = TokenSplitter()
>>> splitter.split_token_words('صداوسیماجمهوری')
[('صداوسیما', 'جمهوری')]
>>> splitter.split_token_words('صداو')
[('صد', 'او'), ('صدا', 'و')]
>>> splitter.split_token_words('داستان‌سرا')
[('داستان', 'سرا'), ('داستان‌سرا',)]
>>> splitter.split_token_words('دستان‌سرا')
[('دستان', 'سرا')]

پارامترها:

نام نوع توضیحات پیش‌فرض
token str

توکنی که باید پردازش شود.

اجباری

خروجی‌ها:

نوع توضیحات
List[Tuple[str, str]]

لیستی از [(توکن, توکن), (توکن, توکن), …]ها.