پرش به محتویات

bijankhan_reader

این ماژول شامل کلاس‌ها و توابعی برای خواندن پیکرهٔ بی‌جن‌خان است.

پیکرهٔ بی‌جن‌خان مجموعه‌ای است از متون فارسی شامل بیش از ۲ میلیون و ۶۰۰ هزار کلمه که با ۵۵۰ نوع برچسب POS برچسب‌گذاری شده‌اند. این پیکره که در پژوهشکدهٔ پردازش هوشمند علائم تهیه شده است همچنین شامل بیش از ۴۳۰۰ تگ موضوعی چون سیاسی، تاریخی و ... برای متون است.

BijankhanReader

این کلاس شامل توابعی برای خواندن پیکرهٔ بی‌جن‌خان است.

پارامترها:

نام نوع توضیحات پیش‌فرض
bijankhan_file str

مسیر فایلِ پیکره.

اجباری
joined_verb_parts bool

اگر True‍ باشد افعال چندبخشی را با _ به‌هم می‌چسباند.

True
pos_map Optional[str]

دیکشنری مبدل برچسب‌های ریز به درشت.

None

sents()

جملات پیکره را به شکل لیستی از (توکن،برچسب)ها برمی‌گرداند..

مثال‌ها:

>>> bijankhan = BijankhanReader(bijankhan_file='bijankhan.txt')
>>> next(bijankhan.sents())
[('اولین', 'ADJ'), ('سیاره', 'N'), ('خارج', 'ADJ'), ('از', 'PREP'), ('منظومه', 'N'), ('شمسی', 'ADJ'), ('دیده_شد', 'V'), ('.', 'PUNC')]

خروجی تدریجی:

نوع توضیحات
List[Tuple[str, str]]

جملهٔ بعدی در قالب لیستی از (توکن،برچسب)ها.