bijankhan_reader
این ماژول شامل کلاسها و توابعی برای خواندن پیکرهٔ بیجنخان است.
پیکرهٔ بیجنخان مجموعهای است از متون فارسی شامل بیش از ۲ میلیون و ۶۰۰ هزار کلمه که با ۵۵۰ نوع برچسب POS برچسبگذاری شدهاند. این پیکره که در پژوهشکدهٔ پردازش هوشمند علائم تهیه شده است همچنین شامل بیش از ۴۳۰۰ تگ موضوعی چون سیاسی، تاریخی و ... برای متون است.
BijankhanReader
¶
این کلاس شامل توابعی برای خواندن پیکرهٔ بیجنخان است.
پارامترها:
نام | نوع | توضیحات | پیشفرض |
---|---|---|---|
bijankhan_file |
str
|
مسیر فایلِ پیکره. |
اجباری |
joined_verb_parts |
bool
|
اگر |
True
|
pos_map |
Optional[str]
|
دیکشنری مبدل برچسبهای ریز به درشت. |
None
|
sents()
¶
جملات پیکره را به شکل لیستی از
(توکن،برچسب)
ها برمیگرداند..
مثالها:
>>> bijankhan = BijankhanReader(bijankhan_file='bijankhan.txt')
>>> next(bijankhan.sents())
[('اولین', 'ADJ'), ('سیاره', 'N'), ('خارج', 'ADJ'), ('از', 'PREP'), ('منظومه', 'N'), ('شمسی', 'ADJ'), ('دیده_شد', 'V'), ('.', 'PUNC')]
خروجی تدریجی:
نوع | توضیحات |
---|---|
List[Tuple[str, str]]
|
جملهٔ بعدی در قالب لیستی از
|