dadegan_reader
این ماژول شامل کلاسها و توابعی برای خواندن پیکرهٔ PerDT است.
PerDT حاوی تعداد قابلتوجهی جملۀ برچسبخورده با اطلاعات نحوی و ساختواژی است.
DadeganReader
¶
این کلاس شامل توابعی برای خواندن پیکرهٔ PerDT است.
پارامترها:
نام | نوع | توضیحات | پیشفرض |
---|---|---|---|
conll_file |
str
|
مسیر فایلِ پیکره. |
اجباری |
pos_map |
str
|
دیکشنری مبدل برچسبهای ریز به درشت. |
coarse_pos_e
|
trees()
¶
ساختار درختی جملات را برمیگرداند.
خروجی تدریجی:
نوع | توضیحات |
---|---|
Type[Tree]
|
ساختار درختی جملهٔ بعدی. |
sents()
¶
لیستی از جملات را برمیگرداند.
هر جمله لیستی از (توکن، برچسب)
ها
است.
مثالها:
>>> dadegan = DadeganReader(conll_file='dadegan.conll')
>>> next(dadegan.sents())
[('این', 'DET'), ('میهمانی', 'N'), ('به', 'P'), ('منظور', 'Ne'), ('آشنایی', 'Ne'), ('همتیمیهای', 'Ne'), ('او', 'PRO'), ('با', 'P'), ('غذاهای', 'Ne'), ('ایرانی', 'AJ'), ('ترتیب', 'N'), ('داده_شد', 'V'), ('.', 'PUNC')]
خروجی تدریجی:
نوع | توضیحات |
---|---|
List[Tuple[str, str]]
|
جملهٔ بعدی. |
chunked_trees()
¶
درخت وابستگیهای جملات را برمیگرداند.
مثالها:
>>> from hazm.chunker import tree2brackets
>>> dadegan = DadeganReader(conll_file='dadegan.conll')
>>> tree2brackets(next(dadegan.chunked_trees()))
'[این میهمانی NP] [به PP] [منظور آشنایی همتیمیهای او NP] [با PP] [غذاهای ایرانی NP] [ترتیب داده_شد VP] .'
خروجی تدریجی:
نوع | توضیحات |
---|---|
Type[Tree]
|
درخت وابستگیهای جملهٔ بعدی. |
coarse_pos_u(tags, word)
¶
برچسبهای ریز را به برچسبهای درشت منطبق با استاندارد جهانی (coarse-grained universal pos tags) تبدیل میکند.
مثالها:
>>> coarse_pos_e(['N', 'IANM'], 'امروز')
'N'
coarse_pos_e(tags, word)
¶
برچسبهای ریز را به برچسبهای درشت (coarse-grained pos tags) تبدیل میکند.
مثالها:
>>> coarse_pos_e(['N', 'IANM'],'امروز')
'N'
word_nodes(tree)
¶
نودها را به صورت مرتبشده برمیگرداند.
node_deps(node)
¶
مقادیر موجود در فیلد deps نود ورودی را برمیگرداند.