پرش به محتویات

dadegan_reader

این ماژول شامل کلاس‌ها و توابعی برای خواندن پیکرهٔ PerDT است.

PerDT حاوی تعداد قابل‌توجهی جملۀ برچسب‌خورده با اطلاعات نحوی و ساخت‌واژی است.

DadeganReader

این کلاس شامل توابعی برای خواندن پیکرهٔ PerDT است.

پارامترها:

نام نوع توضیحات پیش‌فرض
conll_file str

مسیر فایلِ پیکره.

اجباری
pos_map str

دیکشنری مبدل برچسب‌های ریز به درشت.

coarse_pos_e

trees()

ساختار درختی جملات را برمی‌گرداند.

خروجی تدریجی:

نوع توضیحات
Type[Tree]

ساختار درختی جملهٔ بعدی.

sents()

لیستی از جملات را برمی‌گرداند.

هر جمله لیستی از (توکن، برچسب)ها است.

مثال‌ها:

>>> dadegan = DadeganReader(conll_file='dadegan.conll')
>>> next(dadegan.sents())
[('این', 'DET'), ('میهمانی', 'N'), ('به', 'P'), ('منظور', 'Ne'), ('آشنایی', 'Ne'), ('هم‌تیمی‌های', 'Ne'), ('او', 'PRO'), ('با', 'P'), ('غذاهای', 'Ne'), ('ایرانی', 'AJ'), ('ترتیب', 'N'), ('داده_شد', 'V'), ('.', 'PUNC')]

خروجی تدریجی:

نوع توضیحات
List[Tuple[str, str]]

جملهٔ بعدی.

chunked_trees()

درخت وابستگی‌های جملات را برمی‌گرداند.

مثال‌ها:

>>> from hazm.chunker import tree2brackets
>>> dadegan = DadeganReader(conll_file='dadegan.conll')
>>> tree2brackets(next(dadegan.chunked_trees()))
'[این میهمانی NP] [به PP] [منظور آشنایی هم‌تیمی‌های او NP] [با PP] [غذاهای ایرانی NP] [ترتیب داده_شد VP] .'

خروجی تدریجی:

نوع توضیحات
Type[Tree]

درخت وابستگی‌های جملهٔ بعدی.

coarse_pos_u(tags, word)

برچسب‌های ریز را به برچسب‌های درشت منطبق با استاندارد جهانی (coarse-grained universal pos tags) تبدیل می‌کند.

مثال‌ها:

>>> coarse_pos_e(['N', 'IANM'], 'امروز')
'N'

coarse_pos_e(tags, word)

برچسب‌های ریز را به برچسب‌های درشت (coarse-grained pos tags) تبدیل می‌کند.

مثال‌ها:

>>> coarse_pos_e(['N', 'IANM'],'امروز')
'N'

word_nodes(tree)

نودها را به صورت مرتب‌شده برمی‌گرداند.

node_deps(node)

مقادیر موجود در فیلد deps نود ورودی را برمی‌گرداند.