degarbayan_reader
این ماژول شامل کلاسها و توابعی برای خواندن پیکرهٔ دِگَربیان است.
پیکرهٔ دگربیان حاوی ۱۵۲۳ نمونه است که به عنوان نمونههای دگربیان نشانهگذاری شدهاند. جملات و عبارات دگربیان، بیانی متفاوت از مفهومی یکسان هستند. دادههای این پیکره از خبرگزاریها جمعآورده شده و در سه دستهبندی «دگربیان»، «تقریباً دگربیان» و «نامرتبط» ارائه میشوند. این دادهها با استفاده از همکاری جمعی در پیامرسان تلگرام نشانهگذاری شده است.
DegarbayanReader
¶
این کلاس شامل توابعی برای خواندن پیکرهٔ دگربیان است.
پارامترها:
نام | نوع | توضیحات | پیشفرض |
---|---|---|---|
root |
str
|
مسیر فولدر حاوی فایلهای پیکره |
اجباری |
corpus_file |
str
|
فایل اطلاعات پیکره. در صورتی که بخواهید از حالت استاندارد پیکره استفاده کنید نیازی به تغییرِ این فایل نیست. |
'corpus_pair.xml'
|
judge_type |
str
|
این پارامتر دارای دو مقدار
|
'three_class'
|
docs()
¶
اسناد موجود در پیکره را برمیگرداند.
خروجی تدریجی:
نوع | توضیحات |
---|---|
Dict[str,
Any]
|
سند بعدی. |
pairs()
¶
متنهای دگربیان را در قالب یک
(متن اصلی، شکل دگربیان، برچسب)
برمیگرداند.
مثالها:
>>> degarbayan = DegarbayanReader(root='degarbayan')
>>> next(degarbayan.pairs())
('24 نفر نهایی تیم ملی بدون تغییری خاص معرفی شد', 'کی روش 24 بازیکن را به تیم ملی فوتبال دعوت کرد', 'Paraphrase')
خروجی تدریجی:
نوع | توضیحات |
---|---|
str
|
|