پرش به محتویات

degarbayan_reader

این ماژول شامل کلاس‌ها و توابعی برای خواندن پیکرهٔ دِگَربیان است.

پیکرهٔ دگربیان حاوی ۱۵۲۳ نمونه است که به عنوان نمونه‌های دگربیان نشانه‌گذاری شده‌اند. جملات و عبارات دگربیان، بیانی متفاوت از مفهومی یکسان هستند. داده‌های این پیکره از خبرگزاری‌ها جمع‌آورده شده و در سه دسته‌بندی «دگربیان»، «تقریباً دگربیان» و «نامرتبط» ارائه می‌شوند. این داده‌ها با استفاده از همکاری جمعی در پیام‌رسان تلگرام نشانه‌گذاری شده است.

DegarbayanReader

این کلاس شامل توابعی برای خواندن پیکرهٔ دگربیان است.

پارامترها:

نام نوع توضیحات پیش‌فرض
root str

مسیر فولدر حاوی فایل‌های پیکره

اجباری
corpus_file str

فایل اطلاعات پیکره. در صورتی که بخواهید از حالت استاندارد پیکره استفاده کنید نیازی به تغییرِ این فایل نیست.

'corpus_pair.xml'
judge_type str

این پارامتر دارای دو مقدار three_class و two_class است. در حالت three_class جملات سه برچسب می‌خورند: ۱. Paraphrase(دگربیان) ۲. SemiParaphrase(تقریباً دگربیان) ۳. NotParaphrase(غیر دگربیان). در حالت two_class حالت دوم یعنی SemiParaphrase هم برچسب Paraphrase می‌خورَد.

'three_class'

docs()

اسناد موجود در پیکره را برمی‌گرداند.

خروجی تدریجی:

نوع توضیحات
Dict[str, Any]

سند بعدی.

pairs()

متن‌های دگربیان را در قالب یک (متن اصلی، شکل دگربیان، برچسب) برمی‌گرداند.

مثال‌ها:

>>> degarbayan = DegarbayanReader(root='degarbayan')
>>> next(degarbayan.pairs())
('24 نفر نهایی تیم ملی بدون تغییری خاص معرفی شد', 'کی روش 24 بازیکن را به تیم ملی فوتبال دعوت کرد', 'Paraphrase')

خروجی تدریجی:

نوع توضیحات
str

متن دگربیان بعدی در قالب یک(متن اصلی، شکل دگربیان، برچسب).