پرش به محتویات

naab_reader

این ماژول شامل کلاس‌ها و توابعی برای خواندن پیکرهٔ ناب است.

پیکرهٔ ناب متشکل از ۱۳۰ گیگابایت متن تمیزشدهٔ فارسی متشکل از ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است.

NaabReader

این کلاس شامل توابعی برای خواندن پیکرهٔ ناب است.

پارامترها:

نام نوع توضیحات پیش‌فرض
corpus_folder str

مسیر فولدر حاوی فایل‌های پیکره.

اجباری
subset str

نوع دیتاست: test یا train

'train'

sents()

جملات پیکره را یک‌به‌یک برمی‌گرداند.

مثال‌ها:

>>> naab = NaabReader("naab", "test")
>>> next(naab.sents())
این وبلاگ زیر نظر وب‌های زیر به کار خود ادامه می‌دهد

خروجی تدریجی:

نوع توضیحات
str

جملهٔ بعدی.