naab_reader
این ماژول شامل کلاسها و توابعی برای خواندن پیکرهٔ ناب است.
پیکرهٔ ناب متشکل از ۱۳۰ گیگابایت متن تمیزشدهٔ فارسی متشکل از ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است.
NaabReader
¶
این کلاس شامل توابعی برای خواندن پیکرهٔ ناب است.
پارامترها:
نام | نوع | توضیحات | پیشفرض |
---|---|---|---|
corpus_folder |
str
|
مسیر فولدر حاوی فایلهای پیکره. |
اجباری |
subset |
str
|
نوع دیتاست: |
'train'
|
sents()
¶
جملات پیکره را یکبهیک برمیگرداند.
مثالها:
>>> naab = NaabReader("naab", "test")
>>> next(naab.sents())
این وبلاگ زیر نظر وبهای زیر به کار خود ادامه میدهد
خروجی تدریجی:
نوع | توضیحات |
---|---|
str
|
جملهٔ بعدی. |