ner_reader

این ماژول شامل کلاس‌ها و توابعی برای خواندن پیکرهٔ موجودیت‌های نامدار است.

پیکرهٔ موجودیت‌های نامدار حاوی ۲۵ میلیون توکنِ برچسب‌خورده از ویکی‌پدیای فارسی در قالب حدود یک میلیون جمله است.

`NerReader` ¶

این کلاس شامل توابعی برای خواندن پیکرهٔ موجودیت‌های نامدار است.

پارامترها:

نام	نوع	توضیحات	پیش‌فرض
`corpus_folder`	`str`	مسیر فولدرِ حاوی فایل‌های پیکره.	اجباری

`sents()` ¶

جملات را یک‌به‌یک در قالب لیستی از (توکن، برچسب)ها برمی‌گرداند.

مثال‌ها:

>>> ner = NerReader("ner")
>>> next(ner.sents())
[('ویکی‌پدیای', 'O'), ('انگلیسی', 'O'), ('در', 'B-DAT'), ('تاریخ', 'I-DAT'), ('۱۵', 'I-DAT'), ('ژانویه', 'I-DAT'), ('۲۰۰۱', 'I-DAT'), ('(', 'O'), ('میلادی', 'B-DAT'), (')', 'O'), ('۲۶', 'B-DAT'), ('دی', 'I-DAT'), ('۱۳۷۹', 'I-DAT'), (')', 'O'), ('به', 'O'), ('صورت', 'O'), ('مکملی', 'O'), ('برای', 'O'), ('دانشنامه', 'O'), ('تخصصی', 'O'), ('نوپدیا', 'O'), ('نوشته', 'O'), ('شد', 'O'), ('.', 'O')]

خروجی تدریجی:

نوع	توضیحات
`List[Tuple[str, str]]`	جملهٔ بعدی در قالب لیستی از `(توکن، برچسب)`ها

ner_reader

NerReader ¶

sents() ¶

`NerReader` ¶

`sents()` ¶