پرش به محتویات

ner_reader

این ماژول شامل کلاس‌ها و توابعی برای خواندن پیکرهٔ موجودیت‌های نامدار است.

پیکرهٔ موجودیت‌های نامدار حاوی ۲۵ میلیون توکنِ برچسب‌خورده از ویکی‌پدیای فارسی در قالب حدود یک میلیون جمله است.

NerReader

این کلاس شامل توابعی برای خواندن پیکرهٔ موجودیت‌های نامدار است.

پارامترها:

نام نوع توضیحات پیش‌فرض
corpus_folder str

مسیر فولدرِ حاوی فایل‌های پیکره.

اجباری

sents()

جملات را یک‌به‌یک در قالب لیستی از (توکن، برچسب)ها برمی‌گرداند.

مثال‌ها:

>>> ner = NerReader("ner")
>>> next(ner.sents())
[('ویکی‌پدیای', 'O'), ('انگلیسی', 'O'), ('در', 'B-DAT'), ('تاریخ', 'I-DAT'), ('۱۵', 'I-DAT'), ('ژانویه', 'I-DAT'), ('۲۰۰۱', 'I-DAT'), ('(', 'O'), ('میلادی', 'B-DAT'), (')', 'O'), ('۲۶', 'B-DAT'), ('دی', 'I-DAT'), ('۱۳۷۹', 'I-DAT'), (')', 'O'), ('به', 'O'), ('صورت', 'O'), ('مکملی', 'O'), ('برای', 'O'), ('دانشنامه', 'O'), ('تخصصی', 'O'), ('نوپدیا', 'O'), ('نوشته', 'O'), ('شد', 'O'), ('.', 'O')]

خروجی تدریجی:

نوع توضیحات
List[Tuple[str, str]]

جملهٔ بعدی در قالب لیستی از (توکن، برچسب)ها