ner_reader
این ماژول شامل کلاسها و توابعی برای خواندن پیکرهٔ موجودیتهای نامدار است.
پیکرهٔ موجودیتهای نامدار حاوی ۲۵ میلیون توکنِ برچسبخورده از ویکیپدیای فارسی در قالب حدود یک میلیون جمله است.
NerReader
¶
این کلاس شامل توابعی برای خواندن پیکرهٔ موجودیتهای نامدار است.
پارامترها:
نام | نوع | توضیحات | پیشفرض |
---|---|---|---|
corpus_folder |
str
|
مسیر فولدرِ حاوی فایلهای پیکره. |
اجباری |
sents()
¶
جملات را یکبهیک در قالب لیستی از
(توکن، برچسب)
ها برمیگرداند.
مثالها:
>>> ner = NerReader("ner")
>>> next(ner.sents())
[('ویکیپدیای', 'O'), ('انگلیسی', 'O'), ('در', 'B-DAT'), ('تاریخ', 'I-DAT'), ('۱۵', 'I-DAT'), ('ژانویه', 'I-DAT'), ('۲۰۰۱', 'I-DAT'), ('(', 'O'), ('میلادی', 'B-DAT'), (')', 'O'), ('۲۶', 'B-DAT'), ('دی', 'I-DAT'), ('۱۳۷۹', 'I-DAT'), (')', 'O'), ('به', 'O'), ('صورت', 'O'), ('مکملی', 'O'), ('برای', 'O'), ('دانشنامه', 'O'), ('تخصصی', 'O'), ('نوپدیا', 'O'), ('نوشته', 'O'), ('شد', 'O'), ('.', 'O')]
خروجی تدریجی:
نوع | توضیحات |
---|---|
List[Tuple[str, str]]
|
جملهٔ بعدی در قالب لیستی از
|