پرش به محتویات

پیکره‌خوان‌ها

پردازش زبان طبیعی نیازمند داده است. این داده‌ها که غالباً تحت عنوان «پیکره» شناخته می‌شوند برای استخراج الگوها و یادگیری ماشین ضروری هستند. خواندن این پیکره‌ها و تبدیل داده‌های خام به قالبی مناسب برای استفاده از آن‌ها در پردازش زبان طبیعی نیازمند صرف وقتی جدا برای کدنویسی و پردازش این داده‌های خام است. ما برای صرفه‌جویی در وقت شما، کلاس‌ها و توابعی تهیه کرده‌ایم که به‌راحتی می‌توانید پیکره‌های معروف فارسی را بخوانید. کلاس‌ها و توابعِ این بخش صرفاً برای تسهیل کار توسعه‌دهندگان تهیه شده است و اساساً جزئی در کتابخانهٔ هضم به شمار نمی‌روند.

hamshahri_reader

mirastext_reader

quran_reader

bijankhan_reader

dadegan_reader

universal_dadegan_reader

degarbayan_reader

persica_reader

persian_plain_text_reader

peykare_reader

sentipers_reader

tnews_reader

treebank_reader

verbvalency_reader

wikipedia_reader

mizan_reader

ner_reader

naab_reader