پیکره‌خوان‌ها¶

پردازش زبان طبیعی نیازمند داده است. این داده‌ها که غالباً تحت عنوان «پیکره» شناخته می‌شوند برای استخراج الگوها و یادگیری ماشین ضروری هستند. خواندن این پیکره‌ها و تبدیل داده‌های خام به قالبی مناسب برای استفاده از آن‌ها در پردازش زبان طبیعی نیازمند صرف وقتی جدا برای کدنویسی و پردازش این داده‌های خام است. ما برای صرفه‌جویی در وقت شما، کلاس‌ها و توابعی تهیه کرده‌ایم که به‌راحتی می‌توانید پیکره‌های معروف فارسی را بخوانید. کلاس‌ها و توابعِ این بخش صرفاً برای تسهیل کار توسعه‌دهندگان تهیه شده است و اساساً جزئی در کتابخانهٔ هضم به شمار نمی‌روند.

پیکره‌خوان‌ها¶

hamshahri_reader ¶

mirastext_reader ¶

quran_reader ¶

bijankhan_reader ¶

dadegan_reader ¶

universal_dadegan_reader ¶

degarbayan_reader ¶

persica_reader ¶

persian_plain_text_reader ¶

peykare_reader ¶

sentipers_reader ¶

tnews_reader ¶

treebank_reader ¶

verbvalency_reader ¶

wikipedia_reader ¶

mizan_reader ¶

ner_reader ¶

naab_reader ¶