hamshahri_reader
این ماژول شامل کلاسها و توابعی برای خواندن پیکرهٔ همشهری است.
پیکرهٔ همشهری حاوی ۳۱۸ هزار خبر از روزنامه همشهری از سالهای ۱۳۷۵ تا ۱۳۸۶ است. این دادهها با crawl کردن وبسایت همشهری و گذر از چندمرحله پیشپردازش و برچسبزنی تهیه شده است. همهٔ این خبرها دارای برچسب CAT بوده و ردهبندی موضوعی آن مشخص است. این پیکره توسط گروه تحقیقاتی پایکاه دادهٔ دانشگاه تهران و با حمایت مرکز تحقیقات مخابرات ایران تهیه شده است.
HamshahriReader
¶
این کلاس شامل توابعی برای خواندن پیکرهٔ همشهری است.
پارامترها:
نام | نوع | توضیحات | پیشفرض |
---|---|---|---|
root |
str
|
مسیر فولدرِ حاوی فایلهای پیکرهٔ همشهری. |
اجباری |
docs()
¶
خبرها را برمیگرداند.
هر خبر، شیای متشکل از این پارامتر است:
- شناسه (
id
) - عنوان (
title
) - متن (
text
) - شماره (
issue
) - موضوعات (
categories
)
مثالها:
>>> hamshahri = HamshahriReader(root='hamshahri')
>>> next(hamshahri.docs())['id']
'HAM2-750403-001'
خروجی تدریجی:
نوع | توضیحات |
---|---|
Dict[str, str]
|
خبر بعدی. |