پرش به محتویات

hamshahri_reader

این ماژول شامل کلاس‌ها و توابعی برای خواندن پیکرهٔ همشهری است.

پیکرهٔ همشهری حاوی ۳۱۸ هزار خبر از روزنامه همشهری از سال‌های ۱۳۷۵ تا ۱۳۸۶ است. این داده‌ها با crawl کردن وب‌سایت همشهری و گذر از چندمرحله پیش‌پردازش و برچسب‌زنی تهیه شده است. همهٔ این خبرها دارای برچسب CAT بوده و رده‌بندی موضوعی آن مشخص است. این پیکره توسط گروه تحقیقاتی پایکاه دادهٔ دانشگاه تهران و با حمایت مرکز تحقیقات مخابرات ایران تهیه شده است.

HamshahriReader

این کلاس شامل توابعی برای خواندن پیکرهٔ همشهری است.

پارامترها:

نام نوع توضیحات پیش‌فرض
root str

مسیر فولدرِ حاوی فایل‌های پیکرهٔ همشهری.

اجباری

docs()

خبرها را برمی‌گرداند.

هر خبر، شی‌ای متشکل از این پارامتر است:

  • شناسه (id)
  • عنوان (title)
  • متن (text)
  • شماره (issue)
  • موضوعات (categories)

مثال‌ها:

>>> hamshahri = HamshahriReader(root='hamshahri')
>>> next(hamshahri.docs())['id']
'HAM2-750403-001'

خروجی تدریجی:

نوع توضیحات
Dict[str, str]

خبر بعدی.

texts()

فقط متن خبرها را در قالب یک برمی‌گرداند.

این تابع صرفاً برای راحتی بیشتر تهیه شده وگرنه با تابع ‍docs() و دریافت مقدار پراپرتی text نیز می‌توانید همین کار را انجام دهید.

خروجی تدریجی:

نوع توضیحات
str

متنِ خبر بعدی.