persica_reader
این ماژول شامل کلاسها و توابعی برای خواندن پیکرهٔ پرسیکا است.
پیکرهٔ پرسیکا حاوی خبرهای برگرفته از خبرگزاری ایسنا در یازده دستهٔ ورزشی، اقتصادی، فرهنگی، مذهبی، تاریخی، سیاسی، علمی، اجتماعی، آموزشی، حقوق قضایی و بهداشت است. روی این دادهها پیشپردازشهایی صورت شده و آمادهٔ استفاده در کاربردهای مختلف پردازش زبان طبیعی و دادهکاوی است.
PersicaReader
¶
این کلاس شامل توابعی برای خواندن پیکرهٔ پرسیکا است.
پارامترها:
نام | نوع | توضیحات | پیشفرض |
---|---|---|---|
csv_file |
str
|
مسیر فایلِ پیکره با پسوند csv. |
اجباری |
docs()
¶
خبرها را برمیگرداند.
هر خبر، شیای متشکل از این پارامتر است:
- شناسه (
id
) - عنوان (
title
) - متن (
text
) - تاریخ (
date
) - زمان (
time
) - دستهٔ اصلی (
category
) - دستهٔ فرعی (
category2
)
مثالها:
>>> persica = PersicaReader('persica.csv')
>>> next(persica.docs())['id']
843656
خروجی تدریجی:
نوع | توضیحات |
---|---|
Dict[str, str]
|
خبر بعدی. |
texts()
¶
فقط متن خبرها را برمیگرداند.
این تابع صرفاً برای راحتی بیشتر تهیه شده وگرنه
با همان تابع docs()
و دریافت مقدار پراپرتی text
نیز
میتوانید همین کار را انجام دهید.
مثالها:
>>> persica = PersicaReader('persica.csv')
>>> next(persica.texts()).startswith('وزير علوم در جمع استادان نمونه كشور گفت')
True
خروجی تدریجی:
نوع | توضیحات |
---|---|
str
|
متنِ خبر بعدی. |