persica_reader

این ماژول شامل کلاس‌ها و توابعی برای خواندن پیکرهٔ پرسیکا است.

پیکرهٔ پرسیکا حاوی خبرهای برگرفته از خبرگزاری ایسنا در یازده دستهٔ ورزشی، اقتصادی، فرهنگی، مذهبی، تاریخی، سیاسی، علمی، اجتماعی، آموزشی، حقوق قضایی و بهداشت است. روی این داده‌ها پیش‌پردازش‌هایی صورت شده و آمادهٔ استفاده در کاربردهای مختلف پردازش زبان طبیعی و داده‌کاوی است.

`PersicaReader` ¶

این کلاس شامل توابعی برای خواندن پیکرهٔ پرسیکا است.

پارامترها:

نام	نوع	توضیحات	پیش‌فرض
`csv_file`	`str`	مسیر فایلِ پیکره با پسوند csv.	اجباری

`docs()` ¶

خبرها را برمی‌گرداند.

هر خبر، شی‌ای متشکل از این پارامتر است:

شناسه (id)
عنوان (title)
متن (text)
تاریخ (date)
زمان (time)
دستهٔ اصلی (category)
دستهٔ فرعی (category2)

مثال‌ها:

>>> persica = PersicaReader('persica.csv')
>>> next(persica.docs())['id']
843656

خروجی تدریجی:

نوع	توضیحات
`Dict[str, str]`	خبر بعدی.

`texts()` ¶

فقط متن خبرها را برمی‌گرداند.

این تابع صرفاً برای راحتی بیشتر تهیه شده وگرنه با همان تابع ‍docs() و دریافت مقدار پراپرتی text نیز می‌توانید همین کار را انجام دهید.

مثال‌ها:

>>> persica = PersicaReader('persica.csv')
>>> next(persica.texts()).startswith('وزير علوم در جمع استادان نمونه كشور گفت')
True

خروجی تدریجی:

نوع	توضیحات
`str`	متنِ خبر بعدی.

persica_reader

PersicaReader ¶

docs() ¶

texts() ¶

`PersicaReader` ¶

`docs()` ¶

`texts()` ¶