tnews_reader
این ماژول شامل کلاسها و توابعی برای خواندن پیکرهٔ تینیوز است.
TNewsReader
¶
این کلاس شامل توابعی برای خواندن پیکرهٔ تینیوز است.
پارامترها:
نام | نوع | توضیحات | پیشفرض |
---|---|---|---|
root |
str
|
مسیر فولدر حاوی فایلهای پیکره. |
اجباری |
docs()
¶
خبرها را در قالب یک
iterator
برمیگرداند.
هر خبر، شیای متشکل از چند پارامتر است:
- شناسه (id)،
- عنوان (title)،
- پیش از عنوان (pre-title)،
- پس از عنوان (post-title)،
- متن (text)،
- خلاصه (brief)،
- آدرس (url)،
- موضوع (category)،
- تاریخ و زمان انتشار (datetime).
مثالها:
>>> tnews = TNewsReader(root='tnews')
>>> next(tnews.docs())['id']
'14092303482300013653'
خروجی تدریجی:
نوع | توضیحات |
---|---|
Dict
|
خبر بعدی. |
texts()
¶
فقط متن خبرها را برمیگرداند.
این تابع صرفاً برای راحتی بیشتر تهیه شده وگرنه
با همان تابع docs()
و دریافت مقدار پراپرتی text
نیز
میتوانید همین کار را انجام دهید.
مثالها:
>>> tnews = TNewsReader(root='tnews')
>>> next(tnews.texts()).startswith('به گزارش ” شبکه اطلاع رسانی اینترنتی بوتیا ” به نقل از ارگ نیوز')
True
خروجی تدریجی:
نوع | توضیحات |
---|---|
str
|
متن خبر بعدی. |