Wikipedia_reader
این ماژول شامل کلاسها و توابعی برای خواندن پیکرهٔ ویکیپدیا است.
پیکرهٔ ویکیپدیا پیکرهٔ عظیمی مشتمل بر تمام مقالات ویکیپدیای فارسی است که هر دوماه یکبار بروزرسانی میشود. برای کسب اطلاعات بیشتر دربارهٔ این پیکره میتوانید به صفحهٔ اصلی آن مراجعه کنید.
WikipediaReader
¶
این کلاس شامل توابعی برای خواندن پیکرهٔ ویکیپدیا است.
پارامترها:
نام | نوع | توضیحات | پیشفرض |
---|---|---|---|
fawiki_dump |
str
|
مسیر فولدر حاوی فایلهای پیکره. |
اجباری |
n_jobs |
int
|
تعداد هستههای پردازنده برای پردازش موازی. |
2
|
docs()
¶
مقالات را برمیگرداند.
هر مقاله، شیای متشکل از چند پارامتر است:
- شناسه (id)،
- عنوان (title)،
- متن (text)،
- نسخهٔ وب (date)،
- آدرس صفحه (url).
مثالها:
>>> wikipedia = WikipediaReader('fawiki-latest-pages-articles.xml.bz2')
>>> next(wikipedia.docs())['id']
خروجی تدریجی:
نوع | توضیحات |
---|---|
Dict[str, str]
|
مقالهٔ بعدی. |
texts()
¶
فقط متن مقالات را برمیگرداند.
این تابع صرفاً برای راحتی بیشتر تهیه شده وگرنه
با همان تابع docs()
و دریافت مقدار پراپرتی text
نیز
میتوانید همین کار را انجام دهید.
مثالها:
>>> wikipedia = WikipediaReader('fawiki-latest-pages-articles.xml.bz2')
>>> next(wikipedia.texts())[:30]
خروجی تدریجی:
نوع | توضیحات |
---|---|
str
|
متنِ مقالهٔ بعدی. |