پرش به محتویات

Wikipedia_reader

این ماژول شامل کلاس‌ها و توابعی برای خواندن پیکرهٔ ویکی‌پدیا است.

پیکرهٔ ویکی‌پدیا پیکرهٔ عظیمی مشتمل بر تمام مقالات ویکی‌پدیای فارسی است که هر دوماه یکبار بروزرسانی می‌شود. برای کسب اطلاعات بیشتر دربارهٔ این پیکره می‌توانید به صفحهٔ اصلی آن مراجعه کنید.

WikipediaReader

این کلاس شامل توابعی برای خواندن پیکرهٔ ویکی‌پدیا است.

پارامترها:

نام نوع توضیحات پیش‌فرض
fawiki_dump str

مسیر فولدر حاوی فایل‌های پیکره.

اجباری
n_jobs int

تعداد هسته‌های پردازنده برای پردازش موازی.

2

docs()

مقالات را برمی‌گرداند.

هر مقاله، شی‌ای متشکل از چند پارامتر است:

  • شناسه (id)،
  • عنوان (title)،
  • متن (text)،
  • نسخهٔ وب (date)،
  • آدرس صفحه (url).

مثال‌ها:

>>> wikipedia = WikipediaReader('fawiki-latest-pages-articles.xml.bz2')
>>> next(wikipedia.docs())['id']

خروجی تدریجی:

نوع توضیحات
Dict[str, str]

مقالهٔ بعدی.

texts()

فقط متن مقالات را برمی‌گرداند.

این تابع صرفاً برای راحتی بیشتر تهیه شده وگرنه با همان تابع ‍docs() و دریافت مقدار پراپرتی text نیز می‌توانید همین کار را انجام دهید.

مثال‌ها:

>>> wikipedia = WikipediaReader('fawiki-latest-pages-articles.xml.bz2')
>>> next(wikipedia.texts())[:30]

خروجی تدریجی:

نوع توضیحات
str

متنِ مقالهٔ بعدی.