پرش به محتویات

informal_normalizer

این ماژول شامل کلاس‌ها و توابعی برای نرمال‌سازی متن‌های محاوره‌ای است.

InformalNormalizer

کلاس(های) پایه: Normalizer

این کلاس شامل توابعی برای نرمال‌سازی متن‌های محاوره‌ای است.

پارامترها:

نام نوع توضیحات پیش‌فرض
verb_file str

فایل حاوی افعال محاوره‌ای.

informal_verbs
word_file str

فایل حاوی کلمات محاوره‌ای.

informal_words
seperation_flag bool

اگر True باشد و در بخشی از متن به فاصله نیاز بود آن فاصله درج می‌شود.

False
**kargs str

پارامترهای نامدارِ اختیاری

{}

split_token_words(token)

هرجایی در متن فاصله نیاز بود قرار می‌دهد.

متأسفانه در برخی از متن‌ها، به بهانهٔ صرفه‌جویی در زمان یا از سرِ تنبلی، فاصله‌گذاری‌ها درست رعایت نمی‌شود. مثلاً جملهٔ «تو را دوست دارم.» به این شکل نوشته می‌شود: «تورادوست دارم.» این تابع فواصل ضروری را در متن ایجاد می‌کند و آن را به شکل صحیح برمی‌گرداند.

پارامترها:

نام نوع توضیحات پیش‌فرض
token str

توکنی که باید فاصله‌گذاری شود.

اجباری

خروجی‌ها:

نوع توضیحات
str

توکنی با فاصله‌گذاری صحیح.

normalized_word(word)

اشکال مختلف نرمالایزشدهٔ کلمه را برمی‌گرداند.

مثال‌ها:

>>> normalizer = InformalNormalizer()
>>> normalizer.normalized_word('می‌رم')
['می‌روم', 'می‌رم']

پارامترها:

نام نوع توضیحات پیش‌فرض
word str

کلمه‌ای که باید نرمال‌سازی شود.

اجباری

خروجی‌ها:

نوع توضیحات
List[str]

اشکال نرمالایزشدهٔ کلمه.

normalize(text)

متن محاوره‌ای را به متن فارسی معیار تبدیل می‌کند.

مثال‌ها:

>>> normalizer = InformalNormalizer()
>>> normalizer.normalize('بابا یه شغل مناسب واسه بچه هام پیدا کردن که به جایی برنمیخوره !')
[[['بابا'], ['یک'], ['شغل'], ['مناسب'], ['برای'], ['بچه'], ['هایم'], ['پیدا'], ['کردن', 'کردند'], ['که'], ['به'], ['جایی'], ['برنمی‌خورد', 'برنمی‌خوره'], ['!']]]
>>> normalizer = InformalNormalizer()
>>> normalizer.normalize('اجازه بدیم همسرمون در جمع خانواده‌اش احساس آزادی کنه و فکر نکنه که ما دائم هواسمون بهش هست .')
[[['اجازه'], ['بدهیم'], ['همسرمان'], ['در'], ['جمع'], ['خانواده‌اش'], ['احساس'], ['آزادی'], ['کند'], ['و'], ['فکر'], ['نکند', 'نکنه'], ['که'], ['ما'], ['دائم'], ['حواسمان'], ['بهش'], ['هست'], ['.']]]

پارامترها:

نام نوع توضیحات پیش‌فرض
text str

متن محاوره‌ای که باید تبدیل به متن فارسی معیار شود.

اجباری

خروجی‌ها:

نوع توضیحات
List[List[List[str]]]

متن فارسی معیار.

informal_conjugations(verb)

صورت‌های صرفی فعل را در شکل محاوره‌ای تولید می‌کند.

پارامترها:

نام نوع توضیحات پیش‌فرض
verb str

فعلی که باید صرف شود.

اجباری

خروجی‌ها:

نوع توضیحات
List[str]

صورت‌های صرفی فعل.