مشکلات نگارش زبان فارسی در بازیابی اطلاعات

0 0
Read Time3 Minute, 14 Second

ما اکنون در زمانه ای بسر می بریم که در آن اطلاعات به شکل الکترونیکی تولید شده و انتقال می یابد. به بیان بهتر، متداول ترین ابزارهای جستجوی اطلاعات در بستر شبکه جهانی اینترنت است. ویژگی های خاص دستوری و نگارشی زبان و خط فارسی مشکلاتی را در جستجو، ذخیره و بازیابی اطلاعات پدید آورده است که به طبع آن مسائل و مشکلات فراوانی را فراروی کاربران قرار می دهد

  در واقع نبود قاعده مشخص و ثابتی برای رسم الخط فارسی، باعث شده است که جستجو گران مطالب فارسی، با مشکلات فراوانی مواجه شوند.هر کدام از این موانع چه از لحاظ کمی و چه کیفی بر میزان بازیابی رکورد های مرتبط موثر است .

برخی ویژگی های شاخص و تاثیر گذار زبان فارسی در ذخیره و بازیابی اطلاعات :

  1. حذف سه مصوت کوتاه هنگام نگارش ، که باعث می شود از جایگاه کلمه در جمله آن را درست بخوانیم .
  2. 2.      برای یک حرف چند علامت مختلف داریم مانند علامت های (س ، ص ،ث ) که هر سه در فارسی یکسان خوانده می شوند .
  3. حرف هایی وجود دارد که در بعضی از کلمات حذف می شوند مانند (الف ) در کلمات اسحق و اسمعیل در عین حال این حذف دائمی نیست و بسشتر به سلیقه نگارشی افراد بستگی دارد
  4. نقطه هایی متعدد در بالا و پایین حرف که هم سبب دشواری و هم موجب اشتباه در خواندن می شود . ( بر ، پر ، پز )
  5. خط فارسی از راست به چپ نوشته می شود و این امر نیز به نوبه خود مشکلاتی بوجود می آورد از جمله نبود هماهنگی و ایجاد مشکل در نوشتن متون ریاضی و شیمی ، نت های موسیقی ، دستورات شطرنج ، علائم راهنمایی و رانندگی همگی از چپ به راست نوشته می شوند .
  6. پیوسته نویسی و جدا نویسی کلمات مرکب ( جناب عالی ، جنابعالی ) برخی کلمات در دو شکل متصل نویسی و منفصل نویسی به دو شکل مختلف ظاهر می شوند .
  7. در اغلب اوقات یک فاصله اضافی معنای متفاوتی و متضادی را می دهد  ( مادر ، ما  در )
  8. 8.    . در فارسی اعداد نیز مشکل ساز هستند چنانکه صفر در فارسی یک نقطه کوچک است که می تواند رایانه را به اشتباه بیاندازد و نیز اعداد 1و2و3 بسیار شبیه به هم هستند
  9. تنوع املایی یا رسم الخطی بعضی از کلمات  ( اتاق ، اطاق ) و کلماتی که یک شکل آن صحیح است ولی شکل ناصحیح آن نیز زیاد استفاده می شود ( ذغال ، زغال )

اسنفاده از “ا” و “آ” به جای یکدیگر مانند ( فرایند و فرآیند )

راهکارهای پیشنهادی در مراحل مختلف زندگی یک مدرک :

ایجاد ابزارهایی برای استاندارد سازی نگارش به هنگام تولید مدرک :

الف ) تدوین فرهنگ جامع املایی

ب) تدوین اصطلاحنامه های تخصصی در زبان فارسی

پ) تدوین اصول برگردان کلمات خارجی

د) هماهنگ کردن رسم الخط

ایجاد ابزارهایی برای ارتقای نگارش به هنگام تولید بازنمونهای مدرک :

الف ) ایجاد نظم های ریشه یابی در فارسی

ب) تجهیز واژه پردازهای فارسی به غلط یاب املایی

ج) هماهنگ کردن حروف

د) استفاده از تکواژ ها

ه ) چپ نویسی

خ) حذف اعراب گذاری

ز) استفاده از هر دو صورت مفرد و جمع در نمایه سازی

ایجاد ابزارهایی برای ارتقای نگارش / نمایه سازی :

الف ) درج حروفی که خوانده ولی نوشته نمی شوند

ب) عدم تمایز بین “ا” و “آ”

پ) پیوند ساختگی بین کلمات

قواعد یکدستی نگارش :

الف ) بی فاصله نویسی کلمات مرکب

ب) واگذاری حل مشکل کلمات ترکیبی به رایانه

ج) درج نکردن فاصله میان مقلوب عبارتهای اسمی مانند (زردکوه)

د) درج فاصله قبل و بعد از حرف ربط ( مواد دیداری و شنیداری )

ه ) درج نکردن فاصله میان عبارت ها و واژه های لاتین که دقیقا منعکس کننده لفظ خارجی است ( سوپرساب )

مرحله بازیابی

الف ) تجهیز پایگاه اطلاعاتی به اصطلاحنامه

ب) آموزش و راهنمایی کاربران

ج) استفاده از واسط کاوش فارسی برای رفع چالش های رسم الخط و مفهومی

در برخی از رشته ها مانند ریاضی و شیمی فرمول نویسی مشکل غالب است حال آنکه در متون مذهبی یا فارسی اعراب گذاری تاثیر به سزایی بر بازیابی اطلاعات دارد

Happy
Happy
0 %
Sad
Sad
0 %
Excited
Excited
0 %
Sleppy
Sleppy
0 %
Angry
Angry
0 %
Surprise
Surprise
0 %

Average Rating

5 Star
0%
4 Star
0%
3 Star
0%
2 Star
0%
1 Star
0%

دیدگاهتان را بنویسید