ارزیابی ترجمه ماشینی

You are here

ارتباط با ملیت‌های گوناگون، از نیازهای بشر امروزی محسوب می‌شود و لازمه برقراری ارتباط، وجود زبان مشترک و ترجمه میان دو یا چند زبان به یکدیگر، برای انتقال مفاهیم است. از آنجایی که امروزه حجم عمده‌ای از اطلاعات به زبانهای بیگانه و عمدتا انگلیسی تولید می‌شود ارایه این اطلاعات به آحاد جامعه نیازمند ترجمه است که طبعا به دلیل حجم بسیار بالای دادگان تولیدی امکان ترجمه تنها بخش محدودی از آن توسط مترجمین انسانی میسر خواهد بود.  نگاهی دقیق به حوزه ترجمه نشان دهنده آن است که این مقوله از جمله توانایی‌های بسیار عجیب انسان بوده و ترجمه یک متن در حد خلق آن اثر پیچیده است. در نتیجه انتظار ترجمه از یک ماشین نیازمند درک و شناخت از نحوه انجام این عمل و رموز انجام آن در انسان می‌باشد. به دلیل پیچیدگی‌های موجود در نحوه عمل انسان و رموز ترجمه انسانی، بسیاری امکان‌پذیر بودن ترجمه ماشینی را رد می‌کنند. ترجمه انسانی مطلوب نیازمند بهره‌گیری همزمان از دانش، احساسات، و تخیل بوده و هیچ مترجمی نمی‌تواند با تکیه به توانایی‌های محدود ترجمه مناسبی را ارائه دهد.

ماشینی کردن ترجمه یکی از آرزوهای قدیمی بشر بوده است. تاکنون تلاشهای بسیاری برای دستیابی به این آرزوی بشری صورت گرفته است. نتیجه این تلاشها تولید الگوریتم‌ها و برنامه‌هایی است که می‌توانند به صورت محدود و در صورتی که متن مورد نظر کوتاه بوده و در حوزه ای باشد که سیستم مترجم برای آن حوزه آموزش دیده باشد، ترجمه با کیفیتی قابل قبول ارایه دهند. با این حال هدف تمامی محققین در حوزه ترجمه ماشینی توسعه سیستمی است که بتواند ترجمه ماشینی کاملاً خودکار و بدون نیاز به انسان را ارایه دهد. در این زمینه در کشور ما نیز تلاش­‌هایی در جهت توسعه سامانه­‌های ترجمه ماشینی صورت پذیرفته­ مترجم­‌هایی در این حوزه گسترش یافته­اند. از جمله این مترجم­ها می­توان به سامانه ­های ترگمان، فرآزین، پارس و مترجم شورای عالی اطلاع رسانی اشاره نمود. به طور کلی یک مترجم مطلوب باید دارای ویژگی‌­هایی باشد که از آن جمله می­توان به موارد زیر اشاره نمود:

  • کیفیت ترجمه مطلوب و نزدیک به ترجمه انسانی
  • سرعت ترجمه مناسب
  • ارائه ترجمه در رشته‌­ها و حوزه‌­های تخصصی
  • چندزبانه بودن سامانه­‌های ترجمه
  • شیوایی و روانی در ترجمه
  • فرهنگ لغات  و دامنه لغات غنی
  • پایداری و دسترس­ پذیری
  • قابلیت­‌های اضافه از جمله ترجمه فایل­ها، ارائه تلفظ عبارات، ارائه پیشنهادات ترجمه، دریافت بازخورد از کاربران و آموزش براساس آنها، قابلیت توسعه آسان و…

دسته اول) معیار ارزیابی انسانی:

در ارزیابی انسانی مترجم‌های ماشینی دو دسته از توانمندی‌ها به طور کلی اهمیت داشته و باید مورد توجه قرار گیرند. دسته اول، توانایی مترجم ماشینی در ارائه یک ترجمه قابل فهم، وفادار به متن اصلی و با حداقل نیاز به ویرایش است. به عبارت دیگر، در صورتی که یک مترجم ماشینی بتواند از یک متن، ترجمه ای را ارائه نماید که هم قابل فهم باشد و هم تا حد مطلوبی اطلاعات موجود در متن اصلی را در متن ترجمه شده حفظ نموده باشد، عملکرد مطلوبی داشته است. به منظور سنجش این قابلیت در مترجم ماشینی، لازم است که هر کاربر انسانی مجموعه ای از متون و ترجمه‌های تولید شده برای آنها توسط مترجم ماشینی تحت ارزیابی را در اختیار گرفته و به امتیازدهی در خصوص موارد فوق الذکر بپردازد. با توجه به آنکه لزوماً هر کاربر انسانی توانایی ترجمه متون زبان دیگر را ندارد، و اگر هم داشته باشد، این کار ممکن است زمان زیادی را از او بگیرد، به منظور ساده تر شدن کار، در این روال، علاوه بر متن اصلی و ترجمه به دست آمده از مترجم ماشینی، یک یا چند ترجمه مناسب از آن متن نیز در اختیار کاربر قرار می‌گیرد تا بتواند کیفیت ترجمه ماشینی را ساده تر ارزیابی نماید.

دسته دوم، توانمندی مترجم ماشینی در فراهم آوردن محیطی کاربرپسند، ساده، دارای راهنمای کاربری مناسب، قابل انطباق با رده‌های سنی مختلف و مواردی از این دست است. با توجه به اینکه بررسی این دسته از توانمندی‌ها نیازمند استفاده مستقیم از واسط وب مترجم ماشینی است، لازم است که کاربر ابتدا لیست مواردی را که باید بررسی کند دریافت دارد و سپس با توجه به این لیست، به وب سایت مترجم ماشینی مزبور مراجعه نموده و به طور مستقیم از خدمات ترجمه آن استفاده نماید. در حین استفاده، کاربر می‌تواند اطلاعات مورد نیاز در خصوص موارد ذکر شده در لیست را به دست آورده و در پایان، آنها را به عنوان نتیجه ارزیابی خود در اختیار قرار دهد.

از طریق معیارهای انسانی موارد زیر مورد ارزیابی قرار خواهند گرفت:

  • میزان ویرایش مورد نیاز
  • وفاداری به متن
  • روانی و فصاحت
  • قابل فهم بودن

دسته دوم) معیارهای ارزیابی خودکار:

  1. Precision:  معیارهای ارزیابی بر مبنای N-gram (معیار BLEU)
  2. Precision/‎ Recall:: معیارهای مبتنی بر اطلاعات اضافه  برای پوشش نقاط ضعف   معیارهای مبتنی بر N-gram (معیار METEOR)
  3. Edit Distance: معیارهای مبتنی بر خطا/ویرایش (معیارهای   TERو PER)

الف) معیار BLEU:

در این معیار میزان شباهت ظاهری لغات و عبارات تا سطح ۴ گرام مورد سنجش قرار می­گیرد.

  • متدوال‌ترین معیار ارزیابی خودکار سامانه‌های ترجمه ماشینی
  • معیار مستقل از زبان
  • طرز کار متد BLEU:n-gram‌‌های ترجمه ای که توسط ماشین انجام شده است (ترجمه کاندید) را با n-gram‌های ترجمه ی انسانی مقایسه نموده و تعداد تطابق‌ها را شمارش می‌کند.

در فرمول بالا m تعداد  unigramهای نگاشت شده بین عبارت مرجع با عبارت ترجمه ماشین و  Wt تعداد unigram‌ها در متن ترجمه شده است.

 

ب) معیار METEOR:

  مکانیزم اجرایی در این معیار همانند معیار BLEU می­باشد، با این تفاوت که در این معیار علاوه بر سنجش ویژگی ظاهری کلمات، هم­ معنی و هم ریشه­ بودن کلمات نیز مورد سنجش قرار گرفته و متناسب با میزان شباهت هریک، امتیازی به آن تعلق می­گیرد. ارزیابی­‌ها در این معیار نیز تا سطح ۴ گرام انجام می­ پذیرد.

ج)  معیار TER:

این معیار میزان خطای متن ترجمه شده توسط سامانه­‌های ترجمه ماشینی را می­ سنجد. به گونه­ ای دیگر در این معیار میزان عملیات­‌هایی که لازم است بروی فایل انجام پذیرد تا این فایل­ به نسخه ترجمه شده توسط انسان برسد مشخص میگردد.معیار TER، حداقل تعداد ویرایش جمله ترجمه شده برای رسیدن به یک جمله ای دقیقا مشابه با یکی از جملات مرجع را می‌سنجد.

  • به طور کلی ویرایش‌های ممکن در این معیار از طریق فرمول زیر محاسبه می‌شوند:

ج) معیار PER:

  • این معیار تعداد حداقل جایگزینی، حذف و اضافه نمودن کلمات جمله ترجمه شده برای تبدیل شدن به جمله مرجع را می‌سنجد.
  • این معیار بطور گسترده در بازشناسی گفتار کاربرد دارد.
  • این معیار به ترتیب کلمات موجود در یک جمله اهمیتی نمی هد. یعنی از عملیات جابجایی جهت تصحیح متون استفاده نمی نماید.
  • انجام مقایسه در سطح کلمات در جمله ترجمه شده و جمله مرجع

امروزه سامانه‌های ترجمه ماشینی به یکی از پرکاربردترین سرویس شبکه اینترنت تبدیل شده اند. در زبان فارسی نیز تلاش‌های مستمری نیز صورت پذیرفته و بیشتر آنها به منظور توسعه سامانه‌های ترجمه انگلیسی-فارسی بوده است.  کلیه سامانه‌های ترجمه انگلیسی-فارسی موجود به شرح زیر بوده که هریک در برخی موارد از جمله چندزبانه بودن و مکانیزم توسعه با یکدیگر متفاوت می‌باشند. این مترجمین عبارتند از:

  1. مترجم ترگمان
  2. مترجم فرآزین
  3. مترجم گوگل
  4. مترجم بینگ
  5. مترجم پارس
  6. مترجم شورای عالی اطلاع رسانی
  7. مترجم DIC
  8. مترجم BEST-DIC
  9. مترجم بارانک
  10. دارالترجمه yazdchto

در جدول زیر مشخصات کلی هریک از مترجمین انگلیسی- فارسی موجود را مشاهده می‌نمایید.

این نتایج در تاریخ دی ماه سال ۱۳۹۴ استخراج شده اند.

ردیف نام متولی روش پیاده سازی حوزه ترجمه وضعیت رتبه الکسا (جهانی) رتبه الکسا (داخلی) نرخ رشد آدرس اینترنتی
۱ ترگمان پژوهشگاه ارتباطات و فناوری اطلاعات/ دانشگاه امیرکبیر آماری

عمومی (اخبار)

زیربار ۳۳۲۴۵۵ ۷۰۱۵ ۳۲۸۹۱۴+ http://www.targoman.com/smt.php
۲ فرآزین پژوهشگاه ارتباطات و فناوری اطلاعات/ دانشگاه تهران قاعده مند عمومی / تخصصی زیربار ۴۲۵۲۱۵ ۷۷۱۹ ۱۸۱۸۰۹+ http://faraazin.ir
۳ پارس شرکت مبنا رایانه پژواک قاعده مند ۳۸ حوزه تخصصی زیربار ۲۵۰۴۷۰ ۸۸۳۶ ۴۱۶۱۵+ http://www.parstranslator.net
۴ شورای عالی اطلاع رسانی دبیرخانه شواری عالی اطلاعا رسانی آماری عمومی / داستانی زیربار ۱۵۵۷۸۰۲۱ - - http://machinetranslation.ir
۵ گوگل شرکت گوگول آماری عمومی زیربار ۱ ۱ - http://translate.google.com
۶ بینگ شرکت بینگ آماری عمومی زیربار ۱۷ ۱۶ - https://www.bing.com/translator
۷ مترجم DICU -- آماری عمومی زیربار ۰ - - http://www.dicu.ir/‎
۸ مترجم BEST-DIC دارالترجمه آنلاین آماری عمومی زیربار ۷۷۵۳۶ ۱۴۸۳ ۱۵۶۴۶+ http://bestdic.ir/‎
۹ مترجم بارانک شرکت بارانک آماری عمومی زیربار ۸۲۰۵۱۷ ۱۶۸۵۰ ۳۰۵۳۰- http://www.baranak.com/‎
۱۰ دارالترجمه yazdchto دارالترجمه آماری عمومی زیربار ۱۰۹۶۲۹۵۴ - - http://www.yazdchto.ir/components/NewsLink/Browse/?id=6

 

یکی از اصلی ­ترین ارکان در ارزیابی سامانه‌های ترجمه ماشینی دادگان تست می‌باشد. این دادگان به گونه ای مبنای مقایسه کیفیت ترجمه هریک از سامانه‌ها با ترجمه انسانی می‌باشد. ساز و کار ارزیابی در معیارهای خودکار بدین صورت می‌باشد که خروجی هریک از سامانه‌های ترجمه ماشینی را با ۴ متن ترجمه شده انسانی مقایسه می‌گردد. بدین صورت که ابتدا جملاتی به عنوان جملات مبدا در نظر گرفته شده و این جملات در اختیار مترجمین انسانی به منظور ترجمه قرار می‌گیرد. همچنین جملات مبدا نیز از طریق سامانه ترجمه مورد آزمون، ترجمه شده و نتایج با یکدیگر مقایسه می‌گردد. معیارهای ارزیابی میزان شباهت ترجمه سامانه‌ها را با متون ترجمه شده از جانب مترجمین انسانی را می‌سنجند.

در زمینه آماده سازی پیکره ­های تست مراحل زیر طی می­ گردند:

  1. انتخاب زبان تهیه پیکره­‌ها (انگلیسی-فارسی، فارسی-انگلیسی و…)
  2. انتخاب حوزه مناسب جهت استخراج و تهیه پیکره ­های تست (این امر با توجه به بررسی نیازمندی‏ها صورت می‏ پذیرد).
  3. پس از انتخاب حوزه، حال منابع مورد نظر را از بین دسته منابع موجود گزینش می‌­نمائیم. این منابع می­ توانند وب­ سایت­‌ها، مقالات، کتب و…باشند.
  4. استخراج متون از منابع انتخابی و ذخیره سازی آنها در یک فایل با ساختار مشخص
  5. پردازش و اصلاح متون استخراجی با توجه به شرایط تست­‌ها
  6. در این مرحله اقدام به انتخاب ۴ مترجم انسانی با کیفیت طلایی می‌­نمائیم. همانگونه که می­ دانیم، معیارهای ارزیابی خودکار ترجمه ماشینی به منظور ارزیابی به ۴ متن مرجع ترجمه شده توسط انسان نیاز دارند که این متون ترجمه شده باید در بالاترین کیفیت از سطح ترجمه باشند.
  7. ارسال متون استخراجی به مترجمین و ترجمه متون توسط آنها
  8. دریافت متون ترجمه شده و اصلاح و یکسان­ سازی آنها
  9. دسته­ بندی وذخیره­ سازی موضوعی پیکره ­ها براساس ویژگی ­ها و خصوصیات هر بخش

در شکل ‏زیر نمائی از این مراحل را مشاهده می‌­نمائید.

بدین منظور فعالیت‌هایی در آزمایشگاه خدمات وب انجام گرفته و پیکره‌های تست انگلیسی-فارسی متعددی تهیه شده اند. این پیکره‌های در حوزه‌های اصلی زیر گردآوری شده اند:

 

 

برای ثبت درخواست آزمون به لینک زیر بروید:

درخواست آزمون‪

درباره ما

"پژوهشگاه ارتباطات و فناوری اطلاعات" در "پژوهشکده فناوری اطلاعات" در سال ۱۳۹۴ اقدام به تاسیس آزمایشگاه ارزیابی و اعتبارسنجی خدمات وب فارسی نموده است.این آزمایشگاه با تمرکز بر پروژه‌های در حال اجرا در پژوهشکده و با اولویت طرح جویشگر (جویشگر متن، صوت، تصویر و ویدئو و همچنین مترجم‌‌‌های ماشینی) آغاز به کار کرده است.

عضویت در خبرنامه

عضویت در خبر نامه آزمایشگاه فناوری اطلاعات جهت دریافت آخرین اخبار و وقایع در زمینه خدمات وب

ارتباط با ما

  • نشانی:    تهران، خیابان کارگرشمالی، روبروی سازمان انرژی اتمی، پژوهشگاه ارتباطات و فناوری اطلاعات
  • تلفن تماس: ۸۴۹۷۷۸۳۴
  • رایانامه: webazma@itrc.ac.ir