شناسنامه معيار | |
---|---|
نام معیار: nDCG | شناسه (ID): CR_Func_01 |
تعريف/فرمول: از آنجايي كه كاربران علاقمند به مشاهده صفحات مرتبط در بالاي ليست هستند، در اين معیار نتايجي كه ارتباط بيشتري با پرسوجوي كاربر دارند، در صورتي كه رتبه بالاتري داشته باشند، از اهميت بيشتري در محاسبه برخوردارند. در محاسبه nDCG ابتدا بايد مقدار CG را محاسبه نمود. براي اين منظور مجموع ميزان ارتباط هر نتيجه ارائه شده در ليست نتايج با پرسوجو را به دست ميآورند. كه در اينجا reli ميزان ارتباط نتيجه iام با پرسوجو ميباشد. عددي كه به كمك اين تابع به دست ميآيد رتبهبندي سامانه را مد نظر قرار نميدهد و تنها معياري براي مرتبط بودن هر سند است. بنابراين اگر نتيجهاي كه ارتباط كمتري با پرسوجو دارد در رتبه بالاتري نسبت به نتيجه مرتبطتر قرار بگيرد، در مقدارCG تفاوتي ايجاد نميشود. با توجه به اين مشكل از DCG براي لحاظ نمودن رتبهبندي استفاده ميشود. با توجه به اين كه اندازه نتايج جستجو براي پرسوجوهاي مختلف متفاوت است، بنابراين براي مقايسه كارايي جويشگرها بايد DCG را نرمال كرد. در اينجا IDCGp همان DCG ايدهآل در نقطه p است. مزيت nDCG را ميتوان در موارد زير خلاصه كرد:
|
|
مرجع/استاندارد معرفی کننده این معیار: مقاله «Cumulated gain-based evaluation of IR techniques» که در سال 2002 در ACM Transactions on Information Systems به چاپ رسیده است. |
|
نحوه محاسبه:
|
شناسنامه معيار | |
---|---|
نام معیار: BLEU | شناسه (ID): CR_Func_02 |
تعريف/فرمول: از این معیار برای ارزیابی دقت و کیفیت خروجیهای سامانههای ترجمه ماشینی استفاده میشود. این معیار با مقایسه خروجی سامانه با ترجمههای مرجع (انجامشده توسط مترجمهای انسانی) میزان ارتباط بین خروجی ماشین و خروجی انسانی را به صورت یک عدد مشخص میکند. این میزان ارتباط بر اساس میزان همپوشانی جملات مرجع و خروجی سامانه ترجمه ماشینی با توجه به سطوح ngram متفاوت است. فرمول محاسبه این معیار به صورت زیر است: با توجه به اینکه معیار BLEU در واقع یک معیار مبتنی بر دقت (precision) است و فراخوانی (recall) را در محاسبات خود در نظر نمیگیرد، جملاتی که در زبان مقصد کوتاهتر هستند دقت بیشتری خواهند داشت. برای جلوگیری از این مطلب در معادله بالا یک فاکتور پنالتی برای جملات کوتاه در نظر گرفته شده است (BP) که به صورت زیر تعریف میشود: در عبارت بالا r طول خروجی مرجع و c طول خروجی ماشینی است. همچنین در فرمول اصلی مقدار n نشاندهنده سطح ngram است که معمولا 4 در نظر گرفته میشود. همچنین وزنی است که به هر ngram داده شده است و میزان همپوشانی جملات مرجع و کاندید را با توجه به فرمول زیر اندازهگیری میکند. |
|
مرجع/استاندارد معرفی کننده این معیار: Papineni, Kishore, et al. "BLEU: a method for automatic evaluation of machine translation." Proceedings of the 40th annual meeting on association for computational linguistics. Association for Computational Linguistics, 2002. |
|
نحوه محاسبه:
|
شناسنامه معيار | |
---|---|
نام معیار: TER | شناسه (ID): CR_Func_03 |
تعريف/فرمول: معیار TER یا Translation Error Rate به منظور ارزیابی خودکار سامانههای مترجم ماشینی مورد استفاده قرار میگیرد. این معیار تعداد گامهای ویرایشی لازم برای تبدیل جمله کاندید به یکی از جملات مرجع را شمارش میکند. عملهایی که در هنگام ویرایش مجاز است عبارتند از: حذف کلمه، اضافه کردن کلمه و جابجایی کلمه. معمولا پیدا کردن مقدار عددی این معیار با استفاده از الگوریتمهای برنامهنویسی پویا (dynamic programming) قابل انجام است. |
|
مرجع/استاندارد معرفی کننده این معیار: Matthew Snover, Bonnie Dorr, Richard Schwartz, Linnea Micciulla, and John Makhoul, "A Study of Translation Edit Rate with Targeted Human Annotation," Proceedings of Association for Machine Translation in the Americas, 2006. |
|
نحوه محاسبه:
|
شناسنامه معيار | |
---|---|
نام معیار: تازگي | شناسه (ID): CR_Func_04 |
تعريف/فرمول: منظور از معیار تازگی این است که خدمت تحت وب مورد بررسی توانایی نمایه سازی مقالات و داستانهای خبری مربوط به یک ساعت اخیر که در سایتهای خبرگذاریهای معتبر درج شدهاند و صفحات وب مربوط به سایتهای معتبر غیر خبری وب فارسی که در سه ساعت اخیر ویرایش گردیدهاند یا در ساعت اخیر ایجاد شدهاند را داراست یا که خیر. |
|
مرجع/استاندارد معرفی کننده این معیار:
|
|
نحوه محاسبه:
|
شناسنامه معيار | |
---|---|
نام معیار: دسترسپذیری | شناسه (ID): CR_NonFunc_01 |
تعريف/فرمول: منظور از معیار دسترسپذیری، اندازهگیری ميزان زمان بالا بودن1 یا فعال بودن خدمت ميباشد. اين معیار با سنجش ميزان پاسخگويي خدمت در قبال پرسوجوهاي ارسالشده به آن، مورد اندازهگیری قرار ميگيرد. |
|
مرجع/استاندارد معرفی کننده این معیار:
|
|
نحوه محاسبه:
|
شناسنامه معيار | |
---|---|
نام معیار: متوسط زمان پاسخگویی | شناسه (ID): CR_NonFunc_02 |
تعريف/فرمول: منظور از معیار متوسط زمان پاسخگویی، زمانی است که به طور متوسط سپری میشود تا یک خدمت تحت وب نتایج را در پاسخ به یک درخواست دریافتی آماده کرده و آن را برای درخواست کننده ارسال نماید. تفاوت بین زمان ارسال درخواست توسط مشتری و زمان دریافت نتایج توسط مشتری از خدمت تحت وب برابر زمان پاسخگویی میباشد. همچنین درصد پاسخگویی برابر است با درصد درخواستهایی که یک خدمت توانسته به آنها پاسخ همراه با نتایج معتبر را ارائه نماید. |
|
مرجع/استاندارد معرفی کننده این معیار:
|
|
نحوه محاسبه:
|
شناسنامه معيار | |
---|---|
نام معیار: توانایی پاسخگویی به کاربران همزمان | شناسه (ID): CR_NonFunc_03 |
تعريف/فرمول: منظور از معیار توانایی پاسخگویی به کاربران همزمان این است که مشخص شود در واحد زمان یک خدمت مورد بررسی برای درخواست چند کاربر میتواند پاسخهایی را تولید نماید که همگی دارای نتایج معتبر در صفحهی بازگشتی ارسال شده از سوی خدمت تحت وب به مشتری خود هستند. مهم این است که یک خدمت بتواند به صد در صد درخواستهای همزمان دریافتی، پاسخ معتبر ارائه دهد در غیر این صورت به عنوان ناتوان در پاسخگویی به آن تعداد از کاربران در نظر گرفته خواهد شد. |
|
مرجع/استاندارد معرفی کننده این معیار:
|
|
نحوه محاسبه:
|
شناسنامه معيار | |
---|---|
نام معیار: جذب مشتري | شناسه (ID): CR_User_01 |
تعريف/فرمول: در این معیار هدف بررسی تعداد مشتریان (کاربران) استفاده کننده از خدمات دهنده وب میباشد که در قالب دو زیر معیار زیر محاسبه میگردد:
|
|
مرجع/استاندارد معرفی کننده این معیار:
|
|
نحوه محاسبه:
|
شناسنامه معيار | |
---|---|
نام معیار: درگيري مشتري | شناسه (ID): CR_User_02 |
تعريف/فرمول: در این معیار هدف محاسبهی تعداد پرسوجوهای ارسالی توسط کاربران استفاده کننده از خدمات دهنده وب میباشد. لازم به ذکر است این معیار فقط برای خدمات دهندگانی قابل محاسبه است که امکان ارسال پرسوجو توسط کاربران وجود داشته باشد مانند جویشگرهای مختلف متنی، تصویری و غیره. این معیار در قالب
|
|
مرجع/استاندارد معرفی کننده این معیار:
|
|
نحوه محاسبه:
|
شناسنامه معيار | |
---|---|
نام معیار: ماندگاری مشتری | شناسه (ID): CR_User_03 |
تعريف/فرمول: در این معیار هدف محاسبهی درصد کاربران بازگشتی استفاده کننده از خدمات دهنده وب میباشد. کاربر بازگشتی به صورت زیر تعریف میگردد: کاربرانی که در روز T0 حداقل یک پرسوجو وارد کرده باشند و در روز T-1 و T-2 نیز پرسوجو وارد کرده باشند به عنوان کاربر بازگشتی در نظر گرفته میشود. لذا درصد کاربران بازگشتی به صورت زیر محاسبه میشود:
|
|
مرجع/استاندارد معرفی کننده این معیار: با توجه به اینکه تعریف مرجع و استانداردی برای کاربران بازگشتی وجود ندارد لذا تعریف ذکر شده بر اساس نیازمندیهای مشخص شده در پروژه تعریف شده است. |
|
نحوه محاسبه:
|
شناسنامه معيار | |
---|---|
نام معیار: تجربه کاربری جويشگر متني | شناسه (ID): CR_UIUX_01 |
تعريف/فرمول: برای محاسبه امتیاز تجربهکاربری جویشگرهای متنی از فرمول زیر استفاده میشود. در ادامه تعریف هر یک از شاخصها بیان شده است:
|
|
مرجع/استاندارد معرفی کننده این معیار: بر اساس مرجع زير در آزمايشگاه تعريف شده است. Albert, William, and Thomas Tullis. Measuring the user experience: collecting, analyzing, and presenting usability metrics. Newnes, 2013. |
|
نحوه محاسبه:
|
شناسنامه معيار | |
---|---|
نام معیار: تجربه کاربری جويشگر خبري | شناسه (ID): CR_UIUX_02 |
تعريف/فرمول: برای محاسبه امتیاز تجربهکاربری جویشگرهای خبری از فرمول زیر استفاده میشود. در ادامه تعریف هر یک از شاخصها بیان شده است:
|
|
مرجع/استاندارد معرفی کننده این معیار: بر اساس مرجع زير در آزمايشگاه تعريف شده است. Albert, William, and Thomas Tullis. Measuring the user experience: collecting, analyzing, and presenting usability metrics. Newnes, 2013. |
|
نحوه محاسبه:
|