+982184977834
Today
2018-12-14   |   فارسی
Laboratory Activities

شناسنامه معیارها

شناسنامه معيار
نام معیار: nDCG شناسه (ID): CR_Func_01
تعريف/فرمول:
از آنجايي كه كاربران علاقمند به مشاهده صفحات مرتبط در بالاي ليست هستند، در اين معیار نتايجي كه ارتباط بيشتري با پرس‌وجوي كاربر دارند، در صورتي كه رتبه بالاتري داشته باشند، از اهميت بيشتري در محاسبه برخوردارند. در محاسبه nDCG ابتدا بايد مقدار CG را محاسبه نمود. براي اين منظور مجموع ميزان ارتباط هر نتيجه ارائه شده در ليست نتايج با پرس‏وجو را به دست مي‌آورند.
كه در اينجا reli ميزان ارتباط نتيجه iام با پرس‌وجو مي‌باشد. عددي كه به كمك اين تابع به دست مي‌آيد رتبه‌بندي سامانه را مد نظر قرار نمي‌دهد و تنها معياري براي مرتبط بودن هر سند است. بنابراين اگر نتيجه‌اي كه ارتباط كمتري با پرس‌وجو دارد در رتبه بالاتري نسبت به نتيجه مرتبط‌تر قرار بگيرد، در مقدارCG تفاوتي ايجاد نمي‌شود. با توجه به اين مشكل از DCG براي لحاظ نمودن رتبه‌بندي استفاده مي‏شود.
با توجه به اين كه اندازه نتايج جستجو براي پرس‏وجوهاي مختلف متفاوت است، بنابراين براي مقايسه كارايي جويشگرها بايد DCG را نرمال كرد.
در اينجا IDCGp همان DCG ايده‏آل در نقطه p است. مزيت nDCG را مي‌توان در موارد زير خلاصه كرد:
  • اين معيار ميزان ارتباط اسناد با رتبه نهايي آنها را تركيب مي‌كند.
  • تفسير آن ساده است.
  • اين معيار خيلي به نتايج پرت وابسته نيست. چون كه مقادير CG از ابتداي نتايج تا يك نقطه دلخواه محاسبه مي‌شود.
مرجع/استاندارد معرفی کننده این معیار:
مقاله «Cumulated gain-based evaluation of IR techniques» که در سال 2002 در ACM Transactions on Information Systems به چاپ رسیده است.
نحوه محاسبه:
  • خودکار ☒
    • نام ابزار(های) مورد استفاده: اسکریپت محاسبه معیار nDCG در بستر جمع‏سپاری
  • انسانی ☐
    • بستر ارزيابي ☐
    • نظر خبره ☐
    • پرسشنامه ☐
    • تحليل رفتار ☐
شناسنامه معيار
نام معیار: BLEU شناسه (ID): CR_Func_02
تعريف/فرمول:
از این معیار برای ارزیابی دقت و کیفیت خروجی‏های سامانه‏های ترجمه ماشینی استفاده می‏شود. این معیار با مقایسه خروجی سامانه با ترجمه‏های مرجع (انجام‏شده توسط مترجم‏های انسانی) میزان ارتباط بین خروجی ماشین و خروجی انسانی را به صورت یک عدد مشخص می‏کند. این میزان ارتباط بر اساس میزان هم‏پوشانی جملات مرجع و خروجی سامانه ترجمه ماشینی با توجه به سطوح ngram متفاوت است.
فرمول محاسبه این معیار به صورت زیر است:
با توجه به اینکه معیار BLEU در واقع یک معیار مبتنی بر دقت (precision) است و فراخوانی (recall) را در محاسبات خود در نظر نمی‏گیرد، جملاتی که در زبان مقصد کوتاه‏تر هستند دقت بیشتری خواهند داشت. برای جلوگیری از این مطلب در معادله بالا یک فاکتور پنالتی برای جملات کوتاه در نظر گرفته شده است (BP) که به صورت زیر تعریف می‏شود:
در عبارت بالا r طول خروجی مرجع و c طول خروجی ماشینی است. همچنین در فرمول اصلی مقدار n نشان‏دهنده سطح ngram است که معمولا 4 در نظر گرفته می‏شود. همچنین وزنی است که به هر ngram داده شده است و میزان هم‏پوشانی جملات مرجع و کاندید را با توجه به فرمول زیر اندازه‏گیری می‏کند.
مرجع/استاندارد معرفی کننده این معیار:
Papineni, Kishore, et al. "BLEU: a method for automatic evaluation of machine translation." Proceedings of the 40th annual meeting on association for computational linguistics. Association for Computational Linguistics, 2002.
نحوه محاسبه:
  • خودکار ☒
    • نام ابزار(های) مورد استفاده: اسکریپت محاسبه معیار nDCG در بستر جمع‏سپاری
  • انسانی ☐
    • بستر ارزيابي ☐
    • نظر خبره ☐
    • پرسشنامه ☐
    • تحليل رفتار ☐
شناسنامه معيار
نام معیار: TER شناسه (ID): CR_Func_03
تعريف/فرمول:
معیار TER یا Translation Error Rate به منظور ارزیابی خودکار سامانه‏های مترجم ماشینی مورد استفاده قرار می‏گیرد. این معیار تعداد گام‏های ویرایشی لازم برای تبدیل جمله کاندید به یکی از جملات مرجع را شمارش می‏کند. عمل‏هایی که در هنگام ویرایش مجاز است عبارتند از: حذف کلمه، اضافه کردن کلمه و جابجایی کلمه. معمولا پیدا کردن مقدار عددی این معیار با استفاده از الگوریتم‏های برنامه‏نویسی پویا (dynamic programming) قابل انجام است.
مرجع/استاندارد معرفی کننده این معیار:
Matthew Snover, Bonnie Dorr, Richard Schwartz, Linnea Micciulla, and John Makhoul, "A Study of Translation Edit Rate with Targeted Human Annotation," Proceedings of Association for Machine Translation in the Americas, 2006.
نحوه محاسبه:
  • خودکار ☒
    • نام ابزار(های) مورد استفاده: اسکریپت محاسبه معیار nDCG در بستر جمع‏سپاری
  • انسانی ☐
    • بستر ارزيابي ☐
    • نظر خبره ☐
    • پرسشنامه ☐
    • تحليل رفتار ☐
شناسنامه معيار
نام معیار: تازگي شناسه (ID): CR_Func_04
تعريف/فرمول:
منظور از معیار تازگی این است که خدمت تحت وب مورد بررسی توانایی نمایه سازی مقالات و داستان­های خبری مربوط به یک ساعت اخیر که در سایت­های خبرگذاری­های معتبر درج شده­اند و صفحات وب مربوط به سایت­های معتبر غیر خبری وب فارسی که در سه ساعت اخیر ویرایش گردیده­اند یا در ساعت اخیر ایجاد شده­اند را داراست یا که خیر.
مرجع/استاندارد معرفی کننده این معیار:
  • استاندارد ISO/IEC 9126
  • استاندارد ISO/IEC 25010:2011
نحوه محاسبه:
  • خودکار ☒
    • نام ابزار(های) مورد استفاده: اسکریپت محاسبه معیار nDCG در بستر جمع‏سپاری
  • انسانی ☐
    • بستر ارزيابي ☐
    • نظر خبره ☐
    • پرسشنامه ☐
    • تحليل رفتار ☐
شناسنامه معيار
نام معیار: دسترس­پذیری شناسه (ID): CR_NonFunc_01
تعريف/فرمول:
منظور از معیار دسترس­پذیری، اندازه­گیری ميزان زمان بالا بودن1 یا فعال بودن خدمت مي­باشد. اين معیار با سنجش ميزان پاسخگويي خدمت در قبال پرس‌وجوهاي ارسال‌شده به آن، مورد اندازه­گیری قرار مي­گيرد.
مرجع/استاندارد معرفی کننده این معیار:
  • استاندارد ISO/IEC 9126
  • استاندارد ISO/IEC 25010:2011
نحوه محاسبه:
  • خودکار ☒
    • نام ابزار(های) مورد استفاده: اسکریپت محاسبه معیار nDCG در بستر جمع‏سپاری
  • انسانی ☐
    • بستر ارزيابي ☐
    • نظر خبره ☐
    • پرسشنامه ☐
    • تحليل رفتار ☐
شناسنامه معيار
نام معیار: متوسط زمان پاسخگویی شناسه (ID): CR_NonFunc_02
تعريف/فرمول:
منظور از معیار متوسط زمان پاسخگویی، زمانی است که به طور متوسط سپری می­شود تا یک خدمت تحت وب نتایج را در پاسخ به یک درخواست دریافتی آماده کرده و آن را برای درخواست کننده ارسال نماید. تفاوت بین زمان ارسال درخواست توسط مشتری و زمان دریافت نتایج توسط مشتری از خدمت تحت وب برابر زمان پاسخگویی می­باشد. همچنین درصد پاسخگویی برابر است با درصد درخواست­هایی که یک خدمت توانسته به آنها پاسخ همراه با نتایج معتبر را ارائه نماید.
مرجع/استاندارد معرفی کننده این معیار:
  • استاندارد ISO/IEC 9126
  • استاندارد ISO/IEC 25010:2011
نحوه محاسبه:
  • خودکار ☒
    • نام ابزار(های) مورد استفاده: اسکریپت محاسبه معیار nDCG در بستر جمع‏سپاری
  • انسانی ☐
    • بستر ارزيابي ☐
    • نظر خبره ☐
    • پرسشنامه ☐
    • تحليل رفتار ☐
شناسنامه معيار
نام معیار: توانایی پاسخگویی به کاربران همزمان شناسه (ID): CR_NonFunc_03
تعريف/فرمول:
منظور از معیار توانایی پاسخگویی به کاربران همزمان این است که مشخص شود در واحد زمان یک خدمت مورد بررسی برای درخواست چند کاربر می­تواند پاسخ­هایی را تولید نماید که همگی دارای نتایج معتبر در صفحه­ی بازگشتی ارسال شده از سوی خدمت تحت وب به مشتری خود هستند. مهم این است که یک خدمت بتواند به صد در صد درخواست­های همزمان دریافتی، پاسخ معتبر ارائه دهد در غیر این صورت به عنوان ناتوان در پاسخگویی به آن تعداد از کاربران در نظر گرفته خواهد شد.
مرجع/استاندارد معرفی کننده این معیار:
  • استاندارد ISO/IEC 9126
  • استاندارد ISO/IEC 25010:2011
نحوه محاسبه:
  • خودکار ☒
    • نام ابزار(های) مورد استفاده: اسکریپت محاسبه معیار nDCG در بستر جمع‏سپاری
  • انسانی ☐
    • بستر ارزيابي ☐
    • نظر خبره ☐
    • پرسشنامه ☐
    • تحليل رفتار ☐
شناسنامه معيار
نام معیار: جذب مشتري شناسه (ID): CR_User_01
تعريف/فرمول:
در این معیار هدف بررسی تعداد مشتریان (کاربران) استفاده کننده از خدمات دهنده وب می‌باشد که در قالب دو زیر معیار زیر محاسبه می‌گردد:
  • میانگین/تعداد آمار بازدید روزانه: میانگین/تعداد دفعاتی که کاربر یکی از صفحات مربوط به خدمت‌دهنده را مشاهده کرده باشد.
  • میانگین/تعداد كاربران يكتاي روزانه كه حداقل يك بازدید در طول روز انجام داده باشند.
مرجع/استاندارد معرفی کننده این معیار:
  • 1. WAA Standards Committee. "Web analytics definitions." Washington DC: Web Analytics Association (2008).
  • 2. Zheng, G. & Peltsverger S. (2015) Web Analytics Overview, In book: Encyclopedia of Information Science and Technology, Third Edition, Publisher: IGI Global, Editors: Mehdi Khosrow-Pour
  • 3. https://piwik.org/features/
نحوه محاسبه:
  • خودکار ☒
    • نام ابزار(های) مورد استفاده: اسکریپت محاسبه معیار nDCG در بستر جمع‏سپاری
  • انسانی ☐
    • بستر ارزيابي ☐
    • نظر خبره ☐
    • پرسشنامه ☐
    • تحليل رفتار ☐
شناسنامه معيار
نام معیار: درگيري مشتري شناسه (ID): CR_User_02
تعريف/فرمول:
در این معیار هدف محاسبه­ی تعداد پرس­وجوهای ارسالی توسط کاربران استفاده کننده از خدمات دهنده وب می‌باشد. لازم به ذکر است این معیار فقط برای خدمات دهندگانی قابل محاسبه است که امکان ارسال پرس­وجو توسط کاربران وجود داشته باشد مانند جویشگرهای مختلف متنی، تصویری و غیره. این معیار در قالب
  • درگيري مشتري: میانگین/تعداد پرس و جوهای روزانه کاربران
مرجع/استاندارد معرفی کننده این معیار:
  • 1. WAA Standards Committee. "Web analytics definitions." Washington DC: Web Analytics Association (2008).
  • 2. Zheng, G. & Peltsverger S. (2015) Web Analytics Overview, In book: Encyclopedia of Information Science and Technology, Third Edition, Publisher: IGI Global, Editors: Mehdi Khosrow-Pour
  • 3. https://piwik.org/features/
نحوه محاسبه:
  • خودکار ☒
    • نام ابزار(های) مورد استفاده: اسکریپت محاسبه معیار nDCG در بستر جمع‏سپاری
  • انسانی ☐
    • بستر ارزيابي ☐
    • نظر خبره ☐
    • پرسشنامه ☐
    • تحليل رفتار ☐
شناسنامه معيار
نام معیار: ماندگاری مشتری شناسه (ID): CR_User_03
تعريف/فرمول:
در این معیار هدف محاسبه­ی درصد کاربران بازگشتی استفاده کننده از خدمات دهنده وب می‌باشد. کاربر بازگشتی به صورت زیر تعریف می­گردد:
کاربرانی که در روز T0 حداقل یک پرس­وجو وارد کرده باشند و در روز T-1 و T-2 نیز پرس­وجو وارد کرده باشند به عنوان کاربر بازگشتی در نظر گرفته می­شود. لذا درصد کاربران بازگشتی به صورت زیر محاسبه می­شود:
  • درصد کاربران بازگشتی =(تعداد کاربران بازگشتی)/(تعداد کل کاربران یکتا)
مرجع/استاندارد معرفی کننده این معیار:
با توجه به اینکه تعریف مرجع و استانداردی برای کاربران بازگشتی وجود ندارد لذا تعریف ذکر شده بر اساس نیازمندی­های مشخص شده در پروژه تعریف شده است.
نحوه محاسبه:
  • خودکار ☒
    • نام ابزار(های) مورد استفاده: اسکریپت محاسبه معیار nDCG در بستر جمع‏سپاری
  • انسانی ☐
    • بستر ارزيابي ☐
    • نظر خبره ☐
    • پرسشنامه ☐
    • تحليل رفتار ☐
شناسنامه معيار
نام معیار: تجربه کاربری جويشگر متني شناسه (ID): CR_UIUX_01
تعريف/فرمول:
برای محاسبه امتیاز تجربه­کاربری جویشگرهای متنی از فرمول زیر استفاده می­شود.
در ادامه تعریف هر یک از شاخص­ها بیان شده است:
  • به مدت زمان: این معیار، به‏طور میانگین زمانی را نشان می‏دهد که صرف هر سناریو شده است.
  • قرار داشتن نتیجه مطلوب در 5 مورد اول بازگشتی جویشگر: این معیار مشخص می‏کند که در صورت موفق بودن سناریو، چه درصدی از نتایج به صورت میانگین در 5 نتیجه اول بازگشتی بوده‏اند.
  • موفق بودن جستجو: این معیار به معنای آن است که کاربر موفق به یافتن نتیجه مورد انتظار خود در سناریوی جویش بوده است.
  • تعداد تلاش‏های کاربر: این معیار بيانگر تعداد نتايجي است که توسط كاربر مورد بازبيني قرار گرفته شده است.
  • استفاده کاربر از پیشنهادهای جویشگر در هنگام وارد نمودن پرس­وجو: این قسمت مربوط به جلب توجه کاربر به پیشنهاد پرس­جوهای ارائه شده توسط جویشگر است.
  • عملکرد جویشگر در اصلاح پرس­وجوهای خطادار: در این بخش نیز، به مانند معیار پیشین، ملاک جلب توجه کاربر در استفاده از اصلاحات پیشنهادی از سوی جویشگر است.
  • ارائه deadlink (لینک خراب) توسط جویشگر در میان نتایج: تعریف ما از لینک خراب صفحاتی از قبیل خطای 404، عدم دسترسی، فیلتر شده و از این قبیل است. در این معیار تعداد لینک­های خراب کلیک شده توسط کاربر شمارش می­شود.
  • ارائه صفحات اسپم توسط جویشگر در میان نتایج: در این معیار تعداد صفحات اسپم موجود در میان نتایج جویشگرمتنی که توسط کاربر مشاهده می­شود، شمارش می­شود.
  • تعداد کلیک‏های کاربر: تعداد عمل‏های انتخاب دکمه جستجو، انتخاب لینک در صفحه نتایج و بستن صفحه‏ای که مورد رضایت کاربر واقع نشده، در این معیار آورده شده است.
  • تعداد پرس­وجو‏ها: این شاخص مشخص می‏کند که به صورت میانگین برای هر سناریو چند پرس­وجو توسط کاربر وارد شده است.
مرجع/استاندارد معرفی کننده این معیار:
بر اساس مرجع زير در آزمايشگاه تعريف شده است.
Albert, William, and Thomas Tullis. Measuring the user experience: collecting, analyzing, and presenting usability metrics. Newnes, 2013.
نحوه محاسبه:
  • خودکار ☐
    • نام ابزار(های) مورد استفاده: اسکریپت محاسبه معیار nDCG در بستر جمع‏سپاری
  • انسانی ☒
    • بستر ارزيابي ☐
    • نظر خبره ☐
    • پرسشنامه ☐
    • تحليل رفتار ☒
شناسنامه معيار
نام معیار: تجربه کاربری جويشگر خبري شناسه (ID): CR_UIUX_02
تعريف/فرمول:
برای محاسبه امتیاز تجربه­کاربری جویشگرهای خبری از فرمول زیر استفاده می­شود.
در ادامه تعریف هر یک از شاخص­ها بیان شده است:
  • به مدت زمان: این معیار، به‏طور میانگین زمانی را نشان می‏دهد که صرف هر سناریو شده است.
  • قرار داشتن نتیجه مطلوب در 5 مورد اول بازگشتی جویشگر: این معیار مشخص می‏کند که در صورت موفق بودن سناریو، چه درصدی از نتایج به صورت میانگین در 5 نتیجه اول بازگشتی بوده‏اند.
  • موفق بودن جستجو: این معیار به معنای آن است که کاربر موفق به یافتن نتیجه مورد انتظار خود در سناریوی جویش بوده است.
  • تعداد تلاش‏های کاربر: این معیار بيانگر تعداد نتايجي است که توسط كاربر مورد بازبيني قرار گرفته شده است.
  • استفاده کاربر از پیشنهادهای جویشگر در هنگام وارد نمودن پرس­وجو: این قسمت مربوط به جلب توجه کاربر به پیشنهاد پرس­جوهای ارائه شده توسط جویشگر است.
  • عملکرد جویشگر در اصلاح پرس­وجوهای خطادار: در این بخش نیز، به مانند معیار پیشین، ملاک جلب توجه کاربر در استفاده از اصلاحات پیشنهادی از سوی جویشگر است.
  • ارائه deadlink (لینک خراب) توسط جویشگر در میان نتایج: تعریف ما از لینک خراب صفحاتی از قبیل خطای 404، عدم دسترسی، فیلتر شده و از این قبیل است. در این معیار تعداد لینک­های خراب کلیک شده توسط کاربر شمارش می­شود.
  • ارائه صفحات اسپم توسط جویشگر در میان نتایج: در این معیار تعداد صفحات اسپم موجود در میان نتایج جویشگرمتنی که توسط کاربر مشاهده می­شود، شمارش می­شود.
  • تعداد کلیک‏های کاربر: تعداد عمل‏های انتخاب دکمه جستجو، انتخاب لینک در صفحه نتایج و بستن صفحه‏ای که مورد رضایت کاربر واقع نشده، در این معیار آورده شده است.
  • تعداد پرس­وجو‏ها: این شاخص مشخص می‏کند که به صورت میانگین برای هر سناریو چند پرس­وجو توسط کاربر وارد شده است.
مرجع/استاندارد معرفی کننده این معیار:
بر اساس مرجع زير در آزمايشگاه تعريف شده است.
Albert, William, and Thomas Tullis. Measuring the user experience: collecting, analyzing, and presenting usability metrics. Newnes, 2013.
نحوه محاسبه:
  • خودکار ☐
    • نام ابزار(های) مورد استفاده: اسکریپت محاسبه معیار nDCG در بستر جمع‏سپاری
  • انسانی ☒
    • بستر ارزيابي ☐
    • نظر خبره ☐
    • پرسشنامه ☐
    • تحليل رفتار ☒