+982184977834
Today
2018-12-14   |   فارسی
Laboratory Activities

شناسنامه آزمون‌ها

شناسنامه آزمون
نام آزمون: کیفیت‏ سنجی جویشگرهای متنی شناسه (ID): TS_Text_Func_01
ابزار(های) انجام آزمون:
سامانه جمع‏ سپاری وب‏آزما (اسکریپت‏های مرتبط با فعالیت «ارزیابی جویشگرهای متنی»)
داده(های) محک مورد استفاده برای آزمون:
داده محک جویشگر متنی
معیارهای اندازه‏گیری شده توسط آزمون:
nDCG، MAP، MRR و P@N
الزامات انجام آزمون (از سمت ارائه دهندگان خدمات):
  • ارائه وب‏ سرویس دسترسی به نتایج جویشگر در قالب XML یا JSON
  • تعیین داده محک مورد نظر جهت ارزیابی
  • در صورت نیاز: تعیین زیرمجموعه(های)‏ مورد نظر از داده محک انتخابی (پرس‏وجوهای لاگ یوز، پرس‏وجوهای فارسی، ...)
نحوه انجام آزمون
  • مستمر ☐
  • مقطعی ☒
مدت زمان تخمینی انجام آزمون: دو تا سه هفته
سناريوی آزمون:
ابتدا به کمک وب‏ سرویس ارائه شده توسط جویشگر، تمامی پرس‏وجوهای موجود در داده محک (یا زیرمجوعه‏های انتخاب شده از آن) به آن جویشگر ارسال و n نتیجه بازگشتی اول دریافت می‏گردد. بر اساس نتایج دریافتی، زوج‏های «پرس‏وجو-نتیجه» تشکیل شده و به کمک بستر جمع‏ سپاری در اختیار کاربران انسانی قرار می‏گیرد. کاربران انسانی، میزان ارتباط نتیجه با پرس‏وجو را برای هر زوج تعیین می‏نمایند. برای دقت بیشتر، هر زوج در اختیار حداقل 2 و حداکثر 3 کاربر قرار خواهد گرفت و میزان ارتباط، از اِجماع نظرات به دست آمده از این کاربران تعیین خواهد گردید. در نهایت، با ترکیب نتایج به دست آمده برای تمامی زوج‏های «پرس‏وجو-نتیجه»، دقت بر اساس معیارهای ذکر شده محاسبه و گزارش می‏گردد.
روال صحت‏ سنجی آزمون:
روال ارزیابی ذکر شده، دقیقاً مشابه روال‏های استانداردی است که در کنفرانس‏های معتبر بازیابی اطلاعات، نظیر TREC و CLEF، مورد استفاده قرار می‏گیرد.
به منظور صحت‏ سنجی نتایج ارائه شده توسط کاربران، در ابتدا بخشی از زوج‏های «پرس‏وجو-نتیجه» در اختیار کاربران مورد اعتماد قرار می‏گیرد تا میزان ارتباط آنها را تعیین نمایند. در زمان انجام آزمون اصلی، درصدی از زوج‏های ارائه شده به هر کاربر، از میان این موارد (که میزان ارتباط آنها از قبل معلوم است) انتخاب می‏شود. پاسخ ارائه شده توسط کاربر با پاسخی که توسط کاربران مورد اعتماد تعیین شده است مقایسه شده و در صورتی که پاسخ کاربر اشتباه باشد، برای او نمره منفی منظور می‏گردد. در صورتی که میزان نمره منفی کاربر از حد قابل قبولی بیشتر شود، کاربر از فرایند ارزیابی کنار گذاشته می‏شود. بدین ترتیب، اطمینان داریم که کاربران با دقت بالا به انجام آزمون می‏پردازند و کاربران بی‏دقت، خود به خود از این فرایند حذف می‏شوند. لذا، به صحت نتایج اطمینان نسبی وجود خواهد داشت.
روش آزمون:
  • انساني ☐
  • خودكار ☐
  • نیمه­ خودكار ☒
شناسنامه آزمون
نام آزمون: کیفیت‏ سنجی جویشگرهای خبري شناسه (ID): TS_News_Func_01
توضیح:
در این آزمون، میزان دقت نتایج ارائه شده توسط جویشگرهای خبري، در ازای مجموعه‏ای از پرس‏وجوهای ورودی، به کمک ارزیاب‏های انسانی اندازه‏گیری شده و در قالب معیارهای استاندارد دقت سامانه‏های بازیابی اطلاعات ارائه می‏گردد.
ابزار(های) انجام آزمون:
سامانه جمع‏سپاری وب‏آزما (اسکریپت‏های مرتبط با فعالیت «ارزیابی جویشگرهای خبري»)
داده(های) محک مورد استفاده برای آزمون:
داده محک جویشگر خبري
معیارهای اندازه‏گیری شده توسط آزمون: nDCG، MAP، MRR و P@N
الزامات انجام آزمون (از سمت ارائه دهندگان خدمات):
  • ارائه وب‏سرویس دسترسی به نتایج جویشگر در قالب XML یا JSON
  • تعیین داده محک مورد نظر جهت ارزیابی
  • در صورت نیاز: تعیین زیرمجموعه(های)‏ مورد نظر از داده محک انتخابی (پرس‏وجوهای لاگ جويشگر متني، پرس‏وجوهای لاگ جويشگر خبري، ...)
نحوه انجام آزمون:
  • مستمر ☐
  • مقطعی ☒
مدت زمان تخمینی انجام آزمون: دو تا سه هفته
سناريوی آزمون:
ابتدا به کمک وب‏سرویس ارائه شده توسط جویشگر، تمامی پرس‏وجوهای موجود در داده محک (یا زیرمجوعه‏های انتخاب شده از آن) به آن جویشگر ارسال و n نتیجه بازگشتی اول دریافت می‏گردد. بر اساس نتایج دریافتی، زوج‏های «پرس‏وجو-نتیجه» تشکیل شده و به کمک بستر جمع‏سپاری در اختیار کاربران انسانی قرار می‏گیرد. کاربران انسانی، میزان ارتباط نتیجه با پرس‏وجو را برای هر زوج تعیین می‏نمایند. برای دقت بیشتر، هر زوج در اختیار حداقل 2 و حداکثر 3 کاربر قرار خواهد گرفت و میزان ارتباط، از اِجماع نظرات به دست آمده از این کاربران تعیین خواهد گردید. در نهایت، با ترکیب نتایج به دست آمده برای تمامی زوج‏های «پرس‏وجو-نتیجه»، دقت بر اساس معیارهای ذکر شده محاسبه و گزارش می‏گردد.
روال صحت‏سنجی آزمون: روال ارزیابی ذکر شده، دقیقاً مشابه روال‏های استانداردی است که در کنفرانس‏های معتبر بازیابی اطلاعات، نظیر TREC و CLEF، مورد استفاده قرار می‏گیرد.
به منظور صحت‏سنجی نتایج ارائه شده توسط کاربران، در ابتدا بخشی از زوج‏های «پرس‏وجو-نتیجه» در اختیار کاربران مورد اعتماد قرار می‏گیرد تا میزان ارتباط آنها را تعیین نمایند. در زمان انجام آزمون اصلی، درصدی از زوج‏های ارائه شده به هر کاربر، از میان این موارد (که میزان ارتباط آنها از قبل معلوم است) انتخاب می‏شود. پاسخ ارائه شده توسط کاربر با پاسخی که توسط کاربران مورد اعتماد تعیین شده است مقایسه شده و در صورتی که پاسخ کاربر اشتباه باشد، برای او نمره منفی منظور می‏گردد. در صورتی که میزان نمره منفی کاربر از حد قابل قبولی بیشتر شود، کاربر از فرایند ارزیابی کنار گذاشته می‏شود. بدین ترتیب، اطمینان داریم که کاربران با دقت بالا به انجام آزمون می‏پردازند و کاربران بی‏دقت، خود به خود از این فرایند حذف می‏شوند. لذا، به صحت نتایج اطمینان نسبی وجود خواهد داشت.
روش آزمون:
  • انساني ☒
  • خودكار ☐
  • نیمه ­خودكار ☐
ارزیابی دقت مترجم‏های ماشینی
نام آزمون: کیفیت‏ سنجی جویشگرهای خبري شناسه (ID): TS_MT_Func_01
توضیح:
در این آزمون دقت ترجمه خروجی یک سامانه مترجم ماشینی با استفاده از معیارهای استاندارد مطرح در ادبیات این حوزه سنجیده می‏شود. تاکید اصلی در این آزمون، ارزیابی دقت خروجی سامانه در ترجمه کلمات است. همچنین در این آزمون به نحوه ترکیب کلمات به منظور جمله خروجی نیز دقت می‏شود. این ترکیب می‏تواند بیانگر دقت در گرامر و یا روایی جمله خروجی نیز باشد. هر چند ارزیابی کیفیت جمله خروجی از لحاظ روایی معمولا به صورت انسانی انجام شده و آزمون دیگری برای آن طراحی شده است.
ابزار(های) انجام آزمون:
ابزار ارزیابی سامانه‏های ترجمه ماشینی برخط
داده(های) محک مورد استفاده برای آزمون:
داده محک ترجمه ماشینی
معیارهای اندازه‏گیری شده توسط آزمون: BLEU، TER، METEOR
الزامات انجام آزمون (از سمت ارائه دهندگان خدمات):
  • ارائه وب‏سرویس دسترسی به نتایج ترجمه در قالب XML یا JSON
  • تعیین داده محک مورد نظر جهت ارزیابی
  • تعیین زیرمجموعه(های)‏ مورد نظر از داده محک انتخابی (بر اساس طول جملات، حوزه جملات و ...)
نحوه انجام آزمون:
  • مستمر ☐
  • مقطعی ☒
مدت زمان تخمینی انجام آزمون: کاملا وابسته به سرعت پاسخ‏دهی وب سرویس و هم‏چنین حجم داده محک انتخابی. کمتر از یک روز
سناريوی آزمون:
  • زیرمجموعه‏ای از دادگان محک فراهم شده برای این روال انتخاب می‏شود.
  • جملات موجود در زبان مبدا برای وب سرویس مترجم ماشینی ارسال می‏شود.
  • پاسخ از وب‏سرویس در زبان مقصد دریافت می‏شود.
  • نتایج به همراه ترجمه‏های مرجع موجود در دادگان محک برای زیرسیستم‏های محاسبه معیارهای مختلف ارسال می‏شود.
  • نتایج عددی دقت‏ها دریافت شده و به کاربر نمایش داده می‏شود.
روال صحت‏سنجی آزمون: با توجه به خودکار بودن و همچنین استفاده از معیارهای استاندارد و معتبر در این حوزه در روند ارزیابی تنها روال صحت‏سنجی مورد نظر برای انجام، اطمینان از صحت هر کدام از زیرسیستم‏ها به صورت مستقل خواهد بود. بخش عمده این کار در هنگام توسعه انجام شده است اما بازدیدهای دوره‏ای و اطمینان از صحت خروجی هر کدام از زیرسیستم‏ها در دوره حیات سیستم نیز قابل انجام خواهد بود.
همچنین در صورتی که نتایج ارزیابی یک سامانه ترجمه ماشینی با نتایج قبلی آن تفاوت فاحشی داشت، باید اعلانی به اپراتور مسئول صورت بگیرد تا به صورت دستی علت بررسی شود. این عل می‏تواند ناشی از خرابی وب‏سرویس و یا دسترسی به زیرسیتم‏های مختلف و یا تقلب باشد.
روش آزمون:
  • انساني ☐
  • خودكار ☒
  • نیمه ­خودكار ☐
ارزیابی تازگی
نام آزمون: کیفیت‏ سنجی جویشگرهای خبري شناسه (ID): TS_Func_01
توضیح:
منظور از تازگی، این است که خدمت­های جویش متنی یا خبری بتوانند در سناریوهای زیر عملکرد مناسبی داشته باشند
  • توانایی نمایه­سازی و ارائه­ی مقالات و داستان­های خبری مربوط به یک ساعت اخیر که در سایت­های خبرگذاری­های معتبر درج گردیده­اند.
  • توانایی نمایه­سازی و ارائه­ی صفحات مربوط به سه ساعت اخیر که در سایت­های غیر خبری معتبر وب فارسی درج گردیده­اند.
ابزار(های) انجام آزمون:
سامانه­ی ارزیابی تازگی
داده(های) محک مورد استفاده برای آزمون:
مجموعه پرس و جوهای ذخیره شده در پایگاه داده­ی SearchEnginePortalDB2 (در جدول amQuerySet). پرس و جوهای که منبع آنها سایت الکسا است.
معیارهای اندازه‏گیری شده توسط آزمون: شاخص تازگی
الزامات انجام آزمون (از سمت ارائه دهندگان خدمات):
  • ارائه­ی سرویس وب جهت دسترسی به نتایج در قالب XML یا JSON (یا ارائه­ی سایت وب آنها)
  • انتخاب تعدادی از پرس و جوها از مجموعه پرس و جوهای پایگاه داده SearchEnginePortalDB2 که مناسب برای ارزیابی سرویس وب یا سایت وب فعلی هستند.
  • ذخیره شدن مشخصات خدمت مورد بررسی در پایگاه داده SearchEnginePortalDB2 (در جدول amSearchEnginesUnderEvaluation)
  • وجود پویشگر مناسب برای سرویس وب مورد بررسی
نحوه انجام آزمون:
  • مستمر ☐
  • مقطعی ☒
مدت زمان تخمینی انجام آزمون: 1 الی 2 ساعت.
سناريوی آزمون: براي محاسبه­ي تازگی، ابتدا نام یک سایت خاص به موتور جستجوی گوگل داده می­شود. سپس از میان نتایج دریافتی، نتایجی که مربوط به یک ساعت اخیر هستند (هنگامی که نام سایت ارسال شده به گوگل مربوط به یک سایت خبری است) یا اینکه مربوط به سه ساعت اخیر هستند (هنگامی که نام سایت ارسال شده به گوگل مربوط به یک سایت غیر خبری است)، انتخاب می­شوند. سپس همان پرس و جوی ارسالی به خدمت مورد بررسی (در اینجا خدمت­های جویشگر متنی یوز و پارسی­جو) ارسال می­گردد و نتایج دریافتی از سوی آن مورد، ارزیابی قرار می­گیرد برای اینکه مشخص گردد که این خدمت مورد بررسی نتایج مربوط به یک ساعت اخیر (در هنگام ارزیابی برای سایت­های خبری) و یا نتایج مربوط به سه ساعت اخیر (در هنگام ارزیابی برای سایت­های غیرخبری) را توانسته است که بازیابی نماید یا که خیر. در صورت موفق بودن در بازیابی چنین نتایجی نتیجه گرفته می­شود که خدمت مورد بررسی از تازگی مناسبی در ارائه­ی نتایج خود به کاربرانش برخوردار است.
روال صحت‏سنجی آزمون: اطمینان از صحت نتایج به دلیل انجام ارزیابی مطابق با استاندارد ISO/IEC 25010:2011
روش آزمون:
  • انساني ☒
  • خودكار ☐
  • نیمه ­خودكار ☐
شناسنامه آزمون
نام آزمون: ارزیابی دسترس­پذیری شناسه (ID): TS_NonFunc_01
توضیح:
منظور از معیار دسترس­پذیری، اندازه­گیری ميزان زمان بالا بودن1 یا فعال بودن خدمت مي­باشد. اين معیار با سنجش ميزان پاسخگويي خدمت در قبال پرس‌وجوهاي ارسال‌شده به آن، مورد اندازه­گیری قرار مي­گيرد.
ابزار(های) انجام آزمون:
سامانه­ی ارزیابی دسترس­ پذیری
داده(های) محک مورد استفاده برای آزمون:
مجموعه پرس و جوهای ذخیره شده در پایگاه داده­ی SearchEnginePortalDB2 (در جدول amQuerySet)
معیارهای اندازه‏گیری شده توسط آزمون: شاخص Availability
الزامات انجام آزمون (از سمت ارائه دهندگان خدمات):
  • ارائه­ی سرویس وب جهت دسترسی به نتایج در قالب XML یا JSON (یا ارائه­ی سایت وب آنها)
  • انتخاب تعدادی از پرس و جوها از مجموعه پرس و جوهای پایگاه داده SearchEnginePortalDB2 که مناسب برای ارزیابی سرویس وب یا سایت وب فعلی هستند.
  • ذخیره شدن مشخصات خدمت مورد بررسی در پایگاه داده SearchEnginePortalDB2 (در جدول amSearchEnginesUnderEvaluation)
  • وجود پویشگر مناسب برای سرویس وب مورد بررسی
نحوه انجام آزمون:
  • مستمر ☐
  • مقطعی ☒
مدت زمان تخمینی انجام آزمون: هر بار به مدت یک هفته – 2 بار در ماه
سناريوی آزمون:
ي محاسبه­ي ميزان دسترس­پذیری، پس از اطمینان از برقراری ارتباط تحت شبکه، زيرسامانه­ی ارزیابی دسترس­پذیری، به‌صورت خودکار در بازه­هاي زماني 30 ثانيه­اي يک پرس‌وجو به سرویس وب مورد بررسی، ارسال کرده و پاسخ دريافتي از اين خدمت را مورد بررسي قرار مي­دهد. اگر در برقراری ارتباط با این سرویس وب مشکلی ایجاد گردد، اين سامانه، response code و excepionای را که با آن روبرو شده است را در يک پايگاه داده طراحي شده براي اين منظور ذخيره مي­نمايد. اما اگر مشکل خاصی ایجاد نشود و response code دریافتی از سوی سرویس وب مورد بررسی 200 باشد، آنگاه وضعیت در دسترس برای این سرویس وب توسط اين سامانه در پايگاه داده ثبت خواهد گرديد. در پايان روز نيز به ازاي تمامي پرس‌وجوهاي ارسال‌شده در بازه­هاي 30 ثانيه­اي اطلاعات در دسترس بودن ثبت شده در پايگاه داده خوانده شده و سرجمع زده مي­شوند و درصد در دسترس بودن خدمت براي يک روز خاص به دست آورده خواهد شد. به عنوان مثال اگر خدمت جویش متنی پارسي جو در طول روز در دسترس بوده باشد و به تمامي پرس‌وجوهاي دريافتي پاسخ گفته باشد آن­گاه ميزان دسترس پذيري اين جویشگر براي يک روز خاص برابر صد در صد خواهد شد.
روال صحت‏سنجی آزمون:
  • با بررسی میزان مطابقت نتایج دسترس پذیری حاصل از سامانه­ی طراحی شده با ابزار معتبر jmeter
  • اطمینان از صحت نتایج به دلیل انجام ارزیابی مطابق با استاندارد ISO/IEC 25010:2011
روش آزمون:
  • انساني ☐
  • خودكار ☒
  • نیمه ­خودكار ☐
شناسنامه آزمون
نام آزمون: ارزیابی کارایی با معیار متوسط زمان پاسخگویی (همچنین معیار درصد پاسخگویی به درخواست­ها نیز همزمان با همین آزمون، مورد محاسبه قرار می­گیرد) شناسه (ID): TS_NonFunc_01
توضیح:
منظور از معیار کارایی، سرعت و توانايي یک سامانه­ نرم افزاری در پاسخگويي به پرس‌وجوهاي متعدد كاربران است. اين معیار با عامل­هاي زير مورد بررسي قرار مي­گيرد.
  • متوسط زمان پاسخگويي به پرس‌وجو1
  • توانايي در پاسخگويي به کاربران همزمان یا همروندی
ابزار(های) انجام آزمون:
سامانه­ی ارزیابی متوسط زمان پاسخگویی
داده(های) محک مورد استفاده برای آزمون:
مجموعه پرس و جوهای ذخیره شده در پایگاه داده­ی SearchEnginePortalDB2 (در جدول amQuerySet)
معیارهای اندازه‏گیری شده توسط آزمون: شاخص average response time و شاخص درصد پاسخگویی به درخواست­های دریافتی
الزامات انجام آزمون (از سمت ارائه دهندگان خدمات):
  • ارائه­ی سرویس وب جهت دسترسی به نتایج در قالب XML یا JSON (یا ارائه­ی سایت وب آنها)
  • انتخاب تعدادی از پرس و جوها از مجموعه پرس و جوهای پایگاه داده SearchEnginePortalDB2 که مناسب برای ارزیابی سرویس وب یا سایت وب فعلی هستند.
  • ذخیره شدن مشخصات خدمت مورد بررسی در پایگاه داده SearchEnginePortalDB2 (در جدول amSearchEnginesUnderEvaluation)
  • وجود پویشگر مناسب برای سرویس وب مورد بررسی
نحوه انجام آزمون:
  • مستمر ☐
  • مقطعی ☒
مدت زمان تخمینی انجام آزمون: یک شبانه روز
سناريوی آزمون:
براي محاسبه­ي متوسط زمان پاسخگویی، ابتدا فرد مجری تست باید تنظیمات مناسب را در فایل پیکربندی سامانه به انجام رساند. سپس سامانه با توجه به تنظیمات مشخص شده لیست خدمات مورد ارزیابی را به دست آورده و مشخصات هر یک را از پایگاه داده سامانه استخراج می­نماید. سپس تعداد مناسبی از پرس و جوها با ویژگی­های مطلوب از پایگاه داده انتخاب شده و برای ارزیابی خدمات تحت وب مورد استفاده خواهند بود. روال ارزیابی تست به این صورت است که سامانه اولین پرس و جو را از مجموعه­ی پرس و جوها انتخاب کرده و بعد از اطمینان از برقراری ارتباط تحت شبکه­ی اینترنت، درخواستی را برای یک خدمت تحت وب ارسال می­نماید. سپس پس از دریافت پاسخ از سوی سرویس اگر exceptionای رخ داده باشد یا کد پاسخ برابر 200 نباشد یا صفحه­ی بازگشتی از خدمت، حاوی صفر نتیجه باشد، این پاسخ در محاسبه­ی متوسط زمان پاسخگویی در نظر گرفته نمی­شود (همچنین اگر تعداد نتایج در صفحه­ی بازگشتی، صفر باشد، این مورد در محاسبه­ی درصد پاسخگویی به درخواست­های دریافتی در نظر گرفته خواهد شد). اما اگر مشکلی در دریافت پاسخ از خدمت، بوجود نیاد، این زمان پاسخ، در محاسبه­ی متوسط زمان پاسخگویی لحاظ خواهد شد. این آزمون به همین صورت برای خدمات تحت بررسی و به مدت 24 ساعت ادامه یافته و در پایان نتایج در پرتال قابل مشاهده خواهند بود.
روال صحت‏سنجی آزمون:
  • با بررسی میزان مطابقت نتایج متوسط زمان پاسخگویی حاصل از سامانه­ی طراحی شده با ابزار معتبر jmeter
  • اطمینان از صحت نتایج به دلیل انجام ارزیابی مطابق با استاندارد ISO/IEC 25010:2011
روش آزمون:
  • انساني ☐
  • خودكار ☒
  • نیمه ­خودكار ☐
شناسنامه آزمون
نام آزمون: ارزیابی کارایی با معیار توانایی پاسخگویی به کاربران همزمان شناسه (ID): TS_NonFunc_03
توضیح:
منظور از معیار کارایی، سرعت و توانايي یک سامانه­ نرم افزاری در پاسخگويي به پرس‌وجوهاي متعدد كاربران است. اين معیار با عامل­هاي زير مورد بررسي قرار مي­گيرد.
  • متوسط زمان پاسخگويي به پرس‌وجو
  • توانايي در پاسخگويي به کاربران همزمان یا همروندی
ابزار(های) انجام آزمون:
سامانه­ی ارزیابی توانای پاسخگویی به کاربران همزمان
داده(های) محک مورد استفاده برای آزمون:
مجموعه پرس و جوهای ذخیره شده در پایگاه داده­ی SearchEnginePortalDB2 (در جدول amQuerySet)
معیارهای اندازه‏گیری شده توسط آزمون: شاخص throughput یا بازده یا تعداد وظایف انجام شده توسط خدمت تحت وب در واحد زمان.
الزامات انجام آزمون (از سمت ارائه دهندگان خدمات):
  • ارائه­ی سرویس وب جهت دسترسی به نتایج در قالب XML یا JSON (یا ارائه­ی سایت وب آنها)
  • انتخاب تعدادی از پرس و جوها از مجموعه پرس و جوهای پایگاه داده SearchEnginePortalDB2 که مناسب برای ارزیابی سرویس وب یا سایت وب فعلی هستند.
  • ذخیره شدن مشخصات خدمت مورد بررسی در پایگاه داده SearchEnginePortalDB2 (در جدول amSearchEnginesUnderEvaluation)
  • وجود پویشگر مناسب برای سرویس وب مورد بررسی
نحوه انجام آزمون:
  • مستمر ☐
  • مقطعی ☒
مدت زمان تخمینی انجام آزمون: یک الی دو شبانه روز
سناريوی آزمون:
براي محاسبه­ي توانایی پاسخگویی به کاربران همزمان، ابتدا فرد مجری تست باید تنظیمات مناسب را در فایل پیکربندی سامانه به انجام رساند. سپس سامانه با توجه به تنظیمات مشخص شده، لیست خدمات مورد ارزیابی را به دست آورده و مشخصات هر یک را از پایگاه داده سامانه استخراج می­نماید. سپس تعداد مناسبی از پرس و جوها با ویژگی­های مطلوب از پایگاه داده انتخاب شده و برای ارزیابی خدمات تحت وب مورد استفاده خواهند بود. روال ارزیابی تست به این صورت است که سامانه در گام نخست دو پرس و جو را از مجموعه­ی پرس و جوها انتخاب کرده و دو درخواست را به صورت همزمان برای یک خدمت تحت وب ارسال می­نماید. سپس پس از دریافت پاسخ از سوی خدمت همین درخواست­ها برای سایر خدمات تحت وب مورد بررسی نیز ارسال می­گردند. سپس همین روال برای تعداد درخواست­های همزمان بیشتر تا سقف تعیین شده تکرار خواهد شد (یعنی در بار بعدی 3 درخواست، سپس 4 درخواست، بعد از آن 5 درخواست و همین طور الی رسیدن به کران بالای تعیین شده برای تعداد درخواست­های همزمان ارسالی در این آزمون که قابل تنظیم در فایل پیکربندی برنامه است. این کران بالا به عنوان مثال می­تواند 50 کاربر همزمان باشد). این آزمون به همین صورت برای خدمات تحت بررسی ادامه یافته تا همگی خدمات تا کران بالا برای درخواست­های همزمان مورد ارزیابی قرار بگیرند. سپس سامانه به محاسبه­ی نقطه­ی شکست در توانایی پاسخگویی به کاربران همزمان برای خدمات خواهد پرداخت و در پایان نتایج در پایگاه داده پرتال ذخیره خواهند شد.
روال صحت‏سنجی آزمون:
  • با بررسی میزان مطابقت نتایج توانایی پاسخگویی به کاربران همزمان حاصل از سامانه­ی طراحی شده با ابزار معتبر jmeter
  • اطمینان از صحت نتایج به دلیل انجام ارزیابی مطابق با استاندارد ISO/IEC 25010:2011
روش آزمون:
  • انساني ☐
  • خودكار ☒
  • نیمه ­خودكار ☐
شناسنامه آزمون
نام آزمون: ارزیابی بازار و مشتری جویشگرهای متنی شناسه (ID): TS_Text_User_01
توضیح:
در این آزمون، آمار بازدید جویشگرهای متنی به تفکیک معیارهای مختلف، در طول بازه زمانی مشخص اندازه‏گیری شده و ارائه می‏گردد.
ابزار(های) انجام آزمون:
سامانه آماری جمع‌آوری اطلاعات بازدید کاربران وب آزما
داده(های) محک مورد استفاده برای آزمون:
معیارهای اندازه‏گیری شده توسط آزمون:
  • جذب مشتري:
    • میانگین/تعداد آمار بازدید روزانه
    • میانگین/تعداد كاربران يكتاي روزانه كه حداقل يك بازدید در طول روز انجام داده باشند.
  • درگيري مشتري: میانگین/تعداد پرس و جو روزانه کاربران
  • ماندگاری مشتری: میانگین درصد کاربران بازگشتی روزانه
الزامات انجام آزمون (از سمت ارائه دهندگان خدمات):
  • قراردهی اسکریپت جمع‌آوری داده بر روی تمام صفحات جویشگر
نحوه انجام آزمون:
  • مستمر ☒
  • مقطعی ☐
مدت زمان تخمینی انجام آزمون:
سناريوی آزمون:
این آزمون توسط سامانه آماری جمع‌آوری اطلاعات بازدید کاربران انجام می‌شود. این سامانه شامل سه زیر سامانه کلی است به نام‌های: زیرسامانه جمع‌آوری داده، زیرسامانه تحلیل داده و زیرسامانه آرشیو و همچنین برنامه کنترلی زمانبد.
ابتدا اطلاعات ارسالی از سمت کاربران از طریق اسکریپی که در صفحات وب جویشگرهای متنی قرار داده شده است، به سمت زیرسامانه جمع‌آوری داده ارسال می‌شود و در این زیرسامانه اطلاعات کاربران را دریافت شده و با پردازش اولیه آن‌ها اطلاعات جانبی دیگر را نیز استخراج می‌گردد و در پایگاه داده ذخیره می‌شود. سپس به کمک برنامه کنترلی زمانبد داده‌های مربوط به یک روز به زیرسامانه تحلیل‌داده ارسال می‌شود. در این زیرسامانه معیارهای مختلف مربوط به آزمون "ارزیابی بازار و مشتری جویشگرهای متنی" محاسبه می‌گردد و در پایگاه داده مربوطه ذخیره می‌گردد. و در نهایت داده‌ها و اطلاعات استخراجی توسط زیرسامانه آرشیو اطلاعات ذخیره می‌گردد. همچنین مراحل مختلف محاسبه یک معیار توسط برنامه کنترلی زمانبد ثبت می‌گردد.
روال صحت‏سنجی آزمون: به منظور صحت‌سنجی این آزمون مولفه‌های سامانه مربوط به این آزمون مورد تست و صحت‌سنجی قرار گرفته است. این تست و صحت‌سنجی از سه طریق انجام گرفته است.
  • استفاده از داده‌های نمونه‌برداری شده: مجموعه داده‌ای از درخواست‌های کاربران بصورت نمونه برداری از پایگاه داده جمع‌آوری داده تهیه شده است. اندازه این مجموعه طوری در نظر گرفته شده است که قابل ارزیابی به صورت انسانی باشد. سپس هر یک از رویه‌های ذخیره شده که وظیفه انجام تحلیل‌های مختلف را بر عهده داشته‌اند از طریق این مجموعه داده در قالب تست واحد ارزیابی شده است و از درست بودن نتایج آن اطمینان حاصل گشته است.
  • استفاده از ابزارهای متن باز تحلیل آمار بازدید: از ابزار متن باز پی.ویک استفاده شده است. بدین صورت که این ابزار و همچنین سامانه آماری توسعه داده شده خود را هر دو بصورت همزمان بر روی سایت وب آزما نصب شده و نتایج هر دو آنها با یکدیگر مقایسه و راست‌آزمایی شده است. نتایج حاصله حاکی از این است خروجی تحلیل‌های مشترک هر دو سامانه یکسان است. از این رو، می‌توان به نتایج حاصل از رویه‌هایی که این تحلیل‌های مشترک را محاسبه می‌کنند اتکا کرد.
  • استفاده از لاگ جویشگر: با توجه به در دسترس بودن لاگ جویشگر پارسی‌جو، در این سطح سعی شد نتایج تحلیل‌های صورت گرفته با نتایج تحلیل لاگ پارسی‌جو تطبیق داده شود. به عنوان مثال، میانگین تعداد پرس و جوهای ارسالی در سامانه آماری با میانگین این معیار در لاگ مقایسه شده است که نتایج این بخش نیز نشان از تطابق قابل قبول بین نتایج لاگ و سامانه آماری می‌دهد.
لازم به ذکر است، روال‌های صحت‌سنجی فوق در هر بار محاسبه آزمون انجام نمی‌گیرد و فقط یکبار در ابتدای توسعه سامانه صورت گرفته است.
روش آزمون:
  • انساني ☐
  • خودكار ☒
  • نیمه ­خودكار ☐
شناسنامه آزمون
نام آزمون: تجربه کاربری جویشگرهای متنی شناسه (ID): TS_Text_UIUX_01
توضیح:
در این آزمون میزان رضایتمندی و کیفیت تعامل کاربران با یک جویشگر متنی مورد سنجش قرار می­گیرد. که با در نظر گرفتن رفتارها، دیدگاه­ها و احساسات او در هنگام استفاده از جویشگر متنی این آزمون انجام می­گیرد.
ابزار(های) انجام آزمون:
ندارد
داده(های) محک مورد استفاده برای آزمون: ندارد
معیارهای اندازه‏گیری شده توسط آزمون: تجربه کاربری
الزامات انجام آزمون (از سمت ارائه دهندگان خدمات): دسترسی به واسط کاربری سامانه
نحوه انجام آزمون:
  • مستمر ☐
  • مقطعی ☒
مدت زمان تخمینی انجام آزمون: دو تا سه هفت
سناريوی آزمون:
  • براي انجام آزمايشات تجربه­كاربري نياز به تعیین مجموعه­اي از فعاليت­هاي كار با جویشگر می­باشد به طوري كه بيانگر كاربري­هاي متنوع آن باشد.
  • از هر كاربر خواسته مي­شود تا كه هر یک از فعالیت­ها را در جویشگر متنی به انجام رساند. در ادامه روش انجام هر فعالیت شرح داده شده است:
    • يك جویشگر متنی انتخاب مي­شود.
    • درخواست انجام یک فعالیت توسط كاربر
    • نظارت بر رفتار و عملكرد كاربر در حين تعامل با جويشگر
    • ثبت و ضبط عملكرد كاربر
  • تخصيص امتياز به شاخص­ها
  • تحليل نتايج و محاسبه امتياز تجربه­كاربري سامانه مورد ارزیابی
روال صحت‏سنجی آزمون: با توجه به مطالعات انجام شده و مشاوره با افراد متخصص در اين حوزه روال مناسبي متناسب با نوع خدمت تعريف شد و براي اطمينان از دقت انجام كار، کاربر انساني انجام دهنده آزمون زیر نظر یک ناظر خبره سناریوهای جویش را به انجام می رساند.
روش آزمون:
  • انساني ☒
  • خودكار ☐
  • نیمه ­خودكار ☐
شناسنامه آزمون
نام آزمون: تجربه کاربری جویشگرهای خبری شناسه (ID): TS_News_UIUX_01
توضیح:
در این آزمون میزان رضایتمندی و کیفیت تعامل کاربران با یک جویشگر خبری مورد سنجش قرار می­گیرد. که با در نظر گرفتن رفتارها، دیدگاه­ها و احساسات او در هنگام استفاده از جویشگر خبری این آزمون انجام می­گیرد.
ابزار(های) انجام آزمون:
ندارد
داده(های) محک مورد استفاده برای آزمون: ندارد
معیارهای اندازه‏گیری شده توسط آزمون: تجربه کاربری
الزامات انجام آزمون (از سمت ارائه دهندگان خدمات): دسترسی به واسط کاربری جویشگر خبری
نحوه انجام آزمون:
  • مستمر ☐
  • مقطعی ☒
مدت زمان تخمینی انجام آزمون: دو تا سه هفت
سناريوی آزمون:
  • براي انجام آزمايشات تجربه­كاربري نياز به تعیین مجموعه­اي از فعاليت­هاي كار با جویشگر خبری می­باشد به طوري كه بيانگر كاربري­هاي متنوع آن باشد.
  • از هر كاربر خواسته مي­شود تا كه هر یک از فعالیت­ها را در جویشگر خبری به انجام رساند. در ادامه روش انجام هر فعالیت شرح داده شده است:
    • يك جویشگر متنی انتخاب مي­شود.
    • درخواست انجام یک فعالیت توسط كاربر
    • نظارت بر رفتار و عملكرد كاربر در حين تعامل با جويشگر خبری
    • ثبت و ضبط عملكرد كاربر
  • تخصيص امتياز به شاخص­ها
  • تحليل نتايج و محاسبه امتياز تجربه­كاربري جویشگر خبری مورد ارزیابی
روال صحت‏سنجی آزمون: با توجه به مطالعات انجام شده و مشاوره با افراد متخصص در اين حوزه روال مناسبي متناسب با نوع خدمت تعريف شد و براي اطمينان از دقت انجام كار، کاربر انساني انجام دهنده آزمون زیر نظر یک ناظر خبره سناریوهای جویش را به انجام می رساند.
روش آزمون:
  • انساني ☒
  • خودكار ☐
  • نیمه ­خودكار ☐
شناسنامه آزمون
نام آزمون: ارزيابي واسط كاربري جويشگر متني شناسه (ID): TS_Text_UIUX_01
توضیح:
هدف از این آزمون، تعیین وضعیت جویشگر متني از ديدگاه طراحی واسط کاربری است. طراحی واسط کاربر مناسب به تعامل بهتر نرم‏افزار و کاربر کمک می‏کند. این ارزیابی در دو بخش دسکتاپ و موبایل انجام شده است.
ابزار(های) انجام آزمون:
ندارد
داده(های) محک مورد استفاده برای آزمون: واسط كاربري جویشگر متنی در دوبخش دسكتاپ و موبايل
معیارهای اندازه‏گیری شده توسط آزمون:
  • محتوا
  • ساختار و راهبري
  • طراحي بصري
  • عملكرد
  • تعامل
الزامات انجام آزمون (از سمت ارائه دهندگان خدمات): ارائه واسط کاربری جویشگر متنی در دوبخش دسكتاپ و موبايل
نحوه انجام آزمون:
  • مستمر ☐
  • مقطعی ☒
مدت زمان تخمینی انجام آزمون: يك تا دو هفت
سناريوی آزمون: ارزيابي واسط كاربري بر روي دو نوع سيستم كامپيوتر روميزي و موبايل انجام گرفت. بنابراين نتايج ارزيابي واسط­كاربري جويشگرها نيز در دو بخش مجزا كه يك بخش به ارزيابي واسط­كاربري كامپيوتر روميزي و بخش ديگر به ارزيابي واسط­كاربري تلفن­هاي هوشمند تخصيص داده شده است.
روال صحت‏سنجی آزمون: به‏منظور ارزیابی طراحی واسط کاربری جویشگرها از معیارهایی که در کتاب Design with the Mind in Mind توسط جف جانسون مطرح شده، استفاده شده است.
روش آزمون:
  • انساني ☒
  • خودكار ☐
  • نیمه ­خودكار ☐