۸۴۹۷۷۸۳۴
امروز
۰۲ خرداد ١۳۹۷   |   English
آخرین فعالیت‌ها

شناسنامه دادگان

شناسنامه مجموعه دادگان
نام مجموعه دادگان: داده محك جويشگر متني شناسه (ID): DT_Text_Func_01
توضیح:
به منظور ارزيابي كيفيت نتايج ارائه شده توسط جويشگرهاي متني لازم بود مجموعه داده محك مربوطه ايجاد گردد. اين داده محك متشكل از پرس و جوهاي اخذ شده از لاگ جويشگرها و برخي دادگان استاندارد نظير TREC مي­باشد.
فرمت (xml ، متن، ....): متن
زبان مورد استفاده در داده‏ها (فارسی، انگلیسی، ترکیبی و ...): فارسي،‌ انگليسي، فارسي/انگليسي
اندازه مجموعه دادگان (بر حسب كلمه، جمله، پرس و جو، ....): 1200 عدد پرس و جو
منابع اخذ:
  • 300 پرس­وجو از لاگ یوز،
  • 300 پرس­وجو از لاگ پارسی­جو
  • 500 پرس­وجو از مجموعه دادگان استاندارد TREC (250 پرس و جوي بومي شده و 250 پرس و جوي انگليسي)
  • 100 پرس­وجو از 500 سایت برتر الکسا
زمان (بازه زمانی) توليد: بازه زماني پرس و جوهاي اخذ شده از لاگ جويشگرها: ارديبهشت تا تير 95
پرس و جوهاي TREC : 2016
نام آزمون­هایي که این مجموعه دادگان می‏تواند در آنها مورد استفاده قرار گیرد:
  • زبان
  • صحت نگارش
  • طول پرس و جو
  • نوع پایه
  • انتظار صریح فایل یا وب سایت
  • وابستگي زماني
  • حساس به آخرین نسخه
  • مبهم بودن
  • اخلاقي بودن
  • دسته‏بندی موضوعی
نام برچسب‏هاي مورد استفاده:
  • کیفیت‏سنجی جویشگرهای متنی
شناسنامه مجموعه دادگان
نام مجموعه دادگان: داده محك جويشگر خبر شناسه (ID): DT_News_Func_01
توضیح:
به منظور ارزيابي كيفيت نتايج ارائه شده توسط جويشگرهاي خبري لازم بود مجموعه داده محك مربوطه ايجاد گردد. اين داده محك متشكل از پرس و جوهاي اخذ شده از لاگ جويشگرهاي متني و خبري مي­باشد.
فرمت (xml ، متن، ....): متن
زبان مورد استفاده در داده‏ها (فارسی، انگلیسی، ترکیبی و ...): فارسي،‌ فارسي/انگليسي
اندازه مجموعه دادگان (بر حسب كلمه، جمله، پرس و جو، ....): 300 عدد پرس و جو
منابع اخذ:
  • 150 پرس­وجوي خبري از لاگ جويشگر متنی پارسی‏جو،
  • 150 پرس­وجوي خبري از لاگ جويشگرهای خبری بومی پارسی‏جو و خبروان
زمان (بازه زمانی) توليد: بازه زماني پرس و جوهاي اخذ شده از لاگ جويشگرها: 7 تا 13 اسفند 95
نام آزمون­هایي که این مجموعه دادگان می‏تواند در آنها مورد استفاده قرار گیرد:
  • کیفیت‏سنجی جویشگرهای خبري
نام برچسب‏هاي مورد استفاده:
  • طول پرس و جو
  • وابستگي زماني
  • نوع خبر
  • دسته­بندی موضوعی
شناسنامه مجموعه دادگان
نام مجموعه دادگان: دادگان محک حوزه‏های تخصصی ترجمه انگلیسی به فارسی شناسه (ID): DT_MT_Func_01
توضیح:
با توجه به وجود تفاوت در جملات موجود در حوزه‏های عمومی (مثل اخبار و ...) و حوزه‏های تخصصی مختلف و به منظور ارزیابی یک سامانه مترجم ماشینی در ترجمه یک جمله در حوزه تخصصی، لازم بود یک دادگان محک حاوی جملات در حوزه‏های تخصصی مختلف ایجاد شود. حوزه‏های تخصصی در نظر گرفته شده برای این دادگان عبارت است از: فناوری اطلاعات، تازه‏های فناوری، ورزشی، سرگرمی، علوم مدیریت، علوم اجتماعی، اقتصاد و تجارت. هر کدام از جملات توسط 4 مترجم انسانی خبره به زبان فارسی ترجمه شده است.
فرمت (xml ، متن، ....): متن
زبان مورد استفاده در داده‏ها (فارسی، انگلیسی، ترکیبی و ...): فارسی و انگلیسی
اندازه مجموعه دادگان (بر حسب كلمه، جمله، پرس و جو، ....):
تعداد کل جملات موجود در دادگان 804 و تعداد کل کلمات موجود در جملات زبان مبدا 19448 کلمه می‏باشد. تعداد جملات در هر یک از حوزه‏های تخصصی به تفکیک به صورت زیر است:
  • تازه‏های فناوری: 146 جمله، 3284 کلمه (طول متوسط جملات 22.5)
  • فناوری اطلاعات: 150 جمله، 3526 کلمه (طول متوسط جملات 23.5)
  • سرگرمی: 52 جمله، 1228 کلمه (طول متوسط جملات 23.6)
  • تجارت: 78 جمله، 1939 کلمه (طول متوسط جملات 24.8)
  • اقتصاد: 101 جمله، 2466 کلمه (طول متوسط جملات 24.4)
  • ورزشی: 106 جمله، 2757 کلمه (طول متوسط جملات 26)
  • علوم مدیریت: 80 جمله، 1718 کلمه (طول متوسط جملات 21.5)
  • علوم اجتماعی: 91 جمله، 1530 کلمه (طول متوسط جملات 27.8)
منابع اخذ:
  • خبرگزاری‏های معتبر خارجی (حدود 75 سایت مختلف برای پوشش بهتر نوشتارهای مختلف)
زمان (بازه زمانی) توليد: خبرهای انتخاب‏شده برای استخراج جملات در بازه زمانی ابتدای سال 2016 میلادی تا انتهای مارس 2017 میلادی
نام آزمون­هایي که این مجموعه دادگان می‏تواند در آنها مورد استفاده قرار گیرد:
  • ارزیابی دقت مترجم‏های ماشینی
نام برچسب‏هاي مورد استفاده:
  • طول جمله
  • حوزه تخصصی
  • خبرگزاری
  • تاریخ خبر
  • لینک خبر
شناسنامه مجموعه دادگان
نام مجموعه دادگان: دادگان محک حوزه‏های تخصصی ترجمه انگلیسی به فارسی شناسه (ID): DT_MT_Func_01
توضیح:
با توجه به وجود تفاوت در جملات موجود در حوزه‏های عمومی (مثل اخبار و ...) و حوزه‏های تخصصی مختلف و به منظور ارزیابی یک سامانه مترجم ماشینی در ترجمه یک جمله در حوزه تخصصی، لازم بود یک دادگان محک حاوی جملات در حوزه‏های تخصصی مختلف ایجاد شود. حوزه‏های تخصصی در نظر گرفته شده برای این دادگان عبارت است از: فناوری اطلاعات، تازه‏های فناوری، ورزشی، سرگرمی، علوم مدیریت، علوم اجتماعی، اقتصاد و تجارت. هر کدام از جملات توسط 4 مترجم انسانی خبره به زبان فارسی ترجمه شده است.
فرمت (xml ، متن، ....): متن
زبان مورد استفاده در داده‏ها (فارسی، انگلیسی، ترکیبی و ...): فارسی و انگلیسی
اندازه مجموعه دادگان (بر حسب كلمه، جمله، پرس و جو، ....):
تعداد کل جملات موجود در دادگان 804 و تعداد کل کلمات موجود در جملات زبان مبدا 19448 کلمه می‏باشد. تعداد جملات در هر یک از حوزه‏های تخصصی به تفکیک به صورت زیر است:
  • تازه‏های فناوری: 146 جمله، 3284 کلمه (طول متوسط جملات 22.5)
  • فناوری اطلاعات: 150 جمله، 3526 کلمه (طول متوسط جملات 23.5)
  • سرگرمی: 52 جمله، 1228 کلمه (طول متوسط جملات 23.6)
  • تجارت: 78 جمله، 1939 کلمه (طول متوسط جملات 24.8)
  • اقتصاد: 101 جمله، 2466 کلمه (طول متوسط جملات 24.4)
  • ورزشی: 106 جمله، 2757 کلمه (طول متوسط جملات 26)
  • علوم مدیریت: 80 جمله، 1718 کلمه (طول متوسط جملات 21.5)
  • علوم اجتماعی: 91 جمله، 1530 کلمه (طول متوسط جملات 27.8)
منابع اخذ:
  • خبرگزاری‏های معتبر خارجی (حدود 75 سایت مختلف برای پوشش بهتر نوشتارهای مختلف)
زمان (بازه زمانی) توليد: خبرهای انتخاب‏شده برای استخراج جملات در بازه زمانی ابتدای سال 2016 میلادی تا انتهای مارس 2017 میلادی
نام آزمون­هایي که این مجموعه دادگان می‏تواند در آنها مورد استفاده قرار گیرد:
  • ارزیابی دقت مترجم‏های ماشینی
نام برچسب‏هاي مورد استفاده:
  • طول جمله
  • حوزه تخصصی
  • خبرگزاری
  • تاریخ خبر
  • لینک خبر
شناسنامه مجموعه دادگان
نام مجموعه دادگان: داده محك نيازهاي غيركاركردي شناسه (ID): DT_NonFunc_01
توضیح:
به منظور اندازه­گیری میزان دسترس­پذیری، متوسط زمان پاسخگویی و درصد پاسخگویی و تعیین حد نهایی در توانایی پاسخگویی به کاربران همزمان برای خدمات تحت وب مختلف، لازم بود مجموعه­ای از پرس و جوها، موجود باشند تا از آنها در درخواست­های ارسالی به خدمات مختلف، بهره گرفته شود.
فرمت (xml ، متن، ....): متن
زبان مورد استفاده در داده‏ها (فارسی، انگلیسی، ترکیبی و ...): فارسي،‌ انگليسي، فارسي/انگليسي
اندازه مجموعه دادگان (بر حسب كلمه، جمله، پرس و جو، ....): 89374 عدد پرس و جو
منابع اخذ:
  • لاگ پارسی­جو
  • لاگ یوز
  • EVVE: an Event retrieval dataset
  • LEAR
  • پرس و جوهای مورد استفاده در ارزیابی­های دستی در پروژه­های قبلی
  • 100 پرس­وجو از 500 سایت برتر الکسا
  • پرس و جوهای دریافتی از شرکت مجری سکوی تبلیغات هوشمند پیناد
زمان (بازه زمانی) توليد: از آغاز پروژه­ی پیشین تا هم اکنون
نام آزمون­هایي که این مجموعه دادگان می‏تواند در آنها مورد استفاده قرار گیرد:
  • ارزیابی نیازمندی­های غیرکارکردی شامل میزان دسترس­پذیری، متوسط زمان پاسخگویی، درصد پاسخگویی به درخواست­ها و تعیین حد نهایی در پاسخگویی به کاربران همزمان و ارزیابی تازگی.
نام برچسب‏هاي مورد استفاده:
برچسب­های زیر بر روی پرس و جوهای موجود در این مجموعه دادگان، در نظر گرفته شده­اند.
  • نیاز اطلاعاتی
  • خدمت تحت وب مورد ارزیابی ( توسط پرس و جو)
  • دسته­بندی موضوعی پرس و جو
  • نوع پرس و جو
  • منبع پرس و جو
  • زبان پرس و جو
  • تاریخ درج پرس و جو
  • طول پرس و جو
  • توضیحات