نیمی از محتوای وب به گل نشسته است!  بلای ترجمه ماشینی با هوش مصنوعی

مطالعه جدید پژوهشگران آمازون نشان می‌دهد که به دلیل ورود داده‌های تولید هوش مصنوعی، نتایج جستجو بدتر شده‌اند و کیفیت محتوای اینترنتی به طور فراینده‌ای در حال کاهش است.

خبرگزاری علم و فناوری آنا؛ مطالعات اخیر محققان خدمات وب آمازون (AWS) نشان می‌دهد که ۵۷ درصد از محتوای موجود در اینترنت امروزی یا با هوش مصنوعی تولید می‌شود و یا با استفاده از محتوای موجود در اینترنت فعلی با الگوریتم‌های هوش مصنوعی ترجمه شده است.

عنوان این مطالعه: «حجم تکان‌دهنده‌ای از محتوای وب، ترجمه ماشینی است» نشان می‌دهد که ترجمه ماشینی یک بخش از کل محتوا را برمی‌دارد و آن را به چند زبان برگردان می‌کند. سپس آن محتوای ناقص با همین روش به زبان‌های دیگر برگردان می‌شود و به عنوان منبع در دسترس قرار می‌گیرند.

آنها همچنین شواهدی مبنی بر سوگیری در انتخاب محتوای ماشینی پیدا کردند که در مقایسه با ترجمه‌های انسانی بسیار شدید بود و نیز مشخص شد که چنین محتوایی، کوتاه‌تر و  قابل پیش‌بینی‌تر است.

علاوه بر این، افزایش حجم محتوای تولیدشده توسط هوش مصنوعی در اینترنت به همراه افزایش اتکا به ابزار‌های هوش مصنوعی برای ویرایش و دستکاری محتوا می‌تواند منجر به پدیده‌ای به نام فروپاشی مدل شود و در حال حاضر کیفیت نتایج جستجو را در سراسر وب کاهش داده است. با توجه به اینکه مدل‌های پیشتاز هوش مصنوعی مانند چت جی پی تی، جمنای و کلاد بر حجم عظیمی از داده‌های آموزشی تکیه دارند که تنها با کندوکاو زیاد در وب می‌توان به آن رسید. این داده‌ها اغلب نادرست هستند.

دکتر ایلیا شومیلوف از دانشگاه آکسفورد می‌گوید: «مایه شگفتی است که «فروپاشی مدل» در هوش مصنوعی به این سرعت آغاز شده است. این روند در ابتدا داده‌های اقلیت را تحت تأثیر قرار می‌دهد و سپس بر تنوع خروجی‌ها تأثیر می‌گذارد و واریانس را کاهش می‌دهد. گاهی اوقات، شما بهبود کوچکی در داده‌ها مشاهده می‌کنید که کاهش عملکرد در داده‌های اقلیت را پنهان می‌کند. بنابر این، فروپاشی مدل می‌تواند عواقب جدی داشته باشد.»

محققان به کمک زبان‌شناسان حرفه‌ای ۱۰ هزار جمله انگلیسی را به طور تصادفی انتخاب کردند و به ۲۰ دسته طبقه‌بندی کردند و سپس یکی از آن دسته‌ها را به طور تصادفی انتخاب کردند و متوجه شدند که هنگام مقایسه ترجمه جملات به زبان‌های مختلف، دسته «مکالمه و نظر» از ۲۲.۵ درصد به ۴۰.۱ درصد افزایش یافت.

علاوه بر این، محققان دریافتند که ترجمه‌های موازی به چند زبان، به طور قابل توجهی کیفیت پایین‌تری دارند و هنگامی که محققان ۱۰۰ جمله از جمله‌های موازی چندوجهی (آن‌هایی که به بیش از هشت زبان ترجمه شده‌اند) را مورد بررسی قرار دادند، دریافتند که اکثریت قریب به اتفاق از  محتوا‌ها یا مقالاتی که ما آنها را به عنوان کیفیت پایین توصیف می‌کنیم، به تخصص کمی نیاز دارند یا اصلا به هیچ تخصصی نیاز ندارند.

source

توسط argbod.ir

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *