استفاده از هوش مصنوعی برای رونویسی گفتار چیز جدیدی نیست. اپلیکیشن‌هایی مانند Otter.ai در این زمینه تحول بزرگی ایجاد کرده‌اند و می‌توانند گفتار موجود در فایل‌های صوتی را در مدت زمانی کوتاه به متنی دقیق و خوانا تبدیل کنند.

با این حال، بسیاری از این سرویس‌ها پولی هستند و همین باعث شده پیشنهاد جدید Gemini بسیار جذاب به نظر برسد. کافی است یک فایل صوتی آپلود کنید؛ تا زمانی که مدت آن بیش از ۱۰ دقیقه نباشد، هوش مصنوعی Gemini به‌سرعت آن را تحلیل کرده و برایتان رونویسی می‌کند، آن هم کاملاً رایگان.

شما می‌توانید تا ۱۰ فایل صوتی را به طور هم‌زمان آپلود کنید، به شرطی که مجموع زمان آن‌ها از ۱۰ دقیقه فراتر نرود. Gemini همچنین می‌تواند متن رونویسی شده را ویرایش کند، نکات کلیدی را خلاصه‌سازی کند و اطلاعات خاصی را درون فایل صوتی پیدا کند.

مراحل انجام تبدیل صدا به متن

۱. افزودن فایل صوتی

ابتدا مطمئن شوید که از آخرین نسخه Gemini استفاده می‌کنید. اگر از نسخه اپلیکیشن استفاده می‌کنید، آن را به‌روزرسانی کنید یا در مرورگر به وب‌سایت Google Gemini بروید.

وقتی آماده بودید تا فایل را رونویسی کنید، روی نماد + کلیک کرده و گزینه Upload files را در نسخه مرورگر یا Files را در نسخه اپلیکیشن انتخاب کنید.

۲. انتخاب فایل

اکنون می‌توانید در دستگاه خود به دنبال فایل صوتی مورد نظر بگردید. Gemini از فرمت‌های MP3، AAC و WAV پشتیبانی می‌کند. پس از انتخاب فایل، آن در Gemini بارگذاری می‌شود و آماده پردازش است.

۳. نوشتن پرامپت

در مرحله بعد، عبارتی مانند “transcribe this speech” (این گفتار را رونویسی کن) وارد کنید تا Gemini کار را آغاز کند. اگر با خطا مواجه شدید، کافی است عبارت “try again” (دوباره تلاش کن) را وارد کنید.

در تجربه نویسنده، ابتدا پیام خطایی اشتباه ظاهر شد که می‌گفت فایل صوتی خالی است، در حالی که این‌طور نبود. اما تلاش دوم فوراً موفقیت‌آمیز بود.

۴. ویرایش متن رونویسی شده

هوش مصنوعی Gemini فایل را خیلی سریع رونویسی می‌کند، اما متن حاصل کاملاً کلمه‌به‌کلمه است و شامل کلمات پرکننده گفتاری مانند «اِمم» و «آه» خواهد بود که امری طبیعی است.

برای اصلاح این مورد، می‌توانید پرامپت‌هایی مانند “can you clean it up?” (می‌توانی آن را تمیزتر بنویسی؟) یا “can you remove the ums” (می‌توانی اِمم‌ها را حذف کنی؟) وارد کنید تا Gemini نسخه‌ای ویرایش‌شده و خواناتر از متن را ارائه دهد که در آن کلمات اضافی حذف شده‌اند.

منبع tomsguide

source

توسط argbod.ir

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *