1
استفاده از هوش مصنوعی برای رونویسی گفتار چیز جدیدی نیست. اپلیکیشنهایی مانند Otter.ai در این زمینه تحول بزرگی ایجاد کردهاند و میتوانند گفتار موجود در فایلهای صوتی را در مدت زمانی کوتاه به متنی دقیق و خوانا تبدیل کنند.
با این حال، بسیاری از این سرویسها پولی هستند و همین باعث شده پیشنهاد جدید Gemini بسیار جذاب به نظر برسد. کافی است یک فایل صوتی آپلود کنید؛ تا زمانی که مدت آن بیش از ۱۰ دقیقه نباشد، هوش مصنوعی Gemini بهسرعت آن را تحلیل کرده و برایتان رونویسی میکند، آن هم کاملاً رایگان.
شما میتوانید تا ۱۰ فایل صوتی را به طور همزمان آپلود کنید، به شرطی که مجموع زمان آنها از ۱۰ دقیقه فراتر نرود. Gemini همچنین میتواند متن رونویسی شده را ویرایش کند، نکات کلیدی را خلاصهسازی کند و اطلاعات خاصی را درون فایل صوتی پیدا کند.
مراحل انجام تبدیل صدا به متن
۱. افزودن فایل صوتی

ابتدا مطمئن شوید که از آخرین نسخه Gemini استفاده میکنید. اگر از نسخه اپلیکیشن استفاده میکنید، آن را بهروزرسانی کنید یا در مرورگر به وبسایت Google Gemini بروید.
وقتی آماده بودید تا فایل را رونویسی کنید، روی نماد + کلیک کرده و گزینه Upload files را در نسخه مرورگر یا Files را در نسخه اپلیکیشن انتخاب کنید.
۲. انتخاب فایل

اکنون میتوانید در دستگاه خود به دنبال فایل صوتی مورد نظر بگردید. Gemini از فرمتهای MP3، AAC و WAV پشتیبانی میکند. پس از انتخاب فایل، آن در Gemini بارگذاری میشود و آماده پردازش است.
۳. نوشتن پرامپت

در مرحله بعد، عبارتی مانند “transcribe this speech” (این گفتار را رونویسی کن) وارد کنید تا Gemini کار را آغاز کند. اگر با خطا مواجه شدید، کافی است عبارت “try again” (دوباره تلاش کن) را وارد کنید.
در تجربه نویسنده، ابتدا پیام خطایی اشتباه ظاهر شد که میگفت فایل صوتی خالی است، در حالی که اینطور نبود. اما تلاش دوم فوراً موفقیتآمیز بود.
۴. ویرایش متن رونویسی شده

هوش مصنوعی Gemini فایل را خیلی سریع رونویسی میکند، اما متن حاصل کاملاً کلمهبهکلمه است و شامل کلمات پرکننده گفتاری مانند «اِمم» و «آه» خواهد بود که امری طبیعی است.
برای اصلاح این مورد، میتوانید پرامپتهایی مانند “can you clean it up?” (میتوانی آن را تمیزتر بنویسی؟) یا “can you remove the ums” (میتوانی اِممها را حذف کنی؟) وارد کنید تا Gemini نسخهای ویرایششده و خواناتر از متن را ارائه دهد که در آن کلمات اضافی حذف شدهاند.
منبع tomsguidesource