إذا كنت ترغب في تجربة التعرف على الصوت عالي الجودة دون شراء أي شيء ، حظًا سعيدًا. بالتأكيد ، يمكنك أن تطلب التعرف على الكلام في هاتفك أو إجبار بعض المساعدين الافتراضيين على Raspberry Pi على التعامل مع المعالجة نيابة عنك ، لكن هؤلاء ليسوا جيدًا للعمل الكبير الذي لا تريد أن تكون مرتبطًا ببعض الحلول المغلقة المصدر. قدم أوبن إيه آي يتهجى، والتي يزعمون أنها شبكة عصبية مفتوحة المصدر “تقترب من القوة والدقة على مستوى الإنسان في التعرف على الكلام باللغة الإنجليزية.” يبدو أنه يعمل على عدد قليل من اللغات الأخرى على الأقل.
إذا جربت العروض التوضيحية ، فسترى أن التحدث بسرعة أو بلهجة ساحرة لا يؤثر على النتائج. يذكر المنشور أنه تم تدريبه على 680.000 ساعة من البيانات المرصودة. إذا تحدثت إلى الذكاء الاصطناعي كثيرًا ، فسيستغرق الأمر 77 عامًا بدون نوم!
داخليًا ، يتم تقسيم الكلام إلى مقاطع مدتها 30 ثانية تغذي مخططًا طيفيًا. تعالج أجهزة التشفير المخطط الطيفي وتهضم وحدات فك التشفير النتائج باستخدام التنبؤ والاستدلال على ذلك. حوالي ثلث البيانات كانت من مصادر غير ناطقة باللغة الإنجليزية ثم تمت ترجمتها. يمكنك قراءة ملف جريدة حول كيفية أداء التدريب المعمم دون أداء بعض النماذج المدربة بشكل خاص على المقاييس القياسية ، لكنهم يعتقدون أن Whisper يعمل بشكل أفضل في الكلام العشوائي بما يتجاوز معايير معينة.
لا يزال حجم النموذج في الشكل “الصغير” 39 ميغا بايت والنسخة “الكبيرة” تزيد عن ربع ونصف. لذلك ربما لن يعمل على Arduino في أي وقت قريب. إذا كنت تريد البرمجة ، فكل شيء يعمل جيثب.
وهناك آخرون حلول، لكن ليس بهذه القوة. إذا كنت ترغب في الذهاب إلى المسار القائم على المساعد ، فإليك الطريق بعض الإلهام.