في المجموعات، يحجب الأشخاص الثرثرة من حولهم – والآن يمكن للتكنولوجيا أن تفعل الشيء نفسه.
إنها “مشكلة حفلات الكوكتيل” الدائمة ــ الوقوف في غرفة مليئة بالناس، وكأس في أيديهم، ومحاولة سماع ما يقوله ضيفك.
والواقع أن البشر بارعون بشكل ملحوظ في إجراء محادثة مع شخص واحد مع تصفية الأصوات المتنافسة.
ومع ذلك، ربما من المدهش أن هذه مهارة لم تتمكن التكنولوجيا حتى وقت قريب من تكرارها.
وهذا مهم عندما يتعلق الأمر باستخدام الأدلة الصوتية في قضايا المحكمة. فالأصوات في الخلفية قد تجعل من الصعب التأكد من هوية المتحدث وما يقال، مما قد يجعل التسجيلات عديمة الفائدة.
أصبح المهندس الكهربائي كيث ماك إلفين، مؤسس ورئيس قسم التكنولوجيا في شركة ويف ساينسز، مهتماً بالمشكلة عندما كان يعمل لصالح الحكومة الأميركية في قضية جرائم حرب.
ويقول: “كنا نحاول معرفة من أمر بمذبحة المدنيين. وتضمنت بعض الأدلة تسجيلات لمجموعة من الأصوات تتحدث جميعها في وقت واحد ــ وهنا علمت ما كانت “مشكلة حفلات الكوكتيل””.
“لقد نجحت في إزالة الضوضاء مثل أصوات السيارات أو مكيفات الهواء أو المراوح من الكلام، ولكن عندما بدأت في محاولة إزالة الكلام من الكلام، اتضح أن الأمر ليس فقط مشكلة صعبة للغاية، بل كان أيضًا أحد المشكلات الصعبة الكلاسيكية في الصوتيات.
“تتردد الأصوات في جميع أنحاء الغرفة، ومن الصعب حلها رياضيًا.”
أسس كيث ماك إلفين شركة Wave Sciences في عام 2008 للتركيز على “مشكلة حفلات الكوكتيل”
يقول إن الإجابة كانت استخدام الذكاء الاصطناعي لمحاولة تحديد وفرز جميع الأصوات المتنافسة بناءً على مصدرها الأصلي في الغرفة.
هذا لا يعني فقط الأشخاص الآخرين الذين قد يتحدثون – فهناك أيضًا قدر كبير من التداخل من الطريقة التي تنعكس بها الأصوات حول الغرفة، مع سماع صوت المتحدث المستهدف بشكل مباشر وغير مباشر.
في غرفة خالية تمامًا من الصدى – خالية تمامًا من الصدى – سيكون ميكروفون واحد لكل مكبر صوت كافيًا لالتقاط ما يقوله الجميع؛ ولكن في غرفة حقيقية، تتطلب المشكلة ميكروفونًا لكل صوت منعكس أيضًا.
أسس السيد ماك إلفين شركة Wave Sciences في عام 2009، على أمل تطوير تقنية يمكنها فصل الأصوات المتداخلة. في البداية، استخدمت الشركة عددًا كبيرًا من الميكروفونات فيما يُعرف بتشكيل الحزمة المصفوفة.
ومع ذلك، كانت ردود الفعل من الشركاء التجاريين المحتملين هي أن النظام يتطلب عددًا كبيرًا جدًا من الميكروفونات مقابل التكلفة المتضمنة لإعطاء نتائج جيدة في العديد من المواقف – ولن يعمل على الإطلاق في العديد من المواقف الأخرى.
يقول السيد ماك إلفين: “كان الرد الشائع هو أنه إذا تمكنا من التوصل إلى حل يعالج هذه المخاوف، فسوف يكونون مهتمين للغاية”. ويضيف: “كنا نعلم أنه لا بد من وجود حل، لأنه يمكنك القيام بذلك بأذنين فقط”.
وأخيراً تمكنت الشركة من حل المشكلة بعد 10 سنوات من الأبحاث الممولة داخلياً، وتقدمت بطلب براءة اختراع في سبتمبر 2019.
لقد توصلوا إلى ذكاء اصطناعي يمكنه تحليل كيفية ارتداد الصوت حول الغرفة قبل وصوله إلى الميكروفون أو الأذن.
يقول السيد ماك إلفين: “نلتقط الصوت عندما يصل إلى كل ميكروفون، ونتتبعه لمعرفة من أين جاء، ثم، في الأساس، نقوم بقمع أي صوت لا يمكن أن يأتي من حيث يجلس الشخص”.
التأثير مماثل في بعض النواحي عندما تركز الكاميرا على موضوع واحد وتطمس المقدمة والخلفية.
“لا تبدو النتائج واضحة تمامًا عندما لا يمكنك استخدام سوى تسجيل صاخب للغاية للتعلم منه، لكنها لا تزال مذهلة.”
تم استخدام التكنولوجيا لأول مرة في العالم الحقيقي في قضية قتل في الولايات المتحدة، حيث أثبتت الأدلة التي تمكنت من تقديمها أنها أساسية للإدانات.
بعد إلقاء القبض على قاتلين مأجورين لقتل رجل، أراد مكتب التحقيقات الفيدرالي إثبات أنهما تم تعيينهما من قبل عائلة تمر بنزاع على حضانة طفل. رتب مكتب التحقيقات الفيدرالي لخداع الأسرة للاعتقاد بأنهم يتعرضون للابتزاز بسبب تورطهم – ثم جلس ليرى رد الفعل.
في حين كان من السهل إلى حد معقول على مكتب التحقيقات الفيدرالي الوصول إلى الرسائل النصية والمكالمات الهاتفية، فإن الاجتماعات الشخصية في مطعمين كانت مسألة مختلفة. لكن المحكمة سمحت باستخدام خوارزمية Wave Sciences، مما يعني أن الصوت تحول من كونه غير مقبول إلى قطعة محورية من الأدلة.
لقد توصلوا إلى ذكاء اصطناعي يمكنه تحليل كيفية ارتداد الصوت حول الغرفة قبل وصوله إلى الميكروفون أو الأذن.
يقول السيد ماك إلفين: “نلتقط الصوت عندما يصل إلى كل ميكروفون، ونتتبعه لمعرفة من أين جاء، ثم، في الأساس، نقوم بقمع أي صوت لا يمكن أن يأتي من حيث يجلس الشخص”.
التأثير مماثل في بعض النواحي عندما تركز الكاميرا على موضوع واحد وتطمس المقدمة والخلفية.
“لا تبدو النتائج واضحة تمامًا عندما لا يمكنك استخدام سوى تسجيل صاخب للغاية للتعلم منه، لكنها لا تزال مذهلة.”
تم استخدام التكنولوجيا لأول مرة في العالم الحقيقي في قضية قتل في الولايات المتحدة، حيث أثبتت الأدلة التي تمكنت من تقديمها أنها أساسية للإدانات.
بعد إلقاء القبض على قاتلين مأجورين لقتل رجل، أراد مكتب التحقيقات الفيدرالي إثبات أنهما تم تعيينهما من قبل عائلة تمر بنزاع على حضانة طفل. رتب مكتب التحقيقات الفيدرالي لخداع الأسرة للاعتقاد بأنهم يتعرضون للابتزاز بسبب تورطهم – ثم جلس ليرى رد الفعل.
في حين كان من السهل إلى حد معقول على مكتب التحقيقات الفيدرالي الوصول إلى الرسائل النصية والمكالمات الهاتفية، فإن الاجتماعات الشخصية في مطعمين كانت مسألة مختلفة. لكن المحكمة سمحت باستخدام خوارزمية Wave Sciences، مما يعني أن الصوت تحول من كونه غير مقبول إلى قطعة محورية من الأدلة.
ومنذ ذلك الحين، قامت مختبرات حكومية أخرى، بما في ذلك في المملكة المتحدة، بإخضاع هذه التكنولوجيا لسلسلة من الاختبارات. وتقوم الشركة الآن بتسويق هذه التكنولوجيا للجيش الأمريكي، الذي استخدمها لتحليل إشارات السونار. ويقول السيد ماكلفين إنه يمكن أن يكون لها تطبيقات أيضًا في مفاوضات الرهائن وسيناريوهات الانتحار، للتأكد من إمكانية سماع كلا الجانبين في المحادثة – وليس فقط المفاوض الذي يحمل مكبر صوت. وفي أواخر العام الماضي، أصدرت الشركة تطبيقًا برمجيًا يستخدم خوارزمية التعلم الخاصة بها لاستخدامه من قبل المختبرات الحكومية التي تقوم بإجراء التحقيقات الصوتية والتحليل الصوتي.
في النهاية تريد Wave إطلاق إصدارات من منتجها للاستخدام في مكبرات الصوت الذكية.
في نهاية المطاف، تهدف الشركة إلى تقديم إصدارات مخصصة من منتجها للاستخدام في أدوات تسجيل الصوت، وواجهات الصوت للسيارات، ومكبرات الصوت الذكية، والواقع المعزز والافتراضي، وأجهزة السونار وأجهزة السمع.
لذا، على سبيل المثال، إذا تحدثت إلى سيارتك أو مكبر الصوت الذكي، فلن يهم إذا كان هناك الكثير من الضوضاء حولك، فسيظل الجهاز قادرًا على تمييز ما تقوله.
وفقًا لمعلمة الطب الشرعي تيري أرمينتا من أكاديمية علوم الطب الشرعي، يتم استخدام الذكاء الاصطناعي بالفعل في مجالات أخرى من الطب الشرعي أيضًا.
وتقول: “تحلل نماذج التعلم الآلي أنماط الصوت لتحديد هوية المتحدثين، وهي عملية مفيدة بشكل خاص في التحقيقات الجنائية حيث يلزم التحقق من صحة الأدلة الصوتية”.
بالإضافة إلى ذلك، يمكن لأدوات الذكاء الاصطناعي اكتشاف التلاعب أو التغييرات في التسجيلات الصوتية، مما يضمن سلامة الأدلة المقدمة في المحكمة”.
كما شق الذكاء الاصطناعي طريقه إلى جوانب أخرى من تحليل الصوت أيضًا.
سامارجيت داس مع SoundSee الذي يمكنه التنبؤ بعطل السيارة قبل حدوثه
تمتلك شركة بوش تقنية تسمى SoundSee، والتي تستخدم خوارزميات معالجة الإشارات الصوتية لتحليل صوت المحرك على سبيل المثال للتنبؤ بعطل قبل حدوثه.
يقول الدكتور سامارجيت داس، مدير الأبحاث والتكنولوجيا في شركة بوش بالولايات المتحدة الأمريكية: “تفتقر قدرات معالجة الإشارات الصوتية التقليدية إلى القدرة على فهم الصوت بالطريقة التي نفهم بها نحن البشر”.
“تمكن الذكاء الاصطناعي الصوتي من فهم أعمق وتفسير دلالي لصوت الأشياء من حولنا بشكل أفضل من أي وقت مضى – على سبيل المثال، الأصوات البيئية أو الإشارات الصوتية الصادرة عن الآلات”.
أظهرت الاختبارات الأحدث لخوارزمية Wave Sciences أنه حتى مع وجود ميكروفونين فقط، يمكن أن تعمل التكنولوجيا بشكل جيد مثل الأذن البشرية – بشكل أفضل، عند إضافة المزيد من الميكروفونات.
كما كشفت عن شيء آخر.
يقول ماك إلفين:
“تُظهر الرياضيات في جميع اختباراتنا تشابهًا ملحوظًا مع السمع البشري. هناك القليل من الغرائب حول ما يمكن أن تفعله خوارزميتنا، ومدى دقتها في القيام بذلك، والتي تشبه بشكل مذهل بعض الغرائب الموجودة في السمع البشري”.
“نحن نشك في أن الدماغ البشري قد يستخدم نفس الرياضيات – فعند حل مشكلة حفل الكوكتيل، ربما نكون قد عثرنا على ما يحدث بالفعل في الدماغ.”