لم يعد اختبار آلان تورينغ التاريخي مجرد سؤال نظري عن قدرة الآلات على محاكاة البشر. دراسة جديدة أعادت اختبار هذه الفكرة في سياق نماذج اللغة الكبيرة، وخلصت إلى أن بعض هذه النماذج يمكن أن تبدو بشرية لدرجة تجعل المشاركين يختارونها أحيانا على أنها الإنسان الحقيقي في المحادثة.تعتمد الدراسة على نسخة ثلاثية من اختبار تورينغ، حيث يجري كل مشارك محادثة نصية مع طرفين في وقت واحد: أحدهما إنسان والآخر نموذج ذكاء اصطناعي.

بعد خمس دقائق من الحوار، يطلب من المشارك تحديد أي الطرفين هو الإنسان. في تجارب منفصلة، امتدت بعض المحادثات إلى 15 دقيقة.شارك في التجارب نحو 500 شخص من مجموعتين مستقلتين: طلاب من جامعة كاليفورنيا ومشاركون عبر منصة مخصصة للأبحاث المدفوعة.

صممت الدراسة لاختبار النتائج عبر عينات مختلفة وليس داخل مجموعة واحدة فقط.اختبر الباحثون أربعة أنظمة منها نموذجان حديثان إلى جانب نموذجين أقدم للمقارنة. وكانت النتيجة الأبرز أن النموذج الأحدث اختير على أنه الإنسان في 73% من الحالات عندما أعطي تعليمات لتبني شخصية بشرية محددة. أما النموذج الآخر فاختير في 56% من الحالات، وهي نسبة اعتبرها الباحثون غير قابلة للتمييز إحصائيا عن البشر الذين قورن بهم.في المقابل،

كانت نتائج الأنظمة الأقدم أضعف بكثير، حيث اختير أحدها في نحو 23% من الحالات والآخر في 21%. وهذا يعني أن النجاح لم يكن عاما لكل الأنظمة، بل ارتبط بنماذج محددة وبطريقة إعدادها للمحادثة.النقطة الحاسمة أن النماذج لم تنجح فقط لأنها تعرف معلومات كثيرة.

النجاح تحقق عندما طلب منها تبني شخصية بشرية محددة بأسلوب حديث ونبرة وتفاصيل اجتماعية تجعلها أقل مثالية وأكثر شبها بالبشر. عندما أزيلت هذه التعليمات التفصيلية، تراجعت قدرة النماذج على الظهور كبشر بوضوح، حيث انخفضت النسبة إلى 36% و38% على التوالي.يشير ذلك إلى أن القدرة موجودة لكنها تحتاج غالبا إلى توجيه واضح حول كيفية التصرف كبشر،

لا مجرد القدرة العامة على الإجابة. ما جعل النموذج مقنعا لم يكن التفوق في المنطق أو الرياضيات، بل محاكاة السلوك الاجتماعي كنبرة طبيعية وقدر من الدعابة وإجابات غير كاملة أحيانا وتردد يشبه المحادثة البشرية العادية.ماذا يقيس الاختبار؟تطرح الدراسة سؤالا مهما حول معنى اختبار تورينغ اليوم. فمع نماذج تستطيع الإجابة بسرعة عن عدد كبير من الأسئلة،

يصبح الاختبار أقرب إلى قياس الشبه البشري في المحادثة، لا الذكاء بالمعنى العميق أو الفهم الحقيقي. نجاح النموذج في إقناع شخص بأنه إنسان لا يعني بالضرورة أنه يفهم العالم أو يمتلك وعيا، لكنه يعني أن قدرته على تقليد أنماط التفاعل البشري أصبحت قوية بما يكفي لإرباك المستخدمين.مخاطر الثقة والخداعأهمية النتيجة لا تقف عند حدود المختبر.

إذا كان المستخدم العادي لا يستطيع دائما التمييز بين الإنسان والنموذج، فإن ذلك يفتح أسئلة مباشرة حول الثقة على الإنترنت. قد تستخدم هذه القدرة في خدمة مفيدة مثل دعم العملاء أو التعليم، لكنها قد تستخدم أيضا في الاحتيال أو التلاعب أو حملات الإقناع السياسي والتجاري.يشير الباحثون إلى أن نماذج اللغة الكبيرة يمكن دفعها بسهولة نسبية إلى الظهور كبشر عندما تعطى التعليمات المناسبة.

وهذا يجعل الشفافية أكثر أهمية، خاصة في المنصات التي يتفاعل فيها المستخدمون مع حسابات لا يعرفون هويتها الحقيقية.لا تقول الدراسة إن الذكاء الاصطناعي أصبح مثل الإنسان، ولا أنها تثبت وجود وعي أو فهم داخلي لدى النماذج. القيمة الحقيقية للبحث هي توضيح أن الحدود بين المحادثة البشرية والاصطناعية أصبحت أقل وضوحا،

مما يجعل الحاجة أكبر إلى قواعد إفصاح أوضح وأدوات تحقق أفضل ووعي عام بأن الطرف المقابل في المحادثة الرقمية قد لا يكون دائما إنسانا. الدراسة تفتح أسئلة مهمة حول الثقة والشفافية خصوصاً عندما لا يعرف المستخدم إن كان يتحدث مع إنسان أم نظام آلي