هل أغلب الأبحاث العلمية المنشورة هراء؟

في كل يوم تطالعنا الصحف والمواقع العربية والأجنبية بدراسات جديدة تمخّضت عن نتائج ربّما يخالف الكثير منها الاعتقادات السائدة في مختلف المجالات. ليست هذه هي المشكلة، فالعلم في تطوّر مستمر سعيًا إلى معرفة أكثر دقّة. لكن تناقض نتائج الدراسات المختلفة في كثير من الأحيان ومخالفة بعضها للمنطق قد يثير الشك في مدى صحة هذه النتائج، بل وفي المنهج العلمي نفسه. في هذا المقطع المصوّر، تطرح قناة Vertasium على موقع Youtube سؤالًا يدور في أذهان الكثيرين: هل نتائج أغلب الأبحاث العلمية المنشورة خاطئة؟

هل يُمكن للبشر التنبؤ بالمستقبل؟

يتعرّض المقطع لدراسة نُشرت عام 2011 في مجلة الشخصية وعلم النفس الاجتماعي، وحظت بشهرة إعلامية على إثر استضافة بعض المنابر للمؤلف الرئيسي للدراسة. الدراسة بعنوان الإحساس بالمستقبل، وهي قائمة على تسع تجاربٍ خضع لها عدد من المشاركين. في واحدة منها، يرى المشارك ستارين على الشاشة، ويُطلب منه أن يختار الستار الذي يخفي صورة خلفه. صنف الباحثون الصور المستخدمة إلى 3 تصنيفات: عادية، سلبية، ومثيرة جنسيًا.

قد تتوقع أن احتمالات اختيار الستار الذي يُخفي الصورة هي 50%، وهو المعدّل الذي تحقق بالفعل مع الصور العادية والسلبية. لكن في حالة الصور المثيرة جنسيًا، ارتفع المعدل إلى 53%. ومع أن الارتفاع كان طفيفًا (3% فقط)، إلا أن الدراسة وجدت طريقها للنشر، فكيف ذلك؟ هل هناك معايير تحدد ما إذا كانت النتيجة مهمة إحصائيًا أم لا؟

القيمة P (أو القيمة الاحتمالية)

للإجابة عن هذا السؤال، يلجأ العلماء إلى القيمة P. يمكن تعريف القيمة P على أنها احتمالية أن تخرج التجربة بنتيجة مساوية للنتيجة التي خرجت بها، أو أعلى منها، في حالة صحّة الفرضية الصفرية، أي في حالة خطأ الفرضية التي تحاول التجربة إثباتها. في حالتنا هذه، تعبّر القيمة P عن احتمالية أن يرتفع المعدّل إلى 53% أو أكثر إن كان البشر لا يستطيعون التنبؤ بالمستقبل، أي بضربة حظٍ لا أكثر.

اصطلح العلماء على اعتبار نتيجة التجربة مهمة إحصائيًا إن قلت هذه الاحتمالية عن 5%، أي إذا كانت قيمة P أقل من 0.05، وهو ما تحقّق في هذه التجربة، إذ أن احتمالية ارتفاع المعدّل إلى 53% أو أكثر لا تتعدى 3%، وبالتالي قيمة P هنا تساوي 0.03، وهو ما يجعل النتيجة ذات أهمية إحصائية، ويجعل البحث مستحقًا للنشر.

لكن قيمة P ليست كافية لإعطاء التجربة كل هذه الأهمية بمعزل عن الاعتبارات الأخرى، خاصة ما إذا كنا نتحدث عن تنبؤ البشر بالمستقبل. الرابطة الإحصائية الأمريكية انتقدت إساءة استخدام وتفسير قيمة P، واستخدامها كتصريحٍ بالإعلان عن فتوحات علمية مزعومة أو حقائق مكتشفة، وهو ما يؤدي إلى تحريفٍ كبير للعملية العلمية.

ألف نظرية ونظرية

الأمر لا يقتصر فقط على الفهم الخاطئ لقيمة P. في أي مجالٍ بحثي يوجد آلاف النظريات التي لا يدري أحدٌ صحتها من خطئها، والبحث العلمي يهدف بالأساس إلى استبيان أيّ تلك النظريات صحيح وأيها خاطيء. يجري المقطع حساباتٍ معقدة بعض الشيء، ليخرج بأن حوالي ثلث الأبحاث المنشورة، حتى مع اتّباع المنهج العلمي وتصميم التجارب بشكلٍ جيد، ستخرج بنتائج كاذبة.

لكن هذه النسبة تزداد كثيرًا مع زيادة عدد النظريات الخاطئة في مقابل الصحيحة، ومع وجود عيبٍ في التجارب البحثية، مثل أن تكون العينة التي تخضع للتجربة قليلة للغاية، أو أن تكون القياسات المستخدمة غير حساسة بما يكفي. بالإضافة إلى ذلك، كثيرًا ما يحمل العلماء تحيّزات مسبقة لنتائج يرغبون في رؤيتها من خلال البيانات.

الحاجة إلى نشر شيء ما

تلعب دوافع العلماء كذلك دورًا كبيرًا في الخروج بنتائج كاذبة. أهمّ هذه الدوافع هو توقّف المسيرة العلمية للعالم أو الباحث على عدد الأوراق البحثية والدراسات التي تجد طريقها إلى النشر. يضع هذا الباحث تحت ضغطٍ يدفعه إلى استنباط نتائج لا تتسق والبيانات التي جمعها، أو أحيانًا إلى التلاعب بهذه البيانات وبطرق تحليلها لكي تكون قيمة P أقل من 0.05، وبالتالي يتم نشرها، وهو ما يُسمى بـ«P-Hacking».

فعندما يجد الباحث أنّ قيمة P تجعل نتائج التجربة غير مهمة إحصائيًا، يعمد إلى جمع المزيد من البيانات، متوقفًا عند النقطة التي تجعل بحثه ذا أهمية إحصائية (مع أن جمع المزيد من البيانات غالبًا ما يثبت عدم وجود علاقة بين المتغيرين)، أو يضيف متغيّرًا جديدًا أو يصنّف الخاضعين للتجارب إلى مجموعات بناءً على الجنس مثلًا. يُمكننا أن نرى هذا في دراسةٍ لقيت انتشارًا واسعًا في عام 2015، زعمت إن أكل أونصًا ونصف أونص من الشوكولاتة يُساعد على خسارة الوزن بشكلٍ أسرع.

هذه التجربة تم تصميمها عمدًا لتزيد احتمالية النتائج الإيجابية الكاذبة، عن طريق مراقبة الكثير من المتغيّرات، ومن ضمنها ضغط الدم ومستويات الصوديوم والكوليسترول في الدم، وانتقاء المتغيّر الذي يفي بالغرض؛ وهو نشر البحث بالطبع.

البيانات لا تتحدّث عن نفسها

ليس الـP-Hacking هو السبب الوحيد، فالبيانات في النهاية صمّاء، تحتاج إلى باحثين يفسرونها. والقرارات التي يتّخذها الباحث بشأن جمع وتحليل البيانات تؤثر على النتائج النهائية. يُعطي المقطع مثالًا على هذا: في محاولة لتحديد ما إذا كان اللاعبون ذوو البشرة السمراء يحصلون على كروت حمراء أكثر من باقي اللاعبين، أعطيت البيانات نفسها لتسعة وعشرين مجموعة من الباحثين، وطُلب منهم تحليلها والإجابة عن السؤال.

النتائج كانت متفاوتةً على حدٍ كبير، لتتراوح بين عدم وجود فرقٍ بين معدل طرد اللاعبين السود وغيرهم من اللاعبين، وبين كونهم يتلقون ثلاثة أضعاف الكروت الحمراء بالمقارنة مع غيرهم. النتيجة التي اجتمع عليها أغلب الباحثين في النهاية هي أنّ ذوي البشرة السمراء يُطردون بمعدّل أكبر، لكن ليس بثلاث مرات بالتأكيد. الشاهِد هنا أن هذه النتائج كلها خرجت من البيانات ذاتها.

في التجارب الأخرى بالطبع، فريقٌ واحد من الباحثين يحلل البيانات، وهو ما يجعل من الصعب معرفة مدى صحة النتائج التي خرجوا بها.

الدراسات التكرارية

يُشير المقطع إلى الدراسات التكرارية؛ أحد أهم الدفاعات التي يمتلكها العلم ضد النتائج الكاذبة العرضية أو المتعمّدة. في هذه الدراسات يعمد الباحثون إلى تكرار التجارب التي قام بها غيرهم، للتحقق من إمكانية الحصول على نفس النتائج مرة أخرى. لكن الكثير من الباحثين يبتعد عن إجراء مثل هذه التجارب، والسبب أنّ احتمالات نشرها واهية جدًا.

ببساطة هناك احتمالان: إمّا أن تثبت الدراسة التكرارية صحة النتائج، وحينها لن تهتمّ المجلات العلمية بنشرها، أو تُظهر أن نتائج الدراسة الأصلية كانت محض صدفة، وحينها يُتهم الباحثون غالبًا بأنهم لم يقوموا بها على النحو الصحيح، أو استخدموا طرقًا تحليلية غير سليمة، كما أن دراسة تنفي صحة دراسة اخرى ليست «مثيرة» بما فيه الكفاية لتُنشر. وهو ما حدث مع ثلاثة باحثين حاولوا تكرار التجربة التي ذكرها المقطع في بدايته، المتعلّقة بالتنبؤ بالمستقبل، إذ لم تكن النتائج التي خرجوا بها ذات قيمة إحصائية، وهو ما يرجّح كونها كانت وليدة الصدفة لا أكثر. لكن دراستهم لم تجد طريقها إلى النشر مثل الدراسة الأصلية.

لكن الدراسات التكرارية مهمّة للغاية، وهناك العديد من مشاريع إعادة إجراء الدراسات التي أجريت في مختلف المجالات، التي وجدت نسبة كبيرة من النتائج غير القابلة للتكرار. أحد هذه المشاريع أعاد إجراء 53 دراسة كانت تعدّ من المعالم الرئيسية لدراسة مرض السرطان، لكن 6 منها فقط تكررت نتائجها في المرة الثانية.

ينتهي المقطع بذكر العديد من المجهودات التي تحاول إصلاح هذه المشاكل، ومن ضمنها مواقع على شبكة الإنترنت لنشر الرسائل العلمية التي لم تجد طريقًا للنشر في المجلات العلمية المرموقة. ولا يمكن أن تكون كل الدراسات المنشورة صحيحة علمية، حتى وإن اتبع الباحثون المنهج العلمي بالحذافير.

قد يكون العلم بعيدًا عن الكمال، لكنه يظل أفضل من كل طرق المعرفة التي نمتلكها.