การทดลองแบบสุ่มและมีกลุ่มควบคุม (อังกฤษ: randomized controlled trial; randomised control trial ตัวย่อ RCT) เป็นการทดลองทางวิทยาศาสตร์แบบหนึ่ง ที่ใช้เป็นมาตรฐานทอง (gold standard) ของการทดลองทางคลินิก มักจะใช้เพื่อตรวจสอบประสิทธิผลและประสิทธิภาพของบริการสุขภาพ (เช่นการแพทย์หรือการพยาบาล) หรือเทคโนโลยีสุขภาพ (เช่นยา อุปกรณ์ทางการแพทย์ หรือวิธีการผ่าตัด) โดยทำในกลุ่มคนไข้ที่เป็นตัวแทนประชากรทางสถิติ (statistical population) และใช้เพื่อรวบรวมข้อมูลอื่น ๆ ที่มีประโยชน์เกี่ยวกับผลลบของการรักษาพยาบาล เช่นปฏิกิริยาเชิงลบต่อยา (adverse drug reactions)
ลักษณะเฉพาะของ RCT ที่ทำทั่ว ๆ ไปก็คือ หลังจากที่มีการประเมินคุณสมบัติการรับเลือกของผู้ร่วมการทดลองแต่ก่อนที่จะเริ่มการรักษาพยาบาล (หรือเงื่อนไขอื่น ๆ ถ้าไม่ใช่การทดลองทางการแพทย์) จะมีการจัดผู้ร่วมการทดลองให้อยู่ในกลุ่มสองกลุ่มโดยสุ่ม กลุ่มหนึ่งจะได้รับการรักษาพยาบาล (หรือเงื่อนไข) ที่เป็นประเด็นการศึกษา อีกกลุ่มหนึ่งจะได้รับการรักษาพยาบาล (หรือเงื่อนไข) อีกอย่างหนึ่งที่เป็นตัวควบคุมหรือเป็นตัวเปรียบเทียบ การจัดกลุ่มโดยสุ่มในการทดลองจริง ๆ นั้นซับซ้อน แต่ว่าถ้าคิดอย่างง่าย ๆ จะเป็นกระบวนการเหมือนกับโยนเหรียญที่สมดุล หลังจากการจัดกลุ่มโดยสุ่ม จะมีการปฏิบัติต่อผู้ร่วมการทดลองทั้งสองกลุ่มเหมือน ๆ กันทุกอย่าง ยกเว้นการรักษาพยาบาลที่เป็นประเด็นศึกษา เช่นวิธีการรักษา การตรวจสอบ การรักษาโดยเป็นผู้ป่วยนอก และ/หรือการติดตามผล ข้อดีที่สำคัญที่สุดของการสุ่มที่ทำถูกต้องก็คือ ช่วยลดระดับ allocation bias คือสร้างความสมดุลขององค์พยากรณ์โรค (prognostic factor) ที่มีในคนไข้ ทั้งที่รู้และไม่รู้ ระหว่างกลุ่มต่าง ๆ ที่รับการรักษา กล่าวโดยสาระก็คือ คำว่า "สุ่ม" แสดงถึงกระบวนการจัดผู้ร่วมการทดลองให้อยู่ในกลุ่มการทดลองหรือกลุ่มควบคุมโดยเสี่ยงโชค เพื่อลดระดับความเอนเอียง
แม้ว่าคำว่า "RCT" และ การทดลองแบบสุ่ม (randomized trial) บางครั้งจะใช้เป็นไวพจน์ซึ่งกันและกัน แต่ระเบียบวิธีที่ดีกว่าก็จะใช้คำว่า "RCT" สำหรับการทดลองที่มีกลุ่มควบคุม (control) ที่ไม่ได้รับการรักษาที่เป็นประเด็นศึกษา (placebo-controlled study) หรือรับการรักษาที่มีการทดสอบมาก่อนแล้ว (positive-control study) เท่านั้น ดังนั้น คำว่า การทดลองแบบสุ่ม (randomized trial) ควรใช้เรียกงานศึกษาเปรียบเทียบกลุ่มการทดลองต่าง ๆ โดยที่ไม่มีกลุ่มควบคุม และเช่นกัน แม้ว่าตัวย่อว่า "RCT" จะสามารถขยายเป็น randomized clinical trial (การทดลองทางคลินิกแบบสุ่ม) หรือ randomized comparative trial (การทดลองเปรียบเทียบแบบสุ่ม) แต่ว่า เพื่อเลี่ยงความคลุมเครือในสิ่งตีพิมพ์ทางวิทยาศาสตร์ จะเป็นระเบียบวิธีที่ดีกว่าถ้าจะใช้ตัวย่อ "RCT" สำหรับการทดลองที่มีกลุ่มควบคุมเท่านั้น และเพราะว่า การทดลองทางคลินิกแบบสุ่มไม่จำเป็นจะต้องมีกลุ่มควบคุม (และงานบางงานไม่สามารถจะมีได้ เพราะว่าเป็นเรื่องที่ทำได้ยากหรือว่าไม่ถูกจริยธรรม) ดังนั้น คำว่า randomized controlled clinical trials (การทดลองทางคลินิกแบบสุ่มและมีกลุ่มควบคุม) ก็จะเป็นชื่อที่ดีสำหรับงาน RCT ทดลองทางคลินิก
ให้สังเกตว่า มีการใช้ RCT ในงานวิจัยสาขาอื่น ๆ อีกด้วย รวมทั้งในสาขาต่าง ๆ ของสังคมศาสตร์ เช่นนิติศาสตร์ การศึกษา และการพัฒนาระหว่างประเทศ (ดูหัวข้อ "ในสังคมศาสตร์")
การทดลองแบบสุ่ม (Randomized experiment) เกิดใช้เป็นครั้งแรกในปี ค.ศ. 1885 ในสาขาจิตวิทยาเชิงทดลองโดยบิดาของปรัชญาปฏิบัตินิยม (pragmatism) ชาวอเมริกัน ชาลส์ แซนเดอร์ส เพียร์ซ และในสาขาการศึกษา ต่อมาในปี ค.ศ. 1923 การทดลองแบบสุ่มก็เริ่มปรากฏในสาขาเกษตรกรรม ทำโดยนักสถิติชาวโปแลนด์-อเมริกัน Jerzy Neyman และนักสถิติชาวอังกฤษเซอร์โรนัลด์ ฟิชเช่อร์ และเป็นงานวิจัยเชิงทดลองและบทความอื่น ๆ ของฟิชเช่อร์นั่นเอง ที่ได้เริ่มสร้างความนิยมให้กับการทดลองแบบสุ่ม
ส่วน RCT ที่ตีพิมพ์เป็นบทความแรกในปี ค.ศ. 1948 เป็นงานชื่อว่า "Streptomycin treatment of pulmonary tuberculosis (การรักษาวัณโรคปอดด้วยสเตรปโตมัยซิน)" พิมพ์ในประเทศอังกฤษ ซึ่งผู้เขียนท่านหนึ่งก็คือออสติน แบร็ดฟอร์ด ฮิลล์ ผู้ได้รับเครดิตว่า เป็นคนแรกที่ได้ค้นคิด RCT แบบที่ใช้ในปัจจุบัน
โดยปลายคริสต์ศตวรรษที่ 20 ก็มีการยอมรับแล้วว่า RCT เป็นระเบียบวิธีมาตรฐานสำหรับ "การบำบัดโรคที่สมเหตุผล" (rational therapeutics) ในแพทยศาสตร์ โดยปี ค.ศ. 2004 มีผลงาน RCT กว่า 150,000 ชิ้นในระบบ Cochrane Library ขององค์กรความร่วมมือคอเครน เพื่อจะเพิ่มคุณภาพของการรายงาน RCT ในสิ่งตีพิมพ์ทางการแพทย์ นักวิทยาศาสตร์และบรรณาธิการนานาชาติกลุ่มหนึ่งได้พิมพ์บทความแถลงชื่อว่า "Consolidated Standards of Reporting Trials (มาตรฐานรวมในการรายงานการทดลอง)" (CONSORT) ในปี ค.ศ. 1996 2001 และ 2010 ซึ่งได้กลายมาเป็นระเบียบที่ยอมรับกันอย่างกว้างขวาง
มีหลักจริยธรรมที่เรียกว่า "clinical equipoise (ความเสมอภาคทางคลินิก)" ซึ่งก็คือจะเริ่มทำการทดลองได้ก็ต่อเมื่อ "มีความไม่ชัดเจนจริง ๆ ในกลุ่มผู้เชี่ยวชาญทางการแพทย์... เกี่ยวกับการรักษาที่ดีกว่า" เป็นหลักจริยธรรมที่ใช้โดยสามัญในการทดลองทางคลินิก (กล่าวอีกอย่างหนึ่งก็คือจะเริ่มการทดลองได้ก็ต่อเมื่อไม่ปรากฏมติของผู้เชี่ยวชาญว่า การรักษาที่เป็นประเด็นจะดีกว่าสิ่งที่เปรียบเทียบหรือไม่) และแม้ว่าจะเป็นหลักที่มีการนำมาใช้ด้วยใน RCT แต่ว่า จริยธรรมเกี่ยวกับ RCT มีเรื่องที่ต้องพิจารณาเป็นพิเศษ
อย่างแรกก็คือ มีการเสนอว่า ความเสมอภาค (คือไม่รู้ว่าจะมีผลดีกว่าหรือไม่) ไม่เป็นเหตุเพียงพอที่จะเริ่มทำการทดลองแบบ RCT อีกอย่างหนึ่งก็คือ "ความเสมอภาคที่เป็นมติของกลุ่ม" (collective equipoise) อาจจะไม่ตรงกับ "ความเสมอภาคที่เป็นมติของตน" คือ ผู้ทำงานวิจัยเองอาจจะเชื่อว่า การรักษาที่เป็นประเด็นมีผลดีกว่า และอย่างสุดท้ายก็คือ มีการใช้ "Zelen's design" ในการออกแบบ RCT ซึ่งสุ่มจัดผู้ร่วมการทดลองเข้ากลุ่ม ก่อนที่ผู้ร่วมการทดลองจะยินยอมรับเงื่อนไขที่เป็นประเด็นการศึกษา ดังนั้น ผู้ที่อยู่ในกลุ่มควบคุมอาจจะไม่รู้ว่าตนเป็นส่วนของการศึกษา และไม่จำเป็นที่จะต้องให้การยินยอมเพื่อจะรับการปฏิบัติรักษาที่เป็นมาตรฐาน (ที่ใช้เปรียบเทียบกับกลุ่มทดลอง) การสุ่มโดยที่ไม่มีการยินยอมเช่นนี้อาจจะถูกจริยธรรมสำหรับ RCT เกี่ยวกับการตรวจคัดโรค (screening) และการรักษาบางอย่าง แต่อาจจะไม่ถูกจริยธรรม "สำหรับการทดลองวิธีการรักษาพยาบาลโดยมาก"
ในปี ค.ศ. 2004 International Committee of Medical Journal Editors (คณะกรรมการบรรณาธิการวารสารแพทย์นานาชาติ; ตัวย่อ ICMJE ; เว็บไซต์) ได้ประกาศว่า การทดลองทั้งหมดที่เริ่มการขึ้นทะเบียน (enrollment) หลังวันที่ 1 กรกฎาคม ค.ศ. 2005 ต้องลงทะเบียนเพื่อมีสิทธิการตีพิมพ์ในวารสารชั้นนำที่เป็นสมาชิก 12 วารสารซึ่งรวมทั้ง BMJ, JAMA, NEJM และ The Lancet ถึงกระนั้น โดยปี ค.ศ. 2009 และ 2011 ก็ยังมีการทดลองที่ลงทะเบียนช้า หรือไม่ได้ลงทะเบียนเลย
การจัดประเภทอย่างหนึ่งก็คือโดยแบบงานศึกษา โดยเรียงลำดับจากแบบที่มีใช้มากที่สุดไปยังที่ใช้น้อยที่สุดในสิ่งตีพิมพ์เกี่ยวกับสุขภาพพยาบาล แบบหลัก ๆ ของ RCT มีดังต่อไปนี้
ในงานวิเคราะห์ RCT 616 งานที่มีการสร้างดัชนีใน PubMed ช่วงเดือนธันวาคม ปี ค.ศ. 2006 พบว่า 78% เป็นแบบ parallel; 16% เป็นแบบ crossover; 2% เป็นแบบ split-body; 2% เป็นแบบ cluster; และ 2% เป็นแบบ factorial
RCT สามารถจัดให้เป็นประเภท "explanatory" (สำหรับอธิบาย) หรือ "pragmatic" (สำหรับปฏิบัติ) คือ RCT สำหรับอธิบายจะตรวจสอบประสิทธิศักย์ (efficacy) ภายใต้สิ่งแวดล้อมสถานการณ์ที่มีในงานวิจัยและที่มีระดับการควบคุมสูง โดยมีผู้ร่วมการทดลองที่มีการคัดเลือกในระดับสูง ส่วน RCT สำหรับปฏิบัติจะตรวจสอบประสิทธิผล (effectiveness) ในข้อปฏิบัติที่ใช้ในการรักษาพยาบาลตามปกติประจำวัน โดยมีผู้ร่วมการทดลองที่ไม่ได้ทำการคัดเลือก ภายใต้สถานการณ์สิ่งแวดล้อมจริง ๆ ที่ยืดหยุ่นได้ ดังนั้น RCT สำหรับปฏิบัติจะให้ความรู้เพื่อการตัดสินใจในการปฏิบัติจริง ๆ
วิธีการจัดประเภทของ RCT อีกประเภทหนึ่งจัดเป็น "superiority trials" (การทดสอบความเหนือกว่า) "noninferiority trials" (การทดสอบความไม่แย่กว่า) และ "equivalence trials" (การทดสอบความเสมอกัน) ซึ่งมีความแตกต่างกันโดยทั้งระเบียบวิธีและโดยรายงาน RCT โดยมากเป็นการทดสอบความเหนือกว่า ซึ่งมีสมมุติฐานว่า การรักษาพยาบาลที่เป็นประเด็นจะเหนือกว่าการปฏิบัติวิธีอื่นอย่างมีนัยสำคัญทางสถิติ RCT บางส่วนเป็นการทดสอบความไม่แย่กว่า "เพื่อจะกำหนดว่า การรักษาพยาบาลใหม่นั้นไม่แย่กว่าการรักษาพยาบาลที่เป็นตัวเปรียบเทียบ" ส่วน RCT ที่เหลือเป็นการทดสอบความเสมอกัน ที่มีสมมุติฐานว่า ผลของการรักษาพยาบาลทั้งสองไม่สามารถแยกแยะความแตกต่างกันได้
มีขั้นตอนสองขั้นในการจัดกลุ่มคนไข้โดยสุ่ม ขั้นแรกเป็นการเลือกวิธีการสุ่ม (randomization procedure) ที่สร้างลำดับการจัดกลุ่มที่พยากรณ์ไม่ได้ นี่อาจจะเป็นการสุ่มแบบง่าย ๆ โดยจัดให้คนไข้อยู่ในกลุ่มต่าง ๆ โดยมีความน่าจะเป็นเท่า ๆ กัน หรืออาจจะเป็นแบบ "restricted" (จำกัด) หรืออาจะเป็นแบบ "adaptive" (ปรับได้) ขั้นที่สองซึ่งเป็นเรื่องของการปฏิบัติโดยตรงก็คือ การปิดบังการจัดสรร (allocation concealment) ซึ่งหมายถึงการป้องกันอย่างเข้มงวดเพื่อจะให้แน่ใจได้ว่า การจัดกลุ่มคนไข้จะไม่มีการเปิดเผยก่อนขั้นตอนที่จะจัดคนไข้ให้เข้ากลุ่มจริง ๆ (เช่นหลังจากที่คนไข้ได้ยินยอมตกลงเข้าร่วมการทดลองแล้ว) ยกตัวอย่างเช่น วิธีการจัดกลุ่มอย่างเป็นระบบที่ไม่ใช่เป็นการสุ่ม เช่นการสลับให้คนไข้หนึ่งอยู่ในกลุ่มหนึ่ง และคนไข้ต่อไปอยู่ในอีกกลุ่มหนึ่ง อาจทำให้เกิด "โอกาสเกิดความมัวหมองโดยหาประมาณไม่ได้" และเป็นการทำลายการปิดบังการจัดสรร
อย่างไรก็ดี ไม่มีวิธีการสุ่มอย่างใดอย่างหนึ่งที่สามารถให้ถึงจุดมุ่งหมายเหล่านี้ได้ในทุก ๆ สถานการณ์ ดังนั้น นักวิจัยจะต้องเลือกวิธีใดวิธีหนึ่งสำหรับงานศึกษา อาศัยการเปรียบเทียบข้อดีและข้อเสียของวิธีการสุ่ม
การสุ่มแบบง่าย ๆ (simple randomization) นี้เป็นวิธีที่ใช้โดยสามัญที่สุดและเข้าใจได้ง่ายที่สุด คล้ายกับ การโยนเหรียญที่สมดุลซ้ำ ๆ โดยมีชื่ออื่นว่า การสุ่มสมบูรณ์ (complete randomization) หรือ การสุ่มไม่จำกัด (unrestricted randomization) เป็นการสุ่มที่ทนทานต่อทั้งความเอนเอียงโดยคัดเลือก (selection bias) และทั้ง accidental bias แต่ว่า จุดอ่อนของวิธีนี้ก็คืออาจจะทำให้กลุ่มต่าง ๆ มีขนาดไม่เท่ากันใน RCT ที่มีขนาดตัวอย่างน้อย ดังนั้น จึงมีการแนะนำให้ใช้สำหรับ RCT ที่มีผู้ร่วมการทดลองมากกว่า 200 คนเท่านั้น
เพื่อให้ขนาดกลุ่มต่าง ๆ เท่ากันใน RCT ที่มีตัวอย่างน้อย จึงมีการแนะนำการใช้การสุ่มแบบจำกัด (restricted randomization) วิธีใดวิธีหนึ่ง การสุ่มแบบจำกัดประเภทหลัก ๆ ที่ใช้ใน RCT รวมทั้ง
มีวิธีการสุ่มแบบปรับได้ (adaptive randomization) สองอย่างที่ใช้ใน RCT แต่ใช้ไม่บ่อยเท่าการสุ่มแบบง่าย ๆ หรือการสุ่มแบบจำกัด คือ
"Allocation concealment" (การปิดบังการจัดสรร) มีนิยามว่า "วิธีการที่ป้องกันรักษากระบวนการสุ่มเพื่อไม่ให้รู้การรักษาพยาบาลที่จะจัดให้ ก่อนที่คนไข้จะเข้าสู่กระบวนการศึกษา" เป็นเรื่องที่สำคัญใน RCT คือโดยทางปฏิบัติแล้ว เพราะเหตุผลต่าง ๆ เป็นต้นว่าอาจจะมีความเห็นส่วนตัวที่เป็นไปทางใดทางหนึ่งเกี่ยวกับการรักษาพยาบาลที่เป็นประเด็นการศึกษา นักวิจัยทางคลินิกใน RCT อาจจะไม่สามารถรักษาความเป็นกลาง มีเรื่องที่เปิดเผยแบบนิรนามว่า มีนักวิจัยส่องไฟดูซองจดหมายที่ปิดผนึกไว้ หรือว่าเข้าค้นห้องสำนักงานเป็นต้น เพื่อหาข้อมูลการจัดกลุ่ม เพื่อจะได้มีโอกาสกำหนดการจัดกลุ่มของคนไข้คนต่อไปของตน การกระทำเช่นนี้ทำให้เกิดความเอนเอียงโดยคัดเลือก (selection bias) และปัจจัยกวน (confounders) ซึ่งจะมีน้อยที่สุดถ้ามีวิธีการปิดบังการจัดสรรที่ได้ผล เป็นการกระทำที่ในที่สุดจะบิดเบือนผลของงานศึกษา วิธีการปิดบังการจัดสรรควรจะซ่อนการจัดกลุ่มจากทั้งคนไข้และทั้งนักวิจัย ไม่ให้สามารถรู้ได้จนกระทั่งถึงเวลาจัดคนไข้เข้ากลุ่มทดลองจริง ๆ เช่นหลังจากคนไข้ได้รับสมัคร และให้คำยินยอมเพื่อการรักษาที่ตนก็ยังไม่รู้คือยอมรับว่าตนอาจจะได้การรักษาของกลุ่มใดกลุ่มหนึ่งก็ได้
ระเบียบวิธีมาตรฐานเพื่อให้มั่นใจว่ามีการปิดบังการจัดสรรที่ได้ผล รวมทั้งการใช้ซองเอกสารที่มีเลขตามลำดับที่ปิดทึบ (SNOSE), การใช้กล่องบรรจุยาที่มีเลขตามลำดับมีขนาดมีน้ำหนักมีป้ายและลักษณะอื่นคล้าย ๆ กัน, มีการจัดสรรที่ควบคุมโดยเภสัช, และมีการจัดสรรที่ทำโดยส่วนกลาง มีการแนะนำว่า วิธีการปิดบังการจัดสรรควรจะรวมอยู่ในเกณฑ์วิธีการทดลองทางคลินิก (clinical trial protocol) และควรจะมีการรายงานอย่างละเอียดในสิ่งตีพิมพ์ที่แสดงผลของ RCT แต่ว่า งานศึกษาในปี ค.ศ. 2005 พบว่า RCT ส่วนมากมีเกณฑ์วิธีที่มีการปิดบังการจัดสรรที่ไม่ชัดเจน หรือไม่กล่าวถึงอย่างชัดเจนในงานที่ตีพิมพ์ หรือทั้งสองอย่าง อย่างไรก็ดี ก็ยังมีงานศึกษาในปี ค.ศ. 2008 ของงาน meta-analysis 146 งานซึ่งสรุปว่า RCT ที่มีการปิดบังการจัดสรร (allocation concealment) ไม่เพียงพอหรือไม่ชัดเจนมักจะมีความเอนเอียงไปทางผลบวกต่อเมื่อผลของ RCT เป็นการวัดผลที่เป็นอัตวิสัย (subjective) แต่จะไม่มีเมื่อเป็นการวัดผลที่เป็นปรวิสัย
จำนวนของผู้ที่รับการรักษาพยาบาล (จะนับโดยจำนวนคนหรือจำนวนกลุ่มก็ดี) ในกลุ่มควบคุมและกลุ่มทดลองจะมีผลต่อความแม่นยำของ RCT ถ้าผลการรักษาพยาบาลนั้นเล็กน้อย จำนวนผู้ที่รับการรักษาในกลุ่มทั้งสองอาจจะไม่เพียงพอที่จะปฏิเสธผลว่าง (null hypothesis) เมื่อทำการตรวจสอบโดยสถิติ และความล้มเหลวในการปฏิเสธผลว่างก็จะหมายความว่า การรักษาพยาบาลนั้นไม่มีผลที่มีนัยสำคัญทางสถิติ "ในการทดลองนั้น ๆ" แต่ว่าถ้ามีขนาดตัวอย่างที่เพิ่มขึ้น RCT เช่นเดียวกันอาจจะสามารถแสดงผลของการรักษาพยาบาลที่มีนัยสำคัญทางสถิติ แม้ว่าจะมีผลเพียงเล็กน้อย
RCT อาจจะเป็นการทดลองแบบอำพราง (blind experiment) คือมี "วิธีการที่ป้องกันผู้ร่วมการทดลอง ผู้ให้ความดูแล หรือผู้ประเมินผล ไม่ให้รู้ว่าผู้ป่วยได้รับการรักษาพยาบาลแบบไหน" โดยที่ไม่เหมือนกับการปิดบังการจัดสรร การอำพรางบางครั้งอาจไม่สมควรหรือว่าเป็นไปไม่ได้ที่จะทำใน RCT ยกตัวอย่างเช่น RCT เกี่ยวกับการรักษาพยาบาลที่ต้องอาศัยความร่วมมือเป็นการร่วมกระทำของคนไข้ (เช่น กายภาพบำบัด) ก็จะไม่สามารถอำพรางการรักษาพยาบาลจากคนไข้ได้
ที่สืบ ๆ กันมา RCT แบบอำพรางมักจะจัดประเภทเป็น "อำพรางฝ่ายเดียว" (single-blind) "อำพรางสองฝ่าย" (double-blind) หรือ "อำพรางสามฝ่าย" (triple-blind) แต่ว่า งานศึกษาในปี ค.ศ. 2001 และ 2006 พบว่า ชื่อเหล่านี้มีความหมายต่างกันสำหรับบุคคลต่าง ๆ ดังนั้น คำแถลงความ Consolidated Standards of Reporting Trials (CONSORT) ออกเมื่อปี ค.ศ. 2010 จึงกำหนดว่า นักวิจัยและบรรณาธิการไม่ควรใช้คำว่า อำพรางฝ่ายเดียว อำพรางสองฝ่าย หรืออำพรางสามฝ่าย แต่ให้อธิบาย "ถ้ามีการทำ (การอำพราง) ได้ทำต่อใครหลังจากการจัดให้ได้รับการรักษาพยาบาล (เช่น อำพรางผู้ร่วมการทดลอง อำพรางผู้ที่ดูแลรักษา และ/หรืออำพรางผู้ที่ประเมินผล) และทำอย่างไร"
RCT ที่ไม่มีการอำพรางควรเรียกว่า "ไม่อำพราง" (unblinded) หรือว่า "เปิด" (open) หรือถ้าเป็นการให้ยา "open-label" ในปี ค.ศ. 2008 งานวิจัยหนึ่งสรุปว่า ผลการทดลอง RCT ที่ไม่มีการอำพรางมักจะมีความเอนเอียงไปทางผลบวกถ้าผลนั้นวัดโดยวิธีที่เป็นอัตวิสัย (subjective) ไม่ใช่เป็นการวัดที่เป็นปรวิสัย (objective) ยกตัวอย่างเช่น ใน RCT ที่ตรวจสอบการรักษาโรคปลอกประสาทเสื่อมแข็ง (multiple sclerosis) ประสาทแพทย์ที่ไม่ได้รับการอำพรางมีความรู้สึกว่า การรักษาได้ผล แต่ว่า แพทย์ที่มีการอำพรางไม่คิดว่าได้ผล ใน RCT สำหรับปฏิบัติ (pragmatic) แม้ว่าบ่อยครั้งจะไม่ได้อำพรางผู้ร่วมการทดลองและผู้ให้การดูแลรักษา แต่ว่า "ทั้งน่าปรารถนาด้วยและบ่อยครั้งเป็นไปได้ด้วยที่จะอำพรางผู้ประเมิน (ผล) หรือเก็บหาข้อมูลที่เป็นปรวิสัยเพื่อการประเมินผล"
ไม่ว่าจะใช้วิธีการทางสถิติใด ๆ เรื่องสำคัญที่ควรพิจารณาเกี่ยวกับการวิเคราะห์ข้อมูลของ RCT รวมทั้ง
บทความแถลง "Consolidated Standards of Reporting Trials (มาตรฐานรวมในการรายงานการทดลอง)" (CONSORT) สำหรับปี ค.ศ. 2010 เป็น "รายการคำแนะนำอย่างต่ำที่สุดในการรายงาน RCT โดยเป็นข้อแนะนำอิงหลักฐาน" CONSORT 2010 มีรายการที่ใช้ตรวจสอบ 25 รายการ (และบางรายการจะมีรายการย่อย ๆ) ที่เน้นใช้ในงานที่มี "การจัดกลุ่มแบบสุ่มที่ทำเป็นรายบุคคล แบ่งเป็นสองกลุ่ม ทำแบบ parallel" ซึ่งเป็น RCT แบบที่ใช้สามัญที่สุด และสำหรับแบบการศึกษาของ RCT อื่น มีบทแถลงความที่เรียกว่า "CONSORT extensions" ซึ่งได้รับการเผยแพร่แล้ว
มีการพิจารณาโดยมากว่า RCT เป็นหลักฐานทางวิทยาศาสตร์ที่น่าเชื่อถือที่สุดในลำดับชั้นหลักฐาน (hierarchy of evidence) ที่มีอิทธิพลต่อนโยบายและวิธีการรักษาพยาบาล เพราะว่า RCT สามารถลดการแสดงเหตุผลที่ไม่เป็นจริงและความเอนเอียงต่าง ๆ ผลของ RCT หลายงานอาจจะมีการรวบรวมในงานปริทัศน์เป็นระบบ (systematic review) ที่มีการใช้เพิ่มขึ้นเรื่อย ๆ เพื่อเป็นแนวทางในเวชปฏิบัติอิงหลักฐาน (evidence-based medicine)
ตัวอย่างองค์กรวิทยาศาสตร์ที่พิจารณา RCT หรืองานปริทัศน์เป็นระบบของ RCT ว่าเป็นหลักฐานที่มีคุณภาพสูงสุดรวมทั้ง
มีบทความมากมายที่แสดงข้อเสียของ RCT ข้อเสียที่กล่าวถึงบ่อยที่สุดจะกล่าวในหัวข้อย่อยดังต่อไปนี้
ระดับที่ผลของ RCT สามารถใช้ได้จริง ๆ ในสถานการณ์นอกการทดลองมีความต่าง ๆ กัน ซึ่งก็หมายความว่า ระดับ external validity ของ RCT นั้นอาจจะจำกัด
ค่าใช้จ่ายของ RCT อาจจะสูงมาก งานวิจัยหนึ่งพบว่า งาน RCT ในขั้น Phase III 28 งานที่ได้รับทุนจาก National Institute of Neurological Disorders and Stroke (สถาบันโรคทางประสาทและโรคหลอดเลือดสมองแห่งชาติสหรัฐอเมริกา ซึ่งเป็นส่วนของสถาบันสุขภาพแห่งชาติ (สหรัฐอเมริกา)) ก่อนปี ค.ศ. 2000 มีค่าใช้จ่ายรวมกันถึง 335 ล้านเหรียญสหรัฐ โดยมีค่าใช้จ่ายเฉลี่ยที่ 12 ล้านเหรียญสหรัฐต่องาน อย่างไรก็ดี ผลตอบแทนการลงทุน (ROI) ของ RCT อาจจะสูง คืองานวิจัยเดียวกันนั้นแหละคาดว่า งาน 28 งานนั้นจะให้ผลกำไรสุทธิต่อสังคมถึง 46 เท่าของเงินทุนภายใน 10 ปี โดยประเมินปีอายุที่เพิ่มขึ้น (quality-adjusted life year) เนื่องจากการใช้ผลการทดลอง ว่ามีมูลค่าเท่ากับ GDP เฉลี่ยต่อคน
งาน RCT ใช้เวลาเป็นหลายปีก่อนจะมีการเผยแพร่ และดังนั้นแพทย์จะไม่ได้ข้อมูลเป็นเวลาหลายปี และผลงานอาจจะมีความสำคัญน้อยลงเมื่อพร้อมที่จะเผยแพร่
มีงานวิจัย 2 งานในปี ค.ศ. 2000 พิมพ์ในวารสารการแพทย์นิวอิงแลนด์ที่พบว่า งานศึกษาแบบสังเกต (observational studies) และ RCT โดยรวม ๆ แล้วแสดงผลคล้ายคลึงกัน ผลงานเหล่านี้สั่นคลอนความเชื่อว่า "งานศึกษาแบบสังเกตไม่ควรใช้กำหนดการรักษาพยาบาลอิงหลักฐาน" และว่า ผลของงาน RCT เป็น "หลักฐานเกรดดีที่สุด" แต่ว่า งานวิจัยในปี ค.ศ. 2001 ที่พิมพ์ใน Journal of the American Medical Association (JAMA) สรุปว่า "ความไม่สอดคล้องกันแบบไม่บังเอิญก็สามารถเกิดขึ้นได้ (คือผลบวกลบที่ต่างกันจริง ๆ โดยไม่บังเอิญก็ยังมี) และความแตกต่างของระดับผลประเมินเพราะการรักษาพยาบาลนั้นเป็นเรื่องสามัญ (คือแสดงผลบวกเหมือนกันแต่มีขนาดผลไม่เท่ากัน)"
มีแนวคิดอีกสองอย่างที่ตั้งความสงสัยว่า RCT มีส่วนส่งเสริมความรู้ทางวิทยาศาสตร์อย่างไรที่เหนือจากการศึกษาแบบอื่น ๆ คือ
วิธีการรักษาพยาบาลที่ป้องกันเหตุการณ์ที่เกิดขึ้นน้อยมาก (เช่น กลุ่มอาการทารกตายกะทันหัน) และผลร้ายที่เกิดขึ้นน้อยมาก (เช่น ผลข้างเคียงที่น้อยมากของยา) อาจจะต้องใช้ RCT ที่มีผู้ร่วมการทดลองเป็นจำนวนมาก และดังนั้นการศึกษาแบบสังเกตอาจจะเป็นวิธีการศึกษาที่ทำได้ง่ายกว่า
ค่าใช้จ่ายจะสูงมากถ้าต้องทำ RCT เป็นปี ๆ หรือทศวรรษ ๆ เพื่อจะตรวจสอบผลจากการรักษาพยาบาลในอนาคตไกล ๆ
งาน RCT บางงานได้ทุนทั้งหมดหรือบางส่วนมาจากอุตสาหกรรมรักษาสุขภาพ (เช่น จากบริษัทยา) เทียบกับจากรัฐบาล องค์กรไม่เก็งผลกำไร หรือแหล่งเงินทุนอื่น ๆ งานปริทัศน์เป็นระบบ (systematic review) ที่พิมพ์ในปี ค.ศ. 2003 พบบทความ 4 บทความพิมพ์ระหว่างปี ค.ศ. 1986-2002 ที่เปรียบเทียบ RCT ที่ได้ทุนมาจากอุตสาหกรรมและจากแหล่งอื่น ๆ และพบว่า ข้อมูลจากทั้งสี่บทความพบสหสัมพันธ์ระหว่างการได้ทุนจากอุตสาหกรรม กับผลบวกที่ได้จากการรักษาพยาบาลที่เป็นประเด็นการศึกษา งานศึกษาปี ค.ศ. 2004 ของ RCT ในช่วงระหว่างปี ค.ศ. 1999-2001 ที่พิมพ์ในวารสารแนวหน้าทางการแพทย์และทางศัลยกรรมพบว่า RCT ที่ได้ทุนจากอุตสาหกรรม "มีโอกาสสูงกว่าที่จะมีผลงานที่พบนัยสำคัญทางสถิติที่สนับสนุนอุตสาหกรรม" เหตุที่เป็นไปได้อย่างหนึ่งที่เกิดผลงานที่สนับสนุนอุตสาหกรรมสำหรับ RCT ที่ได้ทุนจากอุตสาหกรรมก็คือความเอนเอียงในการตีพิมพ์ (publication bias)
แม้ว่าผู้ร่วมการทดลองจะต้องให้ความยินยอมในการเข้าร่วม RCT แต่ว่า งานวิจัยต่าง ๆ ตั้งแต่ปี ค.ศ. 1982 พบว่า ผู้ร่วมการทดลองเป็นจำนวนมากเชื่อว่า ตนจะได้รับการรักษาพยาบาลที่ดีที่สุดสำหรับสภาพโรคของตนอย่างแน่นอน ซึ่งก็คือ ผู้ร่วมการทดลองไม่เข้าใจความแตกต่างกันระหว่างงานวิจัยกับการรักษาพยาบาล ดังนั้น ควรที่จะมีการศึกษาเพิ่มขึ้นเพื่อจะกำหนดความแพร่หลายและวิธีการป้องกันความเข้าใจผิดในเรื่องนี้
งานทดลองทางคลินิกแบบสุ่มปกติจะตรวจสอบตัวแปรอย่างหนึ่งหรือเพียงไม่กี่อย่าง ที่ยากที่จะสะท้อนความเป็นจริงในสถานการณ์ทางการแพทย์ที่ซับซ้อนที่มีจริง ๆ เมื่อเทียบกับการรายงานเค้ส (case report) ซึ่งสามารถให้รายละเอียดในด้านต่าง ๆ ของคนไข้ เช่น ประวัติคนไข้ การตรวจร่างกาย การวินิจฉัยทางการแพทย์ สภาพจิตใจที่เกี่ยวเนื่องกับสังคม (psychosocial aspects) และการติดตาม
RCT สามารถมีทั้งความผิดพลาดทางสถิติทั้งแบบที่ 1 (ผลบวกที่ไม่จริง) และแบบที่ 2 (ผลว่างหรือลบที่ไม่จริง) เกี่ยวกับความผิดพลาดแบบที่ 1 RCT ทั่ว ๆ ไปจะใช้ค่าความน่าจะเป็นที่ 0.05 (คือ 1 ใน 20) ที่จะแสดงวิธีการรักษาสองอย่างที่จริง ๆ มีสมรรถภาพเท่าเทียมกัน ว่าแตกต่างกันอย่างสำคัญ (คือมีโอกาส 5% ว่าผลบวกที่พบไม่มีจริง ๆ) เกี่ยวกับความผิดพลาดแบบที่ 2 แม้ว่าจะมีบทความที่ตีพิมพ์ตั้งแต่ปี ค.ศ. 1978 ที่ให้ข้อสังเกตว่า RCT จำนวนมากที่แสดงผลลบ มีขนาดตัวอย่าง (sample size) ที่เล็กเกินไปที่จะสรุปได้อย่างชัดเจนว่า วิธีการรักษาพยาบาลนั้นมีผลลบ (หรือผลว่าง) จริง ๆ และโดยปี ค.ศ. 2005-2006 ก็ยังมี RCT จำนวนหนึ่งที่รายงานการคำนวณขนาดตัวอย่างที่ไม่ตรงหรือไม่สมบูรณ์
วิธีการของ RCT สร้างปรากฏการณ์ทางวัฒนธรรมบางอย่างที่ยังไม่มีความเข้าใจดี ยกตัวอย่างเช่น คนไข้บั้นปลายอาจพยายามเข้าร่วมการทดลองเพื่อใช้เป็นวิธีรักษาสุดท้าย แม้ว่าการรักษาพยาบาลนั้นจะมีโอกาสน้อยที่จะประสบความสำเร็จ
โดยมีจุดมุ่งหมายเพื่อเปิดโปงการขัดกันแห่งผลประโยชน์ของ RCT ที่ใช้เป็นข้อมูลของงานวิเคราะห์อภิมาน (meta-analysis) งานวิจัยในปี ค.ศ. 2011 ทำการปริทัศน์งาน meta-analysis 29 งานแล้วพบว่า การขัดกันแห่งผลประโยชน์ที่มีใน RCT ที่ใช้เป็นข้อมูล แทบไม่มีการเปิดเผย งาน meta-analysis ที่ตรวจสอบ 29 งานรวมทั้ง
งาน meta-analysis 29 งานรวมงาน RCT ทั้งหมด 509 งาน ในบรรดางาน RCT เหล่านั้น 318 งานรายงานแหล่งทุน (62% จากทั้งหมด) โดยมี 219 งานที่ได้ทุนมาจากอุตสาหกรรม (69% จากที่รายงาน) จาก RCT 509 งาน มีงาน 132 งานที่รายงานการขัดกันแห่งผลประโยชน์ทางการเงินของผู้ทำงานวิจัย (26% จากทั้งหมด) โดยมี 91 งานที่รายงานการมีผลประโยชน์ร่วมกับอุตสาหกรรม (69% จากที่รายงาน) แต่ว่า รายงานการขัดกันแห่งผลประโยชน์เหล่านี้แทบไม่มีการกล่าวถึงในงาน meta-analysis คือ มีเพียงแค่ 2 งาน (7% จาก 29 งานทั้งหมด) ที่รายงานแหล่งเงินทุนของ RCT และไม่มีงานไหนเลยที่รายงานการมีผลประโยชน์ร่วมกับอุตสาหกรรมของผู้ทำงานวิจัย ผู้ทำงานวิจัยนี้สรุปว่า
เพราะไม่มีการชี้แจงความขัดกันแห่งผลประโยชน์ เนื่องจากได้รับเงินทุนหรือมีผลประโยชน์ทางการเงินร่วมกับอุตสาหกรรมและธุรกิจ สำหรับงานวิจัยแบบสุ่มและมีกลุ่มควบคุมที่รวมอยู่ใน meta-analysis (ดังนั้น) ความเข้าใจและการประเมินหลักฐานที่ได้มาจาก meta-analysis อาจจะมีความบิดเบือน
การใช้ RCT ในงานวิจัยทางสังคมศาสตร์ยังเป็นเรื่องที่มีการถกเถียงกันอย่างไม่รู้จักจบสิ้น คือพวกที่มีพื้นฐานประสบการณ์ทางการแพทย์หรือการรักษาพยาบาลกลุ่มหนึ่งก็กล่าวว่า งานวิจัยในประเด็นต่าง ๆ เกี่ยวกับสังคมศาสตร์ขาดความน่าเชื่อถือ และควรจะพัฒนาโดยเพิ่มการใช้ RCT[ต้องการอ้างอิง] ในบางประเทศ เรื่องนี้เป็นเรื่องที่มีการถกเถียงกันในระดับสูงในเรื่องการศึกษาทางการขนส่ง คือมีนักวิชาการบางท่านที่เสนอว่า งบประมาณของรัฐที่ใช้ในโครงการที่เนื่องกับการส่งเด็กไปโรงเรียนนั้นไม่สมควร ยกเว้นถ้ามีอิทธิผลที่มีการรับรองโดย RCT มีงานวิจัยในปี ค.ศ. 2011 ที่ทำการปริทัศน์งานประเมินวิธีการปฏิบัติทางการขนส่ง 77 งาน และแบ่งงานเหล่านั้นออกเป็น 5 ระดับขึ้นอยู่กับคุณภาพ นักวิจัยสรุปว่า งานโดยมากมีคุณภาพต่ำ แล้วสนับสนุนให้ใช้ RCT ในงานวิจัยทางการขนส่งต่อไปในอนาคต
แต่ก็มีนักวิชาการท่านหนึ่งที่ไม่เห็นด้วยกับข้อสรุปเหล่านี้ โดยกล่าวว่า ข้อดีที่อ้างกันของ RCT ในการกำหนดเหตุและผล และในการป้องกันความเอนเอียงเป็นเรื่องที่กล่าวเกินความจริง แล้วเสนอ "หลัก 8 อย่างที่จะใช้ RCT ในสถานการณ์ที่ข้อปฏิบัติที่เสนอต้องอาศัยการเปลี่ยนพฤติกรรมของประชาชนเพื่อมีอิทธิผล"
ปัจจุบันนี้ มีการใช้ RCT ในการตรวจสอบการช่วยเหลือการพัฒนาระหว่างประเทศ (international development) ทั่วโลก นักเศรษฐศาสตร์การพัฒนาที่องค์กรวิจัยต่าง ๆ รวมทั้ง Abdul Latif Jameel Poverty Action Lab และ Innovations for Poverty Action ได้ใช้ RCT เพื่อตรวจสอบอิทธิผลของโปรแกรมแก้ปัญหาความยากจน สุขภาพ และการศึกษาในประเทศกำลังพัฒนา
แม้ว่า RCT อาจจะมีประโยชน์ในการประเมินผลของนโยบาย แต่ก็จำเป็นที่จะตีความผลที่ได้ในงานศึกษาทางสังคมศาสตร์อย่างระมัดระวัง ยกตัวอย่างเช่น ข้อปฏิบัติในการแก้ปัญหาอาจจะทำให้เกิดความเปลี่ยนแปลงทางสังคม-เศรษฐกิจ และทางพฤติกรรม ที่สร้างตัวแปรสับสนในความสัมพันธ์ต่าง ๆ ที่พบ
สำหรับนักเศรษฐศาสตร์การพัฒนาบางพวก ประโยชน์ที่ได้จาก RCT เทียบกับวิธีการศึกษาแบบอื่น ๆ ก็คือ การสุ่มจะป้องกันความเอนเอียงโดยคัดเลือก (selection bias) ซึ่งเป็นปัญหาในงานวิจัยปัจจุบันเกี่ยวกับนโยบายการพัฒนา ในงานศึกษา RCT ตัวอย่างในปี ค.ศ. 2007 ที่น่าสนใจงานหนึ่งในสาขาเศรษฐศาสตร์การพัฒนา มีการสุ่มหมู่บ้าน 608 หมู่บ้านในประเทศอินโดนีเชียที่จะมีการสร้างถนนออกเป็นกลุ่มหลัก 2 กลุ่ม คือ ไม่มีการสอบบัญชีจากรัฐบาลกลาง และมีการสอบบัญชี และในสองกลุ่มนั้น แต่ละกลุ่มจะมีกลุ่มย่อยอีกสามกลุ่มคือ ไม่มีการเชิญให้ (กลุ่มรากหญ้า) เข้าร่วมประชุมที่แสดงบัญชีการใช้จ่าย, มีการเชิญให้เข้าร่วมประชุม, และมีการเชิญให้เข้าร่วมประชุมโดยใบเชิญมีฟอร์มให้กรอกความเห็นแบบนิรนาม หลังจากทำการประเมิน "งบประมาณที่ขาดหายใป" (คือคอร์รัปชั่น) นักวิจัยสรุปว่า การตรวจสอบโดยรัฐบาลมีประสิทธิผลยิ่งกว่า "การเพิ่มการร่วมมือจากกลุ่มรากหญ้าเพื่อการตรวจสอบ" โดยมีจุดมุ่งหมายที่จะลดคอร์รัปชั่น แต่จริง ๆ แล้ว ข้อสรุปเดียวกันนี้ ก็ยังสามารถได้จากการสร้างแบบจำลองที่สมควร แล้วใช้ข้อมูลที่ได้จากการศึกษาระยะยาว (longitudinal studies) อีกด้วย
เรื่องสำคัญที่สุดโดยรวม ๆ ในการศึกษาทางสังคมศาสตร์ก็คือ ต้องสามารถทำการตรวจสอบหาข้อมูลเกี่ยวกับผลที่คาดหวัง และผลที่ไม่คาดหวัง ที่เกิดขึ้นจากนโยบายปฏิบัติที่เป็นประเด็นการศึกษา
มีการทำงานศึกษาแบบ RCT เพิ่มขึ้นเรื่อย ๆ ในสาขาอาชญาวิทยา คือ งานปริทัศน์ในปี ค.ศ. 2005 พบงาน RCT 83 งานในสาขาที่พิมพ์ในระหว่างปี ค.ศ. 1982-2004 เทียบกับ 35 งานที่พบในระหว่างปี ค.ศ. 1957-1981 ซึ่งจัดประเภทเป็น 5 ประเภท คือ policing (การรักษากฎหมายและความสงบเรียบร้อย) prevention (การป้องกัน) corrections (การลงโทษ) court (ศาล) และ community (ชุมชน) โดยเพ่งความสนใจไปที่โปรแกรมเปลี่ยนพฤติกรรมนักโทษ งานวิจัยในปี ค.ศ. 2008 อ้างว่า RCT อาจจะเป็นเรื่องยากที่จะกระทำ (เช่น ถ้าการดำเนินการ RCT จะต้องมี "การตัดสินลงโทษที่สุ่มนักโทษให้อยู่ในโปรแกรม [ทดลอง] ต่าง ๆ")
มีการใช้ RCT เพื่อประเมินข้อปฏิบัติทางการศึกษาหลายอย่าง เช่น มีงานในปี ค.ศ. 2009 ที่สุ่มห้องเรียนประถมศึกษา 260 ห้องเป็นกลุ่มควบคุมและกลุ่มทดลองที่มีการตรวจคัดพฤติกรรม (behavioral screening) มีข้อปฏิบัติเพื่อป้องกันแทรกแซงในห้องเรียน และมีการฝึกผู้ปกครอง แล้ววัดคะแนนทางพฤติกรรมและการศึกษาของนักเรียน มีงานอีกงานหนึ่งที่พิมพ์ในปี ค.ศ. 2009 ที่สุ่มห้องเรียนของเด็ก ป.1 678 คนเป็นกลุ่มทดลองที่มีข้อปฏิบัติแทรกแซงมีห้องเป็นศูนย์ (classroom-centered) กลุ่มทดลองที่มีผู้ปกครองเป็นศูนย์ (parent-centered) และที่ไม่มีข้อปฏิบัติ (no intervention คือกลุ่มควบคุม)
Ronald A. Fisher was "interested in application and in the popularization of statistical methods and his early book Statistical Methods for Research Workers; published in 1925; went through many editions and motivated and influenced the practical use of statistics in many fields of study. His Design of Experiments (1935) [promoted] statistical technique and application. In that book he emphasized examples and how to design experiments systematically from a statistical point of view. The mathematical justification of the methods described was not stressed and; indeed; proofs were often barely sketched or omitted altogether ...; a fact which led H. B. Mann to fill the gaps with a rigorous mathematical treatment in his well known treatise; Mann (1949)."
Page 87: Conniffe, Denis (1990-1991). "R. A. Fisher and the development of statistics—a view in his centenary year". Journal of the Statistical and Social Inquiry Society of Ireland XXVI (Dublin: Statistical and Social Inquiry Society of Ireland). pp. 55–108. ISSN 0081-4776. Check date values in: |date= (help)
อ่านบทความฉบับสมบูรณ์ได้ที่ http://th.wikipedia.org/wiki/งานวิจัยแบบสุ่มและมีกลุ่มควบคุม