马上注册,结识高手,享用更多资源,轻松玩转三维网社区。
您需要 登录 才可以下载或查看,没有帐号?注册
x
这是一个教我们了解什么是实验设计的真实、生动而有趣的案例。通过这个案例,我们能很容易地理解什么是实验设计(DOE: Design Of Experiment),同时也能体会到实验设计其实并不是什么高深的技术,人人都可掌握,甚至日常生活也可运用。另外,通过这个案例,我们能清楚地理解什么是实验因子(Factor)、因子水平(Level)、响应(Response)、效应(Effect)。同时,我们还可以了解到实验设计应遵循的三项基本原则:均衡性(Balanced)、随机性(Randomization)和重复性(Replication)。另外,我们还了解到什么是实验设计中存在的影响实验响应和因子效应的“潜在变量”(Lurking Variable)以及实验误差(Experimental Error)。/ A2 E* w5 M( p. b. N/ |7 L p) p& t
6 N4 q- a+ j |$ U这个案例是Symphony Technologies公司执行总监Ravi与他两位朋友Naren和Deepak的真实故事,他们现在在科学研究和统计学方面都有很深的造诣。他们当年通过实验设计的方法发现了女孩Renu对Deepak情有独钟,最后他俩真的相亲相爱,喜结连理,成就一世佳缘。本博文中对他们的名字进行了中文化的处理。
/ d: i2 o* J- k8 e$ ? DOE:三个罗密欧一个朱丽叶
l- Q' |7 c' D' T& o2 h6 P三个很要好的朋友聪聪、明明和帅帅上大学时每天都一块上学。一个阳光明媚的早上,他们经过一家花园修剪得非常整洁的别墅时,一个年轻女孩冲进了草坪,突然将她的视线停留在这三个年轻人身上。哇!真漂亮啊!象朝阳下的露珠一样靓丽,象玫瑰的花蕾一样漂亮。他们惊呆了。
; P4 k# n `: q( Z6 @ ~ 5 i1 S* s6 E0 J
三个年轻人很庆幸他们的重大发现,相约每天同一时间经过这栋别墅。聪聪通过他强大的信息网络还竟然知道了这个女孩的名字叫丽丽,并且知道这个女孩每天都生活在这栋别墅里。三个年轻人陶醉在女孩含情脉脉的迷人微笑中,每天都躲在教室的后面兴奋地谈论这个漂亮女孩。' R1 m$ h2 B' l( W5 Q' B
2 n7 ]0 G- J5 [1 Z) p4 R: {* N
三个好朋友都喜欢上了丽丽,并且想追求她。但理性告诉他们,丽丽只是喜欢他们中的某一位。他们很想知道这个漂亮的女孩到底喜欢谁,但都不好意思直接去问。为此,他们发挥聪明才智,设计并实施了一系列实验来确定丽丽所钟情的对象……
* u) W# q, f. { 1 O# E& A; D5 m; v# u3 @. {
他们计划按设定的方式单独、两两或三人同时经过丽丽的家门口,测试丽丽的反应,以便确认丽丽到底喜欢谁。5 X# p% s2 E$ r# R
) x# }( H- V8 x+ Y+ S. S2 E) T实验安排:
+ D9 z" J0 l. i' p0 d
0 m! K' @ v7 ^7 k I& `7 k O表示在场,X表示不在场;笑脸表示出现,圈X表示未出现
) U/ t$ x8 u! M$ o [' v; t( u8 g2 ~
% \: n A$ h; M% @; o+ a实验结果分析图如下:
1 h2 t, i" n$ Y2 b {+ D9 x
/ y9 ?! ~) D* f" @( @, V
9 i4 S- Q) J& J c/ y* d* L5 [) n
' E" m/ v6 o$ {1 w& o
* E8 P1 f+ u7 e5 z3 K显然,帅帅是明显的赢家。聪聪和明明握住帅帅的手,祝他好运,转而去追求其他的少女。 这是一个将实验设计方法应用于生活中的案例,他们为追求女孩进行了一项成功的析因实验。实验设计(Design of Experiments, DOE)研究如何制定实验方案,以提高实验效率,缩小随机误差的影响,并使实验结果能有效地进行统计分析的理论与方法。其基本思想是英国统计学家R.A.费希尔提出的。在这个实验中有三个因子(Factor):聪聪、明明和帅帅。因子是在实验中状态能被改变的独立变量。在有计划的实验中,所有因子都有计划地被故意改变,并测量每次实验组合时的响应。在科学实验中,化学反应的压力和温度可以是两个因子。这些因子通过实验的模式被改变,其响应特性(如:化学反应的产量)被测量。每个因子在两个不同的水平上被评价。在这个案例中,当事人有两种状态:在场和不在场。水平是指因子被故意改变的状态。通常对每个因子做两个水平(Level)的实验,偶尔做三个水平。如果每次实验只改变一个因子的水平,那么所有因子和它们的水平数的总组合将变得过于庞大,实验任务非常艰巨。一个有效的实验设计可以在同一次试验中改变多个因子,这将大大降低实验的次数,而且能够获得足够的信息使实验结果可信。因子水平可以是离散的,如:在这个实验中有在场和不在场两个水平;也可以是数字的,如化学反应中温度因子的水平为1000C和800C。 测量的目标变量就是响应(Response)。通过测量响应尝试和建立两个事实: 1. 每个因子水平的变化和响应的变化之间是否存在联系。 2. 每个因子的水平发生变化,响应的变化有多大(敏感性)。 这个实验案例中,响应是属性类型,它被表达为丽丽是否出现。可以通过对每个因子每个水平上好的响应的次数进行计数来度量响应的大小。响应也能是计量型的,如纯度从90%到95%的变化。这时响应的数值是每个水平上的平均值。响应的不同称为效应(Effect),可以用上述效应图来表示。 这个案例中所进行的实验是均衡的(Balanced),因为每个因子在每个水平被评估的次数一样。均衡实验的优点在于对每个因子给予同等的评估,有助于消除每个因子水平组合的数据数量的不等导致的偏差。
' P$ V, t' t" s0 V1 ~ - P0 R% M+ f' L. P; o
这个案例中实验的顺序是通过掷骰子随机的(Randomization)决定的。随机性很重要,这样能给所有影响实验的外部因素均等的影响机会。非随机化的实验中外部因素以系统性的方式增加响应的“噪音”(Noise),产生巨大风险。
* G3 t* ^$ z* l! {' F0 k1 G 9 @& f7 p, G4 p" Z X4 H" K0 [9 L
这个案例进行了两种重复性(Replication)的实验。两次重复给出了更多的信息,有利于以更高的置信度来评估结果。重复次数越多所得出的效应越可靠,但这增加了实验过程的成本。
5 \3 @, ?) r% U. b" Z4 R 6 P8 E5 t/ ~" N+ _6 z8 ]1 O
现在看看两个周日的实验出了什么错?为什么丽丽对帅帅的出现没有作出反应? 在第一个周日,有个潜在变量(Lurking Variable)发生了作用。丽丽有个长得像大猩猩一样且脾气暴躁的父亲。那天帅帅独自经过丽丽家门口时,丽丽的父亲因为琐事将丽丽关在了屋子里。潜在变量如丽丽的父亲是实验中不可控制的外部因素,但它会突然且随机地影响实验的响应,并混淆结果。总之,没有什么比用“潜在变量”来描述丽丽的父亲更为合适的了。 在第二个周日,丽丽因为心情不好而没有如期出现。毕竟她是人,不能期望她的行为总是保持与统计的规律一致。这就是在实验中经常会遇到的实验误差(Experimental Error) |