. : : ClassiClub ForuM : : .

会员中心 论坛帮助 日历事件 标记论坛已读
返回   精品技术论坛 » 技术论坛 » 『软件使用』

『软件使用』: 电脑软件推荐, 电脑软件使用, 经验分享



发表新主题 关闭主题
 
主题工具
lroc
 
lroc 的头像
待认证激活
 
资 料:
注册日期: Jul 2002
帖子: 20,826 声望值: 2
精华: 2,解答: 16
#31 旧 2011-01-19, 04:03:11 默认
lroc 当前离线  

引用:
作者: tiao 查看帖子
根据数据来选择模型,这个是统计中最要不得的,
模型必须在拿到具体数据前就要确定的,
从数学上来讲,不管数据如何,都可以使得拟合的曲线经过每个点,
得到一个perfect的拟合
统计?为什么呢?

如果你分段操作,象计算机图形学里一样,你可以得到在控制点上多级可导的连续曲线。
但如果你先指定函数类型,怎么做到这点的?比如,怎么也不可能拿冥函数来逼近正弦曲线吧。


That which is not worth doing is not worth doing well.
robot
 
robot 的头像
热心会员
 
资 料:
注册日期: Jul 2000
帖子: 4,260 声望值: 16
精华: 0,解答: 3
#32 旧 2011-01-19, 13:29:29 默认
robot 当前离线  

引用:
作者: tiao 查看帖子
根据数据来选择模型,这个是统计中最要不得的,
模型必须在拿到具体数据前就要确定的,
从数学上来讲,不管数据如何,都可以使得拟合的曲线经过每个点,
得到一个perfect的拟合
做回归必须在拿到数据前就确定,这种情况比较少见吧,常见的是做完试验,汇出曲线,然后根据曲线建回归模型,高级的是自建模型,“傻瓜”的是用已有模型。象你说的这种情况,先确定模型,然后拿到具体数据,这只能算是验证吧,感觉有点儿类似于统计里的判别分析。
关于回归模型,我也反对乱拟合。确实,理论上讲,任何一组数据,都可以用一元N次方程完美拟合,但这种模型除了拟合度高外,一点儿意义都没有。所以我才在贴子里说:“选的原则是尽量参数要少,拟合度要高,最好拟合的参数还能有意义”。
在实际中,我还发现很多人做的回归模型,不管曲线如何,直接一元一次方程,那只能算趋势,不能算拟合。
总结一下:没觉得根据数据选择模型有什么错,但反对拿来数据乱拟合。

补充一句:对于已知模型的数据,你说的没错,但对于未知模型的数据,你说的“模型必须在拿到具体数据前就要确定的”就值得商榷了。就楼主的数据来说,就是个未知模型的数据,我那样做回归,最后给出的建议是幂函数,觉得没什么错误。

此帖于 2011-01-19 13:39:12 被 robot 编辑. . 原因: 补充一点儿
tiao
 
tiao 的头像
核心会员
 
资 料:
注册日期: Jun 2002
帖子: 2,159 声望值: 5
精华: 0
#33 旧 2011-01-20, 04:49:10 默认
tiao 当前离线  

引用:
作者: robot 查看帖子
做回归必须在拿到数据前就确定,这种情况比较少见吧,常见的是做完试验,汇出曲线,然后根据曲线建回归模型,高级的是自建模型,“傻瓜”的是用已有模型。象你说的这种情况,先确定模型,然后拿到具体数据,这只能算是验证吧,感觉有点儿类似于统计里的判别分析。
关于回归模型,我也反对乱拟合。确实,理论上讲,任何一组数据,都可以用一元N......
确定统计模型是比较主观的,没有任何假设的化,可以随便决定使用什么模型,在拿到数据前确定模型,是为了保证客观性,当然,做完分析以后,还要作模型检验,譬如cross-validation,如果模型真的很不合适,譬如在楼主的例子里面,估计作一次回归,R**2应该很小,在这样的情况下,通常要适当调整模型,譬如增加因变量,增加交叉变量,或者对自变量,因变量作变换,比较常用的是log变换等。你的分析中的模型,确实拟合的非常漂亮,如果不是用软件来选择的话,这样的函数估计估计很难被选到。还有很多人喜欢用神经网络来分析,拟合相当好,不过cross-validation的结果一般很差。另外一个原因,也是你提到的,模型一般希望简介,容易解释的,譬如最常见的线性回归就是这样,而你上面拟合的模型,解释起来就麻烦一些。

关于你的最后一段,一般提出新模型的话,肯定要有比现存模型更好的地方,而作为普通的应用,这个很难做到吧。你说的也对,如果是以前从来没有分析过的数据,那么很难确定模型,只能通过变量之间的关系来初步确定的,然后逐步甄选。

此帖于 2011-01-20 04:55:12 被 tiao 编辑. .
tiao
 
tiao 的头像
核心会员
 
资 料:
注册日期: Jun 2002
帖子: 2,159 声望值: 5
精华: 0
#34 旧 2011-01-20, 05:57:07 默认
tiao 当前离线  

引用:
作者: lroc 查看帖子
统计?为什么呢?

如果你分段操作,象计算机图形学里一样,你可以得到在控制点上多级可导的连续曲线。
但如果你先指定函数类型,怎么做到这点的?比如,怎么也不可能拿冥函数来逼近正弦曲线吧。
楼下robot已经解释了,用多项式函数就可以,
tacoal
 
tacoal 的头像
终极会员
 
资 料:
注册日期: Aug 2000
帖子: 10,333 声望值: 3
精华: 0,解答: 29
#35 旧 2011-01-20, 07:31:26 默认
tacoal 当前离线  

引用:
作者: tiao 查看帖子
根据数据来选择模型,这个是统计中最要不得的,
模型必须在拿到具体数据前就要确定的,
从数学上来讲,不管数据如何,都可以使得拟合的曲线经过每个点,
得到一个perfect的拟合
对于特性未知的系统(黑箱),先确定模型类型是不可能的。

在实际应用上,多用简单的模型来拟合,因此perfect的拟合也是没有实际意义的。当年吕永哉之所以出名,就是把复杂的钢坯加热过程的温度分布,用简单的准二维模型来描述。
发表新主题 关闭主题

主题工具

论坛规则  发帖规则
不可以发表主题
不可以回复帖子
不可以上传附件
不可以编辑自己的帖子
论坛启用 vB 代码
版面启用 表情符号
版面启用 [IMG] 代码
版面禁用 HTML 代码


所有时间均为北京时间, 现在的时间是 20:26:45.

本论坛带宽由迅通网络提供
SSL证书由TrustAsia提供

Copyright © 2000 - 2019 ClassiClub Forum All Rights Reserved.
粤ICP备09123456号