注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

展望曙光!

充满阳光的社会一定会到来!!!

 
 
 

日志

 
 

孙经先:蒋正华先生关于“非正常死亡1700万人”研究中的重大学术错误  

2011-10-23 16:06:21|  分类: 文革专题 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

蒋正华先生关于“非正常死亡1700万人”< xmlnamespace prefix ="o" ns ="urn:schemas-microsoft-com:office:office" />

研究中的重大学术错误

孙经先

内容提要:蒋正华先生1985年承担了国家研究课题,他在研究中估算我国困难时期非正常死亡人口约为1700万。他的研究在国内是最有代表性的,并且产生了重大影响。

他的这一研究的核心内容是用数学方法建立了一个数学模型。利用这个模型,他通过计算获得了他的上述主要结论。

我们从学术的角度对蒋正华的研究进行了分析,认为这一研究存在着一系列学术上的重大错误和问题。由于这些错误,作者根据这一研究所得到的我国“在困难时期非正常死亡总人数约为1700万人”的结论,是没有任何学术依据的。

说明:由于蒋正华先生关于这一问题的研究,本质上是数学的,所以我们这篇文章也不得不使用较多的数学符号和公式。为了便于更多的读者了解本文的观点,我们本文中只使用中学数学的符号。只要具有中学的数学知识,就可以阅读并理解本文的基本内容。

 

引言

蒋正华先生在1985年承担了国家研究课题,他在研究中估算我国困难时期非正常死亡人口约为1700万。他的研究在国内是最有代表性的,并且产生了重大影响。

我们通过中国学术期刊全文数据库,查阅了蒋正华先生收入该数据库的全部论著,并通过其他途径,找到了他关于上述问题的主要研究文献。这些文献是:

1】蒋正华,李南:《中国人口动态估计的方法与结果》,载《中国人口年鉴(1987)》(中国社会科学院人口研究室编),经济管理出版社,1988年,94106页。

2】蒋正华:《中国人口动态参数的识别》,载《中国人口科学》1987年第1期。

3】蒋正华,李南:《中国人口动态参数的校正》,载《西安交通大学学报》1986年第3期。

    4】袁永熙主编《中国人口总论》,中国财政经济出版社,1991年,615621页(这一部分是由蒋正华先生写的)

在以上四篇文献中,内容比较完整的是【1】,其他三篇与【1】的内容基本相同,但都写得很简略。这四篇文章的核心内容是用数学方法建立了一个数学模型,利用这个模型,作者通过计算获得了他的主要结论。由于【1】的内容比较完整,所以下面我们通过对【1】的分析来叙述我们的观点。

文章【1】的核心部分是第二节的第二小节“建立参数估计模型”、第三小节“参数模型求解”和第四小节“一致优化”。在这三小节里,文章的作者利用数学方法建立了一个数学模型。这个模型是作者整个研究的核心部分。

我们从学术的角度对这一模型进行了分析,认为这一研究存在着一系列学术上的重大错误和问题。

下面我们把文章【1正文中的这部分内容按照顺序全部列出并逐段进行评注。

在下文中,方框里的内容是文章【1】的原文(原文有一些明显的错误,我们均保持原样),方框以外的内容是我们的评注。

 

1 该文完全忽视了户籍迁移对户籍人口

产生的重大影响

 

  建立参数估计模型:

若已有两个普查年的人口年龄数据和其中一年的生命表(例如、从上一年推出的1981年中人口年龄构成和生命表,再加上1964年人口年龄构成即可作为参数估计的基本数据)则可写出人口分年龄数< xmlnamespace prefix ="v" ns ="urn:schemas-microsoft-com:vml" /> 以及 年的留存率 数列,按以上指示,迁移可以忽略时

                 (5)

评注1: 在这一段叙述中,有些符号的含义没有交代清楚。如果以1964年到1981年作为讨论期间,则在这段叙述中, 1964年年龄为 的人数(其中 ) 1981年年龄为 的人数(其中 ) 年年龄为 的人口留存率 (原文错写为 )1981年年龄为 的人口留存率。

评注2:  原文中(5)式的写法不完整,应写为

  .   (5)

评注3:  这里该文使用了一个基本假定“迁移可以忽略时”。

人口迁移的影响真的可以忽略吗?

人口迁移有两类,一类是国际移民,一类是国内人口迁移。由于这一时期我国国际移民人数很少,所以国际移民的影响可以忽略不计。但是对于国内人口迁移的影响,我们就必须加以认真的讨论了。

文章【1重点研究的是上个世纪五十年代末到六十年代初我国人口变动问题。正是在1956年到l964年这一个很短的期间内,我国先后出现了两次迁移方向相反的人口大迁移运动。一次是1956年到1960年上半年期间的由农村到市镇的人口大迁移,另一次是1960年下半年到1964年期间的由市镇到农村的人口大迁移。这一期间我国人口大迁移涉及人数之多,时间之短都是史无前例的。

1958年以前,我国全国范围内严格的户籍管理制度还没有建立起来,已有的法规也存在着重大的漏洞。1958年全国人大常委会通过并以国家主席令形式颁布了《中华人民共和国户口登记条例》。这一条例标志着我国户籍管理制度在全国范围内开始建立。1953年到1964年,正是我国户籍管理制度从没有全面建立(特别是在广大农村地区)到逐步建立、并逐步相对完善的时期。

1960年前后,正是上述两次空前的迁移方向相反的人口大迁移运动的交汇点,也正是我国户籍管理制度发生根本性变化的转折点。在空前的人口大迁移中,户籍管理制度的不健全和漏洞,必然导致大量人口在迁移中出现重报虚报和漏报户籍的现象。所以从人口统计和户籍管理的角度讲,以上这两个重大事件毫无疑问会对这一时期我国的户籍人口统计数据产生重大的影响,这一影响无论如何也是不能忽略不计的。

我们今年6月在《马克思主义研究》刊物(2011年第六期)上公开发表的学术论文《关于我国20世纪60年代人口变动问题的研究》(这篇文章的部分内容也见我们在《乌有之乡》等网站上以孙景泽为笔名发表的文章《破解国家统计局户籍统计数据矛盾之谜——关于我国六十年代人口变动问题》)中指出:正是这两次迁移方向相反的人口大迁移运动中所出现的户籍重报、虚报和漏报现象(及其对这些行为的纠正)造成了这一时期我国户籍人口的急剧异常变动,造成了1960年至1964年期间我国户籍统计人口减少2654万。

上述事实表明,在这一历史时期中,我国国内户籍迁移运动对户籍统计人口的异常变动产生的影响是决定性的,是无论如何也不能忽略不计的。

所以,文章【1所使用的基本假定“迁移可以忽略”是错误的。

                    6

       

则有                                 7

评注4:  原文中(7)式的写法不完整,应写为

    .       7

评注5:  由于留存率 是小于1的正数,所以由 可知 是负数。由(7)式可以看出, 是负数。但是作者在后面的讨论中却完全忘记了这一点。

 

2.该文中生命表的变换不能单纯用数学方法推导

 

附录中证明,在两次普查年间任何一年生命表函数 的变换 可表示为

                    8

式中 是基准生命表 的变换。

评注6这里原文(8)式有错误,并且写的不完整,应该改为:

    .  8

评注7:原文附录中给出的(8)式的证明方法是纯数学的。我们要指出的是:

第一,(8)式是作者所提出的关于人口统计学的一个假设(我们特别注意到,作者在研究中取 )。这一假设是否成立,必须从人口统计学的角度加以论证。但是我们阅读了全文,没有发现作者从人口统计学的角度对这一假设进行任何说明。

第二,这一假设既然是人口统计学的一个假设,它就不可能单纯的用数学方法加以证明。作者在附录中试图用单纯数学的方法证明这一假设,是不可能的。

第三,作者给出的数学证明是错误的,由于这涉及到了过多的专门数学术语,我们就不再进一步说明了。我们只需指出一点,作者在证明中把矩阵放到了分母上,这是一个不应有的初等错误。学过矩阵的人都知道,矩阵不能放在分母上。

 

3            该文中参数个数的选取是错误的

 

的取法也在附录中给出,最高人口年龄在本文中取为100岁。

评注8:原文附录中给出的“ 的取法”的理由如下:

      

或有解,这时增加 个数已无必要,或无解,这时应减少 个数。

评注9 短短的一句话中就出现了一系列错误。首先,按照正文的符号,这里的式子应写为

  .  *

评注10:上述问题是一个具有 个未知数 个线性方程构成的线性方程组,作者这里把方程组中方程的个数数错了。由于这一原因,原文中的“ ”应当改为“ ”。

评注11:原文中作者写出了式子 作者显然忽视了这一式子是不可能成立的。如果把1964年至1981年作为讨论区间,则 (见我们的评注1),于是 就变成为 ,因此 这是不可能的,因为 是参数的个数, 必须是整数。

评注12:对于作者这段话中的“或有解,这时增加 个数已无必要,或无解,这时应减少 个数”,从上下文可以看出,作者在这里实际上想说的话是:“如果线性方程组 有解,这时增加 个数已无必要,但可以减少 的个数; 如果线性方程组 无解,这时应减少 的个数。”文章在这里出现了一个重大的学术错误。学过线性代数的人都知道,对于线性方程组最基本的事实是:在线性方程组方程个数不变而无解的时候,必须增加(而绝不是减少)未知数 个数。作者在这里却减少了未知数 个数!

由于这一错误,作者在下一段中的全部叙述就都错了。

个数上限;即估计精度上限。 个数越多,1中表示精度越高,但此精度受估计年间隔 限制, 越大,估计精度上限越小。

例:     

例:    

即对于19641981年,估计精度上限为4阶矩。

评注13:这一段的叙述全部都错了。这一段中的“ 个数上限”应改为“ 个数下限”;“ ”应改为 ,其中 的整数部分;“      ”应改为“如果把1964年至1981年作为讨论区间,则 ,如果把1953年至1964年作为讨论区间,则 ”。

在本文中,为计算方便,仅考虑前两阶矩 ,即双参数估计。

评注14我们前面已经指出:如果把1964年至1981年作为讨论区间,则 ,即至少应考虑五参数估计,而作者却考虑双参数估计,这样数学模型就已经完全错了。

评注15即使按照作者前面给出的 ,那么作者也应该把“双参数估计”“三参数估计”“四参数估计”都做一下讨论,这些不同的参数估计导致的结果是会有很大差别的,作者也清楚地知道,参数的个数越多,准确度就越大。但是作者这里只选择了“双参数估计”。

作者选择“双参数估计”的唯一理由是“为计算方便”。作者在这里研究的是一个重大问题,在整个研究最关键的这个问题上,作者却采取了一个学术工作者不应有的态度:“为计算方便”。

由此可以知道作者在这一研究中所获得的全部结果都是“为计算方便”而获得的。这些结果究竟有多少可信性,读者由此就可以做出判断。

参数个数的选取( 的选取)是整个这一数学模型中最重要的事情,在确定参数个数的过程中,该文所犯的是根本性的学术错误。由于这一错误,整个这一数学模型就注定要变得没有任何意义了。

 

4.该文所建立的基本数学模型是错误的

 

现在,我们希望确定参数 ,使各年生命表确定后,使后一次人口普查年龄人口倒推到前一次人口普查时刻相应年龄人口与普查统计数据误差最小,即

             9

式中 岁人口的生命表留存率估计值。

评注16从数学角度讲,这里的正确提法应当是:现在,我们希望确定参数 的数值,使各年生命表确定后,后一次人口普查年龄人口倒推到前一次人口普查时刻相应年龄人口与普查统计数据相等,即

    .  9

这里作者把一个明显的方程组问题写成了最小值问题,这又是一个根本性的错误。

评注17 即使是最小值问题,原文(9)式的写法也是不完整的,准确的写法应该是“对每一个

   

都达到最小值。”除此以外作者在这里还漏写了约束条件。

评注18:在原文中作者选取的是“双参数模型”,所以该模型中 的总个数为 。该文首先是在1964年到1981年期间讨论这一问题的,即 所以作者提出的这一问题的实质是要确定34个参数 的数值,使得含有这34个参数(变量)84个各自独立的目标函数同时都达到最小值。有一定数学思维的人都会看出,这样的问题在数学上是无解的。这就表明这个数学模型从根本上是错误的。

 

5. 该文对其建立的数学模型作了错误的转化

 

由于一致逼近在数字上不易实现,(9)式改为另一种2次型目标函数而将一致性要求留待下步进行:

       (10)

本文原用前二阶矩,目标函数为

    (11)

评注19 最小值问题(9)是不能转化为目标函数(11)的最小值问题的,这里作者显然把以下三个最小值问题混淆了:

(一)            确定参数 ,使每一个

都达到最小值;

(二)            确定参数 ,使每一个

都达到最小值;

(三)确定参数 ,使得由(10)(或者(11))式定义的目标函数达到最小值。

人们很容易证明,以上三个最小值问题是完全不同的三个问题,在双参数估计下它们是不能互相转化的。

(11)最小,即可解得两次普查年间各年的参数 , 双参数模型于是可写为

                (12)

式中符号详见附录。

评注20 作者的再一次推导又出现了重大错误,这一错误出现在附录中。

于是目标函数为

其中独立参数为 个,约束 个。

(注:作者在该文附录中使用的符号与正文不一致,我们按正文作了修改。)

评注21附录中的目标函数与正文是不一致的,正文中的目标函数为

.

这两个目标函数对应的最小值问题是两个完全不同的最小值问题,它们的解是完全不一样的,作者却错误的把正文中的目标函数改成了附录中的另一个目标函数。

评注22由评注5可知对所有的 来说, 都是负数,所以人们很容易看出附录中目标函数

没有最小值(它的最小值是负的无穷大),作者竟然还要求它的最小值!

评注23:附录中的目标函数与正文中的目标函数是不同的,所以由附录中的目标函数导出的(12)式对于正文中的目标函数来说,显然是错误的。

我们已经指出, 是个负数,但是在附录中,作者却对负数做了开平方运算,这又是一个不应有的初等错误。

 

6. 该文多次错误的改变了凸规划问题的约束条件

 

  参数模型求解:

附录中证明了式(12)所表示的是一个凸规划问题,约束条件保证了留存率为正且小于1,由于式(12)的约束为开集,一般来说可能无解,因此将问题改为

                13

评注24:作者在这里使用了一个错误的结论:约束为开集的凸规划问题一般来说可能无解。我们很容易举出最简单的例子说明这一结论是错误的:在约束条件 下求凸函数 的最小值,这是一个典型的约束为开集的凸规划问题,这一问题显然有解 ,所以约束为开集的凸规划问题可以有解,作者这里使用的结论是完全错误的。

评注25:作者依据一个错误的结论就改变了约束条件,从而改变数学模型,这从数学上讲是毫无道理的。

另一方面,作者仅仅因为“可能无解”就改变数学模型,这在数学逻辑上也是荒谬的。

评注26作者在这里把约束条件改为“ ”(作者文中将这一条件错写为 ),就必须从人口统计学的角度说明为什么要做这样的改动,但在文章中作者对此没有做任何说明。

若取后一次普查为标准表,在留存率不大于标准表对应留存率假定下,还可将约束写为

评注27这里作者使用了一个关于人口统计学的新的假定:“若取后一次普查为标准表,则留存率不大于标准表对应留存率”,但是作者没有对为什么使用这一假定做出任何一点说明。这样作者在没有做任何说明的情况下,再一次改变了约束条件,改变了数学模型。

任何一个了解线性规划和非线性规划的人都知道,约束条件是不能随意改变的。但是作者却在这里连续两次改变了约束条件(一次依据错误的理由,一次对理由没有做任何说明)。

 

7.该文抛弃最优解的理由是错误的

 

这是一个典型凸规划问题,最优解存在且唯一。但在约束起作用时,最优解必在约束集边界达到,因此本文不求其最优解……

评注28:短短的一段话,作者就出现了数学推断中的两个错误。

作者说“这是一个典型凸规划问题,最优解存在且唯一”。作者在这里讨论的是有约束的凸规划问题,对有约束的凸规划问题,最优解不一定唯一。如果作者要对本问题做出这一判断,就必须加以证明。但是作者在这里没有给出任何证明。

评注29作者说“最优解必在约束集边界达到”。这一结论是错误的。例如:在约束条件 下求凸函数 的最小值,这是一个典型的有约束的凸规划问题,这一问题显然有最优解 ,这个最优解就不在约束集的边界上。

评注30在这里作者终于找到了问题的唯一的最优解,既然这样,把这个最优解求出来就是了。但是作者却把这个唯一的最优解抛弃了。抛弃的理由作者在附录中做了说明。

当约束起作用时, 最优解必在约束界面达到, 这可能使某个 不合题意。

评注31:这个理由是完全错误的。

第一,我们前面已经指出,最优解可以不在边界上;

第二,从前面的叙述我们知道,作者所加的约束条件为:

在这个约束条件下所得到的最优解必然满足“ ”,不可能出现“使某个 ”的情况。

第三,这个问题的数学模型是确定的,所有的数据也是确定的,按照这个模型求出最优解在数学上没有任何困难,所以是不是有“某个 ”是容易知道的,而作者却在这里却含含糊糊说“可能使某个 ”。到底有、还是没有这样的 ,从数学逻辑的角度讲,作者必须明确回答这一问题。仅仅因为可能使某个 就断定这个解“不合题意”而“不求其最优解”,这在数学逻辑上是极为荒谬的。

 

8. 究竟什么是最小偏离最优解?

 

因此本文不求其最优解,而是按附录中方法先找一个 的经验初值 ,然后求以上问题的对 最小偏离最优解。 先由历年的死亡率按近似方法求出,再作经验校正,校正的死亡率不少于已知的各年死亡率,如不满足,重新校正。

评注32作者已经断定问题有最优解,但是又依据错误的理由“不求其最优解”。然后作者提出要求问题的“最小偏离最优解”。“最小偏离最优解”是作者提出的一个关键性的新概念,但是什么叫“最小偏离最优解”,作者却没有给出任何定义、说明和解释。从数学的角度讲,作者完全可以提出这个新概念,但是作者决不能仅仅只提出一个新术语,他必须说明以下问题:

“最小偏离最优解”明确的数学含义是什么?

“最小偏离最优解”在人口统计学中的含义是什么?

“最小偏离最优解”与最优解之间的关系是怎样的?

“最小偏离最优解”是不是存在?是不是唯一?

严肃的学术工作者必须回答这些问题。可是对这些重要问题,文章的作者没有给出任何一句说明。

 

9.作者重新建立了新的数学模型,但没有

说明任何理由

 

(四)一致优化。

由于(13)的解并不满足(9)式要求, 即按(13)中求得的各年生命表倒推时各年龄上误差分布不一致,需进行一致优化,这里的目标函数为

其中 为权系数,但并不是人为地给定,而是由对一致误差的要求确定,这将在附录中说明。

评注33这里作者又提出了一个新的数学模型。既然要提出新的模型,就必须说明采用这个模型的理由,说明这个模型的数学意义和人口统计学意义,说明这个模型和原来的模型之间的关系。但该文对这些重要问题却没有做出任何说明!

评注34作者这里说“由于(13)的解并不满足(9)式要求,”所以“需进行一致优化”,那么该文最后的结果是否满足“(9)式要求”呢?作者对这一重要问题也没有做任何回答。我们在评注18中已经指出,不可能存在这样的解答“满足(9)式要求”。

评注35我们利用纲量分析的方法对这个模型进行了分析,可以判断,这个模型中的目标函数是错误的,应该改为:

.

评注36该文的正文中给出了一个目标函数,但是在附录中却又使用了另外一个完全不同的目标函数:

(附录中使用的符号与正文不一致,我们已经按正文作了修改。)我们不知道作者究竟要考虑哪一个目标函数?从这篇文章可以看出,作者在研究这个重大问题时,任意的、不说明任何理由的、或者是依据根本不存在的理由,就多次提出和随意改变数学模型,改变目标函数,这反映了作者在数学思维逻辑上的混乱。

 

10.该文的一致优化公式是错误的

 

一致优化公式为:

                14

符号说明与推导过程见附录。

这里的一致优化过程可使各年龄上的误差一致地小于预先给定的任意正数 越小对 的修正越大,数 不能过小使 偏离太大从而使最终生成的生命表与标准表相比过于奇异。由于1982年普查年龄报告误差为6.15‰, 要求 <6.15‰并无意义,本文对196481 =7‰,对19531964 =10‰,一致优化的结果 即是各年生命表中的留存率函数,可由 按一般人口学方法生成各年生命表,再求出各年按龄别人口数。

评注37这里作者对误差 的数值作了限定,但是文章在附录中对 的使用是错误的。在附录中,作者设

                   (15)

这一式子的写法存在着实质性的错误。按照误差的真正含义,这一式子应写为

作者在(15)式的基础上推导出了一致优化公式,由于(15)式的实质性错误,由此推导出的一致优化公式(14)也是错误的,作者根据这一错误的一致优化公式计算出来的全部结果也都是错误的。

 

在上面,我们对作者这篇文章正文中的数学模型部分逐段进行了评注,指出了该研究所包含的一系列重大的学术方面的错误和问题。由于这些错误,作者根据这一研究所得到的我国“在困难时期非正常死亡总人数约为1700万人”的结论,也就没有任何学术依据了。

必须指出,除了前面已经指出的错误外,该文还存在着其他一系列的学术错误。限于篇幅,我们就不再一一指出了。

  评论这张
 
阅读(279)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论