51工具盒子

依楼听风雨
笑看云卷云舒,淡观潮起潮落

【Data Structure】数据结构解构其二:算法及其度量

一、什么是算法? {#一什么是算法}

  • 算法:算法是解决特定问题求解步骤的描述,在计算机中表现为指令的有限序列,并且每条指令表示一个或多个操作。

二、算法的特性 {#二算法的特性}

2.1 输入和输出 {#21-输入和输出}

  • 输入:零个或多个
  • 输出:一个或多个,一定要有输出,可以是打印输出,也可以是返回一个或多个数据值。

2.2 有穷性 {#22-有穷性}

算法在执行有限的步骤后,自动结束而不会出现无限循环,并且每一个步骤在可接受的时间内完成。

2.3 确定性 {#23-确定性}

算法的每一步骤都具有确定的含义,不出现二义性。即,算法在一定条件下,只有一条执行路径,相同的输入只能有唯一的输出结果。算法的每个步骤都被精确定义且无歧义。

2.4 可行性 {#24-可行性}

算法的每一步都必须是可行的,也即是说,每一步都能够通过执行有限次数完成。

三、算法设计的要求 {#三算法设计的要求}

3.1 正确性 {#31-正确性}

算法的正确性是指算法至少应具有输入、输出和加工处理无歧义性、能正确反映问题的需求、能够得到问题的正确答案。
"正确性"的四个层次:

  1. 算法程序没有语法和语义错误。
  2. 算法程序对于合法的正确输入数据能够产生满足要求的正确的输出结果。
  3. 算法程序对于非法输入数据能够得出满足规格说明的结果。
  4. 算法程序对于精心选择的、甚至刁难的测试数据都有满足要求的输出结果。
    要实现算法的正确性,以上四点的难度由低到高,尤其是4,基本上不可能穷举任何可能的输入结果来验证算法的正确性,因此一般情况下把层次1-3作为一个算法正确性的要求。

3.2 可读性 {#32-可读性}

算法的设计的另一目的是为了方便开发人员阅读、理解和交流。可读性是算法(也包括实现它的代码)好坏很重要的标志。

3.3 健壮性 {#33-健壮性}

健壮性:当输入数据不合法时,算法也能做出相关处理,而不是产生异常或莫名其妙的结果。

3.4 时间效率高和存储量低 {#34-时间效率高和存储量低}

时间效率指的是算法的执行时间,对于同一个问题,如果有多个算法能够解决执行时间短的算法效率高,执行时间长的效率低。存储量需求指的是算法在执行过程中需要的最大存储空间,主要指算法程序运行时所占用的内存或外部硬盘存储空间。

综上,好的算法,应该具有正确性、可读性、健壮性、高效率和低存储量的特征。

四、算法效率的度量方法 {#四算法效率的度量方法}

4.1 事后统计法 {#41-事后统计法}

事后统计方法:这种方法主要是通过设计好的测试程序和数据,利用计算机计时器对不同算法编制的程序的运行时间进行比较,从而确定算法效率的高低。
但是该方法有很大的缺陷:

  • 必须依据算法事先编制好程序,这通常需要花费大量的时间和精力。如果编制出来发现它根本是很糟糕的算法,不是竹篮打水一场空吗?
  • 时间的比较依赖计算机硬件和软件等环境因素,有时会掩盖算法本身的优劣。要知道,现在的一台四核处理器的计算机,跟当年286、386、486等老爷爷辈的机器相比,在处理算法的运算速度上,是不能相提并论的,而所用的操作系统、编译器、运行框架等软件的不同,也可以影响它们的结果;就算是同一台机器,CPU使用率和内存占用情况不一样,也会造成细微的差异。
  • 算法的测试数据设计困难,并且程序的运行时间往往还与测试数据的规模有很大关系,效率高的算法在小的测试数据面前往往得不到体现。比如10个数字的排序,不管用什么算法,差异几乎是零。而如果有一百万个随机数字排序,那不同算法的差异就非常大了。那么我们为了比较算法,到底用多少数据来测试,这是很难判断的问题。
    基于以上缺陷,因此不被用于算法优劣的评价标准。

4.2 事前分析估算方法 {#42-事前分析估算方法}

  • 事前分析估算方法:在计算机程序编制前,依据统计方法对算法进行估算。
  • 一个用高级程序语言编写的程序在计算机上运行时所消耗的时间取决于下列因素:
    1. 算法采用的策略、方法。
    2. 编译产生的代码质量
    3. 问题输入的规模。
    4. 机器执行指令的速度
  • 抛开这些与计算机硬件和软件有关的因素,一个程序的运行时间,依赖于算法的好坏和问题的输入规模。所谓问题输入规模是指输入量的多少。
  • 在分析程序的运行时间时,最重要的是把程序看成是独立于程序设计语言的算法或一系列步骤。

4.3 函数的渐进增长 {#43-函数的渐进增长}

  • 在输入规模n没有限制的情况下,只要超过某一特定的数值N,一个程序的算法执行次数函数总是大于另一个函数,就称之为渐进式增长的。
  • 函数的渐近增长:给定两个函数f(n)和g(n),如果存在一个整数N,使得对于所有的n>N,f(n)总是比g(n)大,那么,我们说f(n)的增长渐近快于g(n)。
  • 此外当N足够大时,我们还可以忽略函数中的常数项,因为与高次项相比常数项并不重要。
  • 最高次项的指数越大,随着执行次数n的增长,结果也会越增长越快。
    image.png
  • 判断一个算法的效率时,函数中的常数和其他次要项长城可以忽略,而更应该关注主项(最高阶项)的阶数。
  • 这其实就是事前估算法的理论依据,通过算法时间复杂度来估算算法时间效率。

4.4 算法时间复杂度 {#44-算法时间复杂度}

  • 定义:在进行算法分析时,语句总的执行次数T(n)是关于问题规模n的函数,进而分析T(n)随n的变化情况并确定T(n)的数量级。算法的时间复杂度,也就是算法的时间量度,记作:T(n)=O(f(n))。它表示随问题规模n的增大,算法执行时间的增长率和f(n)的增长率相同,称作算法的渐近时间复杂度,简称为时间复杂度。其中f(n)是问题规模n的某个函数。这样用大写 O()来体现算法时间复杂度的记法,我们称之为大O记法
  • 推导大O阶方法:
    1. 用常数1取代运行时间中的所有加法常数。
    2. 在修改后的运行次数函数中,只保留最高阶项。
    3. 如果最高阶项存在且不是1,则去除与这个项相乘的常数。
    4. 得到的结果就是大O阶。
  • 阶数分类:
    分析算法的复杂度的关键就是要分析循环结构的运行情况。
    image.png
    常用时间复杂度所耗费的时间从小到大依次是:
    image.png
    • 常数阶 :算法执行次数与问题的规模无关,且执行时间恒定的算法,称之为具有O(1)的时间复杂度,又称为常数阶复杂度。(注意无论这个常数是多大,都用O(1)表示,分支结构是常数阶)
    • 线性阶 :循环体内的语句为常数阶,则时间复杂度为O(n),即线性阶
    • 对数阶 :由于循环体内迭代步长是原来的2倍,即2^x=n可就计算得到n=log2(n),所以简称为O(logn)
    • 平方阶 :一般出现在嵌套循环和函数嵌套的情况下,外层循环和内层循环的循环次数均为n,则记为O(n^2)即平方阶,对于内外层迭代次数不是n,但与n有关的m时,时间复杂度为O(n*m)
      • 例如下面这个嵌套循环,时间复杂度为:

        int i,j;
        for(i = 0; i < n; i++){
        	for(j = i; j < n; j++)/*注意此处的j的初始值为i而不是0*/
        	{
        		/时间复杂度为O(1)的程序步骤序列**/
        	}
        }
        
      • 由于当i=0时,内循环执行了n次,当i=1时,执行了n-1次,...当i=n-1时,执行了1次。所以总的执行次数为:
        image.png

    • 其他阶数太过糟糕,因此一般不做讨论。

4.5 最坏情况和平均情况 {#45-最坏情况和平均情况}

  • 最坏情况运行时间是一种保证,那就是运行时间将不会再坏了。在应用中,这是一种最重要的需求,通常,除非特别指定,我们提到的运行时间都是最坏情况的运行时间。
  • 平均运行时间是所有情况中最有意义的,因为它是期望的运行时间。
  • 般在没有特殊说明的情况下,都是指最坏时间复杂度。

4.6 算法空间复杂度 {#46-算法空间复杂度}

算法的空间复杂度通过计算算法所需的存储空间实现,算法空间复杂度的计算公式记作:S(n)=0(f(n)),其中,n为问题的规模,f(n)为语句关于n所占存储空间的函数。
若算法执行时所需的辅助空间相对于输入数据量而言是个常数,则称此算法为原地工作,空间复杂度为 0(1)。
通常,我们都使用"时间复杂度"来指运行时间的需求,使用"空间复杂度"指空间需求。当不用限定词地使用"复杂度"时,通常都是指时间复杂度。显然我们这本书重点要讲的还是算法的时间复杂度的问题。

赞(0)
未经允许不得转载:工具盒子 » 【Data Structure】数据结构解构其二:算法及其度量