Double精度损失与浮点数二进制表示问题

在Java语言和计算机组成原理中，浮点数的处理和表示都遵循IEEE 754标准。这个标准定义了浮点数在计算机内部如何存储，以及如何转换成二进制形式。下面是关于这两个领域中浮点数处理的总结：

Java中的浮点数

Java主要通过两种数据类型来处理浮点数：float和double。

float：
- 单精度32位IEEE 754浮点数。
- 提供了大约6-7位十进制的精度。
- 主要用于节省存储空间，在精度要求不是非常高的场合使用。
double：
- 双精度64位IEEE 754浮点数。
- 提供了大约15位十进制的精度。
- 是Java中处理小数时的默认类型，用于需要高精度的计算。

计算机组成原理中的浮点数存储

浮点数在计算机中的存储遵循IEEE 754标准，包含三个部分：符号位、指数位和尾数位。

符号位：决定浮点数的正负。
指数位：表示浮点数的指数部分，使用偏移量（bias）表示以覆盖正负指数。
尾数位：表示浮点数的有效数字部分，通常包含一个隐含的最高位1（对于规范化数）。

浮点数的二进制转换

将浮点数转换为二进制涉及以下步骤：

确定符号位：正数为0，负数为1。
将浮点数分解为二进制科学计数法形式，即1.xxxxx * 2^n。
计算指数位：实际指数加上偏移量。
确定尾数位：去掉二进制科学计数法中的隐含1，剩下的部分即为尾数。

一个小数转换为二进制表达形式

将小数转换为二进制表达形式涉及将整数部分和小数部分分别转换。这里，我们详细介绍这个过程：

整数部分的转换

将整数部分除以2。
记录余数。
更新整数部分为商。
重复步骤1-3，直到整数部分为0。
将记录的余数倒序排列，得到整数部分的二进制表示。

小数部分的转换

将小数部分乘以2。
记录结果的整数部分（0或1）作为二进制位。
更新小数部分为原结果去除整数部分后的余数。
重复步骤1-3，直到小数部分为0或达到所需的精度。
得到的序列即为小数部分的二进制表示。

示例：转换0.625为二进制

假设我们要转换小数0.625为二进制。

小数部分的转换：

0.625 × 2 = 1.25 → 记录整数部分1，更新小数部分为0.25。
0.25 × 2 = 0.5 → 记录整数部分0，更新小数部分为0.5。
0.5 × 2 = 1.0 → 记录整数部分1，更新小数部分为0。

因此，0.625的二进制表示为.101。

对于更复杂的小数，这个过程可能会产生无限循环小数，这意味着在实际应用（如计算机内部表示）中，必须在达到一定的精度后截断。

让我们通过一个示例，例如将小数10.625转换为二进制，来演示整个过程。

小数10.625转换为二进制表达形式是1010.101。这个过程展示了如何将一个包含小数点的数值分别转换为其整数部分和小数部分的二进制表示，并将这两部分组合起来。

总结

因此，我们表示一个小数的精度是有指数部分和尾数部分控制的，指数部分小了，我们尾数就大（我们能表示数值范围就大了，但是会损失精度），指数部分大了，我们尾数部分就小了（精度上升但数范围会变小）。比如我们将小数转换成二进制的时候，基本上都是乘2确定的，所以基本上只有尾数为5的小数可以被准确表示。但是很多数字在二进制存储是一个无限循环的二进制，会被截断。因此造成损失精度。