Java char 数组是否始终是有效的 UTF-16(Big Endian)编码?

Is a Java char array always a valid UTF-16 (Big Endian) encoding?(Java char 数组是否始终是有效的 UTF-16(Big Endian)编码?)
本文介绍了Java char 数组是否始终是有效的 UTF-16(Big Endian)编码?的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着跟版网的小编来一起学习吧!

问题描述

假设我将 Java 字符数组 (char[]) 实例编码为字节:

Say that I would encode a Java character array (char[]) instance as bytes:

  • 每个字符使用两个字节
  • 使用大端编码(将最高有效 8 位存储在最左边的字节中,将最低有效 8 位存储在最右边的字节中)

这会始终创建有效的 UTF-16BE 编码吗?如果不是,哪些代码点会导致编码无效?

Would this always create a valid UTF-16BE encoding? If not, which code points will result in an invalid encoding?

这个问题与 这个关于 Java char 类型的问题 和 这个关于Java字符串内部表示的问题.

推荐答案

没有.您可以创建包含您想要的任何 16 位值的 char 实例——没有任何东西将它们限制为有效的 UTF-16 代码单元,也没有将它们的数组限制为有效的 UTF-16 序列.甚至 String 也不要求其数据是有效的 UTF-16:

No. You can create char instances that contain any 16-bit value you desire---there is nothing that constrains them to be valid UTF-16 code units, nor constrains an array of them to be a valid UTF-16 sequence. Even String does not require that its data be valid UTF-16:

char data[] = {'uD800', 'b', 'c'};  // Unpaired lead surrogate
String str = new String(data);

Unicode 的 第 3 章 中规定了有效 UTF-16 数据的要求标准(基本上,一切都必须是 Unicode 标量值,并且所有代理项必须正确配对).您可以使用 CharsetEncoder 测试 char 数组是否是有效的 UTF-16 序列,并将其转换为 UTF-16BE(或 LE)字节序列:

The requirements for valid UTF-16 data are set out in Chapter 3 of the Unicode Standard (basically, everything must be a Unicode scalar value, and all surrogates must be correctly paired). You can test if a char array is a valid UTF-16 sequence, and turn it into a sequence of UTF-16BE (or LE) bytes, by using a CharsetEncoder:

CharsetEncoder encoder = Charset.forName("UTF-16BE").newEncoder();
ByteBuffer bytes = encoder.encode(CharBuffer.wrap(data)); // throws MalformedInputException

(如果你有字节,同样使用 CharsetDecoder.)

(And similarly using a CharsetDecoder if you have bytes.)

这篇关于Java char 数组是否始终是有效的 UTF-16(Big Endian)编码?的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持跟版网!

本站部分内容来源互联网,如果有图片或者内容侵犯了您的权益,请联系我们,我们会在确认后第一时间进行删除!

相关文档推荐

How to send data to COM PORT using JAVA?(如何使用 JAVA 向 COM PORT 发送数据?)
How to make a report page direction to change to quot;rtlquot;?(如何使报表页面方向更改为“rtl?)
Use cyrillic .properties file in eclipse project(在 Eclipse 项目中使用西里尔文 .properties 文件)
Is there any way to detect an RTL language in Java?(有没有办法在 Java 中检测 RTL 语言?)
How to load resource bundle messages from DB in Java?(如何在 Java 中从 DB 加载资源包消息?)
How do I change the default locale settings in Java to make them consistent?(如何更改 Java 中的默认语言环境设置以使其保持一致?)