java判断是不是汉字

在Java中判断一个字符是否是汉字可以通过检查其Unicode编码是否落在汉字编码范围之内。汉字在Unicode编码中主要分布在以下范围：基本汉字（4E00-9FFF）、扩展A（3400-4DBF）、扩展B（20000-2A6DF）、扩展C（2A700-2B73F）、扩展D（2B740-2B81F）、扩展E（2B820-2CEAF）、扩展F（2CEB0-2EBEF）以及其他一些零散区块。判断一个字符是否为汉字，关键在于核实其Unicode编码是否在上述范围之内，同时还需注意排除中日韩兼容汉字以及其他类似区块，因为它们包含的并不全是汉字。另一种方法是使用Java内置的Character类中的方法进行判断。

一、UNICODE编码法判定

使用Unicode编码范围来判断一个字符是否是汉字的一个普遍方法：

public boolean isChineseByUnicode(char c) {
    Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
    if (ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
            || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
            || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
            // 从Java 8开始支持更多的汉字范围判断
            || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
            || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
            || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
            || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
            || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_F
            // 高并低用区，虽然很多是图形符号，但也包含一些汉字
            || ub == Character.UnicodeBlock.HIGH_SURROGATES
            || ub == Character.UnicodeBlock.LOW_SURROGATES
            || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS) {
        return true;
    } else {
        return false;
    }
}

这个方法涵盖了大多数汉字的Unicode范围，包括了普通汉字和扩展汉字块。

二、CHARACTER类方法判定

利用Java内置的Character类中的方法进行判断也是一种可行的方式。Character类提供了isIdeographic(int codePoint)方法来判断指定字符是否为表意字符：

public boolean isChineseByCharacter(char c) {
    if (Character.isIdeographic(c)) {
        return true;
    } else {
        return false;
    }
}

此方法简洁直观，能够直接判断大多数汉字字符。

三、汉字常用性规则判定

对于绝大多数情况，汉字都集中在基本汉字区块（4E00-9FFF），可以有一个简单但效率更高的判断：

public boolean isChineseByRange(char c) {
    if (c >= 0x4E00 && c <= 0x9FA5) { // 粗略地覆盖了基本汉字区
        return true;
    }
    return false;
}

此方法的优点在于执行速度快，但是由于只包含了基本汉字区块，对于一些生僻字或新增的汉字可能无法覆盖。

四、正则表达式判定

还可以使用正则表达式来匹配汉字字符。这种方法编写简单，易于理解：

public boolean isChineseByRegex(String str) {
    String regex = "[\\u4E00-\\u9FA5]+"; // 只匹配基本汉字区
    return str.matches(regex);
}

这种方法同样只涵盖了基本汉字区，对于生僻字和扩展区块不适用，且由于涉及到正则表达式的解析，性能上不如直接的编码范围判断。

五、综合方法

为了综合上述方法的优势，可以创建一个更全面的汉字判断方法：

public boolean isChinese(char c) {
    // 综合判断字符是否为汉字
    boolean isBasicChinese = c >= 0x4E00 && c <= 0x9FA5; // 基本汉字区
    boolean isOtherChinese = 
        (c >= 0x3400 && c <= 0x4DBF) || // 扩展A
        (c >= 0x20000 && c <= 0x2A6DF) || // 扩展B
        (c >= 0x2A700 && c <= 0x2B73F) || // 扩展C
        (c >= 0x2B740 && c <= 0x2B81F) || // 扩展D
        (c >= 0x2B820 && c <= 0x2CEAF) || // 扩展E
        (c >= 0x2CEB0 && c <= 0x2EBEF); // 扩展F
    return isBasicChinese || isOtherChinese;
}