Oracle字符集由那些部分组成

数据库 Oracle
以下的文章主要是对Oracle字符集的实际应用的解析,如果你对这一技术,心存好奇的话,以下的文章将会揭开它的神秘面纱。

我们都知道Oracle字符集有N多种,最初我们应用比较广泛的字符集是ASCII,但是因为ASCII所支持的相关字符是很有限的,因此又相继出现了很多的编码方案,这些编码方案大部分都是包括了ASCII的。EBCDIC编码是另一个比较基本的编码,它的部分字符采用了和ASCII不同的编码值,因此两者是不兼容的基本编码方案。

采用EBCDIC编码的比较少,目前主要是IBM 的系统采用,如AS400及S390系统,大部分的系统都是基于ASCII编码的。

 

由于亚洲国家的Oracle字符集相对复杂一些,因此一般都使用了两个及以上的字节进行编码的方案。对于简体中文,GB2312码是国家1981年实施的编码标准,通行于大陆。新加坡等地也使用此编码。GBK编码是GB2312码的扩展,是1995年发布的指导性规范,它在字汇一级支持 ISO/IEC 10646-1 和GB 13000-1 的全部中日韩 (CJK) 汉字(20902字)。

目前***的汉字字符集是2000年的GB18030,它是取代GBK1.0的正式国家标准。该标准收录了27484个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。目前简体WINDOWS的缺省内码还是GBK。

 

由于编码方案太多且彼此之间不兼容,存在互相之间存在冲突的情况,即对于同一个编码数值,在两种不同的编码方案中代表的是两个不同的字符。这样对于一些WEB应用来说,由于多种语言文字的同时使用及存储,需要采用一种统一的字符集。

为此,国际标准化组织(ISO)制定了ISO 10646码表,而Unicode协会制定了Unicode规范,这两个体系刚开始时是独立建立的,在1991年,双方都认识到世界不需要两个不兼容的Oracle字符集。于是它们开始合并双方的工作成果,并为创立一个单一编码表而协同工作。

从Unicode2.0开始,Unicode项目采用了与ISO 10646-1相同的字库和字码。目前两个项目仍都存在,并独立地公布各自的标准。Unicode协会现在的***版本是2006年的Unicode 5.0。

 

Oracle数据库的字符集

Oracle的字符集名字一般由以下部分组成:语言或区域、表示一个字符的比特位数、标准字符集名称(可选项,S或C,表示服务器或客户端)。Oracle字符集UTF8与UTFE不符合此规定,其它基本都是这种格式。

  1. set nls_lang=AMERICAN_AMERICA.UTF8  
  2. set nls_lang=SIMPLIFIED CHINESE_AMERICA.UTF8  

 

 

对于US7ASCII,表示区域是US,用7个比特位表示一个字符,标准的字符集名称为ASCII。

 

对于中文字符集ZHS16GBK,表示简体中文(ZHT为繁体中文),一个字符需要16位比特,标准的字符集名称为GBK。而ZHS16CGB231280表示简体中文,一个字符需要16位比特,标准的字符集名称为GB231280,属于我们前面提过的1981年发布的GB2312-80标准。

虽然我们说,GBK编码标准是GB2312编码标准的扩展,但是数据库字符集ZHS16GBK与ZHS16CGB231280之间却不是严格的超集与子集的关系,主要是有些汉字的编码在两个Oracle字符集中的数值是不同的,因此它们进行字符集转换时会出现问题。

 

在本文中,有时候使用的是标准字符集名称,有时候又需要使用Oracle字符集的名称,因此希望大家明白两者之间的对应关系。

 

Oracle数据库有国家字符集(national character set)与数据库字符集(database character set)之分。两者都是在创建数据库时需要设置的。

国家字符集主要是用于NCHAR、NVARCHAR、NCLOB类型的字段数据,而数据库字符集使用很广泛,它用于:CHAR、VARCHAR、CLOB、LONG类型的字段数据;表名、列名、PL/SQL中的变量名;输入及保存在数据库的SQL和PL/SQL的源码。

 

Oracle支持的Unicode字符集有以下几种,下面的列表给出了字符集的名称、对应的数据库版本范围、采用的Unicode的版本。

 

AL24UTFFSS:是Oracle***种支持Unicode的Oracle字符集,从7.2版本开始使用,但是它支持的Unicode版本为1.1,因此从9i开始就不支持此字符集了。

 

UTF8:是Oracle从Oracle8开始使用的属于UTF-8编码的字符集,从Oracle8.0到Oracle8.16,Unicode版本为2.1,而Oracle817到10g,采用的Unicode标准为3.0

 

UTFE:用于EBCDIC码平台上的数据库Unicode字符集。因此它属于专用系统使用的字符集,其它属性与UTF8基本相同。

 

AL32UTF8:是从Oracle9开始使用的属于UTF-8编码的字符集,与UTF8相比,它采用的Unicode版本更新,在10g版本中使用的是Unicode 4.01标准,而UTF8因为兼容性的考虑,在10g版本中用的是Unicode 3.0标准。

 

AL16UTF16:是Oracle***种采用UTF-16编码方式的字符集,从Oracle9开始使用,是作为缺省的国家字符集使用,它不能被用作数据库的字符集。

这是因为数据库的字符集决定了SQL与PL/SQL源码的编码方式,对于UTF-16这种使用固定的两个字节来表示英文字母的编码方案来说,确实不适于用作数据库的Oracle字符集,Oracle目前采用的数据库字符集都是基于ASCII或EBCDID作为子集的编码方案。

 

【编辑推荐】

  1. Oracle 字符串split的相关实际应用代码介绍
  2. Oracle创建Split 与Map 函数的代码示例
  3. Oracle数据库的安全,PL/SQL的SQL注入
  4. Oracle查询分页的存储过程实际代码示例
  5. Oracle merge into的实操示例
责任编辑:佚名 来源: 博客园
相关推荐

2023-12-05 12:11:52

JVMCPU

2011-04-11 11:05:12

Oracle字符集

2010-04-30 10:16:22

Oracle字符集

2009-11-20 16:52:35

Oracle字符集

2011-04-11 10:59:33

Oracle字符集

2011-05-20 13:24:39

oracle字符集

2010-05-06 18:01:07

Oracle Expr

2010-04-28 17:29:07

Oracle字符集

2010-05-06 14:40:59

Oracle字符集

2009-07-29 13:42:04

Oracle中文显示

2010-04-13 13:11:34

Oracle汉字显示

2010-04-13 12:56:16

Oracle字符集

2010-04-13 12:23:34

Oracle数据库

2010-04-27 13:21:58

Oracle数据字符集

2010-04-21 09:49:10

Oracle数据库字符

2010-04-13 13:33:37

Oracle字符集

2010-04-13 12:42:59

Oracle连接

2010-04-12 15:40:48

Oracle SGA

2010-04-23 10:18:42

Oracle数据库字符

2010-04-13 13:24:04

Oracle数据库
点赞
收藏

51CTO技术栈公众号