文本描述
基于Linux的Oracle 10G RAC管理维护学习手记 2. failover................................................................................................................................................18 (1).TAF以及实现...........................................................................................................................19 (2).FCF以及实现...........................................................................................................................20 3.Load Balance........................................................................................................................................20 五.其他维护实施相关/案例.............................................................................................................................21 1.集群中主机名的更改...........................................................................................................................21 2.集群中IP地址的更改..........................................................................................................................24 3.集群中节点的删除/添加.......................................................................................................................25 4.升级与迁移..........................................................................................................................................25 5.高可用架构:RAC+DG..........................................................................................................................25 六.RAC监控优化..........................................................................................................................................26 1.思路及等待事件说明...........................................................................................................................26 2.性能诊断..............................................................................................................................................26 基于Linux的Oracle 10G RAC管理维护学习手记 第1页 一 RAC相关以及基础知识 1.CRS简介 从Oracle 10G开始,oracle引进一套完整的集群管理解决方案----Cluster-Ready Services,它包括集群 连通性.消息和锁.负载管理等框架.从而使得RAC可以脱离第三方集群件,当然,CRS与第三方集群件可以 共同使用. (1).CRS进程 CRS主要由三部分组成,三部分都作为守护进程出现 <1>CRSD:资源可用性维护的主要引擎.它用来执行高可用性恢复及管理操作,诸如维护OCR及管 理应用资源,它保存着集群的信息状态和OCR的配置,此进程以root权限运行. <2>EVMD:事件管理守护进程.此进程还负责启动racgevt进程以管理FAN服务器端调用,此进程以 root权限运行 <3>OCSSD:集群同步服务进程.管理集群节点的成员资格,它以fatal方式启动,因此进程发生故障 将导致集群重启,以防止数据坏死.同时,CSS还维护集群内的基本锁功能,以及负责监控voting disk的脑 裂故障。它以Oracle权限运行 此外,还有一个进程OPRCD,他是集群中的进程监视程序,仅当平台上的CRS不使用厂商群件时候 才出现,且无论运行了多少实例,每个节点只会存在一组后台进程. 来看一下这几个守护进程: rac1-> cat /etc/inittab ................................. # Run xdm in runlevel 5 x:5:respawn:/etc/X11/prefdm –nodaemon h1:35:respawn:/etc/init.d/init.evmd run >/dev/null 2>&1 </dev/null h2:35:respawn:/etc/init.d/init.cssd fatal >/dev/null 2>&1 </dev/null h3:35:respawn:/etc/init.d/init.crsd run >/dev/null 2>&1 </dev/null (2).Virtual IP Address Oracle 10G RAC下,有3个重要的IP. ① Public IP② Private IP③ Vitual IP Public IP为数据库所在主机的公共网络IP,Private IP被用来私有高速互联,而Oracle较前版本,增加 了一个虚拟IP,用来节点发生故障时候更快的故障转移,oracle利用每个节点的lisnter侦听VIP,一旦发 生故障,VIP将进行实际的故障切换,从而在其他的可用的节点上保持联机,从而降低客户应用程序意识 到节点故障所需要的时间。 VIP与Public IP必须在同一个网段内。 (3).OCR,Voting disk OCR(oracle集群注册表)和Voting disk(表决磁盘)是CRS下的两个重要组件,它们必须放在共享磁盘 基于Linux的Oracle 10G RAC管理维护学习手记 第2页 上,以保证每个节点都能对其访问。 OCR包含了针对集群的一些配置信息,诸如:集群数据库中的节点列表.CRS应用程序.资源文件以及 事件管理器的授权信息。他负责对集群内的资源追踪,从而获知资源正在哪里运行,应该可以在哪里运行。 Voting disk用来解决split-brain故障:如果节点丢失了与集群中其他节点的网络连接,这些冲突由表决 磁盘中的信息来解决。 2.ASM相关 ASM (Automated Storage Management) 是Oracle 10G引入的一种文件类型,他提供了直接的I/O读写, 是RAC体系下一套不错的对数据文件存储规划的方案. ASM可以自动管理磁盘组,并提供数据冗余和优化. 后面章节会就ASM的管理以及ASM下的RAC管理,单独讲解. 3.RAC存储/网络需求 图1.3 RAC体系架构 (1).存储需求 共享存储器是RAC的重要组件之一。它要求集群内的节点可以同时读写物理磁盘。目前,支持共享 存储的文件类型也比较多,像Oracle自身提供的ASM,OCFS2以及三方提供的群集文件系统,都是可以 选择的类型。 表1.1.1显示了RAC 体系架构下各部分所支持的存储类型 (暂不考虑三方集群文件系统,就ASM/raw device/OCFS2和普通文件系统来说) 基于Linux的Oracle 10G RAC管理维护学习手记 第3页 表1.3.1RAC 体系架构下各部分所支持的存储类型 类别支持的存储类型存储位置 备注 Cluster 软件 OCFS2,普通文件系统 共享磁盘/本地磁盘 OCR,Voting disk OCFS2,raw device 共享磁盘 数据库软件 OCFS2,普通文件系统 共享磁盘/本地磁盘 数据库文件 OCFS2,raw device,ASM 共享磁盘 归档日志文件 OCFS2,ASM,普通文件系统 共享磁盘/本地磁盘 备份/恢复文件 OCFS2,ASM,普通文件系统 共享磁盘/本地磁盘 闪回日志文件 OCFS2,ASM 共享磁盘 (2).网络需求 每个节点主机上至少需要2张物理网卡,以便分配公有IP和私有IP地址。对于私有IP连接,每个 集群节点通过专用高速网络连接到所有其他节点,目的在于集群上的节点和实例交换信息状态(锁信息, 全局缓存信息等)。通过高速互联,Cache Fusion得以实现。 在实际环境中,高速互联至少需要配置GB级的以太网,而且,最好不要使用交叉直连。较好的解决 方案是节点间配置专用交换机,这样避免因为集群上一个节点宕掉而影响另外节点的正常工作。 4.其他 (1).后台进程 图1.4.2显示了RAC体系下的进程关系。 图1.4.2 Backgroud Process in RAC 10g 由于要维护多个实例同时访问资源所必需的锁定,因此,同single instance相比,RAC下增加了额外 的一些进程。专门针对RAC的进程有如下几种: 1.LMS(Global Cache Service)全局缓存服务进程 LMS负责为缓存融合请求在实例间传递块。当一致性请求的时候,LMS首先回滚块,创建块的 读一致性映像(CR),然后将该一致性版本通过高速互联传递到处理此请求的远程实例中的前台进程