Patching Exadata QFSP July 2015

Hey, everyone! I’m here with this shortly post about patching Exadata QFSP July 2015. My teammate and I have recently patched our X2-2 Half Rack environment from 11.2.3.3.0.131014.1 to 12.1.2.1.2.150617.1 so I want to THANK them (Vitor Eduardo, Claudio Angerami, Bruno Palma, Anselmo Ribeiro and Edmilson Carmo) for the great job we’ve done. There are no big news, nothing really changed from the other post that I made before, the big key is to pay attention on the ‘Known Issues’ and address them as founded. Also, analyze the RPMs that will be deleted in order to guarantee same functionality as before. After that, if everything is fine your platform should be ready to patch.

So let’s go for it! .Just a point here, we changed the real hostnames and IPs from the servers, cells and switches.

  • IB SWITCHES UPGRADE:

[root@exa01db01 patch_12.1.2.1.2.150617.1]# ./patchmgr -ibswitches /root/ib_switches -upgrade

With arguments: -ibswitches /root/ib_switches -upgrade
2015-08-08 17:01:37 -0300 [INFO] pid file: /var/log/exadatatmp/_EXA_AXE_patchmgr.lock : 98220
PID TTY TIME CMD
2015-08-08 17:01:42 -0300 ++++++++++++++++++ Logs so far begin ++++++++++
2015-08-08 17:01:42 -0300 ++++++++++++++++++ Logs so far end ++++++++++
2015-08-08 17:01:42 -0300 1 of 1 :SUCCESS: DO: Initiate upgrade of InfiniBand switches to 2.1.5-1. Expect up to 15 minutes for each switch
2015-08-08 17:45:23 -0300 ++++++++++++++++++ Logs so far begin ++++++++++
—– InfiniBand switch update process started Sat Aug 8 17:01:42 BRT 2015 —–
[NOTE ] Log file at /var/log/cellos/upgradeIBSwitch.log

[INFO ] List of InfiniBand switches for upgrade: ( exa01sw-ib2 exa01sw-ib3 )
[PROMPT ] Use the default password for all switches? (y/n) [n]:
[PROMPT ] Updating only 2 switch(es). Are you sure you want to continue? (y/n) [n]:
[SUCCESS ] Verifying Network connectivity to exa01sw-ib2
[SUCCESS ] Verifying Network connectivity to exa01sw-ib3
[SUCCESS ] Validating verify-topology output
[INFO ] Proceeding with upgrade of InfiniBand switches to version 2.1.5_1
[INFO ] Master Subnet Manager is set to “exa01sw-ib2” in all Switches

[INFO ] ———- Starting with IBSwitch exa01sw-ib2
[SUCCESS ] Disable Subnet Manager on exa01sw-ib2
[SUCCESS ] Copy firmware packages to exa01sw-ib2
[SUCCESS ] exa01sw-ib2 is at 2.1.3-4. Meets minimal patching level 2.1.3-4
[SUCCESS ] Verifying that /tmp has 120M in exa01sw-ib2, found 138M
[SUCCESS ] Verifying that / has 80M in exa01sw-ib2, found 198M
[SUCCESS ] Verifying that exa01sw-ib2 has 120M free memory, found 239M
[SUCCESS ] Verifying host details in /etc/hosts and /etc/sysconfig/network-scripts/ifcfg-eth[0,1] for exa01sw-ib2
[SUCCESS ] Verifying that exa01sw-ib2 has at least 1 NTP Server, found 1
[INFO ] Manually validate the following entries Date:(YYYY-MM-DD) 2015-08-08 Time:(HH:MM:SS) 17:03:03
[SUCCESS ] Execute plugin check for Patch Check Prereq on exa01sw-ib2
[SUCCESS ] Pre-update validation on exa01sw-ib2
[INFO ] Starting upgrade on exa01sw-ib2 to 2.1.5_1. Please give upto 10 mins for the process to complete. DO NOT INTERRUPT or HIT CTRL+C during the upgrade
[SUCCESS ] Execute plugin check for Patching on exa01sw-ib2
[SUCCESS ] Load firmware 2.1.5_1 onto exa01sw-ib2
[SUCCESS ] Disable Subnet Manager on exa01sw-ib2
[SUCCESS ] Verify that /conf/configvalid is set to 1 on exa01sw-ib2
[SUCCESS ] Set SMPriority to 5 on exa01sw-ib2
[INFO ] Rebooting exa01sw-ib2. Wait for 240 secs before continuing
[SUCCESS ] Reboot exa01sw-ib2
[SUCCESS ] Restart Subnet Manager on exa01sw-ib2
[INFO ] Starting post-update validation on exa01sw-ib2
[SUCCESS ] Inifiniband switch exa01sw-ib2 is at target patching level
[SUCCESS ] Verifying host details in /etc/hosts and /etc/sysconfig/network-scripts/ifcfg-eth[0,1] for exa01sw-ib2
[SUCCESS ] Verifying that exa01sw-ib2 has at least 1 NTP Server, found 1
[INFO ] Manually validate the following entries Date:(YYYY-MM-DD) 2015-08-08 Time:(HH:MM:SS) 17:19:42
[SUCCESS ] Firmware verification on InfiniBand switch exa01sw-ib2
[SUCCESS ] Execute plugin check for Post Patch on exa01sw-ib2
[SUCCESS ] Post-check validation on IBSwitch exa01sw-ib2
[SUCCESS ] Update switch exa01sw-ib2 to 2.1.5_1

[INFO ] ———- Starting with InfiniBand Switch exa01sw-ib3
[SUCCESS ] Disable Subnet Manager on exa01sw-ib3
[SUCCESS ] Copy firmware packages to exa01sw-ib3
[SUCCESS ] exa01sw-ib3 is at 2.1.3-4. Meets minimal patching level 2.1.3-4
[SUCCESS ] Verifying that /tmp has 120M in exa01sw-ib3, found 138M
[SUCCESS ] Verifying that / has 80M in exa01sw-ib3, found 199M
[SUCCESS ] Verifying that exa01sw-ib3 has 120M free memory, found 237M
[SUCCESS ] Verifying host details in /etc/hosts and /etc/sysconfig/network-scripts/ifcfg-eth[0,1] for exa01sw-ib3
[SUCCESS ] Verifying that exa01sw-ib3 has at least 1 NTP Server, found 1
[INFO ] Manually validate the following entries Date:(YYYY-MM-DD) 2015-08-08 Time:(HH:MM:SS) 17:24:40
[SUCCESS ] Execute plugin check for Patch Check Prereq on exa01sw-ib3
[SUCCESS ] Pre-update validation on exa01sw-ib3
[INFO ] Starting upgrade on exa01sw-ib3 to 2.1.5_1. Please give upto 10 mins for the process to complete. DO NOT INTERRUPT or HIT CTRL+C during the upgrade
[SUCCESS ] Execute plugin check for Patching on exa01sw-ib3
[SUCCESS ] Load firmware 2.1.5_1 onto exa01sw-ib3
[SUCCESS ] Disable Subnet Manager on exa01sw-ib3
[SUCCESS ] Verify that /conf/configvalid is set to 1 on exa01sw-ib3
[SUCCESS ] Set SMPriority to 5 on exa01sw-ib3
[INFO ] Rebooting exa01sw-ib3. Wait for 240 secs before continuing
[SUCCESS ] Reboot exa01sw-ib3
[SUCCESS ] Restart Subnet Manager on exa01sw-ib3
[INFO ] Starting post-update validation on exa01sw-ib3
[SUCCESS ] Inifiniband switch exa01sw-ib3 is at target patching level
[SUCCESS ] Verifying host details in /etc/hosts and /etc/sysconfig/network-scripts/ifcfg-eth[0,1] for exa01sw-ib3
[SUCCESS ] Verifying that exa01sw-ib3 has at least 1 NTP Server, found 1
[INFO ] Manually validate the following entries Date:(YYYY-MM-DD) 2015-08-08 Time:(HH:MM:SS) 17:41:09
[SUCCESS ] Firmware verification on InfiniBand switch exa01sw-ib3
[SUCCESS ] Execute plugin check for Post Patch on exa01sw-ib3
[SUCCESS ] Post-check validation on IBSwitch exa01sw-ib3
[SUCCESS ] Update switch exa01sw-ib3 to 2.1.5_1
[INFO ] InfiniBand Switches ( exa01sw-ib2 exa01sw-ib3 ) updated to 2.1.5_1
[SUCCESS ] Overall status

—– InfiniBand switch update process ended Sat Aug 8 17:45:23 BRT 2015 —–
2015-08-08 17:45:23 -0300 ++++++++++++++++++ Logs so far end ++++++++++
2015-08-08 17:45:23 -0300 1 of 1 :SUCCESS: DONE: Upgrade InfiniBand switch(es) to 2.1.5-1.
================PatchMgr run ended 2015-08-08 17:45:23 -0300 ===========


  • CELL NODES UPGRADE:

For this one, you need to execute -reset_force and -cleanup procedures before upgrade, as below:

[root@ndcing01db01 patch_12.1.2.1.2.150617.1]# ./patchmgr -cells /root/cell_group -reset_force
================PatchMgr run started 2015-08-08 00:21:13 -0300 ===========
With arguments: -cells /root/cell_group -reset_force
2015-08-08 00:21:13 -0300 [INFO] pid file: /var/log/exadatatmp/_EXA_AXE_patchmgr.lock : 72003
PID TTY TIME CMD
[INFO] Reset force was successful.
2015-08-08 00:21:18 -0300 :DONE: reset_force
================PatchMgr run ended 2015-08-08 00:21:18 -0300 ===========

[root@ndcing01db01 patch_12.1.2.1.2.150617.1]# ./patchmgr -cells /root/cell_group -cleanup
================PatchMgr run started 2015-08-08 00:21:45 -0300 ===========
With arguments: -cells /root/cell_group -cleanup
2015-08-08 00:22:50 -0300 :Working: DO: Cleanup …
2015-08-08 00:22:51 -0300 ++++++++++++++++++ Logs so far begin ++++++++++
[INFO] Reset force was successful.
2015-08-08 00:22:51 -0300 ++++++++++++++++++ Logs so far end ++++++++++
2015-08-08 00:22:51 -0300 :SUCCESS: DONE: Cleanup
================PatchMgr run ended 2015-08-08 00:22:51 -0300 ===========

After that, you are ready to patch the cells in a rolling fashion:

[root@ndcing01db01 patch_12.1.2.1.2.150617.1]# ./patchmgr -cells /root/cell_group -patch -rolling
================PatchMgr run started 2015-08-08 00:26:02 -0300 ===========
With arguments: -cells /root/cell_group -patch -rolling
2015-08-08 00:27:07 -0300 :Working: DO: Check cells have ssh equivalence for root user. Up to 10 seconds per cell …
2015-08-08 00:27:07 -0300 ++++++++++++++++++ Logs so far begin ++++++++++
2015-08-08 00:27:08 -0300 ++++++++++++++++++ Logs so far end ++++++++++
2015-08-08 00:27:08 -0300 :SUCCESS: DONE: Check cells have ssh equivalence for root user.
2015-08-08 00:27:11 -0300 :Working: DO: Initialize files, check space and state of cell services. Up to 1 minute …
2015-08-08 00:27:28 -0300 ++++++++++++++++++ Logs so far begin ++++++++++
.
.
.

I didn’t posted the whole log as this is a big one, but it is here so feel free to take a look at it. And finally we went to database nodes.

  • DB NODES UPGRADE:

[root@exa01db01 5.150701]# ./dbnodeupdate.sh -u -l /u01/install/quarterly_full_jul2015/21339383/Infrastructure/12.1.2.1.2/ExadataDatabaseServer_OL6/p21151982_121212_Linux-x86-64.zip -s

After this procedure thee server get reboot and it takes a while to bring up. If everything is fine with the patching, complete the patching:

[root@exa01db01 5.150701]# ./dbnodeupdate.sh -c

That’s it guys, upgrade finished successfully, everything went smoothly. Hope you enjoyed it!

Exadata Storage: What is the Secret?

Hello guys!! Today I’ll post about some technologies from Exadata Storage. IMHO, Oracle has highly score when it launch this hardware for it database. The newest version of it is an X5-2 that can has it configuration using flash disks on the storage which it’s called Extreme Flash. Ok, let’s take a look on this machine and the most interesting features that are beside it.

This hardware is made of database servers which host the whole database and clusterware instances. The data is present on the storage nodes (cell nodes) and also the Exadata system software.The communication between this servers uses two infiniband switches which can handle data transfer up to 40 Gbps. Besides that there is a management switch and the PDUs. When we talk about High Availability, this machine is all about it.

OK, but what is the deal about this hardware because if it is all about hardware everyone can “copy and paste” it? It is all about avoiding or reducing I/O that the software can provide. And this can only be achieved because there is a communication from the databases and the storage servers using a protocol called iDB that allows intelligent I/O to be done. When the I/O is requested from the database nodes to the cell nodes, the cell node knows what kind of I/O is occurring and how to deal with it.

Most of the features that will be mentioned ahead are about the Smart Scan concept. This behaviour can only occur when Direct Path is performed on the database, so sequential reads will no have benefit from Smart Scan. Bellow are mentioned some of this features that minimize I/O on the Exadata:

  1. Column Filtering: As the name means, there is a filtering about the columns so when your query that retrieves only one column from a table that has 10 columns, only the selected column is returned to the database server. On a normal environment, the storage would retrieve all the columns and the SGBD would filter it;
  2. Predicate Filtering: Similar to the Column Filtering feature, but this one is happens on the row level. The Exadata Storage can retrieve only the rows that satisfy your query;
  3. Cell Offloading: Normally, the work can be offloaded to the cells. An example would be a query that count all the employees from a company (select count(*) from hr.employees), is work is done on the cell nodes and only the result goes back to the db node. There could be cases that when there is a high workload on the cells, it can’t offload the work and all the rows goes back to the database node as it would in a normal environment;
  4. Storage Indexes: The cell nodes have the ability to analyze the queries so they can build the Storage Indexes (SI). This structure resides on the memory of the cell nodes and they are lost on every restart from the cells. This feature can provide information about the minimum and maximum values from a column, so the Exadata knows exactly what are the blocks to hit. Each table can have a maximum of eight SI;
  5. Join Processing: The Exadata uses the Bloom Filtering technique which is a probabilist method when you join two tables to efficiently test result sets, this can only be used on database using version equal and above to 11.2.0.4;

So the Exadata storage has a technology addressed to the highest data throughput per transaction and this is not recommended for an OLTP environment? No exactly, there are three features that I see as better designed to OLTP environments:

  1. Exadata Smart Flash Cache: This isn’t similar to the Database Smart Flash Cache feature. This feature has a method of write called write-back cache which the data can be first written on the ESFC and than can be write asynchronously on the cell disks presented on the storage nodes. Also, you can choose to com compress the data on the ESFC which gives you a better data usage capacity;
  2. Smart Flash Cache Log: There is a small area which is built on the flash cache from each cell nodes designed to redo logs writes. This is known as Smart Flash Cache Log, so when the cell nodes attempts to write a redo log request it tries to write on both cell disks and flasch cache. The first it gets, it acknowledge the request back to the db node speeding redo logs write which is excellent for OLTP environments;
  3. Join Processing: this feature is a good one for both DW and OLTP environments;

I understand that Smart Flash Cache with write-back enabled can be a good feature for DW environments too, but when we move to high workload environment with high load of data, the data could probably not fit into Smart Flash Cache. Besides that, the Exadata Database Machine has a special feature called HCC (Hybrid Columnar Compression) where the data could be compressed at high levels reducing I/O and enhance the performance for this machine. Well guys, that’s all for now! See you!

Storage Exadata: Arquitetura

É isso ai rapaziada! Seguindo com mais um post da série sobre Exadata Database Machine, e pegando uma dica do meu amigo David Siqueira, irei abordar a arquitetura do storage desta máquina. Os servidores que possuem os discos que são apresentados para os bancos que estão no Exadata, possuem atualmente (X5-2) dois tipos a serem escolhidos: Alta Capacidade (High Capacity – HC); ou Extreme Flash (EF). Um servidor com discos de alta capacidade possui doze discos SAS de 10K possuindo 4TB cada um, totalizando 48TB de dado raw, se levarmos em consideração que o diskgroup ficará com a redundância normal, o valor cai para algo em torno de 20TB. O ganho na configuração de extreme flash é quando estamos buscando melhor a escrita no banco, pois pelos dados da Oracle, a escrita pode apresentar o dobro da performance se comparado ao disco de alta capacidade, porém a capacidade de armazenamento do EF cai para 25% em relação ao HC.

Os discos físicos presentes nas controladoras de disco de cada cell node são apresentados como luns ao servidor e baseados nestes que podem ser construídos os cell disks para o software do sistema de storage do Exadata. A visão da controladora de disco é que os discos físicos representam o nível mais baixo de abstração de storage, já para a visão do software do Exadata, os cell disks apresentam o maior nível de abstração de storage dos discos físicos, enquanto que as luns apresentam o menor nível. Seguindo no raciocínio, tendo os cell disks montados, um ou mais grid disks podem ser criados a partir deste, para serem apresentados para a instância do ASM onde enfim serão montados ou adicionados aos diskgroups.

zonebit

 

Os grid disks são montados a partir da faixa (offset) mais “quente” do cell disk, por este motivo que em uma configuração padrão os diskgroups são criados seguindo a ordem de: dados; recuperação; e DBFS. A imagem ao lado ilustra um disco físico, onde as faixas cinzas que estão localizadas na área mais longe do centro do disco, são as que apresentam maior velocidade do disco (hot portion), enquanto que as faixas no tom de salmão possuem menor velocidade (cold portion).

 

Somente a Oracle ACS está autorizada a modificar a estrutura dos cell disks após a entrega da máquina (salvo em casos que exista um acompanhamento via SR no suporte da Oracle). Caso a empresa que adquiriu o Exadata Database Machine altere a estrutura, esta poderá perder o suporte do produto pois a autonomia da empresa para modificar a arquitetura dos discos somente compete a nível dos grid disks em diante. Abaixo segue uma imagem detalhando esta arquitetura desde os discos físicos até os grid disks:

Exadata Storage

O que muda no padrão de adição de grid disks de um ambiente convencional é que, deve-se informar os endereços de IPs (Infiniband 01 e 02) do servidor de storage e o nome dos grid disks que serão apresentados para adicionar ou criar estes nos disk groups, já que na configuração máxima de um Exadata poderá ter até 14 nós de células / servidores de storage (não levando em consideração o Expansion Storage Pack que pode chegar a 19 células). Cada grid disk possui o padrão de nomenclatura como <diskgroup_name>_<cell_disk_type>_<cell_disk_number>_<cell_hostname>. Abaixo estão listados os comandos para listar os discos físicos, lunscell disks e grid disks, e também como adicionar os grid disks aos diskgroups.

physical disk

parted lun

lun

griddisk

SYS@SQL> ALTER DISKGROUP <DISKGROUP_NAME> ADD DISK ‘o/<IP_IB01>;<IP_IB02>/<GRIDDISK_NAME>’;
SYS@SQL> ALTER DISKGROUP DATA ADD DISK ‘o/192.168.10.9;192.168.10.10/DATA_CD_00_exa01cell01’;

Como podemos ver acima, os dois grid disks foram montados utilizando um único cell disk e a partir deste grid disk que conseguimos adicionar ou criar os diskgroups no ASM. Bom galera, espero que tenham gostado e até a próxima. Aquele abraaaaaaaaaaa!!!

Storage Exadata: Compressão HCC

Salve, salve, galera do OraCUle! Neste post, abordaremos mais um item da série de posts sobre o Exadata e falaremos sobre a compressão Hybrid Columnar Compression (HCC). Apesar do tema de compressão sugerir ser um tema simples, existem algumas situações que devem ser levadas em consideração sobre o quando e porque da utilização desta feature. Iremos primeiramente abordar o funcionamento da compressão no storage do Exadata.

Diferente do que acontece no storage dos servidores de banco de dados convencionais, nas células do Exadata, os dados são armazenados em uma unidade específica chamada por Compression Unit, para os íntimos, simplesmente, o CU. Brincadeiras a parte, cada unidade de compressão pode variar em tamanho entre 1 e 320 KB, e armazena os dados da tabela de forma colunar, diferente do conceito de armazenamento tradicional que é o armazenamento por registro. Quando ocorre a compressão e quanto maior for esta, maior será o custo de CPU e memória utilizado pelos storage servers.

Outra questão que devemos ter em mente é sobre o comportamento do HCC pois em carga de dados nas tabelas utilizando este tipo de compressão, deve ocorrer Direct Path. Tendo isto em mente, quando ocorrem UPDATES em registros com HCC, o dado comprimido perde esta compressão mas é mantido a compressão FOR OLTP. Sendo assim, é altamente recomendado que os dados que utilizem este tipo de compressão não sejam muito modificados, logo, este tipo de compressão não é recomendado para ambientes OLTP. Sobre os tipos de compressão HCC, existem quatro e abaixo iremos abordar cada um:

  • Compress for Query Low: das taxas de compressão do Exadata, esta é a que permite menor relação de compressão entretanto é a mais direcionada para carga de dados;
  • Compress for Query High: este tipo de compressão é a mais direcionada para leitura e possui uma taxa de compressão melhor que a anterior;
  • Compress for Archive Low: possui uma taxa de compressão melhor que as anteriores e é direcionada a dados históricos com um menor custo de CPU e memória, porém o tempo de carga é elevado;
  • Compress for Archive High: por fim, esta taxa é a que permite melhor taxa de compressão entretanto possui o maior custo de CPU e memória, e por isso é a recomendada para dados históricos;

É importante ter em mente que se o Exadata estiver utilizando este tipo de compressão, melhor será a utilização das demais features que o storage poderá prover (Storage Indexes, Cell Offloading). Efetuei um teste onde foram criadas cinco tabelas idênticas mas uma destas sem compressão e as demais terão as compressões abordadas aqui. Abaixo segue o tamanho final que cada tabela ficou e o seu tempo em segundos de criação, claro que não houve execução com paralelismo já que a intenção era apenas demonstrar o percentual do tempo e tamanho entre as possibilidades de compressão do HCC:

  • Tabela: TEST_NOCOMPRESS .:. Tamanho (GB): 15.53 .:. Tempo de Criação (seg.): 243
  • Tabela: TEST_QUERY_LOW .:. Tamanho (GB): 4.43 .:. Tempo de Criação (seg.): 320
  • Tabela: TEST_QUERY_HIGH .:. Tamanho (GB): 2.50 .:. Tempo de Criação (seg.): 546
  • Tabela: TEST_ARCHIVE_LOW .:. Tamanho (GB): 2.60 .:. Tempo de Criação (seg.): 551
  • Tabela: TEST_ARCHIVE_HIGH .:. Tamanho (GB): 1.70 .:. Tempo de Criação (seg.): 1.843

Com relação a performance das queries em cada tabela, foi executado um simples SELECT COUNT(*) para se obter o tempo de resposta e as estatísticas de cada. Abaixo podemos ver que a nas tabelas que possuem HCC, o Exadata consegue retornar (no pior caso) menos de 4% do tamanho total do segmento para o DB Node – o que representa cerca de 96% de ganho com o Smart Scan – mas na tabela que não possui este tipo de compressão, o ganho com Smart Scan representa cerca de 66%. Com ganho maiores no retorno de dados, isto significa em menor quantidade de I/O para o servidor, gerando melhor utilização de recurso. Para não modificar o nome das estatísticas e melhorar a leitura, os valores de cada uma, eu coloquei os valores em Mega Bytes e expliquei brevemente cada estatística:

  • cell physical IO bytes eligible for predicate offload: Quantidade de bytes processados nos discos físicos onde ocorreu o offloading para as células;
  • cell physical IO interconnect bytes: Quantidade de bytes retornado das células para o servidor de banco;
  • cell physical IO interconnect bytes returned by smart scan: Quantidade de bytes retornado das células para o servidor de banco, apenas com o uso do Smart Scan;

TEST_NOCOMPRESS

  • Tempo de Resposta (seg.): 42,38
  • cell physical IO bytes eligible for predicate offload (MB): 15.443,14
  • cell physical IO interconnect bytes (MB): 5.238,94
  • cell physical IO interconnect bytes returned by smart scan (MB): 5.238,94

TEST_QUERY_LOW

  • Tempo de Resposta (seg.): 40,43
  • cell physical IO bytes eligible for predicate offload (MB): 4.414,84
  • cell physical IO interconnect bytes (MB): 95,57
  • cell physical IO interconnect bytes returned by smart scan (MB): 93,91

TEST_QUERY_HIGH

  • Tempo de Resposta (seg.): 39,41
  • cell physical IO bytes eligible for predicate offload (MB): 2.046,72
  • cell physical IO interconnect bytes (MB): 78,79
  • cell physical IO interconnect bytes returned by smart scan (MB): 75,92

TEST_ARCHIVE_LOW

  • Tempo de Resposta (seg.): 41,36
  • cell physical IO bytes eligible for predicate offload (MB): 2.034,09
  • cell physical IO interconnect bytes (MB): 73,86
  • cell physical IO interconnect bytes returned by smart scan (MB): 71,57

TEST_ARCHIVE_HIGH

  • Tempo de Resposta (seg.): 39,35
  • cell physical IO bytes eligible for predicate offload (MB): 1.688,56
  • cell physical IO interconnect bytes (MB): 62,79
  • cell physical IO interconnect bytes returned by smart scan (MB): 61,62

Bom pessoal, vou ficando por aqui, espero que tenham gostado e logo mais teremos outros posts sobre Exadata. Aquele abraaaaaaaaaaaa.

 

Storage Exadata: Qual o segredo?

Olá, galerinha! Hoje venho postar (bem por alto) sobre algumas das tecnologias do storage Exadata. Em minha humilde opinião, a Oracle acertou em cheio quando lançou no mercado este hardware projetado especificamente para o seu banco de dados. A versão mais recente deste hardware é a X5-2 (adquiridas nas versões de rack: eight; quarter; half; e full) que, diferentemente das versões anteriores, pode-se optar por discos de flash na opção de Extreme Flash. Aliás, nesta versão, o comprador pode também optar por adicionar apenas uma célula e/ou um database node não ficando amarrado nas configurações padrões.

Bom, vou passar brevemente pela arquitetura desta máquina apenas para ilustrar melhor o conceito do software. O hardware é composto por database nodes que hospedam os binários do Oracle Clusterware e as instâncias de banco de dados. E os dados residem nos storage nodes (cell nodes) que possuem os discos e o software. A comunicação entre estes servidores é efetuada através de infinibands switches que apresentam taxas de transmissão de até 40 Gbps. Além disso, temos um swtich de gerencia e as PDUs. Em termos de alta disponibilidade, a máquina apresenta uma solução completa.

Mas afinal, qual o grande lance desta tecnologia já que hardware qualquer fabricante consegue copiar? Em resumo (e na maioria das suas características), eu arrisco dizer que é a inteligência na redução de I/O proporcionado pelo software que está em suas células. E isso só acontece porque há uma comunicação, utilizando o protocolo iDB, entre o banco de dados e as células que informam o tipo de atividade executada. Sendo assim, as células funcionam provendo serviço de dados para o banco de dados nos db nodes.

Vale lembrar que as features abaixo mencionadas estão dentro do conceito de Smart Scan. Esta característica só pode ocorrer se houver (em básico porque existem várias regras) Direct Path no banco de dados, portanto todas as leituras ordenadas em índices (Index Range Scan / Index Unique Scan / Index Max/Min / Index Skip Scan / Index Full Scan), obtém em nada os recursos que somente este storage pode prover. A seguir serão mencionadas algumas destas tecnologias de redução de I/O:

  1. Column Filtering: No Exadata, e como o nome sugere, ocorre o filtro por coluna. Sendo assim, a query que buscar apenas uma coluna da tabela e esta possui dez colunas, somente será retornado os dados desta coluna. Em um servidor convencional, os blocos de toda a tabela seriam retornados do storage para o banco de dados, e este efetuaria o filtro da única coluna mencionada;
  2. Predicate Filtering: Similar a característica anterior, este filtro ocorre a nível de registro. Entenda que quando o banco de dados convencional solicita apenas um registro de uma tabela, e este registro está presente em um único bloco, o bloco por completo será retornado para o servidor de banco de dados, que descartará os demais registros. No Exadata, apenas o registro do bloco é retornado para o banco de dados;
  3. Cell Offloading: Sempre que possível, o trabalho será realizado pelas células. Exemplo, quando uma query pesquisar pela quantidade de funcionários em uma tabela (select count(*) from hr.employees), esta atividade será efetuada pela célula e somente será retornado o valor final para o db node. Em um servidor convencional, todos os dados da tabela seriam retornados para o banco de dados e este teria que efetuar a conta para retornar o resultado. Podem existir casos extremos que, com o grande consumo de atividades nas células, as atividades de offloading podem ser direcionadas para os database nodes executarem;
  4. Storage Indexes: As células tem a inteligência de analisar as pesquisas das queries em determinadas tabelas e viabilizam a construção dos SI (Storage Indexes). Esta estrutura reside na memória das células (sendo assim são perdidas todas as vezes que a célula for desligada) e informa os valores mínimos e máximos da coluna envolvida na query, sendo assim o storage consegue saber exatamente onde está o dado. Esta estrutura consegue montar até oito SIs para uma tabela;
  5. Join Processing: O Exadata utiliza da técnica de Bloom Filtering que é um método probabilístico utilizado quando se envolve uma tabela grande e uma pequena para se testar eficientemente um conjunto de resultados entre ambos. Esta técnica também pode ser analisada em banco de dados que estão acima da versão 11.2.0.4;

Então quer dizer que o storage do Exadata é uma tecnologia direcionada para ambientes com altíssimo volume de dados por transação (DW / DSS), não sendo recomendada para ambientes com alta quantidade transacional de baixo volume de dados (OLTPs com baixa escrita)? Não exatamente. Existem três características do Exadata que consigo avaliar sua utilização benéficas em ambientes OLTPs e estas são:

  1. Exadata Smart Flash Cache: Não confunda esta tecnologia com a Database Smart Flash Cache. A tecnologia que possui no Exadata utiliza os discos flash que constam na célula enquanto que a outra utiliza discos de alta velocidade (SSD). E no Exadata, esta área ainda pode ser configurada como write-back onde o dado será escrito primeiro na cache, liberando a transação e a cache se encarregará de escrevê-lo nos discos das células. Atualmente, pode-se também optar por comprimir os discos flash para aumentar a capacidade da flash cache;
  2. Smart Flash Cache Log: Esta tecnologia, que confunde um pouco as pessoas (inclusive eu estava confuso sobre esta há alguns meses atrás), mantém uma área de dentro de cada uma nas flash cache das células utilizadas exclusivamente para a escrita de redo logs. Sendo assim, quando a célula recebe uma requisição para escrever em seus discos dados de redo, automaticamente esta efetua escrita paralelizada tanto nos discos como na flash cache. Buscando otimizar a escrita do mesmo, pois em ambientes OLTPs, o gargalo pode ocorrer nestas áreas;
  3. Join Processing: mencionado anteriormente e que pode ter uma boa utilização em uniões de tabelas;

Entendo que a tecnologia do Smart Flash Cache com write-back habilitado pode ser um excelente benefício também para ambientes DWs porém quando estamos falando de alto volume de dados neste ambiente, pode ser que as áreas de cache não comportem a capacidade de dados transacionados.

Além destas tecnologias, o Exadata possui a característica de compressão de tabelas chamada HCC (Hybrid Columnar Compression) onde os dados são armazenados e comprimidos a nível de coluna, obtendo ótimos resultados de compressão. Mas por hoje é só e nos próximos posts, irei dar exemplo do funcionamento destas tecnologias de redução de I/O assim como de compressão. Aquele abraaaaaaaa.

Documentos e Manuais para Exadata

Bom pessoal, como já falei antes, a bola da vez é o Exadata Machine. Algumas pessoas vieram me procurar pra saber como que fiz para tirar a certificação nesta máquina já que na epóca que fiz o exame, a Oracle não disponibilizava docs para isso. Isso mudou atualmente!

Como eu queria ter uma interação com a máquina e também queria o Owner’s Guide, acabei optando por desembolsar uma graninha à Oracle para fazer o curso Exadata Machine Administration – LVC (Live Virtual Class). O curso é bom e recomendo se, e somente se, você estiver com muita necessidade de ter o primeiro contato com o Exadata. Se onde você trabalha já existe esse contato, bom, ai eu recomendo que você caia no guide.

Porém para aqueles que preferem apenas ler sobre o brinquedinho que o Tony Stark possui em casa, recomendo que baixem o software do Storage Server através do edelivery.oracle.com, para ter acesso a todos os manuais. Após baixar o software, dentro dele há um arquivo (doc.zip) que contém todos os documentos para o Exadata. O arquivo está em no diretório dl180/boot/cellbits

Ainda não consigo entender o porque a Oracle ainda não públicou esta documentação na web, tal como vemos a exposição de outros documentos sobre as diversas ferramentas que esta empresa possui.