Techniques avancées pour SQL Server 2005 et .NET: janvier 2007

vendredi 26 janvier 2007

Un nouveau Bloggeur chez Winwise !!!

Bonjour à tous !

Je viens vous présenter un nouveau bloggeur de chez nous... Alors gare aux blagues carambar - il est expert en la matière - et bonne lecture à tous !!!

Au fait, il est fan de DELEGATE anonymes... Surtout quand ça ne sert à rien ;-)

Vous trouverez donc le blog de Matthieu Mezil en cliquant ici... Ou dans le bandeau sur la droite ;-)

mercredi 17 janvier 2007

Les colonnes calculées persistantes... Une bonne idée ?

Bonsoir !

Les colonnes calculées sont supportées par SQL Server depuis la version 7... En revanche, SQL Server 2005 permet désormais de rendre ces colonnes persistantes.

En effet, jusque là, les colonnes calculées étaient des colonnes virtuelles, c'est à dire que ces colonnes n'étaient pas écrites sur le disque. Le fait de pouvoir rendre une colonne calculée persistante, c'est le fait de rendre cette colonne physique, et donc de stocker les données inhérentes à cette colonne sur le disque de données.

SQL Server 2000 avait déjà apporté la possibilité de créer des index sur les colonnes calculées, permettant ainsi d'améliorer grandement les performances de certaines applications, en particulier dans le domaine de la consolidation de données. L'exemple type qui reste gravé dans la mémoire collective est la consolidation du chiffre d'affaire mois par mois.
En effet, examinons la table suivante :

CREATE TABLE dbo.Vente
(
VenteID INT IDENTITY (1, 1) NOT NULL
CONSTRAINT PK_Vente PRIMARY KEY CLUSTERED,
DateVente SMALLDATETIME NOT NULL,
MontantVente MONEY NOT NULL
)

Une requête pour consolider ces résultats sur le mois de janvier serait :

SELECT
SUM(MontantVente)
FROM
dbo.Vente
WHERE
DATEPART(MONTH, DateVente) = 1

Cependant, si la volumétrie est importante, cette requête peut rapidement s'avérer très coûteuse. Si la solution d'indexer la colonne DateVente n'apporte rien dans notre cas, il peut être très utile d'employer une colonne calculée :

ALTER TABLE dbo.Vente
ADD MoisVente AS DATEPART(MONTH, DateVente)

Cette colonne n'utilisant qu'une fonction déterministe, il est possible d'y ajouter un index. A cet effet, un certain nombre d'options doivent être correctement positionnées :

SET ANSI_NULL ON
SET ANSI_PADDING ON
SET ANSI_WARNINGS ON
SET ARITHABORT ON
SET CONCAT_NULL_YIELDS_NULL ON
SET QUOTED_IDENTIFIER ON
SET NUMERIC_ROUNDABORT OFF

Puis, il est possible de créer l'index :

CREATE NONCLUSTERED INDEX IX_MoisVente ON dbo.Vente
(
MoisVente
)

Avant d'effectuer notre requête optimisée :

SELECT
SUM(MontantVente)
FROM
dbo.Vente
WHERE
MoisVente = 1

Le résultat est assez probant, et peut s'avérer extrêmement intéressant.
La question qui se pose donc est ce que peut bien apporter la persistance d'une telle colonne calculée. En effet, l'argument régulièrement évoqué de l'indexation de la colonne semble bien tomber à l'eau... Quant aux conditions d'utilisation des index sur les colonnes calculées, elles s'avèrent identiques que la valeur soit persistée ou non, à l'exception du déterminisme de la fonction employée...

Pourquoi donc encombrer les disques de données visiblement inutiles ?
La première piste serait donc l'utilisation de fonctions non déterministes, ou dont il serait difficile de savoir si elles le sont, en particulier en ce qui concerne les fonctions CLR.

Mais il faut également se tourner vers des cas plus gourmands en calculs : la persistance prend tout son intérêt lors de calculs complexes nécessitant des ressources CPU importantes, en particulier lorsque la volumétrie de modifications est faible.
Dans ces cas là, le calcul à la volée de notre colonne entraine nécessairement un ralentissement du système, et justifie la persistance de ce calcul.

Soit, voici donc les applications de ces colonnes calculées persistantes...

Visiteurs du jour...

Bonjour à tous !

Suite à un grand nombre de témoignages de mécontentement, je vais effectuer des essais de couleurs sur le blog... Alors, titulaires d'un compte Google - oui, je sais, il faut un compte Google pour envoyer un commentaire, et je dois dire qu'il faut un compte Developpeur.org sur Developpeur.org, mais ça n'est qu'un détail - merci de me donner votre avis !

Histoire de savoir à l'avenir si mon site abandonnera son fond noir - pour l'instant, 4 avis pour le noir, 5 contre... - et arborera de nouvelles couleurs !

Pour ceux qui douteraient de mon intention de venir rejoindre leur gentille communauté, vous trouverez ici et là des explications concernant mes choix...

vendredi 12 janvier 2007

Comment choisir le nombre de grappes de disques...

Bonjour à tous !

Voici quelques conseils indémodables sur la séparation des fichiers de bases de données sur des grappes de disques - idéalement sur des contrôleurs - séparés...

Nous noterons tout d'abord que les différentes configurations adaptées aux bases de données isolent systématiquement les journaux de transactions sur un jeu de disques séparé, et cela pour deux raisons :
- Concernant la sécurité des données, la perte totale des disques de données peut être récupérée à l’aide des journaux de transactions, et inversement ;
- L’isolation des journaux de transactions assure de meilleures performances globales du système en limitant les files d’attentes sur les différents disques.

Ensuite, pour des raisons de performance générale de la base de données, il est primordial d'installer la base TempDB sur un jeu de disques isolé... En effet, toutes les bases de données du SGBD utilisent cette base pour créer des objets temporaires aux cours des différentes requêtes. Ceci est particulièrement important dans SQL Server 2005 !

Toujours pour des raisons d'optimisation des performances, il est souhaitable d'isoler les index non ordonnés (NONCLUSTERED) sur un jeu de disque séparé et ainsi accroitre les performances de recherche par ces index. En revanche, séparer les index CLUSTERED est totalement inutile, car cela reviendrait à déplacer la totalité des données...

Il est également recommandé de déplacer les données volumineuses - souvent baptisées BLOB pour Binary Large OBjects - sur un jeu de disques séparés afin de limiter le fractionnement des données... Pour cela, le partitionnement horizontal des données est nécessaire.

De plus en plus de bases de données présentent des volumes de données extrêmement important, ce qui peut grever grandement les performances. La solution du partitionnement vertical assure que les données soient séparées sur des espaces de données différents... Il est souvent intéressant d'isoler ces filegroups sur des jeux de disques séparés.

Enfin, il est important de rappeler que :
- Les disques systèmes ne sont pas des disques de données, et doivent être réservés à l'usage du système d'exploitation et des exécutables,
- Les disques servant de stockage de fichiers de backup lorsque cela s'applique doivent également être des disques dédiés pour éviter toute dégradation des performances de la base de données,
- Et que pour mettre en place ce type d'architecture, rien ne vaut le RAID... Alors bonne lecture !

Le RAID : les conclusions...

Il est donc temps pour moi d’en venir aux conclusions…
Si les différents niveaux de RAID sont si nombreux, la raison en est bien simple : chaque système possède des points forts et des points faibles à mettre en avant en fonction des besoins de chacun.

Cependant, il faut bien reconnaitre qu’un compromis est souvent nécessaire.
En la matière, le RAID 5 s'impose souvent comme le maître incontesté du rapport performance/coût... En revanche, les difficultés de sizing des bandes grevent les performances en écriture dans la majorité des systèmes de bases de données, entrainant de fait son rejet par les DBA puristes...
Qui eux, sans aucun doute feront le choix du RAID 10, certes plus coûteux, mais assurant des performances constantes quelques soient les modes d'accès. Un avantage indéniable, quand on peut aisément lui associer une meilleure vitesse de reconstruction des données, une dégradation des performances inférieure en cas de panne, une meilleure tolérance de panne... Et une installation plus simple à réaliser !

Enfin, il ne faut pas négliger les disques destinés au système d'exploitation, qui mérite sans aucun doute de bénéficier d'un bon RAID 1, peu coûteux, et répondant idéalement aux prérequis de disponibilité du système.

Alors, à vos marques... Configurez !

RAID 103, 105 et les autres...

Actuellement, bon nombre de sociétés sont à la recherche d’une solution permettant d’améliorer les performances en écriture du RAID 10, son point faible. Ces solutions intègrent également des niveaux de sécurité extrêmement importants.
Des solutions complexes du type RAID 103 et RAID 105 sont actuellement à l’étude. Si leur mise en œuvre parait extrêmement complexe, les performances obtenues n’en demeurent pas moins très prometteuses.

Aucune carte contrôleur disponible sur le marché ne permet actuellement de gérer de telles configurations physiquement qui sont uniquement du domaine de la recherche pour l’instant… A suivre ;-)

RAID 15 et 51...

L’intérêt majeur de mutualiser ces deux types de RAID réside dans la robustesse de ce modèle en termes de sécurité des données ; la tolérance de panne ainsi obtenue s’avère impressionnante. On peut ainsi perdre la plupart des disques sur un RAID 15 (7/9 disques par exemple). C’est le meilleur niveau de RAID en termes de tolérance de panne et en termes de disponibilité. Mais c’est un RAID très coûteux, en raison du coût important des cartes contrôleurs qui lui sont adaptées d’une part, et en raison d’une capacité de stockage très fortement réduite – présentant des pertes de plus de 70% de l’espace disque total dans certaines de configurations – d’autre part. Les performances de ces types de RAID ne sont jamais exceptionnelles, mais ne s’avèrent jamais catastrophiques pour autant. Il s’agit d’un excellent compromis pour des cas où la sécurité est primordiale.
Toutefois, la plupart du temps, les RAID 15 et 51 peuvent avantageusement être remplacés par du RAID 10. En effet, un système nécessitant un tel niveau de sécurité pose toujours la question de la fiabilité de ses équipements.

RAID 05 et 50...

Comme pour les RAID 01 et 10, et les RAID 03 et 30, on privilégiera ici le RAID 50, car il s’agit du niveau le plus fiable en termes de dégradation des performances en cas de panne et de temps de reconstruction des disques de données. Le RAID 50 s’avère beaucoup plus cher que le RAID 10, mais présente des performances très comparables à celui-ci (excellentes performances en lecture et en écriture). Son intérêt majeur réside dans sa capacité de disque qui n’est pas réduite de 50%. On peut par exemple, avec 6 disques, conserver 80% de l’espace de ceux-ci !
Comme pour tous les RAID composites, un contrôleur performant est nécessaire, et le RAID 50 est souvent utilisé avec du duplexing afin de gérer la problématique des pannes de contrôleurs. Les performances en lecture sont excellente, permettant de considérer le RAID 50 comme l’un des meilleurs RAID composites en écriture séquentielle, malgré une légère faiblesse en écriture aléatoire en comparaison du RAID 10 par exemple à cause de son besoin de tout relire pour, comme toujours, des problèmes de calcul de parité.
Malgré sa légère déperdition de performances en lecture due à la présence des informations de parité, le RAID 50 s’impose également comme un excellent niveau concernant les accès en lecture, ne voyant pas ses performances diminuées par le choix technique des cartes contrôleurs RAID 10 de privilégier les accès concurrentiels.

RAID 03 et 30...

Il n’y a que très peu de différences entre ces deux types de RAID, sauf en ce qui concerne la dégradation des performances suite à une éventuelle panne. Le RAID 30 a en effet des vitesses de reconstruction inférieures au RAID 03, mais toujours supérieures à du RAID 10. Il est cependant très utilisé pour de très larges bases de données stockées sur de très larges serveurs de fichiers. C’est un RAID cher, que je n’aime pas du tout parce que ses performances sont mauvaises en termes d’écriture, notamment aléatoire, en particulier dues au goulot d’étranglement dû au RAID 3 qui présente un disque de parité dédié. Ce RAID peut s’avérer intéressant en lecture, surtout aléatoire, si la taille de la bande est suffisamment large. En revanche, ce RAID est une véritable catastrophe en écriture…

Nous noterons l’appellation commerciale usurpée RAID 53 qui est en réalité un RAID 03. Je ne m’attarde pas ici sur les piètres performances de ce niveau réservé au stockage de volumes importants de fichiers présentant un faible taux de rafraichissement.

RAID 01 – Mirrored stripes – et 10 – striped mirrors

La grande différence entre le RAID 10 et le RAID 01 est évidemment l’ordre dans lequel les RAID sont implémentés.
Dans les deux cas, le coût en termes de disques est identique, à savoir relativement élevé compte tenu de la capacité qui est divisée par le nombre de miroirs ; dans tous les cas, on perd donc au moins 50% de la capacité disque achetée ! En revanche, le coût des cartes contrôleurs peut s’avérer très différent : la majorité des cartes grand public permettent d’implémenter uniquement le RAID 01.
En ce qui concerne les résultats obtenus, ils sont évidemment très différents entre les deux types de RAID. On s’aperçoit en fait rapidement que le RAID 10 est bien supérieur au RAID 01 dans un certain nombre de domaines : en effet, le RAID 10 a tout d’abord une bien meilleure tolérance de panne égale au (([nombre de disques en RAID 1] - 1) * [nombre de jeux de disques en RAID 0]) en RAID 10 alors qu’elle n’est que du ([nombre de jeux de disques en RAID 1] - 1) pour le RAID 01. Ensuite, le RAID 01 n’apporte pas de meilleures performances que le RAID 10, alors qu’il s’avère plus lent au cours de la reconstruction des données après une panne. De même, la perte d’un disque peut grever de façon beaucoup plus perceptible un système reposant sur du RAID 01.
Enfin, et même si toutes les cartes contrôleurs ne le supportent pas, le RAID 10 présente d’excellentes performances en lecture (vitesse divisée par n) et en écriture (vitesse divisée par le nombre de jeu de disques en RAID 0).
Ainsi, le RAID 10 est recommandable pour tout type de bases de données… Même si son coût plus élevé qu’un RAID 5, par exemple, le relègue souvent au second plan.

Nous noterons les formules théoriques suivantes pour le RAID 10, en fonction du nombre de disques n et en supposant que le RAID 1 n’est employé que par paires de disques :
- Nombre de disques au minimum : 4
- Espace disque : (n/2) * [Espace disque du plus petit des disques]
- Temps d'écriture : (2/n) * [Temps d'accès en écriture du plus lent des disques]
- Temps de lecture : n * [Temps d'accès en lecture du plus lent des disques]
- Tolérance de panne : n/2

Nous en conclurons de façon évidente une certaine supériorité de ce modèle sur le RAID 5 pour toutes les écritures aléatoires. Nous noterons également la propension des cartes contrôleurs gérant ce niveau de RAID à privilégier des accès concurrentiels aux données en lecture plutôt qu’une parallélisation d’une lecture, grevant de fait les performances théoriques présentées ci-dessus.

Le RAID composite...

Il est impossible depuis quelques années de s’attaquer à la description des niveaux de RAID si l’on omet l’existence de la possibilité de les composer. Ainsi, il est envisageable de cumuler les avantages des différents niveaux de RAID.
Le principe est donc d’appliquer un niveau de RAID sur un autre niveau de RAID ; par exemple, si on fait du RAID xy (ou x+y, même si cette notation commerciale s’avère souvent mensongère), c’est qu’on applique du raid y sur du raid x.

Et voici maintenant un série de posts sur les niveaux les plus courants de RAID composite !

RAID 7 - Asynchronous, cached striping with dedicated parity...

Il s'agit d'un niveau de RAID propriétaire développé par Storage Computer Corporation. Si le RAID 7 permet de faire preuve d'un niveau de performances exceptionnel, il n'en demeure pas moins rare... et très cher !
C’est un RAID qui utilise le cache du contrôleur à outrance, ce qui fait de lui le plus performant des RAID simples : il obtient ainsi les meilleures performances en termes de lectures aléatoires (cache power !!), et d’écritures aléatoires (il est en striping avec parité dédiée en cache). Les performances sont remarquables mais excessivement chères. Pour la plupart des utilisateurs, le coût prohibitif de ce niveau de RAID le rende inaccessible.

Je ne m’étendrai donc pas non plus sur ce niveau si particulier.

RAID 6 - Block-level striping with dual distributed parity...

C’est un RAID 5 qui est un peu amélioré en termes de sécurité des données. Il autorise en effet la perte de 2 disques au lieu d’un. Toutefois, dans la majeure partie des cas, il demeure trop cher par rapport au RAID 5, pour des performances légèrement moins bonnes (les calculs se font en double parité, ce qui engendre une grande complexité). Il devrait en théorie être utilisé dans des systèmes sensibles, mais il faut bien avouer qu’il est très rare que deux disques tombent en panne en même temps, d’où un aspect « gadget » du RAID 6. En effet, les cas de panne de plus d’un disque simultanément résultent généralement d’une panne majeure qui risque d’endommager plus de 2 disques. Si une forte tolérance de panne est nécessaire, on privilégiera de fait l’utilisation du mirroring beaucoup plus sécurisant, rendant le RAID 6 assez inutile.
Enfin, outre le coût important des cartes contrôleurs gérant ce niveau de RAID, sa plus grande perte d’espace disque en font l’un des plus chers des niveaux définis par Berkeley.

Nous noterons les formules théoriques suivantes, en fonction du nombre de disques n :
- Nombre de disques au minimum : 4
- Espace disque : (n-2) * [Espace disque du plus petit des disques]
- Temps d'écriture : (1/(n-2)) * [Temps d'accès en écriture du plus lent des disques]
- Temps de lecture : (1/(n-2)) * [Temps d'accès en lecture du plus lent des disques]
- Tolérance de panne : 2

RAID 5 - Block-level striping with distributed parity...

Le RAID 5 fonctionne comme le RAID 4, selon un “block-level” qui permet de définir la taille des bandes d’enregistrement. La grande différence avec le RAID 4, c’est que la parité est distribuée : le RAID 5 écrit ainsi ses bits de parité sur chaque disque à tour de rôle. Ce concept permet donc de supprimer le goulot d’étranglement sur le disque de parité.
Beaucoup moins cher, parce que très utilisé et très commun sur le marché, le RAID 5 présente de nombreux avantages. C’est d'ailleurs selon moi le meilleur compromis coût/performance pour un grand nombre de raisons.
Sa tolérance de panne d’un disque lui assure un niveau de sécurité satisfaisant.
Au niveau théorique, les capacités du RAID 5 en termes de stockage sont de n-1 disques, et ses vitesses d’écriture et de lecture sont divisées par n-1, ce qui lui confère des performances honorables.
Il se trouve donc supérieur au RAID 1 pour l’écriture, même s’il lui est légèrement inférieur en lecture ; à priori, il est donc plus performant pour des disques où le volume d’écritures est important. Ceci n’est totalement vrai que si l’on ne fait que de l’écriture séquentielle. En effet, au cours d’une écriture aléatoire, certains blocs sont modifiés, et nécessitent donc la modification de la parité de la bande. Il faut donc lire l’ensemble de la bande pour reconstituer la parité ; chaque écriture aléatoire donne donc lieu à deux entrées/sorties. Et avec 2 I/O, le système se voit très ralenti ! C’est le gros point noir…
Cependant, dans la pratique, on s’aperçoit que le RAID 5 reste très employé, en particulier dans les bases de données ; alors même que celles-ci ont énormément d’écritures aléatoires !
Enfin, en termes de coûts, le RAID 5 se fait la part belle grâce à sa bonne capacité de stockage et un coût relativement faible des cartes contrôleurs adaptées.

Au final, le RAID 5 me paraît donc plutôt adapté, voire idéal, pour les journaux de transactions, compte tenu de l’utilisation quasi exclusive d’écritures séquentielles, pour lesquelles la problématique du calcul de parité ne se présente pas. Il faut cependant s’assurer de la taille des blocs de données afin d’éviter d’écrire une transaction sur moins d’une bande revenant alors à des écritures aléatoires. Les spécifications actuelles qui préconisent d’appliquer du RAID 10 apparaissent donc comme sous performantes, même si les difficultés de mise en œuvre d’un RAID 5 bien dimensionné expliquent sans aucun doute ce choix. En revanche, l’utilisation de ce niveau de RAID s’avère beaucoup plus discutable en ce qui concerne les bases de données auxquelles je privilégierai un RAID 10.

Nous noterons les formules théoriques suivantes, en fonction du nombre de disques n :
- Nombre de disques au minimum : 3
- Espace disque : (n-1) * [Espace disque du plus petit des disques]
- Temps d'écriture : (1/(n-1)) * [Temps d'accès en écriture du plus lent des disques]
- Temps de lecture : (1/(n-1)) * [Temps d'accès en lecture du plus lent des disques]
- Tolérance de panne : 1
Auxquelles nous ajouterons le temps d’écriture aléatoire théorique, le temps de lecture restant identique quelque soit le mode :
- Temps d’écriture : (2/(n-1)) * [Temps d'accès en écriture du plus lent des disques]

RAID 4 - Block-level striping with dedicated parity...

Le RAID 4, comme nous l’avons dit, s’apparente au RAID 3 à un (gros !) détail près : la largeur de bande est divisée en blocs et non pas en octets. On peut ainsi définir la largeur des bandes, ce qui est particulièrement utile pour les écritures aléatoires, parce qu’il est possible de calculer la taille des blocs de l’enregistrement afin d’optimiser l’espace disque.
Souvent confondu avec le RAID 3, moins utilisé, le RAID 4 est un compromis sans cible sur le marché. Il ne doit selon moi jamais être utilisé parce qu’il n’a pas vraiment d’intérêt en termes de gains de performance. On retrouve le goulot d’étranglement du RAID 3, il coûte encore plus cher et peu de cartes contrôleurs supportent le RAID 4.

Nous noterons les formules théoriques suivantes, en fonction du nombre de disques n :
- Nombre de disques au minimum : 3
- Espace disque : (n-1) * [Espace disque du plus petit des disques]
- Temps d'écriture : (1/(n-1)) * [Temps d'accès en écriture du plus lent des disques]
- Temps de lecture : (1/(n-1)) * [Temps d'accès en lecture du plus lent des disques]
- Tolérance de panne : 1

Raid 3 - Byte-level striping with dedicated parity...

En RAID 3, les bandes ont une largeur fixe d’un octet, et ne sont donc pas modulables. Le terme « Dedicated parity » du titre signifie que les informations de parité sont écrites sur un disque dédié. Les informations de parité sont le résultat d’un calcul à base de « ou exclusifs » permettant de reconstituer les données d’un disque à l’aide des données présente dans les autres disques.
Le RAID 3 est un niveau de RAID qui est, à tort, souvent confondu avec le RAID 4. La seule différence réside en effet dans la taille des bandes pour le striping : si le RAID 3 dispose de bandes de largeur fixe, le RAID 4 permet de configurer la largeur de celles-ci.
Le RAID 3 offre une tolérance à la panne assez bonne, étant donné que l’on peut perdre un disque.
La vitesse d’écriture théorique, de 1/(n-1), reste toutefois largement fantaisiste : en effet, pour atteindre ces résultats, il faudrait que le disque de parité soit (n-1) fois plus rapide que les autres disques ; comme il est dédié, à chaque fois que l’on écrit sur un disque, on est supposé écrire sur le disque de parité, ce qui ralentit considérablement les choses, en particulier en écriture aléatoire. Il existe donc un goulot d’étranglement sur le disque de parité, qui est par ailleurs beaucoup plus sensible aux pannes en raison de sa beaucoup plus forte utilisation.

Nous noterons les formules théoriques suivantes, en fonction du nombre de disques n :
- Nombre de disques au minimum : 3
- Espace disque : (n-1) * [Espace disque du plus petit des disques]
- Temps d'écriture : (1/(n-1)) * [Temps d'accès en écriture du plus lent des disques]
- Temps de lecture : (1/(n-1)) * [Temps d'accès en lecture du plus lent des disques]
- Tolérance de panne : 1

RAID 2 - Bit-level striping with Hamming code...

C’est le seul striping qui n’utilise pas un aspect de parité. Il s’agit ici d’un striping au niveau des bits, les bandes ne pouvant pas être étendues, puisqu’elles n’ont qu’un bit. Il est intéressant de noter qu’elles sont validées par un code de contrôle d’erreur de Hamming (ECC ou Error Correcting Code).
Le gros avantage du RAID 2 était sa disponibilité parce qu’il effectuait des corrections « on the fly », à chaud… mais cela ne sert aujourd’hui plus à grand-chose étant donné que la quasi-totalité des disques durs actuels utilisent le code ECC.
Ainsi, le RAID 2, qui est par ailleurs très mauvais en écriture et lecture aléatoires, n’est absolument plus utilisé.

Je ne m'étendrai donc pas plus sur ce niveau obsolète.

RAID 1 - Mirroring, shadowing, duplexing...

Le RAID 1 peut être appelé de différentes façons : mirroring, shadowing ou encore duplexing... Il s'agit tout simplement de copier l'intégralité des données sur chacun des disques. Ainsi, le RAID 1 est un système possédant une grande tolérance de panne. Par exemple, si l'on dispose de 3 disques en RAID 1, les données restent disponibles malgré la perte de 2 disques. Dans le cas du duplexing, il s’agit également de redonder les contrôleurs afin de gérer une tolérance de panne à ce niveau également.
Lors de la phase de lecture des données, le RAID 1 permet de paralléliser la lecture et ainsi d'obtenir, en théorie, des performances 3 fois plus rapides avec 3 disques ! En pratique, les gains en performance en lecture sont très proches des gains observés en RAID 0 lorsque la lecture est parallélisée. Toujours dans la pratique, le RAID 1 permet également d’effectuer deux lectures simultanées pour deux espaces disques différents ce qui offre la possibilité d’améliorer les files d’attentes disques. Le RAID 1 est particulièrement efficace pour la lecture aléatoire, où il est bien meilleur qu’un disque simple, même s’il reste inférieur dans ce domaine à d’autres types de RAID. Le RAID 1 ne brille pas en écriture mais se distingue en lecture : en effet, lorsqu’on écrit, on écrit la même chose sur tous les disques, donc le temps d’écriture est le même que pour un disque simple. En revanche, en lecture, on lit n fois plus vite, en parallélisant la lecture et les accès.
Toutefois, beaucoup de contrôleurs de disques ne savent pas paralléliser les lectures, ce qui engendre de faibles gains de performance en lecture in fine. Au final, l’on peut penser que le RAID 1 est extrêmement sensible au type de contrôleur fourni. Si celui-ci est de bonne qualité, comme cela est généralement le cas dans le milieu professionnel, il est possible de paralléliser les lectures, ce qui rend le RAID 1 intéressant pour un faible niveau d’écriture et un gros volume de lecture, qu’elle soit séquentielle ou aléatoire.
Enfin, il est intéressant de noter qu’un RAID 1, en écriture aléatoire, s’avère parfois plus efficace que beaucoup de RAID avec calcul de parité parce qu’il n’est pas obligé de relire les données sur les différents disques.
Il est à noter que le RAID 1, tout comme le RAID 0 aligne ses performances sur les disques les plus faibles.
L'inconvénient majeur du RAID 1 est sans aucun doute son coût élevé compte tenu de la perte importante de capacité totale des disques : la capacité finale est en effet logiquement d’un seul disque quel que soit le nombre de disques mis en place. Par exemple, monter 5 disques en RAID 1 n’offre qu’une capacité d’un seul disque !

Le RAID 1 est très utilisé en milieu professionnel pour tous les systèmes nécessitant un fort niveau de disponibilité. De plus, le RAID 1 offre une vitesse de reconstruction des données extrêmement performante puisqu’il s’agit d’une simple copie de disque. Cela assure également de minimiser les impacts sur les performances au cours de cette reconstruction. La majorité des serveurs disposent donc de ce niveau de RAID pour les disques systèmes.

Nous noterons les formules théoriques suivantes, en fonction du nombre de disques n :
- Nombre de disques au minimum : 2
- Espace disque : [Espace disque du plus petit des disques]
- Temps d'écriture : [Temps d'accès en écriture du plus lent des disques]
- Temps de lecture : (1/n) * [Temps d'accès en lecture du plus lent des disques]
- Tolérance de panne : n-1

RAID 0 - Striping (without parity)...

Il s'agit d'une version "améliorée" du JBOD permettant d'accélérer les performances en parallélisant les écritures sur l'ensemble de disque. En français, on parle d'"entrelacement" ou d'"agrégat par bandes". Le RAID 0 devrait être qualifié uniquement de AID, car il ne dispose pas de redondance.
Ainsi, si l'on dispose de 2 disques et que l'on souhaite écrire 200 Go, le RAID 0 permettra d'écrire 100 Go sur chacun des disques. La théorie permet donc d'obtenir des performances 2 fois supérieures. Dans la pratique, avec l'utilisation de 2 disques, un gain de performance de 40% est excellent, à mettre en rapport avec les 50% attendus théoriquement.
Le RAID 0 est performant partout, en lecture et en écriture, qu’elles soient aléatoires mais surtout séquentielles. Pour tout ce qui concerne des lectures ou écritures aléatoires, si le contrôleur de disque supporte des lectures indépendantes sur les différents disques, on gagne à utiliser des bandes plus larges.
Il est à noter que les performances de l'ensemble des disques durs - taille, temps d'accès, ... - s'alignent sur le disque le plus faible. Ainsi, le disque le plus petit fixera la taille, le disque le plus lent fixera le temps d'accès, ... Cette restriction est applicable pour tous les autres niveaux de RAID à l'exception du JBOD.
Malgré ses excellentes performances, le RAID 0 n'est pas utilisé pour le stockage des données en milieu professionnel car il ne dispose pas de tolérance de panne.

Nous noterons les formules théoriques suivantes, en fonction du nombre de disques n :
- Nombre de disques au minimum : 2
- Espace disque : n * [Espace disque du plus petit des disques]
- Temps d'écriture : (1/n) * [Temps d'accès en écriture du plus lent des disques]
- Temps de lecture : (1/n) * [Temps d'accès en lecture du plus lent des disques]
- Tolérance de panne : 0

JBOD - Just a Bunch Of Disks...

Il s'agit d'une simple "concaténation" d'un ensemble de disques physiques pour former un disque logique plus important, et en aucun cas ne peut être considéré comme un RAID.
Nous noterons les formules théoriques suivantes, en fonction du nombre de disques n :
- Nombre de disques au minimum : 2
- Espace disque : [Somme de l'espace disque de l'ensemble des disques]
- Temps d'écriture : >=[Temps d'accès en écriture du plus lent des disques]
- Temps de lecture : >=[Temps d'accès en lecture du plus lent des disques]
- Tolérance de panne : 0

Tout d'abord, un peu d'historique...

Lorsque l'on parle de stockage de données, on parle forcément de disques durs. Et en la matière, depuis 1987, tout le monde parle du RAID - Redundant Array of Inexpensive Disks or Redundant Array of Independant Disks. Lors de sa création, le RAID était destiné à rassembler plusieurs disques durs physiques en une seule unité logique afin de remplacer les très coûteux disques 6.5 et 9.5 pouces.

Dès 1988, Berkeley définit 5 niveaux de RAID de 1 à 5, puis rajoute au cours des années suivantes le RAID 0 et le RAID 6...
On ne distingue maintenant pas moins de 8 niveaux simples de RAID différents... Et cela sans tenir compte de toutes les combinaisons pouvant y être apportées... Une véritable jungle technologique, rarement bien expliquée, et souvent très mal utilisée... De plus, il nous faut distinguer les performances théoriques des performances réelles de ces niveaux. Et je ne parle pas bien sûr des problématiques concernant l'utilisation de RAID logique ou physique !
Au final, impossible de déterminer quand utiliser quoi, ni comment...

Afin de mieux appréhender le sujet, voici un récapitulatif rapide des différents niveaux de RAID simple...

Architecture des disques de données - Le RAID

Bonjour à tous !

Tout le monde connaît un jour ce problème : quelle est LA bonne configuration pour mon serveur ?
Il est difficile de répondre à cette question en matière de processeurs et de mémoire tant le marché évolue rapidement et tant les besoins de chacun sont différents. En revanche, il est possible d'apporter des éléments de réponse plus pérennes en matière de configuration pour les disques de données. Les arguments permettant d'établir un choix s'articulent essentiellement autour de trois grands axes :
- la sécurité des données,
- les performances,
- les coûts.

Je vous propose donc une série de post présentant les solutions en la matière, à savoir les différents niveaux de RAID...

lundi 8 janvier 2007

Juste un petit message...

Pour annoncer un futur article sur les différents niveaux de RAID, leurs points forts... Et leurs points faibles !

Alors encore un peu de patience... L'accouchement est long ;-)

Techniques avancées pour SQL Server 2005 et .NET