Techniques avancées pour SQL Server 2005 et .NET: 2007

jeudi 23 août 2007

Hands On Labs chez Winwise !

Bonjour à tous !

Le mois prochain, Winwise, en coopération avec le GUSS (Groupe d'Utilisateurs de SQL server), vous propose de découvrir gratuitement SQL Server au travers de plusieurs Hands-On-Labs.
Les différents ateliers seront présentés par les formateurs de Winwise, dont votre serviteur.

Je ne peux donc que vous encourager à vous inscrire pour cet événement, et ce très rapidement car les places sont limitées !
Vous trouverez toutes les informations nécessaires ici.

Alors à vos claviers !

mardi 21 août 2007

Haute disponibilité avec SQL Server - Quelle solution pour quel résultat ?

Bonjour à tous !

SQL Server est depuis longtemps rompu à la nécessaire disponibilité des données. Mais quelles sont les différentes solutions proposées, et que peut-on en attendre ?

Je vous propose aujourd'hui un résumé de chaque solution proposée par Microsoft avec SQL Server 2005, et ce que vous pouvez raisonnablement espérer de chacune d'entre elles.

LOG SHIPPING ET MIRRORING - DEUX SOLUTIONS, UNE FINALITE

Beaucoup ont entendu parler de Log Shipping, nombreux sont ceux qui ont entendu parler de mirroring... Mais pour quel résultat, quel impact sur l'existant, quelle maintenance ?
Le Log Shipping est reconnu depuis longtemps comme une solution peu onéreuse, simple à mettre en oeuvre, mais assez délicate à exploiter, en particulier lors d'un basculement de serveur. En effet, le basculement est manuel, la perte des dernières données probable, car le temps d'indisponibilité fluctue en fonction de la réactivité du DBA.
Le Mirroring peut être vu comme une solution de Log Shipping évoluée. Si le mode SAFETY OFF est sélectionné, le Mirroring se comporte en effet comme le Log Shipping, recopiant le journal de transaction au fil de l'eau. Le temps de latence reste globalement plus faible que dans le cas du Log Shipping, et la mise en oeuvre est totalement automatisée.
En revanche, si l'on sélectionne le mode SAFETY FULL, le Mirroring permet de garantir à l'utilisateur une parfaite synchronisation des bases de données, ce que ne permet pas le Log Shipping.
De plus, l'utilisation d'un WITNESS permet d'automatiser le processus de basculement des serveurs en cas d'erreur.
Qu'il s'agisse de Log Shipping ou de Mirroring, l'initialisation des bases de données s'effectue par Backup/Restore.

Devant ces similitudes, je privilégie donc largement le Mirroring sous SQL Server 2005, qui permet un temps de latence bien plus faible que son copain le Log Shipping.
De plus l'utilisation d'un WITNESS assure un basculement automatique des plus appréciables, et qui plus est l'un des plus rapides du marché avec un temps d'absence de service inférieur à 5 secondes.

REPLICATION ET DISTRIBUTION DES DONNEES

L'utilisation de la distribution des données comme moyen de haute disponibilité est une méthode couramment utilisée.
Il existe de nombreux moyens de distribuer ses données. Le plus simpliste reste la copie par batch des données à intervalle régulier. Cette méthode très simple à mettre en oeuvre s'apparente dans les applications à du Log Shipping, même si son procédé est radicalement différent. De plus, il est possible d'utiliser la base de données ainsi obtenue en lecture par exemple.
Pour les bases de faible volumétrie et supportant le risque de la perte des données les plus récentes, la réplication snapshot correspond aussi à cette problématique. En revanche, contrairement au batch de recopie, la réplication snapshot supporte difficilement les très grosses volumétries.
Enfin, pour une distribution assurant une plus grande fraîcheur de données, la réplication transactionnelle offre également un compromis intéressant. Là encore, les données sont accessibles en lecture. En revanche, la publication transactionnelle doit être désactivée pour effectuer quelque changement que ce soit dans la structure des données. De plus, la réplication transactionnelle s'avère souvent très fragile dès qu'une opération de maintenance sur le journal de transactions est nécessaire.

La distribution des données, qu'il s'agisse d'un batch ou d'une réplication, aussi faible son temps de latence soit-il, n'est pas à proprement parler une véritable solution de haute disponibilité. En revanche, il peut s'agir d'un compromis efficace pour pallier à une éventuelle défaillance du système tout en conservant l'utilisation de toutes les machines achetées.

CLUSTERING

Le clustering reste la méthode reine de la haute disponibilité, permettant entre autres de ne spécifier qu'une seule adresse réseau pour plusieurs ordinateurs physiques, assurant ainsi un basculement transparent pour les applications clientes.
Pour être mis en oeuvre, le clustering demande des connaissances avancées tant sur la partie SQL Server que sur le système d'exploitation.
Le point noir du clustering proposé par Microsoft reste l'inactivité des serveurs de secours, induisant un coût d'immobilisation supplémentaire. De plus, le clustering n'apporte aucune solution en cas de destruction physique des supports de stockage - incendie par exemple - étant donné que ces ressources physiques sont partagées entre les différents noeuds (je n'évoquerai pas ici les possibilités de géo-cluster pour des raisons de simplification).
Concernant les surcoûts d'immobilisation, il faut tout de même noter que dans le cadre du clustering, tout comme dans le cadre du mirroring, un serveur de secours actif moins de 30 jours par an ne requiert aucune licence.
Le délai de basculement de serveur dans le cas du clustering avoisine les 30 secondes, à mettre en parallèle avec les 5 secondes du mirroring.

Contrairement à son grand concurrent ORACLE, SQL Server ne dispose pas d'une réelle solution de clustering Actif-Actif. Microsoft préfère en effet privilégier l'accroissement des performances monoserveurs. Pour ceux dont l'architecture nécessiterait un scale out, il est possible d'implémenter une solution alternative consistant à créer deux clusters Actif-Passif croisés, simulant de fait le clustering Actif-Actif.

REPLICATION PEER-TO-PEER ET MIRRORING "ACTIF-PASSIF"

Microsoft offre également d'autres méthodes permettant d'utiliser les différentes machines tout en limitant les pertes de données potentielles en cas de crash système.
La plus ancienne des deux méthodes que je vous présenterai ici est la réplication Peer-To-Peer. Il ne s'agit ni plus ni moins que d'une réplication transactionnelle bi-directionnelle.
Ce type de réplication est extrêmement utile dans le cadre de sites de sauvegarde délocalisés. De plus, tous les serveurs sont actifs. Si l'on multiplie les noeuds de réplication, cette méthode s'avère très efficace et permet même d'envisager un partage de charge (Load Balancing). En revanche, contrairement au clustering, chaque machine est identifiée individuellement, et par conséquent le partage de charge doit être géré à un niveau plus bas, par exemple à l'aide d'un switch actif.
Une autre technique, s'appuyant sur le mirroring, permet d'avoir accès en lecture aux bases de données. Cette méthode nécessite un partage de ressource à l'aide, par exemple, d'une baie SAN, et un seul serveur accède à la base en écriture. Cette solution peut être très intéressante dans le cas de DataWareHouse nécessitant une grande capacité de calcul lors des lectures. Un des serveurs mirroirs prend le relai en cas de panne du serveur maître.

La réplication Peer-To-Peer est une solution largement répandue, mais souvent utilisée pour ses capacités de rapprochement des données des utilisateurs plus que pour la haute disponibilité ainsi procurée.

EN CONCLUSION

Je concluerai ce post en faisant le constat suivant : le besoin métier pilote évidemment le choix technologique, tant par les aspects financiers que par les aspects de criticité des données. Il est donc primordial de bien prendre en compte tous les éléments avant de définir une architecture de serveurs de bases de données, cela conditionnant également le développement des applications gravitant autour de celle-ci.

A très bientôt !

lundi 30 juillet 2007

Mise en oeuvre d'un test de validité avec SQL Server Integration Services

Bonsoir à tous !

Si SSIS présente de grands avantages en matière de débugging de part sa conception, il n'en demeure pas moins un outil largement perfectible sur un certain nombre de points.

Le premier d'entre eux est sans doute la faiblesse des bibliothèques de fonctions accessibles dans les tâches de conversions de données. En effet, les tests classiques permettant d'identifier la bonne typologie de la donnée importée dans un Data Flow (ISDATE, ISNUMERIC, ...) ne peuvent pas être effectués autrement qu'à l'aide d'une tâche Script Component... Une tâche souvent fastidieuse et longue à développer, en particulier si le nombre de champs à tester est particulièrement important.
Si devant cette lacune importante la solution de redévelopper un composant spécifique pour SSIS vient immédiatement à l'esprit, la réalité du déploiement sur les postes clients nous rattrape inexorablement. En effet, il est nécessaire de déployer le dit composant sur tous les serveurs impactés ce qui peut s'avérer rapidement délicat...

Je viens donc ici vous proposer une solution alternative, bien que peu satisfaisante pour les perfectionnistes dont je fais partie : l'utilisation de tables temporaires !
En effet, si SSIS ne possède pas les fonctions adéquates, le Transact-SQL peut venir à notre secours !
Il convient donc d'intégrer la source de données dans une table temporaire indépendante du format des données - par exemple des champs VARCHAR - puis d'effectuer les transformations et les vérifications d'intégrité dans le cadre d'une procédure stockée...

Si cette solution demeure peu reluisante, elle reste réellement la seule solution viable tant que SQL Server Integration Services n'offrira pas une bibliothèque de composants et de fonctions satifaisante...

A suivre...

Déplacement des bases de données système SQL Server 2005...

Bonjour à tous !!!

Voici un post qui ne devrait pas laisser indifférentes les personnes qui ont procédé au déplacement laborieux de toutes les bases d'une instance SQL, en particulier les bases système !

En effet, si le déplacement de ces bases est largement documenté dans la MSDN, il n'en demeure pas moins extrêmement long et fastidieux d'entreprendre une telle opération...
On note cependant l'effort important que Microsoft a consenti pour simplifier ce déplacement entre la version SQL Server 2000 et SQL Server 2005.

Pour mémoire, vous trouverez ici la documentation concernant le déplacement des fichiers des bases de données système de SQL Server 2000 et de SQL Server 7.
Sous SQL Server 2005, seul le déplacement des bases de données Master et mssqlsystemresource, nouvelle base de données qui n'existait pas sous SQL Server 2000, nécessite un traitement particulier.

Je vous propose donc ici un script customisable qui devrait ravir les grands et les petits qui souhaitent déplacer leurs bases de données système SQL Server 2005 en un clic !

Pour exploiter le code suivant, sauvegardez le dans un fichier Visual Basic Script (par exemple c:\movedb.vbs) et lancez le !

Function newliner(s)
newliner = Replace(s,"\n",VBCrLf)
End Function

Sub commande(s)
shcmd.Run "cmd /C " & s,1,true
End Sub

Dim base(4)
base(0) = array("ma","","","","master.mdf","mastlog.ldf")
base(1) = array("rs","mssqlsystemresource","data","log","mssqlsystemresource.mdf","mssqlsystemresource.ldf")
base(2) = array("mo","model","modeldev","modellog","model.mdf","modellog.ldf")
base(3) = array("db","msdb","MSDBData","MSDBLog","MSDBData.mdf","MSDBLog.ldf")
base(4) = array("tp","tempdb","tempdev","templog","tempdb.mdf","templog.ldf")

Function baseray(s)
baseray = array()
For Each row in base
If row(0) = s Then
baseray = row
End If
Next
End Function

' Déplace une base de données autre que "master" et "resource"
Sub movenormal(row, s)
database = row(1)
If s = "d" Then
nom = row(2)
fichier = row(4)
Elseif s = "j" Then
nom = row(3)
fichier = row(5)
End If
commande("sqlcmd -S " & instance & " -Q ""ALTER DATABASE " & database & " MODIFY FILE (name=" & nom & ", FILENAME='" & dest & "\" & fichier & "')""")
commande("net stop " & serviceinstance & " /yes")
commande("move """ & src & "\" & fichier & """ """ & dest & """ ")
commande("net start " & serviceinstance)
End Sub

' Déplace "master" et "resource"
Sub movemaster()
row = base(0)
fichierd = row(4)
fichierj = row(5)
commande("net stop " & serviceinstance & " /yes")

'SEARCH and replace parameters
cle = "HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Microsoft SQL Server\Instance Names\SQL\" & keyinstance
cleinstance = shcmd.RegRead(cle)
cle = "HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Microsoft SQL Server\" & cleinstance & "\MSSQLServer\Parameters"
If s = "d" Then
shcmd.RegWrite cle & "\SQLArg0", "-d" & dest & "\" + fichierd, "REG_SZ"
commande("move """ & src & "\" & fichierd & """ """ & dest & """ ")
Elseif s = "j" Then
shcmd.RegWrite cle & "\SQLArg2", "-l" & dest & "\" + fichierj, "REG_SZ"
commande("move """ & src & "\" + fichierj & """ """ & dest & """ ")
End If
commande("net start " + serviceinstance + " /f /T3608")
row = base(1)
database = row(1)
nomd = row(2)
nomj = row(3)
fichierd = row(4)
fichierj = row(5)
If s = "d" Then
commande("sqlcmd -S " & instance & " -Q ""ALTER DATABASE " & database & " MODIFY FILE (name=" & nomd & ", FILENAME='" & dest & "\" & fichierd & "')""")
commande("move """ & src & "\" & fichierd & """ """ & dest & """ ")
Elseif s = "j" Then
commande("sqlcmd -S " & instance & " -Q ""ALTER DATABASE " & database & " MODIFY FILE (name=" & nomj & ", FILENAME='" & dest & "\" & fichierj & "')""")
commande("move """ & src & "\" & fichierj & """ """ & dest & """ ")
End If
commande("sqlcmd -S " & instance & " -Q ""ALTER DATABASE " & database & " SET READ_ONLY""")
commande("net stop " & serviceinstance & " /yes")
commande("net start " & serviceinstance)
End Sub

set shcmd = WScript.CreateObject("WScript.Shell")

' Variables à redéfinir par InputBox ou manuellement:
' nom du serveur SQL et de l'instance dont on déplace les basese
serveur = InputBox("Nom du serveur")
If serveur = "" Then WScript.Quit
instance = InputBox("Nom de l'instance (Pour l'instance par défaut, laisser le champ vide)")
If Replace(instance, " ", "") = "" Then
instance = serveur
serviceinstance = "MSSQLSERVER"
keyinstance = "MSSQLSERVER"
Else
instance = serveur & "\" & instance
serviceinstance = "MSSQL$" & instance
keyinstance = instance
End If

src = InputBox("Chemin source")
dest = InputBox("Chemin destination")

line = "Base(s) à déplacer:\nmr: master + resource\ndb: msdbdata\nmo: model\ntp: tempdb\n(ex: 'mr, tp')"
db = InputBox(newliner(line))

line = "Déplacer (d)onnées, (j)ournaux\n ou les deux (d,j)"
dj = InputBox(newliner(line))

'line = "Paramêtres:\n- source: " + src + "\n- destination: " + dest + "\n- bases: " + db + "\n- objets: " + dj
'msgbox(newliner(line))

dbpar = Split(Replace(db," ",""),",")
djpar = Split(Replace(dj," ",""),",")

For Each db In dbpar
If db <> "mr" Then
r = baseray(db)
If ubound(r) > -1 Then
For Each dj in djpar
movenormal r, dj
Next
End If
Else
movemaster
End If
Next

Bonne journée !

lundi 18 juin 2007

Gestion des requêtes sur les vues partitionnées...

Bonsoir à tous !

Suite à de nombreux problèmes rencontrés avec les vues partitionnées, je souhaite clarifier certaines règles d'usage pour éviter tout problème avec ces éléments capricieux.

Tout d'abord, je voudrai parler du cas des champs date utilisés comme clé de partition. L'optimiseur de SQL Server n'est pas capable d'interpréter correctement les clauses CHECK sur ce type de données.
Le plus simple est alors de créer un champ acceptant l'optimisation des vues partitionnées. Par exemple, le plus simple avec une clé de partition sur l'année est de créer un champ de type INT contenant cette information.

Ainsi, la clé de partition ne sera plus le champ date qui nous posait problème, mais bien le champ INT qui lui sera supporté sans aucun problème.

Je souhaiterai ensuite évoquer les problèmes liés au mode de requêtage. En effet, l'optimiseur de requête de SQL Server effectuant le processus de Paramétrisation avant le processus de Planification de la requête, SQL Server ne procède pas aux optimisations nécessaires lors de la requête suivante :
DECLARE @TEST INT
SET @TEST = 50
SELECT Id, PartitionCol FROM VALL WHERE PartitionCol = @TEST

Nous pouvons alors privilégier le SQL Dynamique dans ce cas bien particulier, seule solution pour obtenir le résultat escompté.

Enfin, je voulai attirer ici l'attention sur l'importance des statistiques dans le cadre de l'utilisation des vues partitionnées. En effet, de mauvaises statistiques induisent le stockage d'un mauvais plan d'exécution. Les performances s'en ressentent alors de façon très importante, en particulier dans le cadre de l'utilisation de procédures stockées, où en cas de paramétrisation des requêtes ad hoc.

Bonne soirée !

Optimisation des requêtes à l'aide des vues partitionnées

Bonjour à tous !

Les vues partitionnées, tout comme les tables partagées dans SQL Server 2005, sont un moyen simple de répartir ses données sur plusieurs filegroups afin d'alléger les coûts de maintenance. Il est même possible à l'aide des vues partitionnées distribuées de répartir la charge, tout simplement en stockant les différentes tables sur différents serveurs.
Les vues partitionnées regroupent donc les données de plusieurs tables dont la structure est identique. Ainsi, toutes les opérations d'insertion, de modification et de suppression peuvent être effectuées sur une vue partitionnée, moyennant une condition sine qua non : la clé de répartion doit faire partie de la clé primaire de chacune des tables aggrégées.

Si les vues partitionnées sont très couramment utilisées pour aggréger les données dans le cadre d'infocentres multisites, les vues partitionnées n'en demeurent pas moins la seule façon de faire du partitionnement horizontal sous SQL Server 2000.
Dès lors, ces vues s'avèrent incontournables sous SQL Server 2000 pour architecturer une solution à forte volumétrie ou disposant d'une fenêtre de données glissante - dans ce cas particulier, la clé de répartition est couramment la date.

Afin de mieux comprendre comment optimiser une vue partitionnée, commençons par un exemple. Créons deux tables possédant la même structure.
CREATE TABLE TB1 (Id INT NOT NULL CONSTRAINT PK_TB1 PRIMARY KEY, PartitionCol INT NOT NULL)
CREATE TABLE TB2 (Id INT NOT NULL CONSTRAINT PK_TB2 PRIMARY KEY, PartitionCol INT NOT NULL)

La vue suivante est alors la vue "partitionnée" qui permet de concaténer les données de ces deux tables :
CREATE VIEW VALL AS SELECT Id, PartitionCol FROM TB1 UNION SELECT Id, PartitionCol FROM TB2

Cependant, cette vue est loin d'optimiser les performances, effectuant même une tâche de reconnaissance afin d'éviter les doublons.
Admettons maintenant que nos données soient réparties de façon bien distincte selon la clé de répartition. Nous pouvons alors de façon sûre écrire :
ALTER VIEW VALL AS SELECT Id, PartitionCol FROM TB1 UNION ALL SELECT Id, PartitionCol FROM TB2

Cette vue est maintenant nettement plus performante, mais reste toujours sans grand intérêt.
Appliquons maintenant des contraintes de type CHECK afin d'assurer au système la bonne séparation des données, par exemple en séparant les éléments négatifs des éléments positifs :
ALTER TABLE TB1 ADD CONSTRAINT CK_TB1_PartitionCol CHECK (PartitionCol < 0)
ALTER TABLE TB2 ADD CONSTRAINT CK_TB2_PartitionCol CHECK (PartitionCol >= 0)

En exploitant notre vue à l'aide de la commande suivante, on obtient enfin le résultat attendu :
SELECT Id, PartitionCol FROM VALL WHERE PartitionCol = 50

En effet, on peut voir dans le plan d'exécution de notre requête que seule la table TB2 est effectivement requêtée.

Nous pouvons maintenant procéder à la dernière étape de l'optimisation de notre vue partitionnée. Pour cela il nous faut ajouter notre clé de répartition dans la clé primaire. Ainsi, nous pourrons utiliser notre vue partitionnée pour insérer et modifier nos données.
ALTER TABLE TB1 DROP CONSTRAINT PK_TB1
ALTER TABLE TB1 ADD CONSTRAINT PK_TB1 PRIMARY KEY (Id, PartitionCol)
ALTER TABLE TB2 DROP CONSTRAINT PK_TB2
ALTER TABLE TB2 ADD CONSTRAINT PK_TB2 PRIMARY KEY (Id, PartitionCol)

La commande suivante est alors possible !!!
INSERT INTO VALL (Id, PartitionCol) VALUES (10, 1000)

Je conviens aisément que ces vues partitionnées présentent de nombreuses difficultés d'implémentation, et qu'en matière de "fenêtre glissante", rien ne vaut les tables partitionnées de SQL Server 2005. En revanche, qu'il s'agisse d'une architecture sous SQL Server 2000 ou une architecture distribuée sur plusieurs serveurs, les vues partitionnées s'avèrent être une arme redoutable dans l'arsenal du développeur Base de Données.

A bientôt, et tous à vos benchs !

jeudi 31 mai 2007

Haute disponibilité et licences SQL Server 2005

Bonsoir !

En attendant que je trouve une solution pour publier un post qui me tient à coeur, je viens vous parler d'un sujet qui intéresse un jour ou l'autre tout le monde : les sous !

En effet, la mise en oeuvre d'une solution de haute disponibilité est souvent vue par beaucoup de clients comme un poste financier des plus onéreux. Je viens ici démonter ces préjugés... La politique de licences de SQL Server 2005 permet aux sociétés disposant de moyens financiers limités d'obtenir une solution robuste à faible coût.

Le premier des préjugés que je voudrais casser ici, sans doute lié à la réalité de la version précédente de SQL Server, c'est que SQL Server 2005 ne nécessite pas l'acquisition d'une édition Entreprise pour permettre de mettre en oeuvre une solution de haute disponibilité. En effet, l'édition Standard supporte les solutions de mirroring, de clustering et de log shipping... Et bien entendu, la distribution des données !

Le deuxième est un aspect de licence qui revient souvent dans mes entretiens avec mes clients : les solutions de haute disponibilités telles que le mirroring et le clustering étant des solutions dites "Actif-Passif" - comprenez que le serveur de backup est en position d'attente et ne peut servir l'utilisateur - Microsoft considère que vous n'avez pas à investir dans une licence pour votre serveur de backup si celui-ci ne remplace pas le serveur principal plus de 30 jours par an !

Bien entendu, des limites existent, puisque, par exemple, le mirroring proposé dans l'édition Standard ne supporte que 2 noeuds d'au plus 2 processeurs chacun... Mais quand on rappelle que le serveur témoin peut être matérialisé par un simple SQL Server 2005 Express, il apparaît évident que SQL Server 2005 propose une solution de haute disponibilité tout à fait accessible.

A très bientôt !

mardi 22 mai 2007

Incorporer des rapports Reporting Services 2005 dans une application Web

Bonjour à tous !

Au cours des différents ateliers et des formations que j'ai animés sur Reporting Services 2005, une question revient régulièrement : l'interopérabilité.
En effet, si Reporting Services est très bien intégré dans le monde .Net, notamment avec le composant ReportViewer, comment peut-on intégrer un rapport dans une page ASP classique ? Comment piloter Reporting Services depuis une simple FRAME ?

Si l'intégration de Reporting Services à travers l'URL du serveur de rapports est relativement simple, il n'en est en revanche pas de même pour les paramètres permettant de personnaliser l'affichage. Et rares sont les éléments de documentation à notre disposition. Je propose donc ici une sélection de paramètres utiles pour l'intégration de rapports Reporting Services dans des pages Web.

Créons par exemple le rapport "Mon Rapport.rdl" que l'on stocke dans un nouveau répertoire "Test" de notre serveur Reporting Services.
De façon à tester tous les paramètres, nous ajoutons un paramètre à notre rapport nommé "DateDuJour".

Par défaut, l'URL http://localhost/ReportServer?%2fTest%2fMon+Rapport me permet d'obtenir mon rapport - en partant bien entendu du postulat que le serveur de rapports se trouve bien à l'adresse http://localhost/ReportServer et que le gestionnaire de rapports se situe à l'adresse http://localhost/Reports.
Il est possible d'éviter à l'utilisateur d'avoir à saisir le paramètre en ajoutant la valeur du paramètre dans l'URL :
http://localhost/ReportServer?%2fTest%2fMon+Rapport&DateDuJour=01/01/2007

Cependant, le rendu obtenu présente toujours une lourde barre d'outils et permet à l'utilisateur de modifier selon sa volonté les paramètres du rapport.

Il existe en fait de nombreux paramètres permettant de personnaliser l'affichage de notre rapport. Nous en distinguons 2 grandes catégories :
- Les paramètres du serveur préfixés par le namespace rs,
- Les paramètres de rendu des composants préfixés par le namespace rc.

Voici donc les paramètres du serveur les plus utiles :

- rs:Command
Ce paramètre définit l'action menée par le serveur. Par défaut, la valeur de ce paramètre est définie à "Render" pour les rapports et "ListChildren" pour les dossiers.
On trouve également deux autres valeurs possibles de ce paramètre : "GetRessourceContents" et "GetDataSourceContents".
Si l'on spécifie ce paramètre, l'URL de notre rapport devient :
http://localhost/ReportServer?%2fTest%2fMon+Rapport&rs:Command=Render&DateDuJour=01/01/2007

- rs:Format
Le format est sans aucun doute l'un des paramètres préférés des utilisateurs. Il permet en effet de définir le format du rendu parmi les formats existants (HTML3.2, HTML4.0, HTMLOWC, MHTML, IMAGE, EXCEL, CSV, PDF, XML) ou d'autres extensions si elles sont disponibles sur le serveur.
Ainsi, si l'on souhaite obtenir notre rapport en PDF, l'URL de notre rapport devient :
http://localhost/ReportServer?%2fTest%2fMon+Rapport&rs:Command=Render&rs:Format=PDF&DateDuJour=01/01/2007

- rs:ParameterLanguage
Ce paramètre permet de s'affranchir de la culture du navigateur client en spécifiant une culture spécifique. La valeur par défaut est la valeur du navigateur client.
Nous pouvons par exemple forcer la culture de notre rapport en utilisant l'URL suivante :
http://localhost/ReportServer?%2fTest%2fMon+Rapport&rs:Command=Render&rs:ParameterLanguage=fr-FR&DateDuJour=01/01/2007

- rs:Snapshot
Le paramètre Snapshot permet d'utiliser la capture d'un rapport effectuée à une date et une heure précises. Cette capture instantanée est stockée dans la base de données Reporting Services.
Ce paramètre reçoit une date longue sans timezone. Notre URL devient :
http://localhost/ReportServer?%2fTest%2fMon+Rapport&rs:Command=Render&rs:Snapshot=2007-05-22T15:41:08
Ce paramètre nécessite bien évidemment que l'historique du rapport soit activée.

- rs:ClearSession
Ce paramètre permet de forcer le navigateur à vider son cache et à recharger une nouvelle version du rapport.
Dans notre cas, l'URL devient :
http://localhost/ReportServer?%2fTest%2fMon+Rapport&rs:Command=Render&rs:ClearSession=true&DateDuJour=01/01/2007

- rs:SessionID
Un paramètre qui permet d'identifier une session active lorsque le serveur de rapport n'utilise pas les cookies.
L'URL prend alors la forme suivante :
http://localhost/ReportServer?%2fTest%2fMon+Rapport&rs:Command=Render&rs:SessionID=uwoits45rufhhg55f2i3hm55&DateDuJour=01/01/2007

Etudions maintenant quelques paramètres de rendu utiles :

- rc:Toolbar
Ce paramètre permet d'afficher ou de cacher la totalité de la barre d'outils.
Par exemple, si nous souhaitons cacher la barre d'outils, notre URL devient :
http://localhost/ReportServer?%2fTest%2fMon+Rapport&rs:Command=Render&rc:Toolbar=false&DateDuJour=01/01/2007
La valeur par défaut est évidemment définie à "true".

- rc:Parameters
Ce paramètre permet de ne cacher que la partie édition des paramètres du rapport de la barre d'outils. La valeur de ce paramètre n'a donc pas d'incidence si le précédent est défini à "false".
Ainsi, si nous souhaitons que les paramètres du rapport restent figés, notre URL devient :
http://localhost/ReportServer?%2fTest%2fMon+Rapport&rs:Command=Render&rc:Parameters=false&DateDuJour=01/01/2007
La valeur par défaut est évidemment définie à "true".

- rc:Section
Ce paramètre permet d'afficher la page du rapport souhaitée. Par défaut, Reporting Services affiche la première page du rapport.
Pour afficher la deuxième page, nous écrivons :
http://localhost/ReportServer?%2fTest%2fMon+Rapport&rs:Command=Render&rc:Section=2&DateDuJour=01/01/2007
Ce paramètre est particulièrement utile si l'on souhaite développer sa propre barre d'outils.

- rc:Zoom
Il s'agit d'un paramètre de rendu ne fonctionnant qu'avec les versions d'Internet Explorer 5.0 ou ultérieures.
Les valeurs possibles pour ce paramètre sont :
* "page+width" pour occuper toute la largeur du navigateur,
* "whole+page" pour optimiser l'espace dans le navigateur pour visualiser le rapport sur une seule page,
* un entier correspondant à un pourcentage ; la valeur par défaut est "100".

- rc:LinkTarget
Utile si votre rapport contient des hyperliens, ce paramètre permet de préciser la fenêtre ou la frame de destination des liens de votre rapport.
Les différentes valeurs possibles sont entre autres :
* "_blank",
* "_self",
* "_parent",
* "_top",
* Ou tout autre nom de cible valide.

- rc:FindString, rc:StartFind, rc:EndFind
Le paramètre rc:FindString permet de filtrer les enregistrements du rapport. Ce paramètre est souvent utilisé conjointement avec les paramètres rc:StartFind et rc:EndFind qui permettent de borner la recherche.
Par exemple, pour rechercher la chaîne de caractères "Test" dans les 2 premières pages du rapport, l'URL sera :
http://localhost/ReportServer?%2fTest%2fMon+Rapport&rc:FindString=Test&rc:StartFind=1&rc:EndFind=2&DateDuJour=01/01/2007

- rc:Stylesheet
Le dernier paramètre que je développerai dans ce post permet de définir une feuille de style à appliquer sur le rapport.
La feuille de style CSS doit être présente dans le répertoire des styles, par défaut :
C:\Program Files\Microsoft SQL Server\MSSQL\Reporting Services\ReportServer\Styles
Pour appliquer la feuille de style "MonStyle.css", l'URL devient :
http://localhost/ReportServer?%2fTest%2fMon+Rapport&rs:Command=Render&rc:Stylesheet=MonStyle&DateDuJour=01/01/2007
On notera tout comme pour l'appel du rapport l'absence d'extension.

Je concluerai par le fait que la majeure partie des paramètres présentés ici sont valables dès les services packs de Reporting Services 2000, et que par conséquent cet article ne s'adresse pas uniquement aux utilisateurs de Reporting Services 2005.

A bientôt pour un autre article !

lundi 2 avril 2007

Maintenance des index SQL Server - Défragmentation et réindexation

Bonjour à tous !

Je rencontre de plus en plus fréquemment le problème de la fragmentation des index.
En effet, lorsqu'un fort volume de données est inséré dans une table sans que cela ne soit prévu lors de la conception de la base de données, les index croissent de manière désordonnée...

Pour détecter une telle fragmentation, SQL Server 2000 offre la commande suivante :
DBCC SHOWCONTIG
Si cette commande est toujours disponible sous SQL Server 2005 - et sera amenée à disparaitre dans les versions futures -, ce dernier fournit d'autres outils plus ergonomiques et plus précis pour les administrateurs. Parmi ces outils, on notera notamment la fonction dynamique suivante :
sys.dm_db_index_physical_stats

Il existe plusieurs façons de corriger le problème de la fragmentation. Mais avant de voir ces différentes techniques, attachons-nous tout d'abord à la façon dont l'on peut éviter que cette fragmentation ne se produise...

En réalité, tout dépend du mode d'alimentation de la base de données. En effet, un batch de chargement sera traité différemment d'une insertion unitaire.
De la même manière, le milieu fonctionnel impose des contraites ne permettant pas toujours l'emploi de certaines techniques.

Voyons tout d'abord le cas du batch de chargement : lors de l'exécution d'un batch, nous insérons généralement de grandes quantité de données. Ces batches s'exécutent habituellement de nuit, période de faible activité pour la base de données.
Dans ce cas, nous privilégierons la suppression de tous les index avant le chargement, et la recréation de ces index à la fin. Ceci présente un double avantage :
- D'une part les index regénérés ne sont pas fragmentés, puisque tout frais
- D'autre part le chargement des données est beaucoup plus rapide

Je rappellerai ici que la clé primaire incluant un index unique doit également être supprimée dans ce cas - parce que non, ça n'arrive jamais qu'il y ait des personnes qui suppriment tous les index sauf celui de la clé primaire ;-).
Bien entendu, cette suppression des index implique une absence d'activité sur la base de données sur une plage horaire donnée.

Dans le cas des insertions unitaires, le volume de ces insertions est généralement prévisible et plus faible. Dans ces conditions, le mieux est de dimensionner le FILLFACTOR de l'index à une valeur assurant un espace suffisant pour son développement.
Attention à ne pas tomber dans l'excès tout de même : un FILLFACTOR inférieur à 50 dégrade très fortement les performances et s'avère donc plus pénalisant que la fragmentation des index.

Attachons-nous maintenant à une table dont les index sont largement fragmentés.

Une solution simple reste la suppression des index pour les recréer. Cette solution présente l'avantage de toujours donner satisfaction et d'éviter l'explosion des groupes de fichiers.
Cette solution peut être effectuée dans un script traditionnel (DROP/CREATE) ou à l'aide de la commande DBCC DBREINDEX.
L'inconvénient majeur de cette méthode reste la période d'inactivité de la base de données nécessaire pour la reconstruction des index, car ces opérations sont des opérations OFFLINE.
La commande DBCC DBREINDEX, toujours présente dans SQL Server 2005, possède un équivalent avec la commande ALTER INDEX avec l'option REBUILD.

L'autre solution est la défragmentation (DBCC INDEXDEFRAG). Cette solution est une solution ONLINE. C'est la principale raison d'être de l'utilisation de cette commande. Cependant, il faut prendre garde à n'effectuer cette opération qu'après le chargement et non pas en parallèle au risque d'être totalement inefficace.
Le principal inconvénient de cette solution est la place nécessaire sur les groupes de fichiers. En effet, la défragmentation déplace des blocs de données vers des emplacements libres, et par conséquent pose rapidement des problèmes de taille des groupes de fichiers si la fragmentation est très importante. De plus la défragmentation est une opération entièrement loggée générant de fait de très gros volumes dans les journaux de transactions.
Là encore, SQL Server 2005 autorise toujours la commande DBCC INDEXDEFRAG, destinée à disparaître au profit du ALTER INDEX avec l'option REORGANIZE.

En conclusion, voici un récapitulatif des points importants :
- La première des choses est de s'assurer dans le cadre du développement de la base de données que notre base de données ne se fragmentera pas ou peu. Pour cela, il ne faut pas hésiter à supprimer les index et à les recréer au cours des processus d'alimentation. La fragmentation des index n'est pas une fatalité.
- Par la suite, un examen régulier de l'état de la base de données permet de surveiller l'évolution des index et le cas échéant d'entreprendre des actions.
- Sous SQL Server 2000, on privilégiera la commande atomique DBCC DBREINDEX si l'opération peut être menée OFFLINE. On restreindra donc l'usage de la commande DBCC INDEXDEFRAG aux cas nécessitant que les données restent ONLINE.
- Sous SQL Server 2005, on utilisera la commande ALTER INDEX avec les options REBUILD et REORGANIZE qui vont bien, cette commande étant la seule destinée à être maintenue dans les prochaines versions de SQL Server.

Winwise obtient la compétence Data Management !

Bonsoir !

Une bonne nouvelle pour Winwise est tombée aujourd'hui : Winwise obtient la compétence Data Management auprès de Microsoft !

Une nouvelle certes attendue depuis quelques semaines maintenant, mais une excellente nouvelle pour le pôle Data Management...
Plein de travail en perspective :D

jeudi 22 mars 2007

Comment connecter SSIS à un classeur Excel 2007 via OLE DB...

Bonjour à tous !

Tout d'abord, je tiens à formuler ici un GRAND merci à Radu - bon anniversaire ;-) - pour l'astuce que je vais vous présenter ci-dessous : Comment connecter SSIS à un classeur Excel 2007 via OLE DB.

En effet, le fournisseur OLE DB Microsoft Jet ne permet pas de se connecter à Excel 2007.

En revanche, il est possible de se connecter à un classeur Excel 2007 via le fournisseur Microsoft Office 12.0 Access Database Engine OLE DB Provider.
La première étape consiste à créer la connexion OLE DB et à en spécifier le fournisseur. Puis, la source de données, qui est évidemment le fichier que vous souhaitez utiliser.
Ce qui parait surprenant, c'est qu'à ce stade, la connexion ne fonctionne pas.

Il vous faut alors prendre vos petites mimines et dans l'onglet All des propriétés de votre connexion OLE DB taper la valeur "Excel 12.0" dans les propriétés étendues...
Oh, miracle de la technologie, la connexion devient alors opérationnelle...

mardi 20 mars 2007

SQL Server 2005 plus strict que la norme XSD du W3C

Bonjour à tous !

Suite à une question pertinente d'un client, j'ai cherché à comprendre pour quelle raison un schéma XSD me semblant parfaitement valable me générait une erreur à l'insertion des données...

Une fois le problème isolé, j'ai pu effectuer le test suivant :

DROP TABLE TestXML
GO
DROP XML SCHEMA COLLECTION TestDateRestriction
GO
DROP XML SCHEMA COLLECTION TestDateRestrictionTimeZone
GO
CREATE XML SCHEMA COLLECTION TestDateRestriction
AS
'<?xml version="1.0" encoding="utf-8"?>
<xsd:schema targetNamespace="http://tempuri.org/TestDateRestriction.xsd" attributeFormDefault="unqualified" elementFormDefault="qualified" xmlns="http://tempuri.org/TestDateRestriction.xsd" xmlns:xsd="http://www.w3.org/2001/XMLSchema">
<xsd:element name="root">
<xsd:simpleType>
<xsd:restriction base="xsd:dateTime">
<xsd:pattern value=".+T[^Z+-\.]+" />
</xsd:restriction>
</xsd:simpleType>
</xsd:element>
</xsd:schema>'
GO
CREATE XML SCHEMA COLLECTION TestDateRestrictionTimeZone
AS
'<?xml version="1.0" encoding="utf-8"?>
<xsd:schema targetNamespace="http://tempuri.org/TestDateRestriction.xsd" attributeFormDefault="unqualified" elementFormDefault="qualified" xmlns="http://tempuri.org/TestDateRestriction.xsd" xmlns:xsd="http://www.w3.org/2001/XMLSchema">
<xsd:element name="root">
<xsd:simpleType>
<xsd:restriction base="xsd:dateTime">
<xsd:pattern value=".+T[^+-\.]+Z" />
</xsd:restriction>
</xsd:simpleType>
</xsd:element></xsd:schema>'
GO
CREATE TABLE TestXML
(
IdTB INT IDENTITY(1, 1) NOT NULL
CONSTRAINT PK_TestXML PRIMARY KEY CLUSTERED,
XMLTB XML (DOCUMENT TestDateRestriction) NULL,
XMLTBTimeZone XML (DOCUMENT TestDateRestrictionTimeZone) NULL
)
GO
INSERT INTO TestXML (XMLTB) VALUES (N'<r:root xmlns:r="http://tempuri.org/TestDateRestriction.xsd">2005-03-22T08:35:00</r:root>')
GO
INSERT INTO TestXML (XMLTBTimeZone) VALUES (N'<r:root xmlns:r="http://tempuri.org/TestDateRestriction.xsd">2005-03-22T08:35:00Z</r:root>')
GO

Le résultat est le suivant : SQL Server 2005 n'autorise pas les dates sans spécification du flag Time Zone.

Or, dans le cadre des types DateTime, la norme XSD n'impose nullement la présence de l'indication TimeZone spécifiée dans la norme ISO 8601 comme le spécifie le W3C dans les spécifications suivantes : http://www.w3.org/TR/2005/WD-xpath-datamodel-20050211/#storing-timezones...
En revanche, l'exemple précédent prouve définitivement le choix de SQL Server de se conformer à la norme ISO. Cette information est d'ailleurs confirmée par cet article de la MSDN : http://msdn2.microsoft.com/en-us/library/ms345115.aspx#sql25xmlbp_topic3 (section "Using xs:datetime, xs:date and xs:time").

La seule question qui me reste à élucider est la raison de ce choix exigeant qui pose un problème de compatibilité : le XSD dont je dispose est imposé et partagé par de nombreux utilisateurs et ne peut donc pas être modifié...

Bonne lecture !

mardi 13 février 2007

Modification du blog !

Bonjour à tous !

Suite aux multiples avis des différentes personnes qui m'ont fait de nombreuses remarques, ce blog vient de subir un léger lifting...
Alors n'hésitez pas à poster vos commentaires et vos idées concernant la nouvelle mise en page !

Typiquement, je suis à la recherche d'une couleur et d'une police intéressantes pour les blocs de code... Avis bienvenus ;-)

vendredi 9 février 2007

Analysis Services 2000 Service Pack 4 - l'arme anti DSO distant !

Bonjour à tous !

Si le pilotage d'Analysis Services 2000 via le namespace DSO est extrêmement simple, comme nous l'avons vu précédemment, il n'en demeure pas moins surprenant que la connexion s'effectue correctement sans une chaîne de connexion bien formée.
En effet, seul le nom du serveur est fourni lors de la connexion avec les objets DSO. La chaîne de connexion est alors récupérée en base de registre, décryptée, et permet d'accéder au Repository d'Analysis Services.

En pratique, Analysis Services stocke deux chaînes de connexion encryptées dans la base de registre :
- une première chaîne pour les connexions locales :
Provider=Microsoft.Jet.OLEDB.4.0;Data Source=C:\Program Files\Microsoft Analysis Services\Bin\msmdrep.mdb
- une deuxième chaîne pour les connexions distantes :
Provider=Microsoft.Jet.OLEDB.4.0;Data Source=\\<NomDuServeur>\MsOLAPRepository$\msmdrep. mdb

Vous remarquerez ici que le Repository d'Analysis Services 2000 est stocké dans une base de données Access.

A partir du Service Pack 3, un bug est apparu concernant la connexion avec les objets DSO. Malheureusement, le HOTFIX réalisé à l'époque n'a pas été incorporé dans le Service Pack 4 d'Analysis Services 2000.
En effet, l'encryption de la chaîne de connexion distante est défaillante. Il en résulte que la chaîne de connexion décryptée par les objets DSO n'est pas valide.

Ainsi, lors d'une connexion distante via DSO, le message suivant peut-être obtenu :
Cannot connect to the repository. OLAP Server: Error: <NomDuServeur> [Microsoft][ODBC Driver Manager] Data source name too long

L'incompréhension vient souvent du fait que la même action effectuée avec une connexion locale ne pose aucun problème, brouillant un peu plus les pistes de correction.

Un bug incidieux donc, pour lequel vous trouverez un HOTFIX ici. La référence de la description du HOTFIX est KB907323.
Plus simplement, vous pouvez modifier la valeur de la clé contenant la chaîne de connexion distante en effectuant un click droit sur le nom de votre serveur dans Analysis Manager dans le menu "Edit Repository Connection String".

Bien entendu, il est totalement inutile de passer ce HOTFIX si vous ne rencontrez aucun problème ;-)

Effectuer un process de cube dynamiquement...

Bonjour à tous !
Bon nombre d'entre vous ont peut-être souhaité un jour pouvoir effectuer un process de cube Analyses Services dynamiquement dans une application.
Le namespace DSO (Decision Support Objects) permet de se connecter au serveur Analysis Services simplement et offre une API intuitive en s'appuyant sur des composants COM via interop.
Le namespace DSO est disponible dans le framework 1.1 et permet de piloter Analysis Services 2000 et 2005.
Le namespace AMO (Analysis Management Object - Microsoft.AnalysisServices) a remplacé avantageusement le namespace DSO dans le framework 2.0.

Voici quelques bases pour l'utilisation de DSO...

Le code suivant permet d'effectuer une connexion au serveur local :
DSO.ServerClass dsoServer = new DSO.ServerClass();
dsoServer.Connect("localhost");

Puis il est possible de se positionner sur la base "Test" de la façon suivante :
DSO.Database dsoDB = dsoServer.MDStores.Item("Test");

Enfin, un cube ou une dimension donnés peuvent être identifiés de la façon suivante :
DSO.Cube dsoCube = dsoDB.MDStores.Item("MonCube");
DSO.Dimension dsoDim = dsoDB.Dimensions.Item("MaDimension");

Le process du cube ou d'une dimension est alors très aisément exécuté :
dsoDim.Process(DSO.ProcessTypes.processFull);
dsoCube.Process(DSO.ProcessTypes.processFull);

Si vous modifiez le cube dynamiquement (ajout ou suppression de dimension, modification des clauses de jointure, ...), il est nécessaire de mettre à jour le cube avant d'en effectuer le process :
dsoCube.Update();

Pensez à toujours vous déconnecter - typiquement dans le finally de vos blocs try-catch :
dsoServer.Disconnect();

... Et pour l'utilisation de AMO...

Le code suivant permet d'effectuer une connexion au serveur local :
Microsoft.AnalysisServices.Server amoServer = new Microsoft.AnalysisServices.Server();
amoServer.Connect("Data Source=localhost");

Le process du cube est tout aussi simple :
amoServer.Databases["Test"].Cubes["MonCube"].Process();

On notera les noms des collections beaucoup plus propres (Databases au lieu de MDStores).

Un pilotage simple pour des applications d'administration interactives ! Attention toutefois à ne pas oublier qu'un process de cube peut être une action coûteuse, et qu'il n'est souvent pas de très bon ton de rendre les données indisponibles pendant la journée ;-)

vendredi 26 janvier 2007

Un nouveau Bloggeur chez Winwise !!!

Bonjour à tous !

Je viens vous présenter un nouveau bloggeur de chez nous... Alors gare aux blagues carambar - il est expert en la matière - et bonne lecture à tous !!!

Au fait, il est fan de DELEGATE anonymes... Surtout quand ça ne sert à rien ;-)

Vous trouverez donc le blog de Matthieu Mezil en cliquant ici... Ou dans le bandeau sur la droite ;-)

mercredi 17 janvier 2007

Les colonnes calculées persistantes... Une bonne idée ?

Bonsoir !

Les colonnes calculées sont supportées par SQL Server depuis la version 7... En revanche, SQL Server 2005 permet désormais de rendre ces colonnes persistantes.

En effet, jusque là, les colonnes calculées étaient des colonnes virtuelles, c'est à dire que ces colonnes n'étaient pas écrites sur le disque. Le fait de pouvoir rendre une colonne calculée persistante, c'est le fait de rendre cette colonne physique, et donc de stocker les données inhérentes à cette colonne sur le disque de données.

SQL Server 2000 avait déjà apporté la possibilité de créer des index sur les colonnes calculées, permettant ainsi d'améliorer grandement les performances de certaines applications, en particulier dans le domaine de la consolidation de données. L'exemple type qui reste gravé dans la mémoire collective est la consolidation du chiffre d'affaire mois par mois.
En effet, examinons la table suivante :

CREATE TABLE dbo.Vente
(
VenteID INT IDENTITY (1, 1) NOT NULL
CONSTRAINT PK_Vente PRIMARY KEY CLUSTERED,
DateVente SMALLDATETIME NOT NULL,
MontantVente MONEY NOT NULL
)

Une requête pour consolider ces résultats sur le mois de janvier serait :

SELECT
SUM(MontantVente)
FROM
dbo.Vente
WHERE
DATEPART(MONTH, DateVente) = 1

Cependant, si la volumétrie est importante, cette requête peut rapidement s'avérer très coûteuse. Si la solution d'indexer la colonne DateVente n'apporte rien dans notre cas, il peut être très utile d'employer une colonne calculée :

ALTER TABLE dbo.Vente
ADD MoisVente AS DATEPART(MONTH, DateVente)

Cette colonne n'utilisant qu'une fonction déterministe, il est possible d'y ajouter un index. A cet effet, un certain nombre d'options doivent être correctement positionnées :

SET ANSI_NULL ON
SET ANSI_PADDING ON
SET ANSI_WARNINGS ON
SET ARITHABORT ON
SET CONCAT_NULL_YIELDS_NULL ON
SET QUOTED_IDENTIFIER ON
SET NUMERIC_ROUNDABORT OFF

Puis, il est possible de créer l'index :

CREATE NONCLUSTERED INDEX IX_MoisVente ON dbo.Vente
(
MoisVente
)

Avant d'effectuer notre requête optimisée :

SELECT
SUM(MontantVente)
FROM
dbo.Vente
WHERE
MoisVente = 1

Le résultat est assez probant, et peut s'avérer extrêmement intéressant.
La question qui se pose donc est ce que peut bien apporter la persistance d'une telle colonne calculée. En effet, l'argument régulièrement évoqué de l'indexation de la colonne semble bien tomber à l'eau... Quant aux conditions d'utilisation des index sur les colonnes calculées, elles s'avèrent identiques que la valeur soit persistée ou non, à l'exception du déterminisme de la fonction employée...

Pourquoi donc encombrer les disques de données visiblement inutiles ?
La première piste serait donc l'utilisation de fonctions non déterministes, ou dont il serait difficile de savoir si elles le sont, en particulier en ce qui concerne les fonctions CLR.

Mais il faut également se tourner vers des cas plus gourmands en calculs : la persistance prend tout son intérêt lors de calculs complexes nécessitant des ressources CPU importantes, en particulier lorsque la volumétrie de modifications est faible.
Dans ces cas là, le calcul à la volée de notre colonne entraine nécessairement un ralentissement du système, et justifie la persistance de ce calcul.

Soit, voici donc les applications de ces colonnes calculées persistantes...

Visiteurs du jour...

Bonjour à tous !

Suite à un grand nombre de témoignages de mécontentement, je vais effectuer des essais de couleurs sur le blog... Alors, titulaires d'un compte Google - oui, je sais, il faut un compte Google pour envoyer un commentaire, et je dois dire qu'il faut un compte Developpeur.org sur Developpeur.org, mais ça n'est qu'un détail - merci de me donner votre avis !

Histoire de savoir à l'avenir si mon site abandonnera son fond noir - pour l'instant, 4 avis pour le noir, 5 contre... - et arborera de nouvelles couleurs !

Pour ceux qui douteraient de mon intention de venir rejoindre leur gentille communauté, vous trouverez ici et là des explications concernant mes choix...

vendredi 12 janvier 2007

Comment choisir le nombre de grappes de disques...

Bonjour à tous !

Voici quelques conseils indémodables sur la séparation des fichiers de bases de données sur des grappes de disques - idéalement sur des contrôleurs - séparés...

Nous noterons tout d'abord que les différentes configurations adaptées aux bases de données isolent systématiquement les journaux de transactions sur un jeu de disques séparé, et cela pour deux raisons :
- Concernant la sécurité des données, la perte totale des disques de données peut être récupérée à l’aide des journaux de transactions, et inversement ;
- L’isolation des journaux de transactions assure de meilleures performances globales du système en limitant les files d’attentes sur les différents disques.

Ensuite, pour des raisons de performance générale de la base de données, il est primordial d'installer la base TempDB sur un jeu de disques isolé... En effet, toutes les bases de données du SGBD utilisent cette base pour créer des objets temporaires aux cours des différentes requêtes. Ceci est particulièrement important dans SQL Server 2005 !

Toujours pour des raisons d'optimisation des performances, il est souhaitable d'isoler les index non ordonnés (NONCLUSTERED) sur un jeu de disque séparé et ainsi accroitre les performances de recherche par ces index. En revanche, séparer les index CLUSTERED est totalement inutile, car cela reviendrait à déplacer la totalité des données...

Il est également recommandé de déplacer les données volumineuses - souvent baptisées BLOB pour Binary Large OBjects - sur un jeu de disques séparés afin de limiter le fractionnement des données... Pour cela, le partitionnement horizontal des données est nécessaire.

De plus en plus de bases de données présentent des volumes de données extrêmement important, ce qui peut grever grandement les performances. La solution du partitionnement vertical assure que les données soient séparées sur des espaces de données différents... Il est souvent intéressant d'isoler ces filegroups sur des jeux de disques séparés.

Enfin, il est important de rappeler que :
- Les disques systèmes ne sont pas des disques de données, et doivent être réservés à l'usage du système d'exploitation et des exécutables,
- Les disques servant de stockage de fichiers de backup lorsque cela s'applique doivent également être des disques dédiés pour éviter toute dégradation des performances de la base de données,
- Et que pour mettre en place ce type d'architecture, rien ne vaut le RAID... Alors bonne lecture !

Le RAID : les conclusions...

Il est donc temps pour moi d’en venir aux conclusions…
Si les différents niveaux de RAID sont si nombreux, la raison en est bien simple : chaque système possède des points forts et des points faibles à mettre en avant en fonction des besoins de chacun.

Cependant, il faut bien reconnaitre qu’un compromis est souvent nécessaire.
En la matière, le RAID 5 s'impose souvent comme le maître incontesté du rapport performance/coût... En revanche, les difficultés de sizing des bandes grevent les performances en écriture dans la majorité des systèmes de bases de données, entrainant de fait son rejet par les DBA puristes...
Qui eux, sans aucun doute feront le choix du RAID 10, certes plus coûteux, mais assurant des performances constantes quelques soient les modes d'accès. Un avantage indéniable, quand on peut aisément lui associer une meilleure vitesse de reconstruction des données, une dégradation des performances inférieure en cas de panne, une meilleure tolérance de panne... Et une installation plus simple à réaliser !

Enfin, il ne faut pas négliger les disques destinés au système d'exploitation, qui mérite sans aucun doute de bénéficier d'un bon RAID 1, peu coûteux, et répondant idéalement aux prérequis de disponibilité du système.

Alors, à vos marques... Configurez !

RAID 103, 105 et les autres...

Actuellement, bon nombre de sociétés sont à la recherche d’une solution permettant d’améliorer les performances en écriture du RAID 10, son point faible. Ces solutions intègrent également des niveaux de sécurité extrêmement importants.
Des solutions complexes du type RAID 103 et RAID 105 sont actuellement à l’étude. Si leur mise en œuvre parait extrêmement complexe, les performances obtenues n’en demeurent pas moins très prometteuses.

Aucune carte contrôleur disponible sur le marché ne permet actuellement de gérer de telles configurations physiquement qui sont uniquement du domaine de la recherche pour l’instant… A suivre ;-)

RAID 15 et 51...

L’intérêt majeur de mutualiser ces deux types de RAID réside dans la robustesse de ce modèle en termes de sécurité des données ; la tolérance de panne ainsi obtenue s’avère impressionnante. On peut ainsi perdre la plupart des disques sur un RAID 15 (7/9 disques par exemple). C’est le meilleur niveau de RAID en termes de tolérance de panne et en termes de disponibilité. Mais c’est un RAID très coûteux, en raison du coût important des cartes contrôleurs qui lui sont adaptées d’une part, et en raison d’une capacité de stockage très fortement réduite – présentant des pertes de plus de 70% de l’espace disque total dans certaines de configurations – d’autre part. Les performances de ces types de RAID ne sont jamais exceptionnelles, mais ne s’avèrent jamais catastrophiques pour autant. Il s’agit d’un excellent compromis pour des cas où la sécurité est primordiale.
Toutefois, la plupart du temps, les RAID 15 et 51 peuvent avantageusement être remplacés par du RAID 10. En effet, un système nécessitant un tel niveau de sécurité pose toujours la question de la fiabilité de ses équipements.

RAID 05 et 50...

Comme pour les RAID 01 et 10, et les RAID 03 et 30, on privilégiera ici le RAID 50, car il s’agit du niveau le plus fiable en termes de dégradation des performances en cas de panne et de temps de reconstruction des disques de données. Le RAID 50 s’avère beaucoup plus cher que le RAID 10, mais présente des performances très comparables à celui-ci (excellentes performances en lecture et en écriture). Son intérêt majeur réside dans sa capacité de disque qui n’est pas réduite de 50%. On peut par exemple, avec 6 disques, conserver 80% de l’espace de ceux-ci !
Comme pour tous les RAID composites, un contrôleur performant est nécessaire, et le RAID 50 est souvent utilisé avec du duplexing afin de gérer la problématique des pannes de contrôleurs. Les performances en lecture sont excellente, permettant de considérer le RAID 50 comme l’un des meilleurs RAID composites en écriture séquentielle, malgré une légère faiblesse en écriture aléatoire en comparaison du RAID 10 par exemple à cause de son besoin de tout relire pour, comme toujours, des problèmes de calcul de parité.
Malgré sa légère déperdition de performances en lecture due à la présence des informations de parité, le RAID 50 s’impose également comme un excellent niveau concernant les accès en lecture, ne voyant pas ses performances diminuées par le choix technique des cartes contrôleurs RAID 10 de privilégier les accès concurrentiels.

RAID 03 et 30...

Il n’y a que très peu de différences entre ces deux types de RAID, sauf en ce qui concerne la dégradation des performances suite à une éventuelle panne. Le RAID 30 a en effet des vitesses de reconstruction inférieures au RAID 03, mais toujours supérieures à du RAID 10. Il est cependant très utilisé pour de très larges bases de données stockées sur de très larges serveurs de fichiers. C’est un RAID cher, que je n’aime pas du tout parce que ses performances sont mauvaises en termes d’écriture, notamment aléatoire, en particulier dues au goulot d’étranglement dû au RAID 3 qui présente un disque de parité dédié. Ce RAID peut s’avérer intéressant en lecture, surtout aléatoire, si la taille de la bande est suffisamment large. En revanche, ce RAID est une véritable catastrophe en écriture…

Nous noterons l’appellation commerciale usurpée RAID 53 qui est en réalité un RAID 03. Je ne m’attarde pas ici sur les piètres performances de ce niveau réservé au stockage de volumes importants de fichiers présentant un faible taux de rafraichissement.

RAID 01 – Mirrored stripes – et 10 – striped mirrors

La grande différence entre le RAID 10 et le RAID 01 est évidemment l’ordre dans lequel les RAID sont implémentés.
Dans les deux cas, le coût en termes de disques est identique, à savoir relativement élevé compte tenu de la capacité qui est divisée par le nombre de miroirs ; dans tous les cas, on perd donc au moins 50% de la capacité disque achetée ! En revanche, le coût des cartes contrôleurs peut s’avérer très différent : la majorité des cartes grand public permettent d’implémenter uniquement le RAID 01.
En ce qui concerne les résultats obtenus, ils sont évidemment très différents entre les deux types de RAID. On s’aperçoit en fait rapidement que le RAID 10 est bien supérieur au RAID 01 dans un certain nombre de domaines : en effet, le RAID 10 a tout d’abord une bien meilleure tolérance de panne égale au (([nombre de disques en RAID 1] - 1) * [nombre de jeux de disques en RAID 0]) en RAID 10 alors qu’elle n’est que du ([nombre de jeux de disques en RAID 1] - 1) pour le RAID 01. Ensuite, le RAID 01 n’apporte pas de meilleures performances que le RAID 10, alors qu’il s’avère plus lent au cours de la reconstruction des données après une panne. De même, la perte d’un disque peut grever de façon beaucoup plus perceptible un système reposant sur du RAID 01.
Enfin, et même si toutes les cartes contrôleurs ne le supportent pas, le RAID 10 présente d’excellentes performances en lecture (vitesse divisée par n) et en écriture (vitesse divisée par le nombre de jeu de disques en RAID 0).
Ainsi, le RAID 10 est recommandable pour tout type de bases de données… Même si son coût plus élevé qu’un RAID 5, par exemple, le relègue souvent au second plan.

Nous noterons les formules théoriques suivantes pour le RAID 10, en fonction du nombre de disques n et en supposant que le RAID 1 n’est employé que par paires de disques :
- Nombre de disques au minimum : 4
- Espace disque : (n/2) * [Espace disque du plus petit des disques]
- Temps d'écriture : (2/n) * [Temps d'accès en écriture du plus lent des disques]
- Temps de lecture : n * [Temps d'accès en lecture du plus lent des disques]
- Tolérance de panne : n/2

Nous en conclurons de façon évidente une certaine supériorité de ce modèle sur le RAID 5 pour toutes les écritures aléatoires. Nous noterons également la propension des cartes contrôleurs gérant ce niveau de RAID à privilégier des accès concurrentiels aux données en lecture plutôt qu’une parallélisation d’une lecture, grevant de fait les performances théoriques présentées ci-dessus.

Le RAID composite...

Il est impossible depuis quelques années de s’attaquer à la description des niveaux de RAID si l’on omet l’existence de la possibilité de les composer. Ainsi, il est envisageable de cumuler les avantages des différents niveaux de RAID.
Le principe est donc d’appliquer un niveau de RAID sur un autre niveau de RAID ; par exemple, si on fait du RAID xy (ou x+y, même si cette notation commerciale s’avère souvent mensongère), c’est qu’on applique du raid y sur du raid x.

Et voici maintenant un série de posts sur les niveaux les plus courants de RAID composite !

RAID 7 - Asynchronous, cached striping with dedicated parity...

Il s'agit d'un niveau de RAID propriétaire développé par Storage Computer Corporation. Si le RAID 7 permet de faire preuve d'un niveau de performances exceptionnel, il n'en demeure pas moins rare... et très cher !
C’est un RAID qui utilise le cache du contrôleur à outrance, ce qui fait de lui le plus performant des RAID simples : il obtient ainsi les meilleures performances en termes de lectures aléatoires (cache power !!), et d’écritures aléatoires (il est en striping avec parité dédiée en cache). Les performances sont remarquables mais excessivement chères. Pour la plupart des utilisateurs, le coût prohibitif de ce niveau de RAID le rende inaccessible.

Je ne m’étendrai donc pas non plus sur ce niveau si particulier.

RAID 6 - Block-level striping with dual distributed parity...

C’est un RAID 5 qui est un peu amélioré en termes de sécurité des données. Il autorise en effet la perte de 2 disques au lieu d’un. Toutefois, dans la majeure partie des cas, il demeure trop cher par rapport au RAID 5, pour des performances légèrement moins bonnes (les calculs se font en double parité, ce qui engendre une grande complexité). Il devrait en théorie être utilisé dans des systèmes sensibles, mais il faut bien avouer qu’il est très rare que deux disques tombent en panne en même temps, d’où un aspect « gadget » du RAID 6. En effet, les cas de panne de plus d’un disque simultanément résultent généralement d’une panne majeure qui risque d’endommager plus de 2 disques. Si une forte tolérance de panne est nécessaire, on privilégiera de fait l’utilisation du mirroring beaucoup plus sécurisant, rendant le RAID 6 assez inutile.
Enfin, outre le coût important des cartes contrôleurs gérant ce niveau de RAID, sa plus grande perte d’espace disque en font l’un des plus chers des niveaux définis par Berkeley.

Nous noterons les formules théoriques suivantes, en fonction du nombre de disques n :
- Nombre de disques au minimum : 4
- Espace disque : (n-2) * [Espace disque du plus petit des disques]
- Temps d'écriture : (1/(n-2)) * [Temps d'accès en écriture du plus lent des disques]
- Temps de lecture : (1/(n-2)) * [Temps d'accès en lecture du plus lent des disques]
- Tolérance de panne : 2

RAID 5 - Block-level striping with distributed parity...

Le RAID 5 fonctionne comme le RAID 4, selon un “block-level” qui permet de définir la taille des bandes d’enregistrement. La grande différence avec le RAID 4, c’est que la parité est distribuée : le RAID 5 écrit ainsi ses bits de parité sur chaque disque à tour de rôle. Ce concept permet donc de supprimer le goulot d’étranglement sur le disque de parité.
Beaucoup moins cher, parce que très utilisé et très commun sur le marché, le RAID 5 présente de nombreux avantages. C’est d'ailleurs selon moi le meilleur compromis coût/performance pour un grand nombre de raisons.
Sa tolérance de panne d’un disque lui assure un niveau de sécurité satisfaisant.
Au niveau théorique, les capacités du RAID 5 en termes de stockage sont de n-1 disques, et ses vitesses d’écriture et de lecture sont divisées par n-1, ce qui lui confère des performances honorables.
Il se trouve donc supérieur au RAID 1 pour l’écriture, même s’il lui est légèrement inférieur en lecture ; à priori, il est donc plus performant pour des disques où le volume d’écritures est important. Ceci n’est totalement vrai que si l’on ne fait que de l’écriture séquentielle. En effet, au cours d’une écriture aléatoire, certains blocs sont modifiés, et nécessitent donc la modification de la parité de la bande. Il faut donc lire l’ensemble de la bande pour reconstituer la parité ; chaque écriture aléatoire donne donc lieu à deux entrées/sorties. Et avec 2 I/O, le système se voit très ralenti ! C’est le gros point noir…
Cependant, dans la pratique, on s’aperçoit que le RAID 5 reste très employé, en particulier dans les bases de données ; alors même que celles-ci ont énormément d’écritures aléatoires !
Enfin, en termes de coûts, le RAID 5 se fait la part belle grâce à sa bonne capacité de stockage et un coût relativement faible des cartes contrôleurs adaptées.

Au final, le RAID 5 me paraît donc plutôt adapté, voire idéal, pour les journaux de transactions, compte tenu de l’utilisation quasi exclusive d’écritures séquentielles, pour lesquelles la problématique du calcul de parité ne se présente pas. Il faut cependant s’assurer de la taille des blocs de données afin d’éviter d’écrire une transaction sur moins d’une bande revenant alors à des écritures aléatoires. Les spécifications actuelles qui préconisent d’appliquer du RAID 10 apparaissent donc comme sous performantes, même si les difficultés de mise en œuvre d’un RAID 5 bien dimensionné expliquent sans aucun doute ce choix. En revanche, l’utilisation de ce niveau de RAID s’avère beaucoup plus discutable en ce qui concerne les bases de données auxquelles je privilégierai un RAID 10.

Nous noterons les formules théoriques suivantes, en fonction du nombre de disques n :
- Nombre de disques au minimum : 3
- Espace disque : (n-1) * [Espace disque du plus petit des disques]
- Temps d'écriture : (1/(n-1)) * [Temps d'accès en écriture du plus lent des disques]
- Temps de lecture : (1/(n-1)) * [Temps d'accès en lecture du plus lent des disques]
- Tolérance de panne : 1
Auxquelles nous ajouterons le temps d’écriture aléatoire théorique, le temps de lecture restant identique quelque soit le mode :
- Temps d’écriture : (2/(n-1)) * [Temps d'accès en écriture du plus lent des disques]

RAID 4 - Block-level striping with dedicated parity...

Le RAID 4, comme nous l’avons dit, s’apparente au RAID 3 à un (gros !) détail près : la largeur de bande est divisée en blocs et non pas en octets. On peut ainsi définir la largeur des bandes, ce qui est particulièrement utile pour les écritures aléatoires, parce qu’il est possible de calculer la taille des blocs de l’enregistrement afin d’optimiser l’espace disque.
Souvent confondu avec le RAID 3, moins utilisé, le RAID 4 est un compromis sans cible sur le marché. Il ne doit selon moi jamais être utilisé parce qu’il n’a pas vraiment d’intérêt en termes de gains de performance. On retrouve le goulot d’étranglement du RAID 3, il coûte encore plus cher et peu de cartes contrôleurs supportent le RAID 4.

Nous noterons les formules théoriques suivantes, en fonction du nombre de disques n :
- Nombre de disques au minimum : 3
- Espace disque : (n-1) * [Espace disque du plus petit des disques]
- Temps d'écriture : (1/(n-1)) * [Temps d'accès en écriture du plus lent des disques]
- Temps de lecture : (1/(n-1)) * [Temps d'accès en lecture du plus lent des disques]
- Tolérance de panne : 1

Raid 3 - Byte-level striping with dedicated parity...

En RAID 3, les bandes ont une largeur fixe d’un octet, et ne sont donc pas modulables. Le terme « Dedicated parity » du titre signifie que les informations de parité sont écrites sur un disque dédié. Les informations de parité sont le résultat d’un calcul à base de « ou exclusifs » permettant de reconstituer les données d’un disque à l’aide des données présente dans les autres disques.
Le RAID 3 est un niveau de RAID qui est, à tort, souvent confondu avec le RAID 4. La seule différence réside en effet dans la taille des bandes pour le striping : si le RAID 3 dispose de bandes de largeur fixe, le RAID 4 permet de configurer la largeur de celles-ci.
Le RAID 3 offre une tolérance à la panne assez bonne, étant donné que l’on peut perdre un disque.
La vitesse d’écriture théorique, de 1/(n-1), reste toutefois largement fantaisiste : en effet, pour atteindre ces résultats, il faudrait que le disque de parité soit (n-1) fois plus rapide que les autres disques ; comme il est dédié, à chaque fois que l’on écrit sur un disque, on est supposé écrire sur le disque de parité, ce qui ralentit considérablement les choses, en particulier en écriture aléatoire. Il existe donc un goulot d’étranglement sur le disque de parité, qui est par ailleurs beaucoup plus sensible aux pannes en raison de sa beaucoup plus forte utilisation.

Nous noterons les formules théoriques suivantes, en fonction du nombre de disques n :
- Nombre de disques au minimum : 3
- Espace disque : (n-1) * [Espace disque du plus petit des disques]
- Temps d'écriture : (1/(n-1)) * [Temps d'accès en écriture du plus lent des disques]
- Temps de lecture : (1/(n-1)) * [Temps d'accès en lecture du plus lent des disques]
- Tolérance de panne : 1

RAID 2 - Bit-level striping with Hamming code...

C’est le seul striping qui n’utilise pas un aspect de parité. Il s’agit ici d’un striping au niveau des bits, les bandes ne pouvant pas être étendues, puisqu’elles n’ont qu’un bit. Il est intéressant de noter qu’elles sont validées par un code de contrôle d’erreur de Hamming (ECC ou Error Correcting Code).
Le gros avantage du RAID 2 était sa disponibilité parce qu’il effectuait des corrections « on the fly », à chaud… mais cela ne sert aujourd’hui plus à grand-chose étant donné que la quasi-totalité des disques durs actuels utilisent le code ECC.
Ainsi, le RAID 2, qui est par ailleurs très mauvais en écriture et lecture aléatoires, n’est absolument plus utilisé.

Je ne m'étendrai donc pas plus sur ce niveau obsolète.

RAID 1 - Mirroring, shadowing, duplexing...

Le RAID 1 peut être appelé de différentes façons : mirroring, shadowing ou encore duplexing... Il s'agit tout simplement de copier l'intégralité des données sur chacun des disques. Ainsi, le RAID 1 est un système possédant une grande tolérance de panne. Par exemple, si l'on dispose de 3 disques en RAID 1, les données restent disponibles malgré la perte de 2 disques. Dans le cas du duplexing, il s’agit également de redonder les contrôleurs afin de gérer une tolérance de panne à ce niveau également.
Lors de la phase de lecture des données, le RAID 1 permet de paralléliser la lecture et ainsi d'obtenir, en théorie, des performances 3 fois plus rapides avec 3 disques ! En pratique, les gains en performance en lecture sont très proches des gains observés en RAID 0 lorsque la lecture est parallélisée. Toujours dans la pratique, le RAID 1 permet également d’effectuer deux lectures simultanées pour deux espaces disques différents ce qui offre la possibilité d’améliorer les files d’attentes disques. Le RAID 1 est particulièrement efficace pour la lecture aléatoire, où il est bien meilleur qu’un disque simple, même s’il reste inférieur dans ce domaine à d’autres types de RAID. Le RAID 1 ne brille pas en écriture mais se distingue en lecture : en effet, lorsqu’on écrit, on écrit la même chose sur tous les disques, donc le temps d’écriture est le même que pour un disque simple. En revanche, en lecture, on lit n fois plus vite, en parallélisant la lecture et les accès.
Toutefois, beaucoup de contrôleurs de disques ne savent pas paralléliser les lectures, ce qui engendre de faibles gains de performance en lecture in fine. Au final, l’on peut penser que le RAID 1 est extrêmement sensible au type de contrôleur fourni. Si celui-ci est de bonne qualité, comme cela est généralement le cas dans le milieu professionnel, il est possible de paralléliser les lectures, ce qui rend le RAID 1 intéressant pour un faible niveau d’écriture et un gros volume de lecture, qu’elle soit séquentielle ou aléatoire.
Enfin, il est intéressant de noter qu’un RAID 1, en écriture aléatoire, s’avère parfois plus efficace que beaucoup de RAID avec calcul de parité parce qu’il n’est pas obligé de relire les données sur les différents disques.
Il est à noter que le RAID 1, tout comme le RAID 0 aligne ses performances sur les disques les plus faibles.
L'inconvénient majeur du RAID 1 est sans aucun doute son coût élevé compte tenu de la perte importante de capacité totale des disques : la capacité finale est en effet logiquement d’un seul disque quel que soit le nombre de disques mis en place. Par exemple, monter 5 disques en RAID 1 n’offre qu’une capacité d’un seul disque !

Le RAID 1 est très utilisé en milieu professionnel pour tous les systèmes nécessitant un fort niveau de disponibilité. De plus, le RAID 1 offre une vitesse de reconstruction des données extrêmement performante puisqu’il s’agit d’une simple copie de disque. Cela assure également de minimiser les impacts sur les performances au cours de cette reconstruction. La majorité des serveurs disposent donc de ce niveau de RAID pour les disques systèmes.

Nous noterons les formules théoriques suivantes, en fonction du nombre de disques n :
- Nombre de disques au minimum : 2
- Espace disque : [Espace disque du plus petit des disques]
- Temps d'écriture : [Temps d'accès en écriture du plus lent des disques]
- Temps de lecture : (1/n) * [Temps d'accès en lecture du plus lent des disques]
- Tolérance de panne : n-1

RAID 0 - Striping (without parity)...

Il s'agit d'une version "améliorée" du JBOD permettant d'accélérer les performances en parallélisant les écritures sur l'ensemble de disque. En français, on parle d'"entrelacement" ou d'"agrégat par bandes". Le RAID 0 devrait être qualifié uniquement de AID, car il ne dispose pas de redondance.
Ainsi, si l'on dispose de 2 disques et que l'on souhaite écrire 200 Go, le RAID 0 permettra d'écrire 100 Go sur chacun des disques. La théorie permet donc d'obtenir des performances 2 fois supérieures. Dans la pratique, avec l'utilisation de 2 disques, un gain de performance de 40% est excellent, à mettre en rapport avec les 50% attendus théoriquement.
Le RAID 0 est performant partout, en lecture et en écriture, qu’elles soient aléatoires mais surtout séquentielles. Pour tout ce qui concerne des lectures ou écritures aléatoires, si le contrôleur de disque supporte des lectures indépendantes sur les différents disques, on gagne à utiliser des bandes plus larges.
Il est à noter que les performances de l'ensemble des disques durs - taille, temps d'accès, ... - s'alignent sur le disque le plus faible. Ainsi, le disque le plus petit fixera la taille, le disque le plus lent fixera le temps d'accès, ... Cette restriction est applicable pour tous les autres niveaux de RAID à l'exception du JBOD.
Malgré ses excellentes performances, le RAID 0 n'est pas utilisé pour le stockage des données en milieu professionnel car il ne dispose pas de tolérance de panne.

Nous noterons les formules théoriques suivantes, en fonction du nombre de disques n :
- Nombre de disques au minimum : 2
- Espace disque : n * [Espace disque du plus petit des disques]
- Temps d'écriture : (1/n) * [Temps d'accès en écriture du plus lent des disques]
- Temps de lecture : (1/n) * [Temps d'accès en lecture du plus lent des disques]
- Tolérance de panne : 0

JBOD - Just a Bunch Of Disks...

Il s'agit d'une simple "concaténation" d'un ensemble de disques physiques pour former un disque logique plus important, et en aucun cas ne peut être considéré comme un RAID.
Nous noterons les formules théoriques suivantes, en fonction du nombre de disques n :
- Nombre de disques au minimum : 2
- Espace disque : [Somme de l'espace disque de l'ensemble des disques]
- Temps d'écriture : >=[Temps d'accès en écriture du plus lent des disques]
- Temps de lecture : >=[Temps d'accès en lecture du plus lent des disques]
- Tolérance de panne : 0

Tout d'abord, un peu d'historique...

Lorsque l'on parle de stockage de données, on parle forcément de disques durs. Et en la matière, depuis 1987, tout le monde parle du RAID - Redundant Array of Inexpensive Disks or Redundant Array of Independant Disks. Lors de sa création, le RAID était destiné à rassembler plusieurs disques durs physiques en une seule unité logique afin de remplacer les très coûteux disques 6.5 et 9.5 pouces.

Dès 1988, Berkeley définit 5 niveaux de RAID de 1 à 5, puis rajoute au cours des années suivantes le RAID 0 et le RAID 6...
On ne distingue maintenant pas moins de 8 niveaux simples de RAID différents... Et cela sans tenir compte de toutes les combinaisons pouvant y être apportées... Une véritable jungle technologique, rarement bien expliquée, et souvent très mal utilisée... De plus, il nous faut distinguer les performances théoriques des performances réelles de ces niveaux. Et je ne parle pas bien sûr des problématiques concernant l'utilisation de RAID logique ou physique !
Au final, impossible de déterminer quand utiliser quoi, ni comment...

Afin de mieux appréhender le sujet, voici un récapitulatif rapide des différents niveaux de RAID simple...

Architecture des disques de données - Le RAID

Bonjour à tous !

Tout le monde connaît un jour ce problème : quelle est LA bonne configuration pour mon serveur ?
Il est difficile de répondre à cette question en matière de processeurs et de mémoire tant le marché évolue rapidement et tant les besoins de chacun sont différents. En revanche, il est possible d'apporter des éléments de réponse plus pérennes en matière de configuration pour les disques de données. Les arguments permettant d'établir un choix s'articulent essentiellement autour de trois grands axes :
- la sécurité des données,
- les performances,
- les coûts.

Je vous propose donc une série de post présentant les solutions en la matière, à savoir les différents niveaux de RAID...

lundi 8 janvier 2007

Juste un petit message...

Pour annoncer un futur article sur les différents niveaux de RAID, leurs points forts... Et leurs points faibles !

Alors encore un peu de patience... L'accouchement est long ;-)