Utilisation du contrôle d'appariement de champs
Lors de la combinaison de plusieurs jeux de données en entrée dans un seul jeu de données en sortie, la structure et le contenu des champs doivent être pris en compte. Chaque jeu de données en entrée contient des champs qui existent aussi dans d'autres jeux de données en entrée, aussi bien que des champs uniques se trouvant seulement dans ce jeu de données. La façon dont ces champs sont gérés détermine la structure et le contenu des champs du jeu de données en sortie. Le contrôle d'appariement de champs permet de définir la structure des champs du jeu de données en sortie.
Tous les champs du jeu de données en entrée sont appariés au jeu de données en sortie. En cas de duplication des champs (basée uniquement sur le nom) entre toutes les entrées, le champ du jeu de données en sortie sera une combinaison de chaque occurrence. Tous les champs uniques du jeu de données en entrée uniques (qui ne figurent pas dans d'autres jeux de données en entrée) sont également appariés au jeu de données en sortie.
Les sous-champs d'un appariement de champs peuvent provenir de différents types de données. Dans ce cas, le type de données du champ en sortie est défini sur le type de données du premier jeu de données en entrée et tous les autres sous-champs sont convertis dans ce type. Par exemple, si le premier champ en entrée est de type texte et que le second champ en entrée (de même nom) est de type double, le type de données en sortie sera de type texte et les valeurs du second champ en entrée seront converties dans ce type. Il peut arriver que la conversion ne soit pas possible. Dans ce cas, des erreurs sont générées pendant l'exécution pour indiquer d'où vient le problème. Par exemple, un champ BLOB ne peut pas être converti dans un type de données autre que BLOB. De même, il convient de tronquer un champ alphanumérique (point de départ et point de fin déclarés) pour supprimer la portion alphabétique de ses valeurs, si le champ doit être converti dans un type numérique.
L'appariement des champs est affiché sous la forme d'un graphique dans une arborescence de catalogue. Toutes les entrées racine (niveau supérieur) correspondent aux champs du jeu de données en sortie. Vous verrez leurs noms et leurs types de données en sortie par défaut. Le type de données des champs en sortie par défaut est identique au type de données de la première entrée.
Chaque entrée de niveau racine peut être développée. Une fois développée, elle affiche tous les sous-champs à partir desquels les données seront rassemblées pour alimenter le champ en sortie. Pour chaque occurrence d'un champ (par nom) dans le jeu de données en entrée, une entrée de sous-champ apparaît, affichant sa source et son type de données. L'occurrence du premier jeu de données en entrée d'un champ est la première à figurer dans la liste des sous-champs.
Il s'agit de la structure par défaut des champs du jeu de données en sortie. Vous pouvez, à tout moment, ajouter ou supprimer des jeux de données en entrée, ajouter, supprimer ou renommer des champs du jeu de données en sortie et ajouter, supprimer, renommer ou personnaliser le format des sous-champs.
Modification des appariements de champs par défaut
La structure d'appariement de champs par défaut peut être modifiée à tout moment. Les champs en sortie peuvent être ajoutés, supprimés ou renommés. Les sous-champs peuvent également être ajoutés, supprimés ou renommés et, dans le cas de champs en sortie de type texte, ils peuvent être formatés. Dans l'arborescence d'appariement de champs, les menus de raccourcis (accessibles en cliquant avec le bouton droit sur un champ sélectionné, un sous-champ ou simplement sur un espace vide) permettent d'apporter ces modifications.
Le menu de raccourcis pour les champs en sortie propose les options suivantes : Ajouter un champ en entrée, Supprimer, Renommer et Propriétés.
- L'option Ajouter un champ en entrée ouvre une boîte de dialogue qui répertorie tous les champs des jeux de données en entrée. Le fait de sélectionner un champ disponible, l'ajoute à la liste des sous-champs du champ en sortie sélectionné.
- Supprimer supprime le champ sélectionné du jeu de données en sortie.
- Renommer permet de modifier le nom du champ en sortie.
- L'option Propriétés permet de modifier les propriétés du champ sélectionné. Vous pouvez modifier le nom du champ, son type, les propriétés du type, la règle de combinaison et le délimiteur (si la règle de combinaison Joindre est sélectionnée).
Le menu de raccourcis pour les sous-champs propose les options suivantes: Supprimer et Format (pour les champs de texte uniquement).
- L'option Supprimer supprime le sous-champ sélectionné. Si le premier sous-champ correspond au champ supprimé, le type de données du champ en sortie ne change pas pour refléter le nouveau sous-champ occupant la première position. Si vous voulez modifier le type de données du champ en sortie, vous devez le faire manuellement (à l'aide de la boîte de dialogue Propriétés) ou utiliser l'option Réinitialiser du menu contextuel des fenêtres d'appariement de champs.
- L'option Format permet de modifier la largeur de champ, la position de début et la position de fin, puis d'appliquer les modifications à tous les autres sous-champs de même nom.
Si la largeur de champ est réduite, les valeurs d'enregistrement en sortie seront tronquées en conséquence. La troncation se produit également si les valeurs de point de départ et de point de fin sont modifiées. La valeur Position de début correspond au point de début à partir duquel les valeurs d'enregistrement seront tronquées. Les largeurs des valeurs d'enregistrement commencent à zéro.
Les valeurs plus longues que la valeur Position de fin seront tronquées au point spécifié. Par exemple, un champ de type texte avec la valeur d'enregistrement "environnement", une largeur égale à 12, une position de début égale à 3 et une position de fin égale à 7 apparaît dans le champ en sortie sous la forme "ironm".
Le menu de raccourcis du volet d'appariement de champs (espace blanc) propose les options suivantes : Ajouter un champ en sortie et Réinitialiser.
- L'option Ajouter un champ en sortie permet d'ajouter un nouveau champ. Une seconde boîte de dialogue s'ouvre qui permet de modifier le nom, le type de données, les propriétés du type de données, la règle de combinaison et un délimiteur (si la règle de combinaison Joindre est sélectionnée).
- L'option Réinitialiser rétablira la valeur par défaut de toutes les propriétés du champ en sortie. Toutes les modifications sont supprimées.
Règles de combinaison
Chaque champ en sortie permet de définir certaines propriétés, telles que le nom, le type et la règle de combinaison. Les règles de combinaison permettent de spécifier la manière dont les valeurs de deux champs en entrée (sous-champs) ou plus sont combinées en une seule valeur en sortie. Les valeurs Null sont exclues de tous les calculs statistiques. Il existe plusieurs règles de combinaison que vous pouvez utiliser :
- Premier - Utilisez les valeurs du premier sous-champ pour alimenter les enregistrements du champ en sortie.
- Dernier - Utilisez les valeurs du dernier sous-champ pour alimenter les enregistrements du champ en sortie.
- Joindre - Concaténez (joignez) les valeurs de tous les sous-champs et utilisez cette valeur pour alimenter les enregistrements du champ en sortie. Vous pouvez utiliser un délimiteur pour séparer les différentes valeurs en entrée. Si aucun délimiteur n'est utilisé, toutes les valeurs sont jointes dans une chaîne continue.
- Somme - Calculez le total des valeurs de tous les sous-champs, puis divisez cette valeur par le nombre de sous-champs en entrée.
- Moyenne - Calculez la moyenne des valeurs de tous les sous-champs et utilisez le résultat pour alimenter les enregistrements du champ en sortie.
- Médiane - Calculez la valeur médiane (milieu) et utilisez cette valeur pour alimenter les enregistrements du champ en sortie. La médiane correspond à la valeur centrale qui sépare l'ensemble total des valeurs en deux moitiés, inférieure et supérieure. Si le nombre des valeurs est pair, la moyenne des deux valeurs centrales est utilisée. Par exemple, la médiane de 1, 6, 7, 100 est 6,5.
- Mode - Utilisez la valeur avec la plus haute fréquence (la plus courante). Si plusieurs valeurs sont associées à la plus haute fréquence (en cas d'égalité), la liste des valeurs Mode est triée (plus petit nombre en premier pour des valeurs numériques, ordre alphabétique pour du texte) et la première valeur est utilisée.
- Min.. - Recherchez la valeur minimale de tous les sous-champs et utilisez-la pour alimenter les enregistrements du champ en sortie.
- Max.. - Recherchez la valeur maximale de tous les sous-champs et utilisez-la pour alimenter les enregistrements du champ en sortie.
- Ecart type - Utilisez la méthode de classification par écart type sur les valeurs de tous les sous-champs.
L'écart type ne doit pas être exécuté sur une entrée unique. En effet, les valeurs ne pouvant pas être divisées par zéro, l'écart type n'est pas une option valide pour les entrées uniques. L'outil Combiner n'échoue pas si l'écart type est sélectionné pour un champ en sortie contenant un sous-champ unique. Dans ce cas, la valeur zéro est entrée dans les enregistrements du champ en sortie.
- Total - Recherchez le nombre de valeurs incluses dans les calculs de statistiques. Toutes les valeurs sont prises en compte, hormis les valeurs Null.
Définition du paramètre Appariement des champs dans les scripts
Dans les scripts, l'appariement de champs peut se faire de plusieurs manières :
- En saisissant une valeur de chaîne pour un paramètre Appariement des champs – Cette méthode est recommandée uniquement dans le cas d'un petit nombre de champs et lorsque l'altération requise (le cas échéant) des champs n'est pas importante.
- En créant et en utilisant un objet FieldMappings.