La Table de Sélection des Champs
La Table de Sélection des Champs (ou TSC) est la table utilisée par le logiciel ISIS pour créer et mettre à jour le fichier inversé, mais aussi pour échanger (import/export) des données et pour créer des clés de tri pour des sorties et rapports triés. Lors de la définition de la TSF, le concepteur doit prendre en compte les types de recherches que voudront faire les utilisateurs avec le maximum de chances de succès. CDS/Isis propose un large choix de possibilités pour garantir des recherches fructueuses :
La FST est un pur fichier TXT avec trois colonnes dans lesquelles les trois éléments suivants sont identifiés :
Le fichier inversé des structures ISIS contient 5 éléments :
La valeur trouvée dans la 1ère colonne de la TSC est l'identifiant (ID) d'un élément du fichier inversé. identifiant la clé générée par le format. Cette identification peut être utilisée pour connaître l'origine de la clé dans les recherches dans la base de données. En général, l'ID utilise l'étiquette déjà utilisée dans la TDC, mais dans certains cas spéciaux on peut utiliser des étiquettes 'virtuelles' (étiquettes de champs n'existant pas) ou des étiquettes 'alias' (redéfinissant l'origine d'un champ à l'autre). Exemple : en supposant que notre base de données dispose de 3 champs pour indexer des auteurs : 10: Personal authors at analytic level Pour tous les auteurs de la recherche, indépendamment du type de support dans lequel ils apparaissent, on peut attribuer à la TSC l'Id 10 pour toutes les clés prises dans les champs 10, 16 et 23, afin de permettre une recherche simple sur les auteurs sans prendre en compte le type de matière à laquelle ils sont liés. Par conséquent, si notre TSC précise : 10 0 (v10/)(v16/)(v23/) En effectuant la recherche "Amaro, Jorge Luis / (10)" avec ce FI, nous aurons comme résultat toutes les notices dans lesquelles "Amaro, Jorge Luis" apparaît, que ce soit dans le champ 10, 16 ou 23. Nous avons donc récupéré les notices indépendamment du type d'auteurs enregistré dans la base. L'attribution d'un ID unique pour les différentes étiquettes de champs permet de faciliter les expressions de recherche pour des recherches plus générales (trouver un terme indépendamment du champ où il a été pris), ou des recherches qualifiées (avec des limitations définies par le ID). Le degré de précision dépendra des décisions prises lors de la définition de la TSC. Actuellement il existe 8 techniques d'indexation :
Les techniques 2 et 3 ont un effet similaire sur la génération des clés. La différence provient des délimiteurs utilisés. Les caractères /.../ ne peuvent pas être remplacés car ils seront toujours présent dans la sortie à l'écran ou l'imprimante, alors que les < et > peuvent être cachés ou affichés par une commande du langage de formatage ISIS. Lorsque le format d'extraction de la TSC est appliqué à un enregistrement, la séquence est la suivante :
nous aimerions obtenir les clés de recherche suivantes :
La TSC nécessaire pour cela est :
Le fichier inversé est un ensemble de 6 fichiers. 5 sont les index du dictionnaire, le 6e (avec l'extension .ifp) contient toutes les clés extraites de la base de données en appliquant la TSC à chaque enregistrement. Les termes du dictionnaire sont une liste alphabétique de toutes les entrées qui ont été extraites de la base (définie par le TSC). L'ensemble de ces entrées contient les pointeurs pour désigner l'emplacement exact du terme. Chaque pointeur ou «posting» est composé de 5 éléments :
Par exemple, si le terme "Education" apparaît dans les enregistrements 1 et 20 dans le champ matière (v76) ainsi que dans l'enregistrement 35 dans le champ Titre (v16) : "Methods of distance education", en appliquant la TSC pour cet enregistrement : 76 0 (v76/)16 4 v16 Le dictionnaire contiendra le terme Education comme suit : EDUCATION 1 76 1 1 Trois postings messages ont été créés pour ce terme. Le premier, 1 76 1 1 indique que la clé provient du NFM 1, première occurrence du champ 76 et est localisé en première position. Le deuxième posting 20 76 1 1 indique qu'il apparaît dans le NFM 20, champ 76, première occurrence, premier mot, et enfin 35 16 1 3 indique que le NFM 35 contient le terme 'education', extrait du champ 16, première occurrence et 3e mot de cette occurrence. La technique d'indexation 0 prend toujours la valeur 1 comme position de la clé dans le champ. Les autres techniques d'indexation comptent la position de la clé dans le champ. Cette position permet la recherche de proximité. La «proximité» ou la distance entre les mots est obtenue en calculant la valeur de la position par rapport aux autres. La valeur de l'occurrence d'un champ est utilisée pour des recherches au sein d'un champ avec l'opérateur (F) qui indique que toutes les clés de recherche doivent provenir de la même occurrence d'un champ. Par exemple, considérons un résumé contenant la phrase suivante : 72: L'enseignement présentiel est renforcé par l'ajustement ... Avec une TSC : 72 4 (v72/) quand on veut récupérer tous les enregistrements se référant à DISTANCE EDUCATION, l'énoncé de recherche : DISTANCE (G) EDUCATION retrouvera l'entregistrement mentionné même s'il ne fait pas référence spécialement au concept d'éducation à distance, mais EDUCATION (F) DISTANCE ne retrouvera pas l'enregistrement. La raison de la différence est le fait que l'opérateur (G) ne vérifie pas l'occurrence de la clé, alors que l'opérateur (F) le fait. Analysons la TSC au début de cette page :
Il est donc important que le format pour extraire les valeurs de l'enregistrement soit en phase avec la technique d'indexation. Si ce n'est pas le cas, des erreurs se produiront dans la génération des clés. En outre, une bonne maitrise du langage de formatage permettra de créer des clés qui assureront l'efficacité dela récupération d'informations, tout comme une bonne compréhension du mécanisme pour la génération de clés et l'identification des opérateurs de recherche les plus pertinents. Ceci garantira une réponse précise à la demande de chaque utilisateur. |
Utilisation des préfixes dans la génération des clés d'index
Etant donné que le dictionnaire est un seul fichier avec toutes les clés classés par ordre alphabétique, toutes les entrées commençant par les mêmes caractères, auteurs, titres, mots-clés et tous les autres champs identifiés par la TSC, seront mélangés. Pour garder les clés ensemble, par champ, il y a deux options :
Pour la première option, changeons la TSC
en :
Comme on peut le constater, nous avons appliqué les modifications suivantes :
Pour les clés indexées avec la technique 0 il suffit d'ajouter un pré-littéral (préfixe) pour différencier les données. Pour les techniques (5, 6, 7 et 8) les préfixes doivent être définis avant le format d'extraction avec la syntaxe suivante :
De plus, pour permettre de voir le contenu du champ trié, sans mélange avec des termes provenant d'autres champs, la recherche avec les préfixes est plus rapide qu'avec une recherche sur un champ précis. I.e.: La recherche 'M: Education' est plus efficace que 'Education / (650)', car un champ de recherche qualifié exige la vérification de l'ensemble des affectations du terme. Pourtant, selon le niveau d'expérience des utilisateurs finaux et la capacité de l'équipement du système, il peut être parfois approprié d'indexer les données de différentes façons, avec ou sans préfixe, afin de donner plus de souplesse aux utilisateurs dans leurs recherches. Plus de clés d'indes signifie plus d'espace utilisé parle système mais pas nécessairement moins de vitesse de recherche, en fonction de la strucure du fichier inversé (B-Tree) qui sera réorganisé de façon constante de façon à ce que les branches de l'arbre aient le même hauteur (la hauteur de l'arbre reflète le nombre d'accès requis pour localiser un terme dans le fichier inversé). La famille de logiciels ISIS, à l'exception de CDS / ISIS pour DOS et Windows (WINISIS) permettent de définir plus d'un dictionnaire pour une base de données. C'est-à-dire, avec la Isisdll, par exemple, nous pouvons créer un dictionnaire (ou index) pour les auteurs, un autre pour les titres, etc... Cependant, afin de combiner des termes de différents champs avec une seule expression de recherche, en utilisant des opérateur booléens, il demeure nécessaire de créer un dictionnaire général qui combine tous les champs alors qu'il n'est pas possible de croiser les termes de dictionnaires différents. La possibilité de dictionnaires séparés est remplacée par l'utilisation de préfixes pour présenter aux utilisateurs tous les termes extraits d'un champ particulier et permet des opérations logiques dans le même dictionnaire. |
La transparence dans l'utilisation des majuscules, minuscules et les signes diacritiques (caractères spéciaux)
L'une des subtilités du mécanisme de recherche CDS / ISIS est basée sur la transparence entre les majuscules / minuscules et les caractères spéciaux dans les termes de recherche. A cette fin, toutes les clés sont rassemblées dans le fichier inversé en majuscules et, le cas échéant, les caractères accentués (diacritiques) seront remplacés par leur équivalent en majuscules. Les expressions de recherche données par l'utilisateur sont également transformées en majuscules, ce qui minimise le risque d'erreurs de frappe de l'utilisateur. Pour la concersion des clés et des expressions de recherche, les utilisateurs du logiciel CDS/ISIS, utilisent le fichier ISISUC.TAB, qui est en phase avec le jeu de caractères utilisé avec la base de données. Lors de l'indexation avec la technique 4 (par mot) CDS / ISIS utilise le fichier ISISAC.TAB pour définir la notion de «mot», c'est-à-dire, le tableau ISISAC.TAB indique à CDS / ISIS quels caractères doivent être considérés comme alphabétiques pour constituer le mot. Tous les caractères qui ne sont pas inclus dans le ISISAC.TAB seront considérés comme un séparateur et terminera le mot. Supposons que ISISUC.TAB considère le caractère ñ équivalent à la majuscule Ñ. Si nous n'incluons pas dans ISISAC.TAB the code Ñ (165 en Ascii ou 209 en Ansi)
Ainsi chaque mot sera séparé en deux parties, créant deux entrées dans le dictionnaire puisque ñ n'est pas inclu dans ISISAC.TAB et est considéré comme ponctuation.
|