[SharePoint] Recherche et Indexation MOSS 2007 – Partie 2

Cet article fait suite à une première partie à lire absolument…. ICI

Fonctionnalité  de la recherche avancée

WSS 3.0 et SharePoint Server utilise la même technologie de recherche et d’indexation. Les fonctionnalités apporté par le service de recherche SharePoint  permettent d’obtenir des résultats beaucoup plus pertinent que les versions précédentes.

  • Configuration des sources de contenu (MOSS uniquement)
  • Meilleurs résultats possible (Best Bets)
  • Propriétés gérés (Métadonnées)
  • Alertes aux résultats de recherche
  • Réseaux sociaux

Paramètres de pertinence modifiable en fonction des emplacements de contenu, qui permettent de définir les niveaux d’autorités . Définit en quatre groupe:

  • La plus haute autorité
  • Autorité de second niveau
  • Autorité de troisième niveau
  • Ne faisant pas autorité

Ces paramètres permettent de niveler le contenu dans les résultats de recherche (Attention il ne prennent pas le dessus sur les paramètres de mot clé (Best Bets) au niveau des collections de sites).

Les sources de contenu

Dans MOSS il est possible de créer une multitude de type de contenu, chacune d’elles provenant de sources diverses. Entre autres:

  • Sites SharePoint
  • Dossiers publics Exchange
  • Sites Web
  • Partage Windows (Chemin UNC)
  • Contenu tiers
  • Catalogue de données métier (BDC)

New_MOSS_Sources

Ces types de contenu sont regroupé par défaut dans une ‘Source de contenu’ qui se nomme ‘Sites Office SharePoint Server locaux’ dans l’administration des services partagés SharePoint.

MOSS_Sources_Search

Ces sources de contenu quant elles sont regroupé dans des étendues de recherche au niveau de l’administration des services partagés.

MOSS_Etendue_Search

Ces étendues de recherche répondent à certains critères (règles) afin de définir quels éléments les utilisateurs rechercheront lorsqu’ils effectuent une recherche dans telle ou telle étendue. Parmi ces règles se trouvent les critères possible suivant:

  • Les adresses Web
  • Les requêtes de propriétés
  • les sources de contenu spécifique
  • Tout le contenu

Regles_Etendue_MOSS

Ensuite vient la possibilité de définir le comportement de cette étendue face au règles. Le contenu doit-il être INCLUS, EXCLUS ou encore OBLIGATOIRE.

Génération des index de contenu

Lorsque Office SharePoint génère un index d’une source de contenu, le processus est le suivant:

Service de recherche Moss 2007 (cliquez sur l’image pour visualiser en grande taille)

Le robot utilise le gestionnaire de protocole (Protocol Handler) pour accéder aux diverses sources de contenu, tels que HTTP, FTP, File et autres. Le service d’indexation utilise des filtres qui lui permettent de comprendre le contenu.

Et oui!!! Pour indexer du contenu, il faut pouvoir le comprendre….. Comprendre du contenu signifie, pour le service d’indexation, le lire et pouvoir l’analyser. Essayez d’ouvrir un fichier PDF sans avoir installé Acrobat Reader sur votre machine!!!! Avec le bloc-notes c’est pas très lisible.

winkball 

Pour l’indexation, le phénomène est identique. Pour indexer un fichier PDF il lui faut un équivalent d’Acrobat Reader, pour indexer une archive ZIP ou RAR, il lui faut un équivalent de Win zip ou Winrar…

Ces programmes qui ne sont autre que du code et qui permettent au robot d’indexer différents types de contenu, s’appel des IFilters. Vous pouvez télécharger les IFilters pour les formats suivant, à installer sur votre serveur:

  • ZIP/RAR/CAB/EXE
  • PDF
  • VSD (Visio)
  • CHM (Fichier HTML Compilé)
  • Star Office
  • Word Perfect
  • Open Office

Je vous conseille d’aller faire un petit tour sur le site IFilter.org (lien ci-dessous) qui regroupe la plupart des IFilters pour les technologies Microsoft.

IFilter.org

Ensuite, avant que les mots ne soient placé dans les indexes, MOSS utilise des filtres qui découpe séparent les mots et analyse la morphologie (La racine). Il suppriment les mots les plus courants correspondant à la langue, tel que, pour le français:

  • LE, LA , LES, NOUS, VOUS, etc…

Ce sont les mots nuisibles (Word Noise), car ils sont tellement courant dans la langue qu’il ne doivent pas être pris en compte pour l’indexation et la recherche. Toutes cette partie est dont traité au stade, avant de propager les indexes de contenu.

Les paramètres du robot

Il est possible de configurer les paramètres et ainsi l’impact de l’analyse du robot à plusieurs niveau:

  • Niveau de la ferme de serveur
    • Adresse Email du contact utilisé par le robot pour l’analyse
    • Le serveur proxy
    • Les délais de connexion
  • Niveau des services partagés SharePoint
    • Le compte d’accès au contenu
    • Les règles d’analyses des sites
    • Les types de fichiers analysés (Extension)

Les rapports d’indexation

MOSS génère des rapports permettant l’analyse des requêtes et des résultats de recherche. Ces rapports permettent au administrateur de suivre l’évolution des recherche effectué par les utilisateurs sur les données de l’entreprise.

MOSS_Queries

I will Come back….. La suite dans un prochain post, Partie 3.

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s