Microsoft Office SharePoint Portal Server 2003
Pagina inizialeIndietroAvantiStampa

Mostra tuttoMostra tutto

Modifica di un file del Thesaurus

Modifica di un file del Thesaurus

Il Thesaurus è una funzionalità di ricerca che consente di espandere le query. Permette all'utente di digitare una frase in una query di ricerca e di ottenere risultati riguardanti parole correlate. L'utente può ad esempio cercare "run" e ottenere risultati contenenti "run" o "jog" se questi due termini sono correlati dal file del Thesaurus. Il Thesaurus consente inoltre all'amministratore della server farm di modificare la classificazione dei risultati della ricerca assegnando un peso alle parole. In Microsoft SharePoint Portal Server sono disponibili file del Thesaurus per le lingue seguenti:

I file del Thesaurus contengono informazioni di esempio inattive impostate come commenti. Il file del Thesaurus per le lingue neutre (tsneu.xml) viene applicato alle query eseguite in una lingua a cui non è associato un file del Thesaurus. Il file del Thesaurus per le lingue neutre viene sempre applicato alle query in aggiunta al file del Thesaurus associato alla lingua della query.

Per impostazione predefinita, in SharePoint Portal Server i file del Thesaurus vengono memorizzati nella directory seguente del server: unità_locale\Programmi\SharePoint Portal Server\DATA\Config. Se si è scelto di installare i file di dati in un altro percorso durante l'installazione del server, la directory dei dati si troverà in un'altra posizione.

I file del Thesaurus vengono inoltre copiati nel percorso unità_locale\Programmi\SharePoint Portal Server\Data\Applications\UID applicazione\Config per ogni istanza specifica del servizio di ricerca Microsoft (MSSEARCH) o del servizio di ricerca di Microsoft SharePointPS (SharePointPSSearch). È possibile modificare il Thesaurus a livello dell'applicazione anziché a livello del server o della server farm. Se ad esempio SharePoint Portal Server e Microsoft SQL Server sono installati nello stesso server, ognuno di essi potrà utilizzare un file del Thesaurus diverso.

Importante  È inoltre disponibile un file aggiuntivo denominato tsschema.xml che non deve essere modificato.

È possibile cambiare le voci del Thesaurus modificando il file con estensione XML in un editor di testo. Per un corretto caricamento, il file deve essere un documento XML ben formato, il che significa che ogni voce deve essere racchiusa tra tag di apertura e chiusura corrispondenti. Se il documento XML non è corretto, SharePoint Portal Server inserirà un errore nel registro eventi di Microsoft Windows Server 2003 contenente un riferimento al file e alla riga.

Nota  Non modificare la formattazione maiuscola o minuscola dei tag nel file con estensione XML. Il tag XML è l'unico ad avere una formattazione maiuscola. Tutti gli altri sono in minuscolo. Il tag <replacement>, ad esempio, deve rimanere in minuscolo.

I file del Thesaurus includono i tipi seguenti di voci:

Stringa di sostituzione

Una stringa di sostituzione specifica un criterio di corrispondenza che verrà sostituito da una o più voci sostitutive in una query di ricerca. È ad esempio possibile aggiungere una stringa di sostituzione dove "W2K" rappresenta il criterio di corrispondenza e "Windows 2000" rappresenta la voce sostitutiva. Se gli utenti cercano "W2K", SharePoint Portal Server restituirà solo risultati contenenti "Windows 2000". I risultati contenenti "W2K" non verranno restituiti.

Ogni sostituzione è racchiusa all'interno di un tag <replacement>. All'interno del tag di sostituzione è possibile specificare uno o più criteri di corrispondenza racchiusi in un tag <pat> e una o più voci sostitutive racchiuse in un tag <sub>. I criteri di corrispondenza e le voci sostitutive possono includere una parola o una sequenza di parole. Nel caso della stringa di sostituzione sopra citata, sarebbe necessario aggiungere le righe seguenti:

<replacement>
         <pat>W2K</pat>
         <sub>Windows 2000</sub>
         
</replacement>

Per ogni criterio di corrispondenza è possibile specificare più voci sostitutive.

Per impostazione predefinita, i criteri di corrispondenza rilevano la distinzione tra maiuscole e minuscole. Se ad esempio il file del Thesaurus include la voce precedente e un utente cerca "w2k", SharePoint Portal Server non restituirà necessariamente risultati della ricerca contenenti "Windows 2000". SharePoint Portal Server non riconosce "w2k" come "W2k" perché la formattazione maiuscola e minuscola del testo è diversa.

È possibile specificare se si desidera che i criteri di corrispondenza rilevino la distinzione tra maiuscole e minuscole aggiungendo un tag al file del Thesaurus per la lingua in uso. Se ad esempio si imposta il file del Thesaurus in modo che i criteri di corrispondenza non rilevino la distinzione tra maiuscole e minuscole, i termini <pat> e <sub> corrisponderanno ai termini della query indipendentemente dalla relativa formattazione maiuscola e minuscola. Per informazioni sull'aggiunta nel file del Thesaurus del tag relativo alla formattazione maiuscola e minuscola, vedere "Modificare un file del Thesaurus" più avanti in questa sezione.

Una query con un'istruzione CONTAINS FORMSOF funziona come descritto in precedenza. Per ulteriori informazioni sulla sintassi CONTAINS FORMSOF, vedere Microsoft SharePoint Products and Technologies 2003 Software Development Kit.

Il tipo di query utilizzato dal sito portale per impostazione predefinita è denominato FREETEXT. Le query FREETEXT attivano automaticamente il Thesaurus. Se, tuttavia, la voce o le voci di ricerca vengono racchiuse tra virgolette doppie, SharePoint Portal Server disattiverà la query FREETEXT e non consulterà il Thesaurus. Ne consegue che SharePoint Portal Server restituirà risultati basati sulla voce o le voci di ricerca esatte indicate tra le virgolette doppie. Se il Thesaurus sostituisce una parola di una frase con un'altra parola, una query FREETEXT restituirà risultati per la nuova versione dell'intera frase.

Nella tabella seguente vengono indicati i risultati ottenuti per la stringa di sostituzione illustrata in precedenza in base al diverso input dell'utente digitato nell'interfaccia di ricerca del sito portale. In questo esempio si presuppone che il Thesaurus rilevi la distinzione tra maiuscole e minuscole e che la ricerca non rilevi la distinzione tra maiuscole e minuscole.

Input dell'utenteConsultazione del ThesaurusTermini contenuti nei documenti inseriti nei risultati della ricerca
w2kSì (query FREETEXT)

W2k o W2K o w2k o w2K

I documenti contenenti Windows 2000 non vengono restituiti perché il criterio di corrispondenza nel Thesaurus è W2K in maiuscolo.

"w2k"Now2k o W2K o W2k o w2K
W2KSì (query FREETEXT)

Windows 2000 o windows 2000 (o le relative combinazioni di maiuscole e minuscole, ad esempio wInDows 2000) o

w2k o W2k o w2K

I documenti contenenti W2K non vengono restituiti.

"W2K"NoW2K o w2k o W2k o w2K
W2K ServerSì (query FREETEXT)

Windows 2000 (e le relative combinazioni di maiuscole e minuscole come indicato sopra) o

Server (e le relative combinazioni di maiuscole e minuscole, ad esempio server o SeRvEr) o

W2K Server (e le relative combinazioni di maiuscole e minuscole)

I documenti contenenti sistema operativo W2K non vengono restituiti.

"W2K Server"No

W2K Server o w2k Server o W2k Server o w2K Server o

W2K server o w2k server o W2k server o w2K server

Nota  In ognuno di questi esempi l'impostazione relativa al rilevamento della distinzione tra maiuscole e minuscole per la ricerca è specificata come false. In caso contrario, tutte le differenze di formattazione diventerebbero significative durante la verifica dei criteri di corrispondenza.

Se sono state specificate due stringhe di sostituzione con criteri di corrispondenza simili, avrà precedenza il criterio di corrispondenza più lungo. "Internet Explorer", ad esempio, avrà precedenza rispetto a "Internet":

<replacement>
         <pat>Internet</pat>
         <sub>intranet</sub>
</replacement>

e

<replacement>
         <pat>Internet Explorer</pat>
         <sub>IE</sub>
         <sub>IE 5</sub>
</replacement>

Nella tabella seguente vengono indicati i risultati ottenuti per le stringhe di sostituzione sopra illustrate in base al diverso input dell'utente digitato nell'interfaccia di ricerca del portale:

Input dell'utente Consultazione del ThesaurusTermini contenuti nei documenti inseriti nei risultati della ricerca
InternetSì (query FREETEXT)

Intranet o intranet (o le relative combinazioni di maiuscole e minuscole, ad esempio iNtranEt)

I documenti contenenti IE o IE 5 non vengono restituiti.

Internet ExplorerSì (query FREETEXT)

IE o IE 5 (e le relative combinazioni di maiuscole e minuscole, ad esempio iE o Ie 5)

I documenti contenenti Internet o Internet Explorer o intranet non vengono restituiti.

Stringa di espansione

Una stringa di espansione è un gruppo di voci sostitutive che sono sinonimi tra loro. Le query contenenti corrispondenze per una voce sostitutiva vengono espanse in modo da includere tutti le altre voci sostitutive del gruppo. È ad esempio possibile aggiungere una stringa di espansione dove "writer", "author" e "journalist" (le voci sostitutive) sono sinonimi. Se quindi si cerca "author", SharePoint Portal Server restituirà tra i risultati della ricerca anche documenti contenenti "writer" o "journalist".

Ogni stringa di espansione è racchiusa all'interno di un tag <expansion>. All'interno del tag di espansione è possibile specificare una o più voci sostitutive racchiuse in un tag <sub>. Per l'esempio precedente sarebbe necessario aggiungere le righe seguenti:

<expansion>
         <sub>writer</sub>
         <sub>author</sub>
         <sub>journalist</sub>
</expansion>

È inoltre possibile configurare le due opzioni seguenti:

Peso

Le voci sostitutive supporteranno l'assegnazione di un peso. Il peso consente di inserire determinate parole in una posizione più alta tra i risultati della ricerca tramite l'assegnazione di un valore superiore rispetto alle altre parole incluse nella stringa di sostituzione. È possibile specificare un valore compreso tra 0 e 1. Di seguito è illustrato un esempio di assegnazione del peso per alcune voci sostitutive:

 <expansion>
      <sub weight="0.8">Internet Explorer</sub>
      <sub weight="0.2">IE</sub>
      <sub weight="0.9">IE5</sub>
 </expansion>

Stemming

È possibile specificare lo stemming nel criterio di corrispondenza e nelle voci sostitutive. Lo stemming delle parole consente di associare una radice linguistica a tutte le parole corrispondenti. Ad esempio, la radice "auto" corrisponde a "automobile", "autonoleggio" e "autoscuola".

È possibile specificare lo stemming aggiungendo "**" alla fine della stringa. SharePoint Portal Server restituirà le corrispondenze per le varianti della parola immesse quando si specifica lo stemming.

Come nell'esempio seguente, è possibile fare in modo che le query inerenti il termine "run" restituiscano anche "running", "jog" e "jogging" modificando la stringa di espansione come segue:

 <expansion>
      <sub weight="0.5">run**</sub>
      <sub weight="0.5">jog**</sub>
 </expansion>

Se si cerca "run" o "running", verranno restituiti i risultati relativi a "jog", "jogging" e così via. Se si cerca "running", si otterranno gli stessi risultati restituiti per "run".

Ad esempio, se il file del Thesaurus per la lingua inglese (lingua nella quale lo stemming offre migliori risultati) include il criterio di corrispondenza <pat> Stefan ran to the store** </pat> o la voce sostitutiva <sub> Stefan ran to the store**</sub>, le stringhe restituite dalla query o aggiunte dalla ricerca alla query saranno:

  • Stefan runs to the store
  • Stefan running to the store
  • Stefan ran to the store
  • Stefan runs to the stores
  • Stefan running to the stores
  • Stefan ran to the stores

Modificare un file del Thesaurus
  1. Aprire il file nel Blocco note Microsoft. Se vengono utilizzati caratteri DBCS (Set di caratteri a byte doppio, Double-Byte Character Set), salvare i file nel formato Unicode.
  2. La prima volta che si modifica il file del Thesaurus rimuovere le due righe di commento seguenti rispettivamente all'inizio e alla fine del file:

    <!--Commented out

    -->

  3. Se non si desidera rilevare la distinzione tra maiuscole e minuscole per i criteri di corrispondenza, aggiungere il tag seguente all'inizio del file: <case caseflag="false"></case>

    Se in seguito si decide di rilevare la distinzione tra maiuscole e minuscole per i criteri di corrispondenza, sostituire false con true nel tag come indicato di seguito: <case caseflag="true"></case>

  4. Aggiungere, modificare o eliminare una stringa di sostituzione, una stringa di espansione, un peso o uno stemming.

    Nota  Le voci aggiunte al file del Thesaurus non devono contenere solo caratteri speciali né essere parole non significative. È possibile, tuttavia, utilizzare voci vuote. Se ad esempio si desidera essere certi che le query riguardanti una data parola, ad esempio windows, non restituiscano alcun risultato, utilizzare la voce seguente:

    <replacement>
    
          <pat>windows</pat>
    
          <sub></sub>
    
    </replacement>
    

  5. Salvare il file e chiudere il Blocco note.
©2003 Microsoft Corporation. Tutti i diritti riservati.