Recherche rapide : Avancée

 

Vous êtes ici : Accueil > Articles > Recherche indexée avec TYPO3 > Recherche indexée avec TYPO3

La recherche indexée : un + pour votre site

Lorsque le nombre de pages se multiplient sur un site, on a souvent recours à un moteur de recherche pour permettre aux internautes de retrouver plus facilement l'information qu'ils recherchent. Le moteur de recherche peut être basique, c'est à dire un mot clé sur l'ensemble du site, ou bien il peut être plus évolué en proposant une combinaison de mots clés (ET/OU) sur une ou plusieurs parties ou rubriques du site. C'est ce qu'on appelle plus communément une recherche avancée.

Présentation

TYPO3 dispose de son propre moteur de recherche. Il permet de répondre aux recherches évoqués ci-dessus et bien plus encore ! Vous pourrez par exemple faire des recherches sur tout type de media (texte, pdf, document Word, etc), choisir la langue pour un site en plusieurs langues, l'ordre d'affichage des résultats ...

La recherche s'effectue par l'intermédiaire d'une extension : indexed_search.

Indexed_search fonctionne de paire avec une autre extension : crawler. Le crawler, ou robot, va indexer toutes les pages de votre site depuis la root page, c'est à dire la page d'accueil. Sachez cependant qu'il est possible de spécifier d'autres point d'entrée !

Ensuite, le module d'indexation va parcourir l'ensemble de ces pages (ou des zones délimitées par des marqueurs : TYPO3SEARCH_begin et TYPO3SEARCH_end) et lister tous les mots de manière exhaustive tout en attribuant à chacun d'eux un poids en fonction de leur répétition. Les résultats sont à leur tour enregistrés dans une table de la base de données. Une autre table contient des enregistrements concernant les relations entre pages et mots clés.

Notez que l'indexation accorde une priorité aux titres et aux balises meta keyword des pages dans le calcul du poids. Enfin, la recherche peut s'effectuer sur des mots entiers mais aussi sur des parties de mots (cherche=>recherche).

Installation du crawler

Il faut tout d'abord installer l'extension crawler car comme nous l'avons vu plus haut, c'est elle qui se chargera de lancer les indexations de vos pages.

http://typo3.org/extensions/repository/view/crawler/1.1.0/

L'extension s'installe automatiquement dans le répertoire ext/crawler/

CREATE TABLE tx_crawler_queue (
qid int(11) NOT NULL auto_increment,
page_id int(11) NOT NULL default '0',
parameters text NOT NULL,
scheduled int(11) NOT NULL default '0',
exec_time int(11) NOT NULL default '0',
set_id int(11) NOT NULL default '0',
result_data text NOT NULL,
PRIMARY KEY (qid),
KEY page_id (page_id),
KEY set_id (set_id,exec_time)
);

 

Installez ensuite l'extension indexed_search.

Installation d'indexed_search

A l'issue de l'installation, vous devez renseigner plusieurs options. Concernant Path to PDF parsers, path to unzip, path to Word parser, etc, vous l'aurez deviné très facilement je pense ! Il faut renseigner l'emplacement des executables sur le serveur.

 

Voici quelques options de configuration.

 

Full Text Data Length limite la longueur des fichiers indexés, ce qui peut vous faire économiser de l'espace en base de données, mais rend les recherches forcément moins pertinentes.

Disable Indexing in Frontend indique si oui ou non, les pages doivent être indéxés depuis le frontend. Par défaut, elles le sont mais si votre robot tourne quotidiennement, vous pourrez vous affranchir de cette fonctionnalité.

Min TTL (hours) for indexed page

Le TTL ou Time To Live indique la durée minimale de réindexation des pages. A conjuguer donc avec le passage du crawler.

Max TTL (hours) for indexed page

Age maximal d'une page avant sa réindexation

Max external files to index

Indique le nombre maximum de pages externes à indexer

Bitmask for Flags

Permet d'ajuster l'importance des balises meta dans la recherche indexée.

Le paramètre varie de 0 à 255. La valeur de la balise title est de 192, meta keyword est à 64, tandis que meta description est à 32.

Ignore Extensions

Liste des extensions qui seront ignorées.

Index External HTML URLs

Indexe les liens vers des pages externes de type text/html.

Notez l'apparition du module Indexing dans la section Outils. Si Indexing ne s'affiche pas, déconnectez vous puis connectez vous à nouveau.

Les derniers articles à consulter :

TYPO3 et le e-Commerce (1ère partie)
Quelle extension utiliser pour faire du e-Commerce avec TYPO3 ?

Felogin, la newloginbox intégrée (TYPO3 v 4.2)
Felogin remplace l'extension newloginbox et offre la possibilité d'offrir une boite de connexion pour protéger l'accès à certaines pages.

Créer un Google sitemap (plan du site XML)
Comment créer un plan du site XML ou plus communément un Google sitemap pour améliorer l'indexation de son site par Google.