Recherche intelligente
sur Internet avec
Alta Vista
|
Adapté à Internet par Rémi
St-Onge |
Mis à jour par Sylvain
Pedneault |
Comment accéder au site d'Alta Vista
Exemples de requêtes Simple
Exemples de requêtes Avancés
Limiter l'étendue d'une requête
Contenir les recherches aux pages Web
Limiter les recherches dans les news de Usenet
Mots, phrases, ponctuation et minuscules/MAJUSCULES
Les mots apparentés et la notation *
FAQ (foire aux questions)
à propos
d'Alta Vista
On accède au site de recherche Alta Vista avec un browser ,
comme Netscape Navigator ou autre, en y indiquant l'URL (ou adresse
Internet) suivante :
Lorsqu'on y est, vous avez le choix de formuler des requêtes
Simple ou Advanced
paris musée "mona lisa" louvre
Trouve les documents contenant le plus possible de tous ces mots. Une phrase est indiquée dans les guillemets. Une recherche en lettres minuscules trouve aussi les mots avec des majuscules.
La ponctuation colle les mots ensembles, tout comme les guillemets. Les symboles de ponctuation sont traités comme des espaces blancs, et cet exemple est équivalent à "http www whitehouse gov" (avec les guillemets).
dessert gâterie +cannelle +pomme -tarte
(trouvé 13 documents)
Il peut être intéressant de voir les documents trouvés, ou encore de les ignorer. Cette requête trouve les documents qui contiennent pomme et cannelle ABSOLUMENT, mais qui ne contiennent pas tarte.
title:ford title:"general motors" title:GM
title:chrysler
Cette requête trouve les pages Web dont le titre contient le nom d'une compagnie manufacturière d'automobiles aux États-Unis. Toute lettre en MAJUSCULE dans le mot d'une requête force un match exact des minuscules/majuscules sur tout le mot.
+austin +quilt*
Trouvera les pages qui contiennent le mot austin et au moins un mot comme quilt, quilts, quilting, quilted, etc.
"jerry peltier" (trouvé 4
documents)
"jerry peltier" +mohawk (trouvé 4 000
documents)
"budget fédéral" (trouvé 400
documents)
"budget fédéral" +guerre
(trouvé 7 000 documents)
guerre +"budget fédéral"
(trouvé 400 documents)
+guerre +"budget fédéral"
(trouvé 57 documents)
kayak AND "San Juan Islands"
L'opérateur AND assure que les deux
côtés seront présent dans les
résultats.
"Digital Equipment Corporation" OR Digital
L'opérateur OR assure qu'au moins un des deux
côtés sera présent dans les résultats.
Légume AND NOT "choux"
L'opérateur NOT est utilisé pour
exclure des mots ou phrases de la requête.
Jacques NEAR Cartier (trouvé 10 000
documents)
L'opérateur NEAR assure que les deux côtés seront présents et à 10 mots l'un de l'autre dans les documents résultant de cette recherche. Cette requête trouvera Jacques Cartier, Jacques M. Cartier et Cartier, Jacques.
mouton AND (boeuf OR veau)
Les expression de recherche peuvent être imbriquées
(nested en anglais). On lit cette requête comme suit : Trouve
les documents contenant les mots mouton ET (soit
boeuf ou veau).
"or" AND platine AND argent
Une recherche sur les métaux précieux. Remarquez ici
que le mot OR est un mot à rechercher, pas l'opérateur.
Pour utiliser un des mots AND, OR, NOT ou
NEAR comme un mot à chercher, vous devez
l'insérer dans des guillemets.
Les opérateurs peuvent aussi être écrits en minuscule : and, or, not, near. Si vous êtes nostalgique de vos classes d'algèbre, vous pouvez aussi utiliser les symboles & pour AND, | pour OR, ! pour NOT, et ~ pour NEAR.
Une nouvelle récente au Québec, celle où on affirme que Lucien Bouchard était surpris d'apprendre l'affaire des majorations salariales des hauts fonctionnaires péquistes.
"lucien bouchard" (trouvé 1 000 documents)
"lucien bouchard" AND major* AND surprise (trouvé 39 documents)
"lucien bouchard" AND major* AND échelle (trouvé 15 documents)
"jean chrétien" (trouvé 600 documents)
Pour obtenir des informations sur, par exemple, les indiens
d'amérique au Dakota, vous pourriez procéder comme suit
:
American Indian native Dakota
Trouve les pages avec n'importe lequel de ces mots, les
premières pages trouvées étant celles avec le
plus de ces mots dedans. Un peu plus de 100 000 matches. Il y a trop
de pages contenant American qui n'ont rien à voir
avec Indians.
"american indian" native dakota
Cette requête exige que les mots american
et indian soient situés dans une phrase. Aussi,
nous avons changé pour des minuscules car ça permet de
trouver des mots qui ont des majuscules ici et là. Environ 40
000 matches, avec les meilleurs résultats affichés en
premier.
"american indian" "native american" +dakota
Exige le mot dakota. Les pages avec american indian OU native american sont affichées près du début; les pages avec les deux sont affichées en premier. Environ 8 000 trouvés. Une petite inspection des documents trouvés nous indique qu'on pourrait être plus spécifique aux Sioux, et aussi éliminer les mots college et university et descriptions de cours car il en mouille!
"american indian" "native american" +sioux -university
-college
Similaire à la requête
précédente, mais exige des références
spécifiques aux sioux (au lieu de
dakota), et élimine les pages avec
college et university. Encore 6 000
documents seront trouvé, avec les meilleurs résultats
affichés en premier.
title:steelhead
Trouve les pages avec le mot steelhead dans le
titre.
title:"Des Moines"
Trouve les pages avec la phrase Des Moines dans
le titre. Avec le D et le M majuscule.
url:home.html
Trouve les pages avec les mots home ET
html ensemble dans la URL de cette page (adresse
Internet). Pareil à avoir tapé url:"home
html".
host:digital.com
Trouve les pages avec les mots digital.com dans le nom de l'hôte du serveur de pages.
link:thomas.gov
Trouve les pages qui contiennent au moins un lien à
une page contenantthomas.gov dans son URL.
from:clark
Trouve les articles avec le mot clark (avec
minuscules et/ou majuscules) dans l'entête
From:
subject:"for sale"
Trouve les articles avec la phrase "for sale"
dans l'entête Subject:
newsgroups:rec.humor
Trouve les articles postés dans les news groups avec
rec.humour dans son nom.
summary:invest*
Trouve les articles avec les mots invest,
investissement, investment, investiture, etc., dans le
sommaire.
keywords:NASA
Trouve les articles avec le mot NASA, tout en
majuscules, dans la liste des mots clés (keywords).
Alta Vista traite chaque page du Web et chaque article
trouvé dans Usenet comme une séquence de mots. Un
mot dans ce contexte est une chaîne de
caractères alphanumériques (a-z, 0-9)
délimités par une ponctuation et d'autres
caractères non alphabétiques (comme &, %, $, /, #,
_, ~), ou par des espaces blancs (espaces, tabulateurs,
fins de lignes, débuts de documents, fins de documents). Pour
être considéré comme un mot, une chaîne de
caractères n'a pas besoin d'être épelé
correctement ou d'appartenir à un dictionnaire. Le seul
critère pour être considéré comme un mot
est que quelqu'un a tapé ce mot dans une page Web ou dans un
article sur Usenet. Les mots suivants sont des mots valides s'ils
sont délimités dans un document : HAL5000,
Gorbachevnik, 602e21, www, http, MaresEatOatsAndDoesEatOats,
etc. Les phrases suivantes sont toutes considérées
comme étant deux mots à cause de la ponctuation qui les
sépares : don't, digital.com, x-y, AT&T, 3.14159,
U.S..
Seuls les mots sont indexés et significatifs pour Alta Vista.
Alta Vista n'indexe pas les ponctuations ou les espaces blancs, afin
de vous permettre de chercher des mots et des phrases, pas de la
ponctuation.
Une phrase est une chaîne de mots continus dans un document, même s'ils peuvent être séparés par toute sorte d'espaces blancs et de ponctuations. Ces mots n'ont pas besoin d'être corrects (grammatiquement) dans aucun langage humain-- ils n'ont qu'à apparaître dans un document comme plusieurs mots consécutifs. Quelques exemples :
Comme la ponctuation et les espaces sont insignifiants à
Alta Vista (excepté pour délimiter des mots), les
phrases ci-haut sont considérées exactement les
mêmes que les variantes suivantes :
Deux conventions pour taper une phrase dans une requête. La
meilleure façon, portant à la moindre confusion, est de
taper la phrase comme "une chaîne de mots séparés
par des espaces et entourés de guillemets". Toutefois, comme
une alternative, vous pouvez taper les mots d'une phrase avec
ponctuation (et pas d'espaces) entre chaque pair de mots. Par
exemple, ces requêtes sont toutes équivalentes :
La première et la dernière requête sont
généralement le format que nous recommandons, car
quelques symboles de ponctuation ont une signification dans les
requêtes avancées, et peuvent porter à
confusion.
Les lettres majuscules sont considérées distinctes des
lettres minuscules. Lorsqu'un mot est trouvé sur une page Web
ou dans un article, la majuscule ou minuscule est
préservée et enregistrée dans l'index d'Alta
Vista.
Lorsque vous tapez un mot dans une requête, c'est
sécuritaire de penser et généralement
recommandé de le taper TOUT en minuscules car si le mot est
minuscule seulement, ça indique de faire une recherche sans se
préoccuper des min/maj. Mais si vous mettez des lettres en
majuscules, vous forcez une recherche qui doit
trouver avec ces exactes lettres majuscules sur tout le mot.
En pratique, le mot ordinateur trouvera toutes les
occurrences de ordinateur, ORDINATEUR, orDINatEur ou
Ordinateur dans un document. Mais un mot avec une majuscule
tel Ordinateur dans une requête ne trouvera que le
mot Ordinateur dans le document, et toutes les autres
formes ne seront pas considérées!
Il vous sera utile de chercher tous les mots apparentés
à une même famille, tels chant, chanteur,
chanteuse, chanson, chanter. Pour une tel cas vous pourriez
utiliser l'abréviation chant* dans une
requête pour trouver toutes les occurrences de ces mots.
Évidemment, ca trouvera des documents qui contiennent des mots
tels chantier, Chanteclair, chandelle, chanvres, etc.
mais il est fort probable que les documents trouvés par Alta
Vista seront loin dans la liste des documents voulus ou assez
facilement identifiables pour les rejeter.
Le symbole * ne peut être utilisé sans restrictions,
par contre. Pour rendre de telles recherches réalisables, Alta
Vista demande que l'* soit utilisé à la fin d'un mot
seulement, et que ce mot aie au moins trois lettres. Aussi, l'* ne
trouvera pas n'importe laquelle des fins de mots; ça ne
trouvera que les mots qui contiennent cinq caractères
minuscules additionnels (pas de majuscules, pas de
chiffres).
à propos d'Alta Vista et le Web
Il y a plusieurs raisons pourquoi Alta Vista n'a pas trouvé une page qui est effectivement sur le Web.
La page que vous cherchez est nouvelle. Alta Vista est constamment en recherche de nouvelles pages sur le Web afin de les ajouter à son index, mais il est fort probable qu'il ne trouve pas une nouvelle page (ou une nouvelle version d'une vieille page) avant quelques jours.
La page en question est derrière une passerelle ou un firewall. Certaines pages Web sont sur des serveurs corporatifs et ne sont pas accessibles au public, et Alta Vista ne fait aucun effort pour les y accéder. Aussi, les pages qui demandent plus que le protocole habituel d'un simple hyperlien (ex. il faut compléter un formulaire, s'enregistrer ou fournir un mot de passe, etc.) ne sont pas indexés.
Quelques serveurs demandent spécifiquement de ne pas être visités par des systèmes automatisés (nommés robots dans le jargon), et Alta Vista respecte ces requêtes.
La page peut ne pas être atteignable par un enchaînement d'hyperliens à partir du filon central du Web. Alta Vista débute avec quelques milliers de documents publics sur le Web, et commence à suivre ces enchaînements pour trouver tous les autres documents. Certains documents, toutefois, qui techniquement sont sur le Web (disponibles d'un serveur quelconque et trouvable avec la URL correcte), n'ont pas d'hyperliens qui les pointe. Un ensemble de documents Web qui ont des liens entre eux et des liens vers l'extérieur, mais qui n'ont aucun lien provenant de l'extérieur vers eux, ne seront pas trouvés automatiquement par Alta Vista.
Il est possible qu'Alta Vista ait trouvé la page, mais qu'il ne l'ait pas reconnu à cause que le titre et les quelques premières lignes de la page (ce qu'Alta Vista vous présente comme résultats) ne sont pas vraiment distinctives.
Quelques fois, Alta Vista sait que la page existe car il a trouvé un hyperlien y menant, mais à chaque fois qu'il essaie de rejoindre cette page pour l'indexer, la connection tombe. Ceci peut indiquer une congestion au serveur ou le serveur n'était pas en ligne à ce moment.
La raison la plus viable, toutefois, pourquoi Alta Vista n'a pas trouvé une page que vous savez existe est que vous avez formulé votre requête un petit peut trop spécifiquement. Par exemple, vous avez peut-être écrit votre phrase +"President Clinton" dans la requête, et ceci ne retournerait pas les pages contenant les phrases "Bill Clinton" ou "President Bill Clinton".
Alta Vista est constamment en recherche sur le Web, et il indexe
le contenu des documents le jour où il les trouves. C'est
possible que le propriétaire du document ait fait des
modifications depuis la dernière visite et indexation d'Alta
Vista. Même si le document original contenait les
éléments de votre requête, la nouvelle version du
document peut ne pas concorder. Éventuellement, Alta Vista
revisitera cette page et l'indexera sur la base d'un nouveau
contenu.
D'expérience, lorsqu'Alta Vista trouve un document qui ne
semble pas concorder avec la requête, l'explication la plus
plausible est qu'effectivement le document trouvé
répond bien à la requête, mais pas de
façon très évidente. Par exemple :
Les mots et phrases dans une requête SIMPLE qui ne sont pas précédé d'un signe + ou - n'ont pas besoin d'être tous présents dans un document pour être considéré un match; seulement un mot est requis. Sauf indication contraire, ca n'affecteque l'ordre dans lequel les documents vous sont présentés.
La ponctuation dans une requête et dans un document sont généralement traités comme des espaces pour le but de trouver des match; aussi, les minuscules dans une requête sont généralement considérées comme un match aux majuscules correspondantes. La requête simple : "guns roses" qui fait référence au groupe Rock trouvera peut-être, par chance, un document contenant une phrase "guns roses", c-a-d une phrase avec guns à la fin d'une phrase, et Roses au début d'une autre.
Les mots trouvés dans votre requête peuvent être contenus dans des rubriques de commentaires, ou peuvent être des hyperliens ou autres parties textuelles de la page Web qui a été indexée par Alta Vista, mais qui ne sont pas visibles lorsque la page est affichée par votre browser . Netscape Navigator est un browser. Même si votre browser vous permet de faire une recherche textuelle, la commande peut ne pas trouver les mots que Alta Vista trouve car cette recherche peut omettre les rubriques de commentaires et d'hyperliens, ainsi que d'autres rubriques que votre browser n'affiche pas.
Les mots trouvés par votre requête peuvent être dans la URL (adresse Internet) de la page trouvée. Par exemple, toutes les pages avec les mots digital.com ou home.html dans leurs URL sont considérés comme contenant les mots digital et com (ou home et html) respectivement. Si vous voulez éviter ceci, alors cherchez en utilisant le préfixe text: avant les mots ou phrases que vous voulez retrouver dans un texte, et non dans l'adresse URL d'une page.
Ceci peut se produire lorsque l'état de cette page, ou du
serveur qui l'héberge, a changé depuis la
dernière visite et indexation d'Alta Vista .
La page peut avoir été renommée ou
enlevée par son propriétaire.
Le serveur peut être hors-ligne (arrêté) au
moment de la visite d'Alta Vista.
Des restrictions d'accès ont été
implanté sur le serveur depuis la dernière visite
d'Alta Vista.
Le serveur peut être si occupé qu'un essai pour y accéder nous coupe la ligne (Time out).
Il est aussi possible que vos propres infrastructures inter-réseaux ( Routing Tables , service DNS ou politiques de sécurité) vous empêchent d'établir la connection au serveur. L'erreur qui vous sera affiché vous donnera plus d'information à ce moment.
Pour les requêtes SIMPLES, les mots et phrases qui ne sont pas précédé d'un - sont utilisé pour déterminer l'ordre dans lequel les pages qui effectivement concordent sont affichées. L'ordre exact est déterminé par un système de pointage qui est un peu compliqué à expliquer et sujet à changer. Une page qui match a un meilleur score, et devrait apparaître plus au début de la liste selon les critères suivants :
Les mots et phrases utilisés par Alta Vista pour trouver un document peuvent se situer partout dans le document, au début, à la fin, plusieurs fois. En général, il n'y a aucune méthode autorisée ou approuvée pour déterminer quelles lignes du document Alta Vista doit afficher dans un document trouvé.