TP graphe du web

Vous trouverez sur cette page les documents nécessaires à la réalisation du TP graphe du Web .

Liste des librairies java dont vous aurez besoin. Rappel : pour utiliser les classes contenues dans une archive jar vous devez l'ajouter à votre CLASSPATH ( java -classpath htmlparser.jar:jdom.jar ...)
Bien sûr n'oubliez pas d'avoir une fenêtre ouverte sur la javadoc de java-1.4
Extraction des tags HTML

Sauvegarder la toile

Une fois que vous avez obtenu la liste des pages que vous avez explorées. Il est utile de faire une sauvegarde de votre exploration. Vous pourrez ensuite re-travailler sur ce graphe.

Je vous propose d'utiliser le format de fichier graphML . Il vous permettra d'utiliser des logiciels permettant la visualisation de votre graphe. Ces logiciels sont nombreux, je vous suggère d'en utiliser deux différents :

  • yED : Editeur de graph en java.
  • Guess : Système d'explorateur de graphe.
  • Il en existe bien d'autres... .
Voici un exemple de fichier au format graphML.
Pour écrire et lire un fichier xml, il est utile de se servir de la librairie jdom .
Je vous propose deux exemples GraphMLConverter.java(html) et GraphMLScanner.java(html)
d'implantation qui permettent l'écrture et la lecture d'un fichier XML au format graphML .
Adaptez le au format de données que vous avez choisi pour stocker vos pages explorées.


Travailler avec les graphes

Un des concepts fondamentaux dans la programmation objet est la réutilisabilité des objets. Je vous propose de mettre en pratique ce concept en réutilisant le travail que d'autres ont fait pour vous et qui dans bien des cas peut vous aider.

Dans le cadre de l'étude des propriètés du graphe du Web, il vous est demandé de calculer la distance moyenne entre les noeuds du graphe. Ne pouvez vous pas servir de la librairie JUNG ?


Raphael [dot] Bolze [at] ens-lyon [dot] fr