Skip to content

LeMoussel/LinkContext

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

LinkContext

Catégorisation des liens par segmentation d’une page HTML.

Ce programme Python, développé au dessus de Block-o-Matic (BoM), permet de décomposer une page web en segments, visuellement et sémantiquement cohérents, appelés blocs. Les liens sont ensuite extraits pour chaque bloc identifié.

Pré-requis

  • Python version 3.7. Les versions plus anciennes de Python ne devraient PAS fonctionner. Les versions plus récentes de Python devraient être OK.

  • Microsoft Playwright for Python. Playwright nécessite Python 3.7 ou plus. Les binaires de navigateur pour Chromium, Firefox et WebKit fonctionnent sur les 3 plateformes (Windows, macOS, Linux). Voir Installation de Playwright for Python.

  • Matplotlib : Visualisation avec Python. Matplotlib est une bibliothèque complète permettant de créer des visualisations statiques, animées et interactives en Python.

  • Librairie JS BoM.

Execution

Windows 10

# Windows
py main.py --url "http://example.com/"

# Linux
python3 main.py --url "http://example.com/"

Références

Todo

Toutes suggestions qui semble être une bonne idée. S'il vous plaît, essayez-le, soumettez des PRs pour étendre ou corriger des choses, et signalez toute bizarrerie ou bogue que vous rencontrez 😄