Différences entre les versions de « Initiation à la création d’un graphe de connaissances »

De WIKOM

Ligne 89 : Ligne 89 :
La commande pour lire un fichier de données (source en gras) est :   
La commande pour lire un fichier de données (source en gras) est :   
  LOAD CSV WITH HEADERS FROM ''''file:/ListeCNPEs.csv'''<nowiki/>' AS row RETURN row
  LOAD CSV WITH HEADERS FROM ''''file:/ListeCNPEs.csv'''<nowiki/>' AS row RETURN row
[[Fichier:Lire un fichier CSV à partir de Neo4J.png|alt=Lire un fichier CSV à partir de Neo4J|centré|vignette|600x600px|Lire un fichier CSV à partir de Neo4J]]
On obtient le résultat suivant :[[Fichier:Lire un fichier CSV à partir de Neo4J.png|alt=Lire un fichier CSV à partir de Neo4J|centré|vignette|600x600px|Lire un fichier CSV à partir de Neo4J]]On peut spécifier la manière dont le fichier de données est délimité :
LOAD CSV WITH HEADERS  FROM 'file:/ListeCNPEs.csv' AS row '''FIELDTERMINATOR ';'''' RETURN row
La commande suivante ne lit qu’une propriété (“commune”) par ligne :
LOAD CSV WITH HEADERS FROM 'file:/ListeCNPEs.csv' AS row '''RETURN row.Commune'''
[[Fichier:Lire pour chaque ligne la propriété Commune du Fichier .png|alt=Lire pour chaque ligne la propriété Commune du Fichier |centré|vignette|600x600px|Lire pour chaque ligne la propriété Commune du Fichier ]]
 
=== Charger des données ===
Cette page web explique de nombreux mécanisme pour charger des données dans la base : <nowiki>https://neo4j.com/developer/kb/import-csv-locations/</nowiki>
 
==== Créer des noeuds à partir des données ====
Créer des noeuds correspondant aux communes :
LOAD CSV WITH HEADERS FROM 'file:/ListeCNPEs.csv' AS row '''CREATE (n:COMMUNE { nom: row.Commune })'''
[[Fichier:Création noeuds "commune".png|alt=Création noeuds "commune"|centré|vignette|600x600px|Création noeuds "commune"]]
Vider le graphe :
'''MATCH (n) DETACH DELETE n'''
[[Fichier:Vider la base.png|alt=Vider la base|centré|vignette|600x600px|Vider la base]]
'''Créer des noeuds en évitant les doublons avec la commande MERGE :'''
LOAD CSV WITH HEADERS FROM 'file:/ListeCNPEs.csv' AS row '''MERGE''' (n:COMMUNE { nom: row.Commune })
[[Fichier:Créer des noeuds en évitant les doublons.png|alt=Créer des noeuds en évitant les doublons|centré|vignette|600x600px|Créer des noeuds en évitant les doublons]]
 
 
Vider le graphe :
'''MATCH (n) DETACH DELETE n'''
A partir de la lecture des données on peut créer des noeuds et les lier entre eux en même temps :
 
LOAD CSV WITH HEADERS FROM '<nowiki>https://docs.google.com/spreadsheets/d/e/2PACX-1vRmy95-d9KoFcDtsC9t4VTDPRF2ZG2cWaa4BSj3kRVFtSUGxZRw186SsgQvF7RZYv1J96tUFOVu7Tr6/pub?output=csv'</nowiki> AS row
 
MERGE (n:COMMUNE { nom: row.Commune })
 
MERGE (m:DEPARTEMENT { nom: row.Département })
 
MERGE (n)-[:EST_DANS_LE_DEPARTEMENT]->(m)

Version du 5 mai 2024 à 13:23

Objectif

L’objectif est de vous initier à la création d’un graphe de connaissances en exploitant la technologie Neo4J. Il s’agit à partir d’un jeu de données de créer un modèle de connaissances et à partir de ces deux éléments de charger la base de graphe.

Préparer son environnement de travail

En local

Télécharger Neo4J Desktop : https://neo4j.com/download/

Dans le nuage (ie Cloud)

La société Neo4J vous permet après inscription d'exploiter une instance de base de donnée gratuitement : https://neo4j.com/cloud/aura/

Concevoir un modèle de connaissances

Premier Jeu de données : Liste des CNPEs

Le premier jeu de données est en lien avec le Parc Nucléaire de Production Français.

Fiche Wikipédia CNPEs
Fiche Wikipédia CNPEs

A partir de la page wikipédia ci contre et des pages afférentes, on obtient un jeu de données disponible au format csv ici : [1]

CNPE en csv

Les en-têtes de colonnes sont les suivantes :

  • Trigramme_centrale,
  • Centrale_nucleaire,
  • Commune,
  • Département,
  • id_reacteur,
  • Nom_du_reacteur,
  • Rang,
  • Palier,
  • Puissance_therm_MWt,
  • Puissance_brute_MWe,
  • Puissance_nette_MWe,
  • Debut_construction,
  • Raccordement_au_reseau,
  • Mise_en_service,
  • longitude,
  • latitude

Concevoir le modèle de connaissances

A partir d’une analyse des colonnes et de leur contenu il s’agit identifier les types de noeuds que vous souhaitez créer ainsi que les relations liants ces derniers.

Il s’agit d’identifier les objets élémentaires qui vont permettre que votre graphe de connaissance soit une représentation la plus riche possible à partir des données disponibles. Regarder les colonnes et leur contenu est une bonne stratégie. Par exemple, employez Excel pour explorer les données avec les filtres automatiques.

Données CNPE dans Excel

Vous pouvez dessiner votre modèle à la main ou dans un éditeur graphique de votre choix :

  • Powerpoint
  • Yedgraph : https://www.yworks.com/products/yed
  • Mermaid.js : https://mermaid-js.github.io/mermaid-live-editor/
  • viz.js : http://viz-js.com/
  • Xmind : https://www.xmind.net/
  • ….

Indice  : Il faut penser des phrases (sujet)(“verbe”)(“complement”) à partir des données disponibles.

Par exemple, à partir des colonnes “commune” et “département” je peux déduire :

Injecter dans la base de graphe

Le langage cypher

La base de graphe se manipule avec le langage Cypher. La synthèse de ce langage est disponible ici : [2]

RefCard Cypher Neo4J
RefCard Cypher Neo4J

Préparer les données sources avant l'injection

  • Préparer les fichiers en CSV
  • Convertir les fichiers en UTF8 (utiliser un éditeur de texte du type Notepad++ ou SublimeText)
  • Placer les fichiers à un endroit accessible par la base de graphe :
    • un stockage en ligne permettant un accès via http
    • dans le répertoire import de l'instance Neo4J
Ouvrir Répertoire Neo4J dans Neo4JDesktop
Ouvrir Répertoire Neo4J dans Neo4JDesktop
Ouvrir répertoire Import Neo4J Desktop
Ouvrir répertoire Import Neo4J Desktop

Le Browser Neo4J

Ouvrir la console Neo4J
Ouvrir le Browser Neo4J
Le Browser Neo4J
Le Browser Neo4J

Lire des données à partir du Browser Neo4J

A partir d'ici les données sont lues à partir du répertoire local d'import de Neo4J. Le fichier exploité est [3] évoqué ci dessus et renommé ListeCNPEs.csv.

La commande pour lire un fichier de données (source en gras) est :

LOAD CSV WITH HEADERS FROM 'file:/ListeCNPEs.csv' AS row RETURN row

On obtient le résultat suivant :

Lire un fichier CSV à partir de Neo4J
Lire un fichier CSV à partir de Neo4J

On peut spécifier la manière dont le fichier de données est délimité :

LOAD CSV WITH HEADERS  FROM 'file:/ListeCNPEs.csv' AS row FIELDTERMINATOR ';' RETURN row 

La commande suivante ne lit qu’une propriété (“commune”) par ligne :

LOAD CSV WITH HEADERS FROM 'file:/ListeCNPEs.csv' AS row RETURN row.Commune
Lire pour chaque ligne la propriété Commune du Fichier
Lire pour chaque ligne la propriété Commune du Fichier

Charger des données

Cette page web explique de nombreux mécanisme pour charger des données dans la base : https://neo4j.com/developer/kb/import-csv-locations/

Créer des noeuds à partir des données

Créer des noeuds correspondant aux communes :

LOAD CSV WITH HEADERS FROM 'file:/ListeCNPEs.csv' AS row CREATE (n:COMMUNE { nom: row.Commune })
Création noeuds "commune"
Création noeuds "commune"

Vider le graphe :

MATCH (n) DETACH DELETE n
Vider la base
Vider la base

Créer des noeuds en évitant les doublons avec la commande MERGE :

LOAD CSV WITH HEADERS FROM 'file:/ListeCNPEs.csv' AS row MERGE (n:COMMUNE { nom: row.Commune })
Créer des noeuds en évitant les doublons
Créer des noeuds en évitant les doublons


Vider le graphe :

MATCH (n) DETACH DELETE n

A partir de la lecture des données on peut créer des noeuds et les lier entre eux en même temps :

LOAD CSV WITH HEADERS FROM 'https://docs.google.com/spreadsheets/d/e/2PACX-1vRmy95-d9KoFcDtsC9t4VTDPRF2ZG2cWaa4BSj3kRVFtSUGxZRw186SsgQvF7RZYv1J96tUFOVu7Tr6/pub?output=csv' AS row

MERGE (n:COMMUNE { nom: row.Commune })

MERGE (m:DEPARTEMENT { nom: row.Département })

MERGE (n)-[:EST_DANS_LE_DEPARTEMENT]->(m)