function get_mot_vides($file) { $chaine = file2chaine($file); //les separateurs pour decouper le texte en mots $separateurs = " \n"; $mot_vide = utf8_decode(entitesHTML2Caracts($chaine)); $empty_word = explodeBIS($separateurs, $mot_vide); return $empty_word; }
function indexer($file, $tab_mot_vide) { global $conn; //______________________ traitement head________________________ $title = get_title_With_ER($file); $keywords = get_meta_keywords($file); $description = get_meta_description($file); $chaine_head = $keywords . " " . $description . " "; // conversion entites html ascii $chaine_head = entitesHTML2Caracts($chaine_head); //minuscule $chaine = strtolower($chaine_head); //les separateurs pour decouper le texte en mots $separateurs = " |{}[])(-_;,:.'’»«\$!?\"*\\/&=#"; //decoupage du texte en elements/mots $tab_mots_head = explodeBIS($separateurs, $chaine); //affichage des mots //print_tab($tab_mots); //echo "<br><br>"; //calcul de la frequence des mots //suppression des doublons $tab_mots_occurrences_head = array_count_values($tab_mots_head); //print_tab($tab_mots_occurrences); // calcul du poids des mots $tab_mots_poids_head = occ2poids($tab_mots_occurrences_head, 2); //print_tab($tab_mots_poids_head); //______________________ Fin traitement head________________________ //______________________ traitement body________________________ $body = get_Body($file); // body sans balises scripts $body_sans_scripts = strip_scripts($body); // suppression des balises html $clean_body = strip_tags($body_sans_scripts); // conversion entites html ascii $clean_body = entitesHTML2Caracts($clean_body); //minuscule $clean_body = strtolower($clean_body); //les separateurs pour decouper le texte en mots $separateurs = " |{}[])(-_;,:.'’»«\$!?\"*\\/&=#"; //decoupage du texte en elements/mots $tab_mots_body = explodeBIS($separateurs, $clean_body); //affichage des mots //print_tab($tab_mots); //echo "<br><br>"; //calcul de la frequence des mots //suppression des doublons $tab_mots_occurrences_body = array_count_values($tab_mots_body); //print_tab($tab_mots_occurrences); // calcul du poids des mots $tab_mots_poids_body = $tab_mots_occurrences_body; //print_tab($tab_mots_poids_body); //________________________ fin traitement body ______________________ // fusion des deux tableaux $tab_mots_poids = fusion_tabH_tabB_tabV($tab_mots_poids_head, $tab_mots_poids_body, $tab_mot_vide); //print_tab($tab_mots_poids); //création du doccument dans la BDD $data = array('adr' => mysqli_real_escape_string($conn, $file), 'title' => mysqli_real_escape_string($conn, $title), 'description' => mysqli_real_escape_string($conn, $description)); $id_doc = createDoc($data); foreach ($tab_mots_poids as $mot => $poids) { if (!cleanChaine($mot)) { $data = array('id_doc' => mysqli_real_escape_string($conn, $id_doc), 'mot' => mysqli_real_escape_string($conn, trim($mot)), 'poids' => mysqli_real_escape_string($conn, $poids)); createMot($data); } } }