Hoppa till innehållet

Användare:Taxelson/Vem är hon

Från Wikipedia

Botgenererad lista skapad så långt jag förmått enligt önskemål på wp:Robothjälp#Namnlista med länkar till miniprojekt Vem är hon. Listan utgår från de ej färdiga i Wikipedia:Projektkontoret/Vem är hon (2017-04-15). En del rader som uppenbart inte är namn behöver givetvis tas bort. Observera att namn med gemen begynnelsebokstav (von, af etc) tyvärr inte kunnat fångas.

<!DOCTYPE html>
<html lang="sv" dir="ltr" class="client-nojs">
<head>
<meta charset="UTF-8" />
</head>
<body>

<?PHP

$vah=file_get_contents("vah.txt"); //innehåller en kopia av relevanta delar av projektsidan https://sv.wikipedia.org/w/index.php?title=Wikipedia:Projektkontoret/Vem_%C3%A4r_hon&oldid=39492804
preg_match_all("#http\://runeberg\.org/vemarhon/\d+\.html#",$vah,$rune);

echo "<textarea>";
for ($i=0; $i<count($rune[0]); $i++){
	$sid=0+(preg_replace("/\D/","",$rune[0][$i]));
	$rb=file_get_contents($rune[0][$i]);
	unset($tmp);
	preg_match_all("/\s+\<br\>\s+\<br\>[A-ZÅÄÖ].+?\, [A-ZÅÄÖ].+?\,/",$rb,$tmp);//fångar normala namn där både efternamn och förnamn inleds med versal A-ZÅÄÖ - OBS! missar "von" "af" etc 
	
	echo "\n===[".$rune[0][$i]." sid. ".$sid."]=== \n";
	for ($j=0; $j<count($tmp[0]);$j++){
		$tmp[0][$j]=trim(str_replace("<br>","",$tmp[0][$j]));
		$tmp[0][$j]=trim($tmp[0][$j],", ");
		
		$split=explode(",",$tmp[0][$j]);
		$split[1]=" ".str_replace(" "," ",$split[1])." ";
		$fornamn=(preg_replace("/[ -][A-ZÅÄÖ][ -]/"," ",$split[1]));
		$fornamn=trim(preg_replace("/[ -][A-ZÅÄÖ][ -]/"," ",$fornamn));
		
		if (preg_replace("/\d/","",$tmp[0][$j]) == $tmp[0][$j]){//endast rader som inte innehåller siffror, tar bort en del falska positiva
			echo "* [[".$fornamn." ".trim($split[0])."]] (".$tmp[0][$j].") \n";
		}	
	}
}
echo "</textarea>";

?>
</body>
</html>

Extraherade namn

[redigera | redigera wikitext]