Antw: Re: [dini-ag-kim-lld] B3Kat ISBN-ISIL Mappings als Beacon

Andreas Kahl kahl at bsb-muenchen.de
Tue Dec 4 10:42:26 CET 2012


Hallo Jakob, 

danke für Deinen Tip, das gibt es gewissermaßen schon: 

Wir haben eine einfache sitemap.xml für Google, http://lod.b3kat.de/sitemap.xml , und eine semantische, die ich eigentlich in der Hoffnung erstellt hatte, das sindice die Daten indexiert: http://lod.b3kat.de/semantic-sitemap.xml . In der semantic-sitemap-Spec gibt es auch ein Element mit dem man die DataDumps auszeichnen kann und das lastmod-Datum dazu. Dort kannst Du bei uns die URLs aller DataDumps auslesen (ganz unten in der Datei). 

Auf den Seiten von Sindice ist die Erweiterungs-Spec für die Semantic-Sitemaps verlinkt: 
http://sw.deri.org/2007/07/sitemapextension/

Dem sollte unser XML entsprechen. 

Nebenbei: Sindice hat unsere Daten trotz Semantic-Sitemap nicht indexiert; woran das liegt wüsste ich gerne. Falls Ihr also Erfahrungen oder Hinweise dazu habt wäre ich sehr interessiert; u.a. weil ich die Suchmaschine http://sig.ma ziemlich interessant finde, die u.a. auf den Sindice-Index zurückgreift. 

Jakob, reicht Dir unsere Semantic Sitemap für Deine Zwecke?

Beste Grüße
Andreas
 
>>> Jakob Voss <jakob.voss at gbv.de> 4.12.2012 10:06 >>> 
Hallo,

Andreas Kahl schrieb auf meine Mail:

 > zu Deiner Frage nach automatischen Update-Benachrichtigungen:
 > Da gibt es zur Zeit leider keinen automatischen Update-Mechanismus.
 > Ich werde das mal intern als Anregung weitergeben und sehen, was
 > sich da mittelfristig machen lässt. Wäre ein einfacher RSS-Feed
 > sinnvoll? Oder hast Du eine andere Methode im Sinn?

Die Schwierigkeit bei B3Kat und anderen größeren Abzügen besteht darin, 
das es sich um mehrere Dateien statt um eine handelt. Im Moment gibt es

http://lod.b3kat.de/download/lod.b3kat.de.part0.rdf.gz
bis
http://lod.b3kat.de/download/lod.b3kat.de.part25.rdf.gz

aber wer weiß wieviele Teile der nächste Abzug hat? Die einfachste 
Methode sind eine oder mehrere sitemaps-Dateien [*], in der auch das 
Änderungsdatum stehen kann:

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
   <url>
     <loc>http://lod.b3kat.de/download/lod.b3kat.de.part0.rdf.gz</loc>
     <lastmod>2012-09-21</lastmod>
   </url>
   ...
   <url>
     <loc>http://lod.b3kat.de/download/lod.b3kat.de.part25.rdf.gz</loc>
     <lastmod>2012-09-21</lastmod>
   </url>
</urlset>

Die Sitemaps-Datei sollte immer an der gleichen URL stehen, so ein 
Client diese kleine Datei regelmäßig (z.B. täglich oder wöchentlich) 
abholen kann und sofort mitbekommt, wann ein neuer Abzug vorliegt und 
aus wieviele Dateien er besteht.

Gruß
Jakob

[*] http://www.sitemaps.org/protocol.html

-- 
Jakob Voß <jakob.voss at gbv.de>, skype: nichtich
Verbundzentrale des GBV (VZG) / Common Library Network
Platz der Goettinger Sieben 1, 37073 Göttingen, Germany
+49 (0)551 39-10242, http://www.gbv.de




More information about the dini-ag-kim-lld mailing list