W3C GRDDL service

#!/usr/bin/python # -*- coding: utf-8 -*- """ $Id: grddl.py,v 1.47 2013-10-21 15:55:46 dom Exp $ """ import cgi import sys import os import urlparse errors = [] notrdfxml = False def rdfxmlhandler(code, level, facility, message, line, column, byte, file, uri): global notrdfxml notrdfxml = True if False: global errors errors.append({"code":code,"level":level,"facility":facility,"message":message,"line":line,"column":column,"byte":byte,"file":file,"uri":uri}) def grddlhandler(code, level, facility, message, line, column, byte, file, uri): global errors errors.append({"code":code,"level":level,"facility":facility,"message":message,"line":line,"column":column,"byte":byte,"file":file,"uri":uri}) """ Filter URIs that can be loaded from GRDDL operations """ # would be cool to deal with Basic Auth too, but the current API # isn't flexible enough for that def urifilter(uri): # cf http://dev.w3.org/cvsweb/2004/PythonLib-IH/checkremote.py from checkremote import check_url_safety, UnsupportedResourceError try: check_url_safety(uri) except UnsupportedResourceError: return False return True Page = """ W3C GRDDL service """ Page2 = """

Validate by URI
Validate by Direct Input

Validate by URI

Validate by direct input

Stuff used to build this service

Python script based on
python-librdf
python, apache, etc.

script $Revision: 1.47 $ of $Date: 2013-10-21 15:55:46 $
by Dominique Hazaël-Massieux
but I didn't do the real work, i.e. writing redland

""" def serveRequest(): fields = cgi.FieldStorage() if not fields.has_key('docAddr') and not fields.has_key('fragment'): print "Content-Type: text/html;charset=utf-8" print print Page print Page2 % ("","") else: import RDF model=RDF.Model() rdfparser = RDF.Parser(name="rdfxml") global errors, notrdfxml addr = None markup = None res = None if fields.has_key('docAddr'): addr = fields['docAddr'].value if not urifilter(addr): print "Status: 403" print "Content-Type: text/plain" print print "sorry, I decline to handle this type of addresses" sys.exit(1) # Trying to parse as RDF/XML first per http://www.w3.org/TR/2007/PR-grddl-tests-20070716/#rdfXMLDoc res = rdfparser.parse_into_model(model,addr,None,rdfxmlhandler) elif fields.has_key("fragment"): markup = fields["fragment"].value # Trying to parse as RDF/XML first per http://www.w3.org/TR/2007/PR-grddl-tests-20070716/#rdfXMLDoc res = rdfparser.parse_string_into_model(model,markup,'http://example.org/',rdfxmlhandler) if notrdfxml: errors = [] model=RDF.Model() grddlparser=RDF.Parser(name="grddl") # This requires a really recent version of python-librdf grddlparser.set_uri_filter(urifilter) if addr: res = grddlparser.parse_into_model(model,addr,None,grddlhandler) else: res = grddlparser.parse_string_into_model(model,markup,'http://example.org/',grddlhandler) if res and (len(model) or not len(errors)): turtleOutput=False if fields.has_key('turtle'): if fields['turtle'].value: turtleOutput=True contenttype='application/rdf+xml' if fields.has_key('output'): if fields['output'].value=='textxml': turtleOutput=False contenttype='text/xml' elif fields['output'].value=='turtle': turtleOutput=True contenttype='application/x-turtle' elif fields['output'].value=='turtlen3': turtleOutput=True contenttype='text/rdf+n3' elif fields['output'].value=='turtleplain': turtleOutput=True contenttype='text/plain' print "Content-Type: %s" % (contenttype) print if turtleOutput: serializer = RDF.Serializer(name="turtle") else: serializer = RDF.RDFXMLSerializer() print serializer.serialize_model_to_string(model) # turtle output doesn't show errors or source at this point if not turtleOutput: if addr: print "\n" % (addr,addr) elif markup: print "" if len(errors): print "" else: if addr: print "# Extracted from %s by http://www.w3.org/2007/08/grddl/ at http://www.w3.org/2007/08/grddl/?docAddr=%s " % (addr,addr) elif markup: print "# Extracted from pasted markup by http://www.w3.org/2007/08/grddl/ " if len(errors): print "# The following errors where encountered while processing the resource:" for err in errors: print "# -%s at line %d, column %d in %s\n" % (cgi.escape(err["message"]),err["line"],err["column"],err["uri"]) else: print "Content-Type: text/html;charset=utf-8" print print Page if addr: print "

The following errors were encountered when trying to parse %s:

The following errors were encountered:

%s at line %d, column %d in %s

GRDDL Service

Stuff used to build this service