De esta librería ya os hemos hablado en anteriores post, como éste:
Y con la que podréis de forma sencilla, mediante la llamada a la función getDocumentInfo(), extraer todos los metadatos de un PDF, pasado por cabecera.
#!/usr/bin/python
# -*- coding: utf-8 -*-
import PyPDF2
import optparse
from PyPDF2 import PdfFileReader
def meta(fileName):
pdff = PdfFileReader(file(fileName, 'rb'))
doc = pdff.getDocumentInfo()
print 'Doc: ' + str(fileName)
for metai in doc:
print '- ' + metai + ':' + doc[metai]
def main():
parser = optparse.OptionParser('usage %prog "+\
"-F <PDF file name>')
parser.add_option('-F', dest='filename', type='string',\
help='PDF file name')
(options, args) = parser.parse_args()
filename = options.filename
if filename == None:
print parser.usage
exit(0)
else:
meta(filename)
if __name__ == '__main__':
main()
La salida sería parecida a la siguiente:
0 comentarios:
Publicar un comentario