nltk.corpus.reader.ieer

45 - def __init__(self, text, docno=None, doctype=None, 46 date_time=None, headline=''):

47 self.text = text 48 self.docno = docno 49 self.doctype = doctype 50 self.date_time = date_time 51 self.headline = headline

52 - def __repr__(self):

53 if self.headline: 54 headline = ' '.join(self.headline.leaves()) 55 else: 56 headline = ' '.join([w for w in self.text.leaves() 57 if w[:1] != '<'][:12])+'...' 58 if self.docno is not None: 59 return '<IEERDocument %s: %r>' % (self.docno, headline) 60 else: 61 return '<IEERDocument: %r>' % headline

64 """ 65 """

66 - def raw(self, files=None):

67 if files is None: files = self._files 68 elif isinstance(files, basestring): files = [files] 69 return concat([self.open(f).read() for f in files])

70

71 - def docs(self, files=None):

72 return concat([StreamBackedCorpusView(filename, self._read_block, 73 encoding=enc) 74 for (filename, enc) in self.abspaths(files, True)])

75

76 - def parsed_docs(self, files=None):

77 return concat([StreamBackedCorpusView(filename, 78 self._read_parsed_block, 79 encoding=enc) 80 for (filename, enc) in self.abspaths(files, True)])

81

82 - def _read_parsed_block(self,stream):

83 # TODO: figure out while empty documents are being returned 84 return [self._parse(doc) for doc in self._read_block(stream) 85 if self._parse(doc).docno is not None]

86

87 - def _parse(self, doc):

88 val = chunk.ieerstr2tree(doc, top_node="DOCUMENT") 89 if isinstance(val, dict): 90 return IEERDocument(**val) 91 else: 92 return IEERDocument(val)

93

94 - def _read_block(self, stream):

95 out = [] 96 # Skip any preamble. 97 while True: 98 line = stream.readline() 99 if not line: break 100 if line.strip() == '<DOC>': break 101 out.append(line) 102 # Read the document 103 while True: 104 line = stream.readline() 105 if not line: break 106 out.append(line) 107 if line.strip() == '</DOC>': break 108 # Return the document 109 return ['\n'.join(out)]

110 111 #{ Deprecated since 0.8 112 @deprecated("Use .parsed_docs() or .raw() or .docs() instead.")

113 - def read(self, items, format='parsed'):

114 if format == 'parsed': return self.parsed_docs(items) 115 if format == 'raw': return self.raw(items) 116 if format == 'docs': return self.docs(items) 117 raise ValueError('bad format %r' % format)

118 @deprecated("Use .parsed_docs() instead.")

119 - def parsed(self, items):

120 return self.parsed_docs(items)

Source Code for Module nltk.corpus.reader.ieer