Add repr to python_2_unicode_compatible

mcs07 · mcs07 · commit 046bde7a0209 · 2016-10-23T23:45:51.000+01:00
Allow both __repr__ and __str__ to return unicode in both python 2 and 3.
diff --git a/chemdataextractor/doc/document.py b/chemdataextractor/doc/document.py
@@ -22,6 +22,7 @@
 
 import six
 
+from ..utils import python_2_unicode_compatible
 from .text import Paragraph, Citation, Footnote, Heading, Title
 from .table import Table
 from .figure import Figure
@@ -33,7 +34,7 @@
 log = logging.getLogger(__name__)
 
 
-@six.python_2_unicode_compatible
+@python_2_unicode_compatible
 class BaseDocument(six.with_metaclass(ABCMeta, collections.Sequence)):
     """Abstract base class for a Document."""
 
diff --git a/chemdataextractor/doc/element.py b/chemdataextractor/doc/element.py
@@ -18,8 +18,10 @@
 
 import six
 
+from ..utils import python_2_unicode_compatible
 
-@six.python_2_unicode_compatible
+
+@python_2_unicode_compatible
 class BaseElement(six.with_metaclass(ABCMeta)):
     """Abstract base class for a Document Element."""
 
@@ -65,7 +67,7 @@ def to_json(self, *args, **kwargs):
         return json.dumps(self.serialize(), *args, **kwargs)
 
 
-@six.python_2_unicode_compatible
+@python_2_unicode_compatible
 class CaptionedElement(BaseElement):
     """Document Element with a caption."""
 
@@ -76,7 +78,7 @@ def __init__(self, caption, label=None, **kwargs):
         self.label = label
 
     def __repr__(self):
-        return '%s(id=%r, references=%r, caption=%r)' % (self.__class__.__name__, self.id, self.references, self.caption.text.encode('utf8'))
+        return '%s(id=%r, references=%r, caption=%r)' % (self.__class__.__name__, self.id, self.references, self.caption.text)
 
     def __str__(self):
         return self.caption.text
diff --git a/chemdataextractor/doc/text.py b/chemdataextractor/doc/text.py
@@ -14,6 +14,7 @@
 from __future__ import print_function
 from __future__ import unicode_literals
 from abc import abstractproperty
+import collections
 import logging
 import re
 
@@ -34,14 +35,14 @@
 from ..nlp.pos import ChemCrfPosTagger
 from ..nlp.tokenize import ChemSentenceTokenizer, ChemWordTokenizer, regex_span_tokenize
 from ..text import CONTROL_RE
-from ..utils import memoized_property
+from ..utils import memoized_property, python_2_unicode_compatible
 from .element import BaseElement
 
 
 log = logging.getLogger(__name__)
 
 
-@six.python_2_unicode_compatible
+@python_2_unicode_compatible
 class BaseText(BaseElement):
     """Abstract base class for a text Document Element."""
 
@@ -59,7 +60,7 @@ def __init__(self, text, word_tokenizer=None, lexicon=None, abbreviation_detecto
         self.parsers = parsers if parsers is not None else self.parsers
 
     def __repr__(self):
-        return '%s(id=%r, references=%r, text=%r)' % (self.__class__.__name__, self.id, self.references, self._text.encode('utf8'))
+        return '%s(id=%r, references=%r, text=%r)' % (self.__class__.__name__, self.id, self.references, self._text)
 
     def __str__(self):
         return self._text
@@ -113,7 +114,7 @@ def _repr_html_(self):
         return self.text
 
 
-class Text(BaseText):
+class Text(collections.Sequence, BaseText):
     """A passage of text, comprising one or more sentences."""
 
     sentence_tokenizer = ChemSentenceTokenizer()
@@ -129,6 +130,12 @@ def __init__(self, text, sentence_tokenizer=None, word_tokenizer=None, lexicon=N
         super(Text, self).__init__(text, word_tokenizer=word_tokenizer, lexicon=lexicon, abbreviation_detector=abbreviation_detector, pos_tagger=pos_tagger, ner_tagger=ner_tagger, parsers=None, **kwargs)
         self.sentence_tokenizer = sentence_tokenizer if sentence_tokenizer is not None else self.sentence_tokenizer
 
+    def __getitem__(self, index):
+        return self.sentences[index]
+
+    def __len__(self):
+        return len(self.sentences)
+
     @memoized_property
     def sentences(self):
         """Return a list of Sentences that make up this text passage."""
@@ -310,7 +317,7 @@ def __init__(self, text, start=0, end=None, word_tokenizer=None, lexicon=None, a
         self.end = end if end is not None else len(text)
 
     def __repr__(self):
-        return '%s(%r, %r, %r)' % (self.__class__.__name__, self._text.encode('utf8'), self.start, self.end)
+        return '%s(%r, %r, %r)' % (self.__class__.__name__, self._text, self.start, self.end)
 
     @memoized_property
     def tokens(self):
@@ -532,7 +539,7 @@ def __add__(self, other):
         return NotImplemented
 
 
-@six.python_2_unicode_compatible
+@python_2_unicode_compatible
 class Span(object):
     """A text span within a sentence."""
 
@@ -545,7 +552,7 @@ def __init__(self, text, start, end):
         """The end offset of this token in the original text."""
 
     def __repr__(self):
-        return '%s(%r, %r, %r)' % (self.__class__.__name__, self.text.encode('utf8'), self.start, self.end)
+        return '%s(%r, %r, %r)' % (self.__class__.__name__, self.text, self.start, self.end)
 
     def __str__(self):
         return self.text
diff --git a/chemdataextractor/model.py b/chemdataextractor/model.py
@@ -22,6 +22,8 @@
 
 import six
 
+from .utils import python_2_unicode_compatible
+
 
 log = logging.getLogger(__name__)
 
@@ -144,7 +146,7 @@ def __setattr__(cls, key, value):
         return super(ModelMeta, cls).__setattr__(key, value)
 
 
-@six.python_2_unicode_compatible
+@python_2_unicode_compatible
 class BaseModel(six.with_metaclass(ModelMeta)):
     """"""
 
@@ -267,7 +269,7 @@ def to_json(self, *args, **kwargs):
         return json.dumps(self.serialize(primitive=True), *args, **kwargs)
 
 
-@six.python_2_unicode_compatible
+@python_2_unicode_compatible
 class ModelList(MutableSequence):
     """Wrapper around a list of Models objects to facilitate operations on all at once."""
 
diff --git a/chemdataextractor/utils.py b/chemdataextractor/utils.py
@@ -53,6 +53,8 @@ def python_2_unicode_compatible(klass):
     if six.PY2:
         if '__str__' not in klass.__dict__:
             raise ValueError("Define __str__() on %s to use @python_2_unicode_compatible" % klass.__name__)
+        if '__repr__' not in klass.__dict__:
+            raise ValueError("Define __repr__() on %s to use @python_2_unicode_compatible" % klass.__name__)
         klass.__unicode__ = klass.__str__
         klass._unicode_repr = klass.__repr__
         klass.__str__ = lambda self: self.__unicode__().encode('utf-8')