另外一个获取树里面文本内容的方法是XPath,它一样可以把文本内容提取到列表中。
>>> print(html.xpath("string()")) # lxml.etree only!TEXTTAIL>>> print(html.xpath("//text()")) # lxml.etree only!['TEXT', 'TAIL']
如果你比较频繁使用这个方式,可以包装成一个函数。
>>> build_text_list = etree.XPath("//text()") # lxml.etree only!>>> print(build_text_list(html))['TEXT', 'TAIL']
注意到一个XPath返回的字符串结果是一个特殊的“聪明”的对象,它知道它来自何处。
>>> texts = build_text_list(html)>>> print(texts[0])TEXT>>> parent = texts[0].getparent()>>> print(parent.tag)body>>> print(texts[1])TAIL>>> print(texts[1].getparent().tag)br
你也可以找出它常规的文本内容或尾部文本:
>>> print(texts[0].is_text)True>>> print(texts[1].is_text)False>>> print(texts[1].is_tail)True
>>> stringify = etree.XPath("string()")>>> print(stringify(html))TEXTTAIL>>> print(stringify(html).getparent())None