Python爬虫获取html中的文本方法多种多样,这里主要介绍一下string、strings、stripped_strings和get_text用法
string:用来获取目标路径下第一个非标签字符串,得到的是个字符串
strings:用来获取目标路径下所有的子孙非标签字符串,返回的是个生成器
stripped_strings:用来获取目标路径下所有的子孙非标签字符串,会自动去掉空白字符串,返回的是一个生成器
get_text:用来获取目标路径下的子孙字符串,返回的是字符串(包含HTML的格式内容)
text:用来获取目标路径下的子孙非标签字符串,返回的是字符串
这里补充说明一下,如果获取到的是生成器,一般都是把它转换成list,不然你看不出那是什么玩意
————————————————
版权声明:本文为CSDN博主「J符离」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_22592457/article/details/100597190