写在前面,仅供学习交流。
编程环境: win10, office2019
docx文本提取超链接并写入TXT文档:
from pydocx import PyDocX
from bs4 import BeautifulSoup # 用于解析网页
#by:菜鸟阿样
# 转docx为html文本
html = PyDocX.to_html("docx文本名")
# 加载文本
bsObj = BeautifulSoup(html, 'html.parser')
# 提取所有方法
t1 = bsObj.find_all('a')
txt = ''
#统计结果写入txt文档
with open('计.txt', 'w', encoding='utf8') as fn:
for i in range(len(t1)):
#提取超链接
t2 = (t1[i]).get('href')
#提取链接文本
t3 = (BeautifulSoup(str(t1[i]), 'html.parser')).a.strings
fn.write(''.join(t3)+':'+str(t2)+'\n')
#关闭文档
fn.close()
==============分割线==============
网页提取超链接并写入TXT文档:
from urllib.request import urlopen#用于获取网页
from bs4 import BeautifulSoup#用于解析网页
#by: 菜鸟阿洋
#在此输入网址
html = urlopen('网址链接')
bsObj = BeautifulSoup(html, 'html.parser')
# 提取所有标签
t1 = bsObj.find_all('a')
txt = ''
#统计结果写入txt文档
with open('html统计结果.txt', 'w', encoding='utf8') as fn:
for i in range(len(t1)):
#提取超链接
t2 = (t1[i]).get('href')
#提取链接文本
t3 = (BeautifulSoup(str(t1[i]), 'html.parser')).a.strings
fn.write(''.join(list(t3))+':'+str(t2)+'\n')
#关闭文档
fn.close()
注:新人码字不易,多多支持