从Python中的Word文档（.docx）中提取突出显示的单词（python 怎样从word文档中提取特定信息）

25-02-05 17

最近很多小伙伴都在问从Python中的Word文档和.docx中提取突出显示的单词这两个问题，那么本篇文章就来给大家详细解答一下，同时本文还将给你拓展java通过freemarker导出word文档（

最近很多小伙伴都在问从Python中的Word文档和.docx中提取突出显示的单词这两个问题，那么本篇文章就来给大家详细解答一下，同时本文还将给你拓展java通过freemarker导出word文档（docx）、python -docx从word docx提取表、python python-docx 替换word文档部分内容、Python 实现 PDF 到 Word 文档（DOC、DOCX）的高效转换等相关知识，下面开始了哦！

本文目录一览：

从Python中的Word文档（.docx）中提取突出显示的单词（python 怎样从word文档中提取特定信息）
java通过freemarker导出word文档（docx）
python -docx从word docx提取表
python python-docx 替换word文档部分内容
Python 实现 PDF 到 Word 文档（DOC、DOCX）的高效转换

从Python中的Word文档（.docx）中提取突出显示的单词（python 怎样从word文档中提取特定信息）

我正在处理一堆单词文档，其中有突出显示的文本（单词）（使用颜色代码，例如黄色，蓝色，灰色），现在我要提取与每种颜色关联的突出显示的单词。我正在用Python编程。这是我目前所做的：

使用打开单词文档，[python-docx][1]然后转到<w:r>包含文档中标记（单词）的标签。我使用了以下代码：

#!/usr/bin/env python2.6# -*- coding: ascii -*-from docx import *document = opendocx(''test.docx'')words = document.xpath(''//w:r'', namespaces=document.nsmap)for word in words:  print word

现在，我被困在检查每个单词是否具有<w:highlight>标签并从中提取颜色代码以及是否与<w:t>标签内的黄色打印文本匹配的部分。如果有人可以指出我要从解析的文件中提取单词的话，我将不胜感激。

答案1

小编典典

我以前从未使用过python-docx，但是有帮助的是，我在网上找到了一段代码片段，该片段说明了突出显示的文本的XML结构是什么样的：

 <w:r>    <w:rPr>      <w:highlight w:val="yellow"/>    </w:rPr>    <w:t>text that is highlighted</w:t>  </w:r>

从那里开始，提出这一点相对简单：

from docx import *document = opendocx(r''test.docx'')words = document.xpath(''//w:r'', namespaces=document.nsmap)WPML_URI = "{http://schemas.openxmlformats.org/wordprocessingml/2006/main}"tag_rPr = WPML_URI + ''rPr''tag_highlight = WPML_URI + ''highlight''tag_val = WPML_URI + ''val''for word in words:    for rPr in word.findall(tag_rPr):        if rPr.find(tag_highlight).attrib[tag_val] == ''yellow'':            print word.find(tag_t).text

java通过freemarker导出word文档（docx）

1.准备好word模板（docx格式），调整好格式 2.更改文件后缀为zip，使用压缩工具打开文件，如下图，需要修改的文件主要是以下两个： document.xml.rels和document.xml 3.使用freemarker标签替换document.xml里面的内容 4.若导出的文档里包含文件或图片，修改document.xml中的rId以及对应的document.xml.rels文件 5.将修改完的文件替换至准备好的模板，并重新压缩

python -docx从word docx提取表

我知道这是一个重复的问题，但是这些答案对我不起作用。我有一个包含一个表的word文件，现在我希望该表作为python程序的输出。我正在使用python
3.6并且已经安装了python -docx。这是我的数据提取代码

from docx.api import Document

document = Document('test_word.docx')
table = document.tables[0]

data = []

keys = None
for i,row in enumerate(table.rows):
    text = (cell.text for cell in row.cells)

    if i == 0:
        keys = tuple(text)
        continue
    row_data = dict(zip(keys,text))
    data.append(row_data)
    print (data)

我想要的结果是docx文件中的内容。提前致谢

python python-docx 替换word文档部分内容

https://blog.csdn.net/m0_37052320/article/details/79556747

最根本的参考当然还是官方的文档，相当不错的中文讲解。
有人已经做了如何修改一些格式的博客:用python-docx修改已存在的Word文档的表格的字体格式。
我这里给出替换内容给的例子，简单来说，就是使用一个函数.clear()清除原来内容，然后add_run增加内容：

document = docx.Document(''*.docx'')

docText2 = [paragraph.text for paragraph in document.paragraphs]
p = document.paragraphs[22].clear()
run1 = p.add_run(''XXXX:        '')
font = run1.font
font.size = Pt(12)
font.bold = True
run2 = p.add_run(str_to_write)
run2.underline = True
run2.size = Pt(12)
————————————————
版权声明：本文为CSDN博主「binqiang2wang」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/m0_37052320/article/details/79556747

Python 实现 PDF 到 Word 文档（DOC、DOCX）的高效转换

【直播预告】程序员逆袭 CEO 分几步？

PDF（Portable Document Format）已成为一种广泛使用的电子文档格式。PDF 的主要优势是跨平台，可以在不同设备上呈现一致的外观。然而，当我们需要对文件内容进行编辑或修改，直接编辑 PDF 文件会非常困难，而且效果也不理想。将 PDF 文件转换为 Word 文档（doc、docx）再进行编辑是一个更好的选择。本文将介绍如何使用 Python 编程语言，结合库和工具，将 PDF 文件转换为可编辑的 Word 文档，使文档的编辑变得方便高效。本文包含以下及个方面：

PDF 文件转 Word 文档的优势
通过 Python 将 PDF 文件转换为 Word 文档（Doc 和 Docx）
通过 Python 将 PDF 文档转换为 Docx 文件并设置文档属性

本文所介绍的方法需要用到 Spire.PDF for Python，可从官网下载或通过 PyPI 安装：pip install Spire.PDF。

PDF 文件转 Word 文档的优势

将 PDF 文件转换为 Word 文档可以带来诸多优势，包括以下几个常见方面：

便于编辑和修改：PDF 文件通常适合阅读及打印，直接编辑会非常困难，且难以达到理想的效果。将 PDF 转换为 Word 文档可以方便进行修改、添加或删除文本、更改格式等诸多操作。
便于协作编辑：使用 Word 文档进行协作编辑是共同创作的理想解决方案。许多协作编辑平台支持实时更新编辑内容，为内容创作带来极大的便利。而 PDF 文件想要利用这些方便的协作编辑特性，就需要转换为 Word 文档。
数据提取：有时候我们需要从 PDF 文件中提取特定的数据或文本内容。将 PDF 转换为 Word 文档可以更轻松地提取所需的信息，并进行进一步的数据处理和分析。

通过 Python 将 PDF 文件转为 Word 文档（Doc 和 Docx）

PdfDocument 类代表一个 PDF 文档，使用其下的 LoadFromFile() 方法即可从文件载入 PDF 文档。在载入文档后，我们可以使用 PdfDocument 类下的 SaveToFile() 方法将 PDF 文档转换为其他格式的文件并保存，包括 Doc、Docx、HTML、SVG 等格式。在使用 SaveToFile () 方法时，只需要将保存路径和 FileFormat 枚举类型作为参数传递给该方法即可。

下面是操作步骤介绍：

导入模块。
创建 PdfDocument 类的实例。
使用 LoadFromFile () 方法载入 PDF 文件。
使用 SaveToFile () 方法将 PDF 文档转换为 DOC 或 DOCX 格式的 Word 文档，并关闭实例。

代码示例：

from spire.pdf import PdfDocument
from spire.pdf import FileFormat

# 创建PdfDocument类的实例
pdf = PdfDocument()

# 载入PDF文件
pdf.LoadFromFile("示例.pdf")

# 将PDF文件直接转换为Doc文件并保存
pdf.SaveToFile("output/PDF转DOC", FileFormat.DOC)

# 将PDF文件直接转换为Docx文件并保存
pdf.SaveToFile("output/PDF转DOCX", FileFormat.DOCX)

# 关闭实例
pdf.Close()

原 PDF 文档： PDF转Word

转换结果： PDF转Word

通过 Python 将 PDF 文档转换为 Docx 文件并设置文档属性

除了上述方法外，还可以使用 PdfToDocConverter 类并将文件路径作为参数创建转换实例。使用此类进行转换时，还可以对文件属性进行设置。此方法只能转换为 DOC 和 DOCX 文件。下面是操作步骤介绍：

创建 PdfToDocConverter 的实例。
通过 PdfToDocConverter.DocxOptions 属性下的属性对转换出的 Word 文档的文档属性进行设置。
SaveToFile() 将 PDF 文件保存为 DOC 或 DOCX 文件，参数为 True 表示转换为 DOCX 文件，参数为 False 则表示转换为 DOC 文件。

代码示例：

from spire.pdf import PdfToDocConverter

# 创建PdfToDocConverter类的实例
converter = PdfToDocConverter("G:/文档/示例21.pdf")

# 设置转换出的Word文档的文档属性
converter.DocxOptions.Title = "企业计划"
converter.DocxOptions.Subject = "企业管理及运营的计划草案。"
converter.DocxOptions.Tags = "企业, 企业管理, 工作计划"
converter.DocxOptions.Categories = "工作计划"
converter.DocxOptions.Commments = "本计划为草案，制定了工作计划的大致内容，需要进一步讨论确定详细内容。"
converter.DocxOptions.Authors = "李莉"
converter.DocxOptions.LastSavedBy = "王银"
converter.DocxOptions.Revision = 8
converter.DocxOptions.Version = "V4.0"
converter.DocxOptions.ProgramName = "Python"
converter.DocxOptions.Company = "企业名"
converter.DocxOptions.Manager = "企业名"

# 将PDF文件直接转换为Doc文件并保存
converter.SaveToDocx("output/PDF转DOC设置属性.doc", False)

# 将PDF文件直接转换为Doc文件并保存
converter.SaveToDocx("output/PDF转DOCX设置属性.docx", True)

转换出的 Word 文档的文档属性： PDF转Word

总结

以上文章展示了如何通过 Python 代码将 PDF 文件转换为 Word 文档，包括转换为 DOC 格式和 DOCX 格式，以及在转换时设置结果文档的文档属性。Spire.PDF for Python 还支持转换 PDF 文件为其他诸多格式，包括网页文件（HTML）、SVG、JPEG 和 PNG 图片、Tiff、RTF 等格式，请前往 Spire.PDF for Python 教程查看详情。****

今天关于从Python中的Word文档和.docx中提取突出显示的单词的分享就到这里，希望大家有所收获，若想了解更多关于java通过freemarker导出word文档（docx）、python -docx从word docx提取表、python python-docx 替换word文档部分内容、Python 实现 PDF 到 Word 文档（DOC、DOCX）的高效转换等相关知识，可以在本站进行查询。

本文标签：