最近很多小伙伴都在问从Python中的Word文档和.docx中提取突出显示的单词这两个问题,那么本篇文章就来给大家详细解答一下,同时本文还将给你拓展java通过freemarker导出word文档(
最近很多小伙伴都在问从Python中的Word文档和.docx中提取突出显示的单词这两个问题,那么本篇文章就来给大家详细解答一下,同时本文还将给你拓展java通过freemarker导出word文档(docx)、python -docx从word docx提取表、python python-docx 替换word文档部分内容、Python 实现 PDF 到 Word 文档(DOC、DOCX)的高效转换等相关知识,下面开始了哦!
本文目录一览:- 从Python中的Word文档(.docx)中提取突出显示的单词(python 怎样从word文档中提取特定信息)
- java通过freemarker导出word文档(docx)
- python -docx从word docx提取表
- python python-docx 替换word文档部分内容
- Python 实现 PDF 到 Word 文档(DOC、DOCX)的高效转换
从Python中的Word文档(.docx)中提取突出显示的单词(python 怎样从word文档中提取特定信息)
我正在处理一堆单词文档,其中有突出显示的文本(单词)(使用颜色代码,例如黄色,蓝色,灰色),现在我要提取与每种颜色关联的突出显示的单词。我正在用Python编程。这是我目前所做的:
使用打开单词文档,[python-docx][1]
然后转到<w:r>
包含文档中标记(单词)的标签。我使用了以下代码:
#!/usr/bin/env python2.6# -*- coding: ascii -*-from docx import *document = opendocx(''test.docx'')words = document.xpath(''//w:r'', namespaces=document.nsmap)for word in words: print word
现在,我被困在检查每个单词是否具有<w:highlight>
标签并从中提取颜色代码以及是否与<w:t>
标签内的黄色打印文本匹配的部分。如果有人可以指出我要从解析的文件中提取单词的话,我将不胜感激。
答案1
小编典典我以前从未使用过python-docx,但是有帮助的是,我在网上找到了一段代码片段,该片段说明了突出显示的文本的XML结构是什么样的:
<w:r> <w:rPr> <w:highlight w:val="yellow"/> </w:rPr> <w:t>text that is highlighted</w:t> </w:r>
从那里开始,提出这一点相对简单:
from docx import *document = opendocx(r''test.docx'')words = document.xpath(''//w:r'', namespaces=document.nsmap)WPML_URI = "{http://schemas.openxmlformats.org/wordprocessingml/2006/main}"tag_rPr = WPML_URI + ''rPr''tag_highlight = WPML_URI + ''highlight''tag_val = WPML_URI + ''val''for word in words: for rPr in word.findall(tag_rPr): if rPr.find(tag_highlight).attrib[tag_val] == ''yellow'': print word.find(tag_t).text
java通过freemarker导出word文档(docx)
1.准备好word模板(docx格式),调整好格式 2.更改文件后缀为zip,使用压缩工具打开文件,如下图,需要修改的文件主要是以下两个: document.xml.rels和document.xml 3.使用freemarker标签替换document.xml里面的内容 4.若导出的文档里包含文件或图片,修改document.xml中的rId以及对应的document.xml.rels文件 5.将修改完的文件替换至准备好的模板,并重新压缩
python -docx从word docx提取表
我知道这是一个重复的问题,但是这些答案对我不起作用。我有一个包含一个表的word文件,现在我希望该表作为python程序的输出。我正在使用python
3.6并且已经安装了python -docx。这是我的数据提取代码
from docx.api import Document
document = Document('test_word.docx')
table = document.tables[0]
data = []
keys = None
for i,row in enumerate(table.rows):
text = (cell.text for cell in row.cells)
if i == 0:
keys = tuple(text)
continue
row_data = dict(zip(keys,text))
data.append(row_data)
print (data)
我想要的结果是docx文件中的内容。提前致谢
python python-docx 替换word文档部分内容
https://blog.csdn.net/m0_37052320/article/details/79556747
最根本的参考当然还是官方的文档,相当不错的中文讲解。
有人已经做了如何修改一些格式的博客:用python-docx修改已存在的Word文档的表格的字体格式。
我这里给出替换内容给的例子,简单来说,就是使用一个函数.clear()
清除原来内容,然后add_run
增加内容:
document = docx.Document(''*.docx'')
docText2 = [paragraph.text for paragraph in document.paragraphs]
p = document.paragraphs[22].clear()
run1 = p.add_run(''XXXX: '')
font = run1.font
font.size = Pt(12)
font.bold = True
run2 = p.add_run(str_to_write)
run2.underline = True
run2.size = Pt(12)
————————————————
版权声明:本文为CSDN博主「binqiang2wang」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/m0_37052320/article/details/79556747
Python 实现 PDF 到 Word 文档(DOC、DOCX)的高效转换

PDF(Portable Document Format)已成为一种广泛使用的电子文档格式。PDF 的主要优势是跨平台,可以在不同设备上呈现一致的外观。然而,当我们需要对文件内容进行编辑或修改,直接编辑 PDF 文件会非常困难,而且效果也不理想。将 PDF 文件转换为 Word 文档(doc、docx)再进行编辑是一个更好的选择。 本文将介绍如何使用 Python 编程语言,结合库和工具,将 PDF 文件转换为可编辑的 Word 文档,使文档的编辑变得方便高效。本文包含以下及个方面:
- PDF 文件转 Word 文档的优势
- 通过 Python 将 PDF 文件转换为 Word 文档(Doc 和 Docx)
- 通过 Python 将 PDF 文档转换为 Docx 文件并设置文档属性
本文所介绍的方法需要用到 Spire.PDF for Python,可从官网下载或通过 PyPI 安装:pip install Spire.PDF
。
PDF 文件转 Word 文档的优势
将 PDF 文件转换为 Word 文档可以带来诸多优势,包括以下几个常见方面:
- 便于编辑和修改:PDF 文件通常适合阅读及打印,直接编辑会非常困难,且难以达到理想的效果。将 PDF 转换为 Word 文档可以方便进行修改、添加或删除文本、更改格式等诸多操作。
- 便于协作编辑:使用 Word 文档进行协作编辑是共同创作的理想解决方案。许多协作编辑平台支持实时更新编辑内容,为内容创作带来极大的便利。而 PDF 文件想要利用这些方便的协作编辑特性,就需要转换为 Word 文档。
- 数据提取:有时候我们需要从 PDF 文件中提取特定的数据或文本内容。将 PDF 转换为 Word 文档可以更轻松地提取所需的信息,并进行进一步的数据处理和分析。
通过 Python 将 PDF 文件转为 Word 文档(Doc 和 Docx)
PdfDocument 类代表一个 PDF 文档,使用其下的 LoadFromFile() 方法即可从文件载入 PDF 文档。在载入文档后,我们可以使用 PdfDocument 类下的 SaveToFile() 方法将 PDF 文档转换为其他格式的文件并保存,包括 Doc、Docx、HTML、SVG 等格式。在使用 SaveToFile () 方法时,只需要将保存路径和 FileFormat 枚举类型作为参数传递给该方法即可。
下面是操作步骤介绍:
- 导入模块。
- 创建 PdfDocument 类的实例。
- 使用 LoadFromFile () 方法载入 PDF 文件。
- 使用 SaveToFile () 方法将 PDF 文档转换为 DOC 或 DOCX 格式的 Word 文档,并关闭实例。
代码示例:
from spire.pdf import PdfDocument
from spire.pdf import FileFormat
# 创建PdfDocument类的实例
pdf = PdfDocument()
# 载入PDF文件
pdf.LoadFromFile("示例.pdf")
# 将PDF文件直接转换为Doc文件并保存
pdf.SaveToFile("output/PDF转DOC", FileFormat.DOC)
# 将PDF文件直接转换为Docx文件并保存
pdf.SaveToFile("output/PDF转DOCX", FileFormat.DOCX)
# 关闭实例
pdf.Close()
原 PDF 文档:
转换结果:
通过 Python 将 PDF 文档转换为 Docx 文件并设置文档属性
除了上述方法外,还可以使用 PdfToDocConverter 类并将文件路径作为参数创建转换实例。使用此类进行转换时,还可以对文件属性进行设置。此方法只能转换为 DOC 和 DOCX 文件。 下面是操作步骤介绍:
- 创建 PdfToDocConverter 的实例。
- 通过 PdfToDocConverter.DocxOptions 属性下的属性对转换出的 Word 文档的文档属性进行设置。
- SaveToFile() 将 PDF 文件保存为 DOC 或 DOCX 文件,参数为 True 表示转换为 DOCX 文件,参数为 False 则表示转换为 DOC 文件。
代码示例:
from spire.pdf import PdfToDocConverter
# 创建PdfToDocConverter类的实例
converter = PdfToDocConverter("G:/文档/示例21.pdf")
# 设置转换出的Word文档的文档属性
converter.DocxOptions.Title = "企业计划"
converter.DocxOptions.Subject = "企业管理及运营的计划草案。"
converter.DocxOptions.Tags = "企业, 企业管理, 工作计划"
converter.DocxOptions.Categories = "工作计划"
converter.DocxOptions.Commments = "本计划为草案,制定了工作计划的大致内容,需要进一步讨论确定详细内容。"
converter.DocxOptions.Authors = "李莉"
converter.DocxOptions.LastSavedBy = "王银"
converter.DocxOptions.Revision = 8
converter.DocxOptions.Version = "V4.0"
converter.DocxOptions.ProgramName = "Python"
converter.DocxOptions.Company = "企业名"
converter.DocxOptions.Manager = "企业名"
# 将PDF文件直接转换为Doc文件并保存
converter.SaveToDocx("output/PDF转DOC设置属性.doc", False)
# 将PDF文件直接转换为Doc文件并保存
converter.SaveToDocx("output/PDF转DOCX设置属性.docx", True)
转换出的 Word 文档的文档属性:
总结
以上文章展示了如何通过 Python 代码将 PDF 文件转换为 Word 文档,包括转换为 DOC 格式和 DOCX 格式,以及在转换时设置结果文档的文档属性。Spire.PDF for Python 还支持转换 PDF 文件为其他诸多格式,包括网页文件(HTML)、SVG、JPEG 和 PNG 图片、Tiff、RTF 等格式,请前往 Spire.PDF for Python 教程查看详情。****
今天关于从Python中的Word文档和.docx中提取突出显示的单词的分享就到这里,希望大家有所收获,若想了解更多关于java通过freemarker导出word文档(docx)、python -docx从word docx提取表、python python-docx 替换word文档部分内容、Python 实现 PDF 到 Word 文档(DOC、DOCX)的高效转换等相关知识,可以在本站进行查询。
本文标签: