GVKun编程网logo

从Python中的Word文档(.docx)中提取突出显示的单词(python 怎样从word文档中提取特定信息)

17

最近很多小伙伴都在问从Python中的Word文档和.docx中提取突出显示的单词这两个问题,那么本篇文章就来给大家详细解答一下,同时本文还将给你拓展java通过freemarker导出word文档(

最近很多小伙伴都在问从Python中的Word文档.docx中提取突出显示的单词这两个问题,那么本篇文章就来给大家详细解答一下,同时本文还将给你拓展java通过freemarker导出word文档(docx)、python -docx从word docx提取表、python python-docx 替换word文档部分内容、Python 实现 PDF 到 Word 文档(DOC、DOCX)的高效转换等相关知识,下面开始了哦!

本文目录一览:

从Python中的Word文档(.docx)中提取突出显示的单词(python 怎样从word文档中提取特定信息)

从Python中的Word文档(.docx)中提取突出显示的单词(python 怎样从word文档中提取特定信息)

我正在处理一堆单词文档,其中有突出显示的文本(单词)(使用颜色代码,例如黄色,蓝色,灰色),现在我要提取与每种颜色关联的突出显示的单词。我正在用Python编程。这是我目前所做的:

使用打开单词文档,[python-docx][1]然后转到<w:r>包含文档中标记(单词)的标签。我使用了以下代码:

#!/usr/bin/env python2.6# -*- coding: ascii -*-from docx import *document = opendocx(''test.docx'')words = document.xpath(''//w:r'', namespaces=document.nsmap)for word in words:  print word

现在,我被困在检查每个单词是否具有<w:highlight>标签并从中提取颜色代码以及是否与<w:t>标签内的黄色打印文本匹配的部分。如果有人可以指出我要从解析的文件中提取单词的话,我将不胜感激。

答案1

小编典典

我以前从未使用过python-docx,但是有帮助的是,我在网上找到了一段代码片段,该片段说明了突出显示的文本的XML结构是什么样的:

 <w:r>    <w:rPr>      <w:highlight w:val="yellow"/>    </w:rPr>    <w:t>text that is highlighted</w:t>  </w:r>

从那里开始,提出这一点相对简单:

from docx import *document = opendocx(r''test.docx'')words = document.xpath(''//w:r'', namespaces=document.nsmap)WPML_URI = "{http://schemas.openxmlformats.org/wordprocessingml/2006/main}"tag_rPr = WPML_URI + ''rPr''tag_highlight = WPML_URI + ''highlight''tag_val = WPML_URI + ''val''for word in words:    for rPr in word.findall(tag_rPr):        if rPr.find(tag_highlight).attrib[tag_val] == ''yellow'':            print word.find(tag_t).text

java通过freemarker导出word文档(docx)

java通过freemarker导出word文档(docx)

1.准备好word模板(docx格式),调整好格式 2.更改文件后缀为zip,使用压缩工具打开文件,如下图,需要修改的文件主要是以下两个: document.xml.rels和document.xml 3.使用freemarker标签替换document.xml里面的内容 4.若导出的文档里包含文件或图片,修改document.xml中的rId以及对应的document.xml.rels文件 5.将修改完的文件替换至准备好的模板,并重新压缩

python -docx从word docx提取表

python -docx从word docx提取表

我知道这是一个重复的问题,但是这些答案对我不起作用。我有一个包含一个表的word文件,现在我希望该表作为python程序的输出。我正在使用python
3.6并且已经安装了python -docx。这是我的数据提取代码

from docx.api import Document

document = Document('test_word.docx')
table = document.tables[0]

data = []

keys = None
for i,row in enumerate(table.rows):
    text = (cell.text for cell in row.cells)

    if i == 0:
        keys = tuple(text)
        continue
    row_data = dict(zip(keys,text))
    data.append(row_data)
    print (data)

我想要的结果是docx文件中的内容。提前致谢

python python-docx 替换word文档部分内容

python python-docx 替换word文档部分内容

https://blog.csdn.net/m0_37052320/article/details/79556747

最根本的参考当然还是官方的文档,相当不错的中文讲解。
有人已经做了如何修改一些格式的博客:用python-docx修改已存在的Word文档的表格的字体格式。
我这里给出替换内容给的例子,简单来说,就是使用一个函数.clear()清除原来内容,然后add_run增加内容:

document = docx.Document(''*.docx'')

docText2 = [paragraph.text for paragraph in document.paragraphs]
p = document.paragraphs[22].clear()
run1 = p.add_run(''XXXX:        '')
font = run1.font
font.size = Pt(12)
font.bold = True
run2 = p.add_run(str_to_write)
run2.underline = True
run2.size = Pt(12)
————————————————
版权声明:本文为CSDN博主「binqiang2wang」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/m0_37052320/article/details/79556747

 

Python 实现 PDF 到 Word 文档(DOC、DOCX)的高效转换

Python 实现 PDF 到 Word 文档(DOC、DOCX)的高效转换

【直播预告】程序员逆袭 CEO 分几步?

PDF(Portable Document Format)已成为一种广泛使用的电子文档格式。PDF 的主要优势是跨平台,可以在不同设备上呈现一致的外观。然而,当我们需要对文件内容进行编辑或修改,直接编辑 PDF 文件会非常困难,而且效果也不理想。将 PDF 文件转换为 Word 文档(doc、docx)再进行编辑是一个更好的选择。 本文将介绍如何使用 Python 编程语言,结合库和工具,将 PDF 文件转换为可编辑的 Word 文档,使文档的编辑变得方便高效。本文包含以下及个方面:

  • PDF 文件转 Word 文档的优势
  • 通过 Python 将 PDF 文件转换为 Word 文档(Doc 和 Docx)
  • 通过 Python 将 PDF 文档转换为 Docx 文件并设置文档属性

本文所介绍的方法需要用到 Spire.PDF for Python,可从官网下载或通过 PyPI 安装:pip install Spire.PDF

PDF 文件转 Word 文档的优势

将 PDF 文件转换为 Word 文档可以带来诸多优势,包括以下几个常见方面:

  • 便于编辑和修改:PDF 文件通常适合阅读及打印,直接编辑会非常困难,且难以达到理想的效果。将 PDF 转换为 Word 文档可以方便进行修改、添加或删除文本、更改格式等诸多操作。
  • 便于协作编辑:使用 Word 文档进行协作编辑是共同创作的理想解决方案。许多协作编辑平台支持实时更新编辑内容,为内容创作带来极大的便利。而 PDF 文件想要利用这些方便的协作编辑特性,就需要转换为 Word 文档。
  • 数据提取:有时候我们需要从 PDF 文件中提取特定的数据或文本内容。将 PDF 转换为 Word 文档可以更轻松地提取所需的信息,并进行进一步的数据处理和分析。

通过 Python 将 PDF 文件转为 Word 文档(Doc 和 Docx)

PdfDocument 类代表一个 PDF 文档,使用其下的 LoadFromFile() 方法即可从文件载入 PDF 文档。在载入文档后,我们可以使用 PdfDocument 类下的 SaveToFile() 方法将 PDF 文档转换为其他格式的文件并保存,包括 Doc、Docx、HTML、SVG 等格式。在使用 SaveToFile () 方法时,只需要将保存路径和 FileFormat 枚举类型作为参数传递给该方法即可。

下面是操作步骤介绍:

  1. 导入模块。
  2. 创建 PdfDocument 类的实例。
  3. 使用 LoadFromFile () 方法载入 PDF 文件。
  4. 使用 SaveToFile () 方法将 PDF 文档转换为 DOC 或 DOCX 格式的 Word 文档,并关闭实例。

代码示例:

from spire.pdf import PdfDocument
from spire.pdf import FileFormat

# 创建PdfDocument类的实例
pdf = PdfDocument()

# 载入PDF文件
pdf.LoadFromFile("示例.pdf")

# 将PDF文件直接转换为Doc文件并保存
pdf.SaveToFile("output/PDF转DOC", FileFormat.DOC)

# 将PDF文件直接转换为Docx文件并保存
pdf.SaveToFile("output/PDF转DOCX", FileFormat.DOCX)

# 关闭实例
pdf.Close()

原 PDF 文档: PDF转Word

转换结果: PDF转Word

通过 Python 将 PDF 文档转换为 Docx 文件并设置文档属性

除了上述方法外,还可以使用 PdfToDocConverter 类并将文件路径作为参数创建转换实例。使用此类进行转换时,还可以对文件属性进行设置。此方法只能转换为 DOC 和 DOCX 文件。 下面是操作步骤介绍:

  1. 创建 PdfToDocConverter 的实例。
  2. 通过 PdfToDocConverter.DocxOptions 属性下的属性对转换出的 Word 文档的文档属性进行设置。
  3. SaveToFile() 将 PDF 文件保存为 DOC 或 DOCX 文件,参数为 True 表示转换为 DOCX 文件,参数为 False 则表示转换为 DOC 文件。

代码示例:

from spire.pdf import PdfToDocConverter

# 创建PdfToDocConverter类的实例
converter = PdfToDocConverter("G:/文档/示例21.pdf")

# 设置转换出的Word文档的文档属性
converter.DocxOptions.Title = "企业计划"
converter.DocxOptions.Subject = "企业管理及运营的计划草案。"
converter.DocxOptions.Tags = "企业, 企业管理, 工作计划"
converter.DocxOptions.Categories = "工作计划"
converter.DocxOptions.Commments = "本计划为草案,制定了工作计划的大致内容,需要进一步讨论确定详细内容。"
converter.DocxOptions.Authors = "李莉"
converter.DocxOptions.LastSavedBy = "王银"
converter.DocxOptions.Revision = 8
converter.DocxOptions.Version = "V4.0"
converter.DocxOptions.ProgramName = "Python"
converter.DocxOptions.Company = "企业名"
converter.DocxOptions.Manager = "企业名"

# 将PDF文件直接转换为Doc文件并保存
converter.SaveToDocx("output/PDF转DOC设置属性.doc", False)

# 将PDF文件直接转换为Doc文件并保存
converter.SaveToDocx("output/PDF转DOCX设置属性.docx", True)

转换出的 Word 文档的文档属性: PDF转Word

总结

以上文章展示了如何通过 Python 代码将 PDF 文件转换为 Word 文档,包括转换为 DOC 格式和 DOCX 格式,以及在转换时设置结果文档的文档属性。Spire.PDF for Python 还支持转换 PDF 文件为其他诸多格式,包括网页文件(HTML)、SVG、JPEG 和 PNG 图片、Tiff、RTF 等格式,请前往 Spire.PDF for Python 教程查看详情。****

今天关于从Python中的Word文档.docx中提取突出显示的单词的分享就到这里,希望大家有所收获,若想了解更多关于java通过freemarker导出word文档(docx)、python -docx从word docx提取表、python python-docx 替换word文档部分内容、Python 实现 PDF 到 Word 文档(DOC、DOCX)的高效转换等相关知识,可以在本站进行查询。

本文标签: