TET 5
PDFlib GmbH發(fā)布了新版本的PDFlib TET 5。TET的前身是»文本提取工具包«,之后逐漸改名為»文本和圖像提取工具包«,在圖像提取方面得到明顯提升。
TET檢索文本、圖像、PDF文檔中的元數(shù)據(jù)和其他信息。以下是全新或顯著改善的五大特性:

· 文本檢索:
檢索文本的填充色和描邊色
改善布局檢測(cè)
· 圖像檢索
顯著增強(qiáng)分散圖像的合并
提取圖像蒙版和軟蒙版
· 頁(yè)面處理:
榮譽(yù)圖層和剪輯路徑
· TETML 內(nèi)容:
包括符號(hào)的填充色和描邊色、顏色空間和ICC文件配置細(xì)節(jié)
一些新的pCOS 偽對(duì)象
全新的PDFlib TETPDF IFilter 5 (企業(yè)版PDF搜索應(yīng)用于窗口)版本現(xiàn)已可用。

PDFlib TET 5 - 特性
PDFlib文本和圖像提取工具包(TET)旨在從PDF文檔中提取文本和圖像,但也可用于從PDF檢索其他信息。
接受PDF輸入
TET支持所有相關(guān)的PDF輸入:
所有PDF版本到Acrobat DC,包括ISO 32000-1和-2
保護(hù)那些打開不需要密碼的PDF文檔
損壞的PDF文檔將被修復(fù)
世界的所有寫作系統(tǒng)
TET在世界上所有書寫系統(tǒng)中處理PDF文檔,并實(shí)現(xiàn)某些腳本所需的特殊處理:
拉丁語(yǔ),希臘語(yǔ)和西里爾字母,包括脫音
阿拉伯語(yǔ)和希伯來語(yǔ),包括從右到左和雙向文本的邏輯重新排序;阿拉伯語(yǔ)呈現(xiàn)形式的規(guī)范化
簡(jiǎn)體和繁體中文,日語(yǔ)和韓語(yǔ),無論編碼;水平和垂直文本
印度文字(無字形重排)
Unicode支持的所有其他語(yǔ)言和腳本
Unicode
由于PDF中的文本通常不以Unicode編碼,因此PDFlib TET將PDF文檔中的文本標(biāo)準(zhǔn)化為Unicode:
TET將所有文本內(nèi)容轉(zhuǎn)換為Unicode。在C和其他非Unicode感知語(yǔ)言中,文本以UTF-8或UTF-16格式返回,并作為具有Unicode功能的編程語(yǔ)言的本地字符串返回。
字符和其他多字符字形被分解為相應(yīng)的Unicode字符序列。
沒有適當(dāng)?shù)腢nicode映射的字形被識(shí)別,并被映射到可配置的替換字符,以避免誤解。
TET針對(duì)特定文檔創(chuàng)建包(例如InDesign和TeX文檔或在大型機(jī)系統(tǒng)上生成的PDF)的問題實(shí)施各種解決方法。
內(nèi)容分析和字檢測(cè)
TET包括專利內(nèi)容分析算法:
確定檢索正確單詞所需的單詞邊界
重組連字字的部分(去連字)
刪除重復(fù)的文字實(shí)例,例如陰影和人為粗體文本
按閱讀順序重新組合段落
正確排序散布在頁(yè)面上的文本
頁(yè)面布局和表檢測(cè)
分析頁(yè)面內(nèi)容以確定文本列。檢測(cè)表,包括跨越多個(gè)列的單元格。這改進(jìn)了提取的文本的排序??梢詷?biāo)識(shí)表行和每個(gè)表單元格的內(nèi)容。
幾何
TET提供了文本的精確度量,例如頁(yè)面上的位置,字形寬度和文本方向。頁(yè)面上的特定區(qū)域可以被排除或包括在文本提取中,例如。以忽略頁(yè)眉和頁(yè)腳或邊距。
文本顏色
TET分析PDF頁(yè)面描述中的顏色信息,并返回每個(gè)字形的精確顏色信息。這可以用于例如識(shí)別標(biāo)題或其他突出顯示的文本。
圖像提取
PDF頁(yè)面上的圖像可以提取為TIFF,JPEG,JPEG 2000或JBIG2文件。針對(duì)每個(gè)圖像報(bào)告精確的幾何信息(位置,大小和角度)。分割的圖像被組合到較大的圖像以方便重新使用。由于不進(jìn)行下采樣或顏色轉(zhuǎn)換,保證了圖像保真度。這確保了最高的圖像質(zhì)量。
PDF分析
TET庫(kù)包括用于查詢PDF文檔的詳細(xì)信息的pCOS接口,例如文檔信息和XMP元數(shù)據(jù),字體列表,頁(yè)面大小等等。
有問題的PDF的配置選項(xiàng)
TET包含各種PDF的特殊處理和解決方法,其中文本無法與其他產(chǎn)品正確提取。此外,它包括各種配置功能,以改善問題文檔的處理:
Unicode映射可以通過用戶提供的表來定制,用于將字符代碼或字形名稱映射到Unicode。
PDFlib FontReporter是一個(gè)用于分析PDF中的字體,編碼和字形的輔助工具。它作為Adobe Acrobat的插件。此插件可免費(fèi)用于OS X / macOS和Windows。
分析嵌入字體以查找Unicode映射的其他提示。如果未嵌入字體,則使用外部字體文件或系統(tǒng)字體來提高文本提取結(jié)果。
Unicode后處理
TET支持各種Unicode后處理步驟,可用于改進(jìn)提取的文本:
折疊保留,刪除或替換字符,例如。從不相關(guān)的腳本中刪除標(biāo)點(diǎn)符號(hào)或字符。
分解用一個(gè)或多個(gè)其他字符的等效序列替換字符,例如。用其各自的標(biāo)準(zhǔn)對(duì)應(yīng)物替換窄的,寬的或垂直的日語(yǔ)字符或拉丁上標(biāo)變體。
文本可以轉(zhuǎn)換為所有四種Unicode標(biāo)準(zhǔn)化形式,例如。發(fā)射NFC表單以滿足Web文本或數(shù)據(jù)庫(kù)的要求。
文檔域
PDF文檔可能包含除頁(yè)面內(nèi)容之外的其他位置的文本。雖然大多數(shù)應(yīng)用程序?qū)H處理頁(yè)面內(nèi)容,但在許多情況下,其他文檔域也可能是相關(guān)的。 TET從以下所有文檔域中提取文本:
頁(yè)面內(nèi)容
預(yù)定義和自定義文檔信息條目
文檔和圖像級(jí)別的XMP元數(shù)據(jù)
書簽
文件附件和PDF文件包可以遞歸處理
表單域
評(píng)論(注釋)
可查詢一般PDF屬性,如頁(yè)數(shù),符合PDF / A或PDF / X等標(biāo)準(zhǔn)。
XMP元數(shù)據(jù)
TET以多種方式支持XMP元數(shù)據(jù):
使用集成的pCOS接口,可以以編程方式提取文檔,單個(gè)頁(yè)面,圖像或文檔的其他部分的XMP元數(shù)據(jù)。
TETML輸出包含XMP文檔和圖像元數(shù)據(jù)(如果存在于PDF中)。
以TIFF或JPEG格式提取的圖像包含圖像元數(shù)據(jù)(如果存在于PDF中)。
TETML表示作為XML的PDF內(nèi)容
TET可選地表示稱為TETML的XML風(fēng)格中的PDF內(nèi)容。它包含各種各樣的PDF信息,可以很容易地使用常用的XML工具進(jìn)行處理。 TETML包含實(shí)際文本以及可選的字體和位置信息,資源詳細(xì)信息(字體,圖像,顏色空間)和元數(shù)據(jù)。
TETML還包括交互式元素,例如表單字段,注釋,書簽等。它甚至可以用于分析JavaScript或顏色空間細(xì)節(jié),ICC配置文件或輸出意圖。
TETML由相應(yīng)的XML模式管理,以確保TET始終創(chuàng)建一致和可靠的XML輸出。 TETML可以用XSLT樣式表處理,例如。應(yīng)用某些過濾器或?qū)ETML轉(zhuǎn)換為其他格式。用于處理TETML的樣本XSLT樣式表包括在TET分布中。
以下片段顯示具有字形詳細(xì)信息的TETML輸出:
PDFlib
TET連接器
TET連接器提供必要的粘合代碼來與其他軟件進(jìn)行TET接口。以下TET連接器使PDF文本提取功能可用于各種軟件環(huán)境:
Lucene搜索引擎的TET連接器
Solr搜索服務(wù)器的TET連接器
TIKA工具包的TET連接器
Oracle Text的TET連接器
MediaWiki的TET連接器
TET PDF用于Microsoft產(chǎn)品的IFilter可作為單獨(dú)的產(chǎn)品提供。它從PDF文檔中提取文本和元數(shù)據(jù),并使其可用于在Windows上搜索和檢索軟件。
TET食譜
TET Cookbook是一個(gè)編程示例的集合,演示了TET對(duì)各種文本和圖像提取任務(wù)的使用。幾個(gè)Cookbook示例展示了如何結(jié)合TET和PDFlib + PDI產(chǎn)品,以增強(qiáng)PDF文檔,例如?;陧?yè)面上的文本添加書簽或鏈接。
京ICP備09015132號(hào)-996 | 違法和不良信息舉報(bào)電話:4006561155
© Copyright 2000-2026 北京哲想軟件有限公司版權(quán)所有 | 地址:北京市海淀區(qū)西三環(huán)北路50號(hào)豪柏大廈C2座11層1105室
北京哲想軟件集團(tuán)旗下網(wǎng)站:哲想軟件 | 哲想動(dòng)畫