国产精品久久久久久2021,日韩精品无码av中文无码版,亚洲精品久久久午夜麻豆,无码成人精品日本动漫纯h

010-68421378
產(chǎn)品分類
AddFlow  AmCharts JavaScript Stock Chart AmCharts 4: Charts Aspose.Total for Java Altova SchemaAgent Altova DatabaseSpy Altova MobileTogether Altova UModel  Altova MapForce Altova MapForce Server Altova Authentic Aspose.Total for .NET Altova RaptorXML Server ComponentOne Ultimate Chart FX for SharePoint Chart FX CodeCharge Studio ComponentOne Enterprise combit Report Server Controls for Visual C++ MFC Chart Pro for Visual C ++ MFC DbVisualizer version 12.1 DemoCharge DXperience Subscription .NET DevExpress Universal Subscription Essential Studio for ASP.NET MVC FusionCharts Suite XT FusionCharts for Flex  FusionExport V2.0 GrapeCity TX Text Control .NET for WPF GrapeCity Spread Studio Highcharts Gantt Highcharts 10.0 版 HelpNDoc Infragistics Ultimate  ImageKit9 ActiveX ImageKit.NET JetBrains--Fleet JetBrains-DataSpell JetBrains--DataGrip jQuery EasyUI jChart FX Plus OPC DA .NET Server Toolkit  OSS ASN.1/C Oxygen XML Author  OSS 4G NAS/C, C++ Encoder Decoder Library OSS ASN.1 Tools for C with 4G S1/X2 OSS ASN.1/C# OSS ASN.1/C++ OPC HDA .NET Server Toolkit OPC DA .Net Client Development Component PowerBuilder redgate NET Developer Bundle Report Control for Visual C++ MFC  Sencha Test SPC Control Chart Tools for .Net Stimulsoft Reports.PHP Stimulsoft Reports.JS Stimulsoft Reports.Java Stimulsoft Reports. Ultimate Stimulsoft Reports.Wpf Stimulsoft Reports.Silverlight SlickEdit Source Insight Software Verify .Net Coverage Validator Toolkit Pro for VisualC++MFC TeeChart .NET Telerik DevCraft Complete Altova XMLSpy Zend Server

PDFlib TET

TET 5 

PDFlib GmbH發(fā)布了新版本的PDFlib TET 5。TET的前身是»文本提取工具包«,之后逐漸改名為»文本和圖像提取工具包«,在圖像提取方面得到明顯提升。

TET檢索文本、圖像、PDF文檔中的元數(shù)據(jù)和其他信息。以下是全新或顯著改善的五大特性:

· 文本檢索:

檢索文本的填充色和描邊色

改善布局檢測(cè)

 

· 圖像檢索

顯著增強(qiáng)分散圖像的合并

提取圖像蒙版和軟蒙版

 

· 頁(yè)面處理:

榮譽(yù)圖層和剪輯路徑

 

· TETML 內(nèi)容:

包括符號(hào)的填充色和描邊色、顏色空間和ICC文件配置細(xì)節(jié)

 

一些新的pCOS 偽對(duì)象

全新的PDFlib TETPDF IFilter 5 (企業(yè)版PDF搜索應(yīng)用于窗口)版本現(xiàn)已可用。

 

 

PDFlib TET 5 - 特性
PDFlib文本和圖像提取工具包(TET)旨在從PDF文檔中提取文本和圖像,但也可用于從PDF檢索其他信息。
接受PDF輸入
TET支持所有相關(guān)的PDF輸入:
所有PDF版本到Acrobat DC,包括ISO 32000-1和-2
保護(hù)那些打開不需要密碼的PDF文檔

損壞的PDF文檔將被修復(fù)

世界的所有寫作系統(tǒng)

TET在世界上所有書寫系統(tǒng)中處理PDF文檔,并實(shí)現(xiàn)某些腳本所需的特殊處理:

拉丁語(yǔ),希臘語(yǔ)和西里爾字母,包括脫音

阿拉伯語(yǔ)和希伯來語(yǔ),包括從右到左和雙向文本的邏輯重新排序;阿拉伯語(yǔ)呈現(xiàn)形式的規(guī)范化

簡(jiǎn)體和繁體中文,日語(yǔ)和韓語(yǔ),無論編碼;水平和垂直文本

印度文字(無字形重排)

Unicode支持的所有其他語(yǔ)言和腳本

Unicode

由于PDF中的文本通常不以Unicode編碼,因此PDFlib TET將PDF文檔中的文本標(biāo)準(zhǔn)化為Unicode:

TET將所有文本內(nèi)容轉(zhuǎn)換為Unicode。在C和其他非Unicode感知語(yǔ)言中,文本以UTF-8或UTF-16格式返回,并作為具有Unicode功能的編程語(yǔ)言的本地字符串返回。

字符和其他多字符字形被分解為相應(yīng)的Unicode字符序列。

沒有適當(dāng)?shù)腢nicode映射的字形被識(shí)別,并被映射到可配置的替換字符,以避免誤解。

TET針對(duì)特定文檔創(chuàng)建包(例如InDesign和TeX文檔或在大型機(jī)系統(tǒng)上生成的PDF)的問題實(shí)施各種解決方法。

內(nèi)容分析和字檢測(cè)

TET包括專利內(nèi)容分析算法:

確定檢索正確單詞所需的單詞邊界

重組連字字的部分(去連字)

刪除重復(fù)的文字實(shí)例,例如陰影和人為粗體文本

按閱讀順序重新組合段落

正確排序散布在頁(yè)面上的文本

頁(yè)面布局和表檢測(cè)

分析頁(yè)面內(nèi)容以確定文本列。檢測(cè)表,包括跨越多個(gè)列的單元格。這改進(jìn)了提取的文本的排序??梢詷?biāo)識(shí)表行和每個(gè)表單元格的內(nèi)容。

幾何

TET提供了文本的精確度量,例如頁(yè)面上的位置,字形寬度和文本方向。頁(yè)面上的特定區(qū)域可以被排除或包括在文本提取中,例如。以忽略頁(yè)眉和頁(yè)腳或邊距。

文本顏色

TET分析PDF頁(yè)面描述中的顏色信息,并返回每個(gè)字形的精確顏色信息。這可以用于例如識(shí)別標(biāo)題或其他突出顯示的文本。

圖像提取

PDF頁(yè)面上的圖像可以提取為TIFF,JPEG,JPEG 2000或JBIG2文件。針對(duì)每個(gè)圖像報(bào)告精確的幾何信息(位置,大小和角度)。分割的圖像被組合到較大的圖像以方便重新使用。由于不進(jìn)行下采樣或顏色轉(zhuǎn)換,保證了圖像保真度。這確保了最高的圖像質(zhì)量。

PDF分析

TET庫(kù)包括用于查詢PDF文檔的詳細(xì)信息的pCOS接口,例如文檔信息和XMP元數(shù)據(jù),字體列表,頁(yè)面大小等等。

有問題的PDF的配置選項(xiàng)

TET包含各種PDF的特殊處理和解決方法,其中文本無法與其他產(chǎn)品正確提取。此外,它包括各種配置功能,以改善問題文檔的處理:

Unicode映射可以通過用戶提供的表來定制,用于將字符代碼或字形名稱映射到Unicode。

PDFlib FontReporter是一個(gè)用于分析PDF中的字體,編碼和字形的輔助工具。它作為Adobe Acrobat的插件。此插件可免費(fèi)用于OS X / macOS和Windows。

分析嵌入字體以查找Unicode映射的其他提示。如果未嵌入字體,則使用外部字體文件或系統(tǒng)字體來提高文本提取結(jié)果。

Unicode后處理

TET支持各種Unicode后處理步驟,可用于改進(jìn)提取的文本:

折疊保留,刪除或替換字符,例如。從不相關(guān)的腳本中刪除標(biāo)點(diǎn)符號(hào)或字符。

分解用一個(gè)或多個(gè)其他字符的等效序列替換字符,例如。用其各自的標(biāo)準(zhǔn)對(duì)應(yīng)物替換窄的,寬的或垂直的日語(yǔ)字符或拉丁上標(biāo)變體。

文本可以轉(zhuǎn)換為所有四種Unicode標(biāo)準(zhǔn)化形式,例如。發(fā)射NFC表單以滿足Web文本或數(shù)據(jù)庫(kù)的要求。

文檔域

PDF文檔可能包含除頁(yè)面內(nèi)容之外的其他位置的文本。雖然大多數(shù)應(yīng)用程序?qū)H處理頁(yè)面內(nèi)容,但在許多情況下,其他文檔域也可能是相關(guān)的。 TET從以下所有文檔域中提取文本:

頁(yè)面內(nèi)容

預(yù)定義和自定義文檔信息條目

文檔和圖像級(jí)別的XMP元數(shù)據(jù)

書簽

文件附件和PDF文件包可以遞歸處理

表單域

評(píng)論(注釋)

可查詢一般PDF屬性,如頁(yè)數(shù),符合PDF / A或PDF / X等標(biāo)準(zhǔn)。

XMP元數(shù)據(jù)

TET以多種方式支持XMP元數(shù)據(jù):

使用集成的pCOS接口,可以以編程方式提取文檔,單個(gè)頁(yè)面,圖像或文檔的其他部分的XMP元數(shù)據(jù)。

TETML輸出包含XMP文檔和圖像元數(shù)據(jù)(如果存在于PDF中)。

以TIFF或JPEG格式提取的圖像包含圖像元數(shù)據(jù)(如果存在于PDF中)。

TETML表示作為XML的PDF內(nèi)容

TET可選地表示稱為TETML的XML風(fēng)格中的PDF內(nèi)容。它包含各種各樣的PDF信息,可以很容易地使用常用的XML工具進(jìn)行處理。 TETML包含實(shí)際文本以及可選的字體和位置信息,資源詳細(xì)信息(字體,圖像,顏色空間)和元數(shù)據(jù)。

TETML還包括交互式元素,例如表單字段,注釋,書簽等。它甚至可以用于分析JavaScript或顏色空間細(xì)節(jié),ICC配置文件或輸出意圖。

TETML由相應(yīng)的XML模式管理,以確保TET始終創(chuàng)建一致和可靠的XML輸出。 TETML可以用XSLT樣式表處理,例如。應(yīng)用某些過濾器或?qū)ETML轉(zhuǎn)換為其他格式。用于處理TETML的樣本XSLT樣式表包括在TET分布中。

以下片段顯示具有字形詳細(xì)信息的TETML輸出:

 

PDFlib

TET連接器

TET連接器提供必要的粘合代碼來與其他軟件進(jìn)行TET接口。以下TET連接器使PDF文本提取功能可用于各種軟件環(huán)境:

Lucene搜索引擎的TET連接器

Solr搜索服務(wù)器的TET連接器

TIKA工具包的TET連接器

Oracle Text的TET連接器

MediaWiki的TET連接器

TET PDF用于Microsoft產(chǎn)品的IFilter可作為單獨(dú)的產(chǎn)品提供。它從PDF文檔中提取文本和元數(shù)據(jù),并使其可用于在Windows上搜索和檢索軟件。

TET食譜

TET Cookbook是一個(gè)編程示例的集合,演示了TET對(duì)各種文本和圖像提取任務(wù)的使用。幾個(gè)Cookbook示例展示了如何結(jié)合TET和PDFlib + PDI產(chǎn)品,以增強(qiáng)PDF文檔,例如?;陧?yè)面上的文本添加書簽或鏈接。

 

快速導(dǎo)航

                               

 京ICP備09015132號(hào)-996 | 違法和不良信息舉報(bào)電話:4006561155

                                   © Copyright 2000-2026 北京哲想軟件有限公司版權(quán)所有 | 地址:北京市海淀區(qū)西三環(huán)北路50號(hào)豪柏大廈C2座11層1105室

                         北京哲想軟件集團(tuán)旗下網(wǎng)站:哲想軟件 | 哲想動(dòng)畫

                            華滋生物