[Java] 檔案提取文字: Apache Tika

Apache Tika

https://tika.apache.org/


使用Apache Tika指令列抽取檔的內文 / Using Apache Tika Extract File’s Content

https://blog.pulipuli.info/2017/03/apache-tika-using-apache-tika-extract.html


spring boot + Apache tika 實現文檔內容解析

https://juejin.cn/post/7252159509848899640


推薦一款Apache開源的文檔內容解析工具

https://juejin.cn/post/7320655451602288690


Apache tika是Apache開源的一個文檔解析工具。Apache Tika可以解析和提取一千多種不同的檔案類型(如PPT、XLS和PDF)的內容和格式,並且Apache Tika提供了多種使用方式,既可以使用圖形化動作頁面(tika-app),又可以獨立部署(tika-server)通過介面調用,還可以引入到專案中使用。


#extract, file, ocr, text, 檔, 解析, 提取, 文字


留言