XPDF:把pdf文档转化为TEXT文档的库,如需中文支持,请到官方网站下载中文语言包 HTM2TXT:把HTML文件转化为TEXT文件的库 ICTCLAS:对中文字符串进行分词的库 PS2TXT:把Postscript文件转化为TEXT文件的源码