feat(server): 增加对PDF公告内容的解析支持 - 新增 `fetchPdfUrlFromApi` 函数,用于从 jszbcg.com 的 API 接口获取 PDF 文件链接 - 新增 `extractPdfUrl` 函数,作为备选方案从 HTML 页面中提取 PDF 地址 - 新增 `fetchPdfContent` 函数,使用 pdf-parse 库下载并解析 PDF 内容 - 新增 `parseDetailEnhanced` 函数,整合 HTML 和 PDF 解析逻辑,优先使用 PDF 内容 - 修改预算金额验证范围上限,从 1000000 万元提升至 100000000 万元 - 在 /api/details、/api/report、/api/report-daterange 接口中启用增强解析逻辑 - 新增 /api/test-pdf 接口用于测试 PDF 解析功能 - 添加 pdf-parse 依赖到 package.json ```
21 lines
481 B
JSON
21 lines
481 B
JSON
{
|
|
"name": "gjzx-scraper",
|
|
"version": "1.0.0",
|
|
"type": "module",
|
|
"description": "工具:采集 https://gjzx.nanjing.gov.cn/gggs/ 公示列表信息及详情",
|
|
"main": "src/server.js",
|
|
"scripts": {
|
|
"start": "node src/server.js"
|
|
},
|
|
"dependencies": {
|
|
"axios": "^1.6.8",
|
|
"cheerio": "^1.0.0-rc.12",
|
|
"cors": "^2.8.5",
|
|
"docx": "^9.5.1",
|
|
"express": "^5.2.1",
|
|
"iconv-lite": "^0.6.3",
|
|
"nodemailer": "^7.0.11",
|
|
"pdf-parse": "^2.4.5"
|
|
}
|
|
}
|