Commit Graph

6 Commits

Author SHA1 Message Date
dmy
74a4aec363 feat: 新增北京电力交易平台爬虫
- 新增 PowerbeijingCrawler 爬虫类,支持北京电力交易平台招标信息抓取
- 目标平台:https://www.powerbeijing-ec.com,专注于北京地区电力交易招标信息
- 使用正则表达式提取招标公告,支持标题、URL和发布日期解析
- 添加完整的人类行为模拟功能(鼠标移动、滚动)降低检测风险
- 支持分页抓取,最多抓取5页数据,使用 turnPage 函数进行翻页
- 添加完整的单元测试文件,确保爬虫功能正常
- 统一的错误处理机制,单个爬虫失败不影响整体任务执行
2026-01-11 23:21:31 +08:00
dmy
aa9b33bd94 feat: 新增中国三峡集团电子商务平台爬虫
- 新增 EpsCrawler 爬虫类,支持中国三峡集团电子商务平台招标信息抓取
- 集成到 BidCrawlerService 中,现在支持5个平台并行抓取
- 使用正则表达式提取招标信息,支持标题、URL和发布日期解析
- 添加完整的人类行为模拟功能(鼠标移动、滚动)降低检测风险
- 支持分页抓取,最多抓取5页数据
- 添加完整的单元测试文件,确保爬虫功能正常
- 统一的错误处理机制,单个爬虫失败不影响整体任务执行
2026-01-11 22:48:10 +08:00
dmy
6d626a0946 feat: 新增多个电力集团采购平台爬虫
- 新增4个电力集团采购平台爬虫:
  * 中国大唐集团电子商务平台 (CdtCrawler)
  * 大连能源采购平台 (CeicCrawler)
  * 华润守正采购交易平台 (SzecpCrawler)
- 更新 BidCrawlerService,集成新的爬虫到爬虫任务中
- 添加环境变量示例文件 .env.example,包含数据库和代理配置
- 优化 .env 文件,添加代理配置示例
- 为所有新爬虫添加完整的单元测试文件
- 使用与现有爬虫相同的反检测策略(人类行为模拟)
- 支持分页抓取,每个平台最多抓取5页数据
- 统一的错误处理机制,单个爬虫失败不影响其他爬虫执行
2026-01-11 22:34:38 +08:00
dmy
044fd770f7 feat: 增强华能电商平台爬虫的反检测能力和数据结构
- 在 BidItem 实体中添加 priority 和 unit 字段,扩展数据结构
- 将爬虫浏览器模式改为非无头模式(headless: false)便于调试
- 为 ChngCrawler 添加人类行为模拟功能:
  * 模拟鼠标随机移动,增加移动步数和停顿时间
  * 模拟人类滚动行为,包括随机滚动距离和停顿
  * 添加 navigator 属性伪装,包括语言、插件等
- 在关键节点添加截图功能(bing.png, newPage.png, huaneng.png)用于调试
- 优化反检测策略,降低被目标网站识别为机器人的风险
2026-01-11 21:35:24 +08:00
dmy
07a7301968 feat: 添加华能集团电子商务平台爬虫功能
- 新增 ChngCrawler 爬虫类,支持华能集团电子商务平台招标信息抓取
- 更新 BidCrawlerService,集成 ChngCrawler 到爬虫任务中
- 添加代理配置支持,从环境变量读取代理设置
- 优化爬虫逻辑,支持多个爬虫并行执行
- 新增 ChngCrawler 的单元测试文件
- 改进错误处理,单个爬虫失败不影响其他爬虫执行
- 更新 chdtp_target.ts,添加代理认证支持
2026-01-11 18:20:43 +08:00
dmy
d9105797f4 第一次提交 2026-01-09 23:18:52 +08:00