dmy
|
6d626a0946
|
feat: 新增多个电力集团采购平台爬虫
- 新增4个电力集团采购平台爬虫:
* 中国大唐集团电子商务平台 (CdtCrawler)
* 大连能源采购平台 (CeicCrawler)
* 华润守正采购交易平台 (SzecpCrawler)
- 更新 BidCrawlerService,集成新的爬虫到爬虫任务中
- 添加环境变量示例文件 .env.example,包含数据库和代理配置
- 优化 .env 文件,添加代理配置示例
- 为所有新爬虫添加完整的单元测试文件
- 使用与现有爬虫相同的反检测策略(人类行为模拟)
- 支持分页抓取,每个平台最多抓取5页数据
- 统一的错误处理机制,单个爬虫失败不影响其他爬虫执行
|
2026-01-11 22:34:38 +08:00 |
|
dmy
|
044fd770f7
|
feat: 增强华能电商平台爬虫的反检测能力和数据结构
- 在 BidItem 实体中添加 priority 和 unit 字段,扩展数据结构
- 将爬虫浏览器模式改为非无头模式(headless: false)便于调试
- 为 ChngCrawler 添加人类行为模拟功能:
* 模拟鼠标随机移动,增加移动步数和停顿时间
* 模拟人类滚动行为,包括随机滚动距离和停顿
* 添加 navigator 属性伪装,包括语言、插件等
- 在关键节点添加截图功能(bing.png, newPage.png, huaneng.png)用于调试
- 优化反检测策略,降低被目标网站识别为机器人的风险
|
2026-01-11 21:35:24 +08:00 |
|
dmy
|
07a7301968
|
feat: 添加华能集团电子商务平台爬虫功能
- 新增 ChngCrawler 爬虫类,支持华能集团电子商务平台招标信息抓取
- 更新 BidCrawlerService,集成 ChngCrawler 到爬虫任务中
- 添加代理配置支持,从环境变量读取代理设置
- 优化爬虫逻辑,支持多个爬虫并行执行
- 新增 ChngCrawler 的单元测试文件
- 改进错误处理,单个爬虫失败不影响其他爬虫执行
- 更新 chdtp_target.ts,添加代理认证支持
|
2026-01-11 18:20:43 +08:00 |
|
dmy
|
d9105797f4
|
第一次提交
|
2026-01-09 23:18:52 +08:00 |
|