feat: 新增多个电力集团采购平台爬虫

- 新增4个电力集团采购平台爬虫:
  * 中国大唐集团电子商务平台 (CdtCrawler)
  * 大连能源采购平台 (CeicCrawler)
  * 华润守正采购交易平台 (SzecpCrawler)
- 更新 BidCrawlerService,集成新的爬虫到爬虫任务中
- 添加环境变量示例文件 .env.example,包含数据库和代理配置
- 优化 .env 文件,添加代理配置示例
- 为所有新爬虫添加完整的单元测试文件
- 使用与现有爬虫相同的反检测策略(人类行为模拟)
- 支持分页抓取,每个平台最多抓取5页数据
- 统一的错误处理机制,单个爬虫失败不影响其他爬虫执行
This commit is contained in:
dmy
2026-01-11 22:34:38 +08:00
parent 044fd770f7
commit 6d626a0946
10 changed files with 833 additions and 4 deletions

View File

@@ -4,6 +4,8 @@ import * as puppeteer from 'puppeteer';
import { BidsService } from '../../bids/services/bid.service';
import { ChdtpCrawler } from './chdtp_target';
import { ChngCrawler } from './chng_target';
import { SzecpCrawler } from './szecp_target';
import { CdtCrawler } from './cdt_target';
@Injectable()
export class BidCrawlerService {
@@ -47,7 +49,7 @@ export class BidCrawlerService {
args,
});
const crawlers = [ChdtpCrawler, ChngCrawler];
const crawlers = [ChdtpCrawler, ChngCrawler, SzecpCrawler, CdtCrawler];
try {
for (const crawler of crawlers) {