站点图标 谷姐靓号网

请教一个火车头问题:对不符合标签必须包含和不得包含…-CodyDoby

5/5 - (3 votes)

关于一个特别棒的标签过滤功能:发现【对不符合标签必须包含和不得包含的记录,是删除 还是标记为未采集】竟然只有两选项,没有第三个选项

选项1:删除
删除之后,以后就碰到这个网址就直接跳过了,但是隔三岔五还要给网址给他让采的,不能就这样跳过了
选项2:标记为未采
这个不行,因为未采的会越来越多,太慢了
要是能来一个
选项3:什么也不做
就好了

还是想用下这个标签过滤功能,有效减少发布的次数,另外这些处理如果要发布模块来做也太耗弱鸡性能

刚开始用用,采集点自己感兴趣的帖子用勿喷!求出个点子

热议
2楼 hk2r 10小时前

火车7.6,这个功能对应是标签里缺值或等于某值时,忽略更新或删除,

3楼 CodyDoby 9小时前

是啊,下一个定时任务中,我想继续采集
但是删除的话,好像下一个任务中跳过他了
而标记为未采的话,可能导致下下下...个任务越来越大
所有我现在是没用这个标签过滤功能,全部在发布模块判断,搞的网站所在的小鸡慢死了

4楼 三哥 8小时前

火车头就这样,选直接删除就行了

5楼 CodyDoby 7小时前

那比如是采集论坛,删除了之后,帖子内容有更新了还需要采集,可怎么办呢

6楼 三哥 7小时前

你用的是dz吗

7楼 CodyDoby 7小时前

dz到wordpress

8楼 三哥 7小时前

那得改发布接口了,重复的帖子更新而不是为新的帖子

9楼 CodyDoby 7小时前

是啊,目前是我这样做的,但这貌似给我网站所在服务器加了负担

10楼 三哥 7小时前

建议用dz

12楼 三哥 7小时前

火车头上直接设置不符合的直接删除就好了

13楼 CodyDoby 7小时前

我的条件是评论条数,当前不符合,可是后续定时任务可能符合,这删除了之后,以后他还会采集这个被删除了的网址么

14楼 三哥 7小时前

标记为未采

15楼 三哥 7小时前

标记为未采,下次再采集如果符合了条件就不会再标记为未采

16楼 CodyDoby 7小时前


我还尝试用了这个选项不知道能不能行,一会试试

17楼 CodyDoby 7小时前

这个我在主楼有详细描述,标记为未采集会导致后续任务越来越多,他的做法是:每次任务都是给定的网址库+上一次标记为未采的网址,这样累计,每次任务都700-800个,火车头跑个把小时都跑不完,不敢想无人模式下几天后会多大

18楼 三哥 7小时前

这个是配合定时用的

19楼 CodyDoby 7小时前

我就是跑定时任务的

20楼 三哥 7小时前

其实不用纠结这些,真正的大佬都是手动采集

22楼 三哥 7小时前

标记为未采就行了啊

23楼 CodyDoby 7小时前

不行啊,我发现了问题,才来提问的。
我举个例子:每次任务固定需要采集的网址有70个,如果把当前任务中满足标签过滤条件的网址,例如是60个,标记为未采集,那么下一次的任务的网址数量就是70+60个,这130个可能有120个满足标签过滤条件,下下次的任务将是70+120,爆炸了都

24楼 三哥 7小时前

火车头就这样,没办法

25楼 CodyDoby 7小时前

刚举的例子有点极端,考虑到重复网址可以排除,增长没那么快,但是10个任务下来700网址多是有的。现在都不敢用标签的过滤功能了,因为针对标签过滤他就仅仅提供了两个选项,而且还是必选的。明天我试下自动清网址库能不能解决

26楼 phpsky 1小时前

转到python你会发现这都不是事

27楼 CodyDoby 9分钟前

那有事的就是其他的了,大哭

退出移动版