谷姐:我们都是谷歌迷
We are all Google fans

【持续更新】hostloc月度热帖-danube533

Rate this post

记得之前有大神发过半年度的hostloc值得收藏的帖子,后来就没更新了。现在水贴太多,看得眼花缭乱。简单学习了下python,配合chatgpt写了个抓取脚本,本来想抓年度热帖的,无奈最多只能抓1000页,改成月度并归档,好以后查阅。

先抓了22年12月份的,总体感觉质量较差,干货太少

抓取原则:回帖数 ≥ 40 && 查看数 ≥ 1500 && 过滤部分交易、踢楼贴

https://github.com/danube533/hostloc_hot

热议
2楼 solomon314 昨天12:54

正好学习下,现在灌水的太多了(包括我)

3楼 vchv 昨天12:54

不错!

4楼 HOH 昨天12:55

全是垃圾帖,垃圾堆里翻东西没啥用,建议去爬v2ex

5楼 danube533 昨天12:59

全是垃圾帖,垃圾堆里翻东西没啥用,建议去爬v2ex

几年前干货满满

6楼 xinchenmi 昨天13:04

绑定

7楼 b66667777 昨天13:10

可以

8楼 C大 昨天13:45

前排占座,想法不错!

9楼 danube533 昨天19:14

没人看就沉了

10楼 gajiodgaj 昨天19:19

好帖,有了快照不怕255

12楼 image 昨天20:00

链接发出来呀

13楼 ojcc 半小时前

支持 ,借楼同问这位老哥的loc工具箱网站啥时候恢复
@nnt

14楼 ojcc 半小时前

之前那个精华版过滤的是收藏>=10,感觉还是收藏靠谱一点毕竟是手动点的 ...

@danube533 收藏数是个非常重要的指标。

再做个排序就好了,按照回帖数/查看数 的比值来排序

15楼 ojcc 半小时前

@danube533 还有就是如果有按日的就好了,很多帖子具有即时性,时间长了就失效了

16楼 言和 半小时前

页面可以做成表格,现在这样的排版不好看

申明:本文内容由网友收集分享,仅供学习参考使用。如文中内容侵犯到您的利益,请在文章下方留言,本站会第一时间进行处理。

未经谷姐允许不得转载:谷姐靓号网 » 【持续更新】hostloc月度热帖-danube533
分享到: 生成海报

热门文章

评论 抢沙发

评论前必须登录!

立即登录   注册

买Google Voice认准【谷姐靓号网】

Google Voice靓号列表Google Voice自助购买
切换注册

登录

点击按钮进行验证

忘记密码 ?

切换登录

注册

我们将发送一封验证邮件至你的邮箱, 请正确填写以完成账号注册和激活

点击按钮进行验证