51工具盒子

依楼听风雨
笑看云卷云舒,淡观潮起潮落

爬了 3534 个 Telegram 群/频道/机器人,却发现只有 6%的优质账号(开源所有代码和数据)

背景:使用 Telegram 的时候,为了能找到一些有意思的、好玩的、纯粹资源分享的群和频道,总是很困难,尽管有些网站推荐了不少的群 /频道 /机器人,但是往往其中很多都已经过期了,甚至很多都注销了,也有一些变成了涩涩群、机场群,一个一个筛选起来很麻烦,所以决定用 Python 爬虫来解决这一问题。

过程:用时一天时间,收集整理了很多网站数据,建立 URL 集合,使用 Scrapy 总共从十几个地址,爬了总计 3534 条数据。所有的数据及 SQL 已经放到文件 telegram_info.sql 中,爬虫代码放在了 telegram-groups-spider 文件夹里面。有需要的同学可以自行取用。

结果:从 3534 个中,按照订阅数 /会员数排序,并排除了其他语言的账号只选择做中文内容的账号,也排除了包含:机场、Sex 、Gamble 、Politics 等内容,手工精选了 200 多个放在了下面的表格里,感兴趣的同学可以根据自己喜好选择加入。

感悟:从数据来看,其中有很多是早已注销的群 /频道 /机器人,也有不是是灰黑产业的账号或者挂羊头卖狗肉的账号。精选账号大概只占到总数的 6% ,这个比例还是挺惊人的,中文的优质内容在 Telegram 还是相对匮乏,Telegram 在中文内容上更像是一个灰黑产的温床。虽然精选了 200 多个账号,但其中也有不少是羊毛,搬运,资源,影视,破解等内容,这些内容也是处于擦边球地带,真正优质的内容还会更少,当然这也限制与样本本身的质量,也许有不少好的账号还未被发现,也欢迎知道优质账号的同学能在 issue 留下它的链接。

爬了 3534 个 Telegram 群/频道/机器人,却发现只有 6%的优质账号(开源所有代码和数据)
爬了 3534 个 Telegram 群/频道/机器人,却发现只有 6%的优质账号(开源所有代码和数据)


GitHub 地址: https://github.com/alexbei/telegram-groups

为了方便大家查看,买了一个域名,添加了Github Page,现在可以直接网页看了,十分清爽:
=====> https://www.tgqun.xyz/

赞(0)
未经允许不得转载:工具盒子 » 爬了 3534 个 Telegram 群/频道/机器人,却发现只有 6%的优质账号(开源所有代码和数据)