01
高质量数据集整理
这个开源项目,从 11 年前就开始维护,现在已经获得 65K 的 Star 了。
它把整个互联网上开源的数据集都搜罗过来了,大部分都是主题明确、质量较高的公开数据集。
这个大合集最棒的地方在于它按主题分类。
无论是全球历史作物产量、人类基因组计划数据、金融经济、地理信息,还是社交媒体、交通出行,甚至游戏和体育统计,你都能找到对应的分类。
里面列出的数据集大多可以免费使用,有些需要额外授权的,也标注出来了。
开源地址:https://github.com/awesomedata/awesome-public-datasets
02
解读 K 线图的开源模型
Kronos 是首个面向金融市场的解读 K 线图基础模型。由清华大学与微软亚洲研究院(MSRA)的研究团队联合开源。
开源地址:https://github.com/MeiGen-AI/InfiniteTalk
它分析股票、加密货币等资产的K线数据,包含开盘价、最高价、最低价、收盘价及成交量,预测未来价格走势。
模型训练数据覆盖全球 45+ 交易所,能适应金融数据特有的高波动性和噪声。
这个模型专为金融设计,与通用时序模型不同,Kronos 首创两阶段处理框架:
智能分词器:将连续的K线数据转化为离散的「金融词汇」。
预测大模型:基于Transformer架构,从历史数据中学习规律,预测未来走势。
03
实时语音转录
WhisperLiveKit 是一个完全在你自己电脑上运行的实时语音转文字工具。
它不同于普通的录音转文字软件需要你录完再处理,它能一边听你说话,一边就把文字显示出来,几乎没有延迟,还能分清谁在说。
开源地址:https://github.com/QuentinFuxa/WhisperLiveKit
04
开源的 Agent 工具箱
让它分析一份数据表格、从网上搜集资料写报告、或者帮你整理电脑里杂乱的文件,这些 Youtu-agent 都能做到。
开源地址:https://github.com/Tencent/Youtu-agent
为用户重命名并分类本地文件:
解析 CSV 文件并生成 HTML 报告
收集海量信息以生成全面报告
它基于开源的大模型,如 DeepSeek-V3 系列来做出强大的智能体功能。
在一些公认的智能体能力测试上(如 WebWalkerQA 和 GAIA)取得了非常不错的成绩(70% 多的成功率),证明了开源模型也能胜任复杂任务。这避免了依赖昂贵或不开源模型(如 Claude 或 GPT)的成本和限制。
05
都看到这了,关注下吧。
这个公众号历史发布过很多有趣的开源项目,如果你懒得翻文章一个个找,你直接关注微信公众号:逛逛 GitHub ,后台对话聊天就行了。
没有评论:
发表评论