靠200美元CPU+「白菜价」二手硬件,他在自家洗衣房造了个“迷你谷歌”:能跑20亿网页,总成本5000美元

CSDN·2025年09月12日 09:10
“我不会让它永远呆在洗衣房。”

如果有人告诉你:用一台自己拼凑的旧服务器,就能在家里复刻一个迷你版“谷歌搜索”,你可能会觉得是天方夜谭——但在 2025 年,这件事确实发生了。

本次故事的主角是开发者 Ryan Pearce。他没有背靠巨头公司,也没有巨额投资,尝试用“低配方式”重走谷歌之路:只靠一堆淘来的二手硬件、一颗不到 200 美元的 CPU、再加上 AI 的力量,就在自家洗衣房搭起了一个“迷你谷歌”。

仅凭这些,Ryan Pearce 就打造出了两个搜索引擎:

● Searcha Page ——常规版搜索引擎(https://searcha.page/);

● Seek Ninja ——更注重隐私,不收集用户数据(https://seek.ninja/https://seek.ninja/)。

换句话说,当用户在页面输入搜索请求时,背后的服务器其实就运行在 Ryan Pearce 家的洗衣机和烘干机旁。

复刻谷歌的“来时路”:从校园宿舍变成洗衣房

时间回到近 30 年前,其实“谷歌搜索”的起点同样寒酸。

当时谷歌刚起步,并没有什么豪华的硬件配置,它的第一台实验服务器容量只有 40GB,运行在斯坦福大学宿舍中,机箱外壳还是用大号乐高(Duplo 积木)拼出来的。后来,是在 IBM 和 Intel 的捐助下,谷歌才把服务器升级成小型机架。

时至今日,谷歌搜索早已庞大到一个数据中心都装不下。但如果你愿意折腾,用一点巧妙的资源调度,再加上满满的毅力,也可以在一台接近当年“谷歌初代服务器”规模的机器上,复刻一个相当现代的搜索体验——甚至能把它放在自家洗衣房里。

对此,Ryan Pearce 打趣道:

“现在,我洗衣房里的存储容量,比 2000 年的谷歌还大。这想想就太疯狂了。”

某种程度上来说,他是在复刻谷歌的历史路径,只不过场景从校园宿舍换成了家庭洗衣房。

自制搜索引擎:不用云,靠淘来的旧服务器

与大部分云计算驱动的项目不同,Ryan Pearce 的搜索引擎几乎完全摆脱了云,走的是自托管路线:

● 上层主机:主要由旧服务器零件拼凑而成,Ryan Pearce 还给它装了一个简易风道散热。

● 下层电脑:负责给整个系统提供额外支撑。

一开始,这台设备放在卧室,但由于机器太热也太吵,根本没法睡觉。后来在妻子的“提醒”下,Ryan Pearce 把设备搬到洗衣房,把网线穿墙引进去,从此服务器就一直在洗衣机和烘干机旁了。虽然热量问题并没完全解决,但至少不会影响生活:“除非门关太久,不然也不会太热。”

这样一台运行在洗衣房的搜索引擎,性能表现如何呢?据 Ryan Pearce 介绍,除了早期搜索结果偶尔有点延迟(最近几周已显著改进),整个引擎的表现让人很难挑出毛病,结果质量甚至高于预期——背后支撑它的,是一个高达 20 亿条文档的数据库。

Ryan Pearce 还计划在半年内将其扩展到 40 亿条。如果光说数字没什么概念的话,可以做个对比:1998 年,谷歌还在斯坦福时,数据库里只有 2400 万条网页;到了 2020 年,这个数字已经达到 4000 亿。

按现在谷歌的标准,20 亿当然只是“九牛一毛”。但对于一人之力而言,这已经是惊人的成果。

核心秘密:AI 加持的传统搜索

能把“废旧服务器”搞到这种规模,Ryan Pearce 关键靠的就是大语言模型(LLM)。

“我其实做的还是非常传统的搜索,基本就是谷歌 20 年前的那套。但我加了一点‘调味料’——用 AI 做关键词扩展,以及理解上下文。这其实是搜索里最难的部分。”

所以,虽然 Searcha Page 和 Seek Ninja 都保持着极简的界面,但背后却少不了 AI 的助力。

很多人可能会说:“我就是想要一个不用 AI 的搜索。”但其实,AI 早已深度融入搜索引擎:比如反向图片搜索,没有 AI 根本不可能实现;再比如谷歌在十年前就上线了 RankBrain,用机器学习优化搜索结果;微软更是早在 2019 年就透露,Bing 90% 的搜索结果都依赖机器学习。

因此,当人们今天抱怨 AI 让搜索变差时,往往忽略了一个事实:AI 早已是现代搜索引擎的 DNA。而 Ryan Pearce 的案例则进一步证明:就算是一个人,也可以用 AI 去构建和扩展属于自己的搜索引擎。

二手硬件+顶级 CPU,DIY 成本骤降

支撑 Ryan Pearce 搜索引擎的核心,是一颗 32 核 AMD EPYC 7532:

● 2020 年刚发布时,售价超 3000 美元;

● 现在,在 eBay 上不到 200 美元就能买到。

甚至为了进一步省钱,Ryan Pearce 买的还是“质检测试版”芯片。他补充说,其实他本可以花同样的钱买到另一颗线程数翻倍的 CPU,但考虑到会产生太多热量,不适合家用环境才放弃了。

除此之外,Ryan Pearce 还低价收购了许多性能可观的二手服务器硬件:由于企业三年一换机,他们淘汰的旧硬件在市场上大幅贬值,性能却依然强悍,所以只要能接受耗电高,就能用白菜价获得巨大的算力。

Ryan Pearce 正是抓住了这一点,用“白菜价”的旧设备,拼出了一个能跑现代搜索引擎的系统,其性能甚至比谷歌早期的一些服务器还强。据了解,整套系统成本仅约 5000 美元,其中约 3000 美元花在了存储上,因为半 TB 内存依然很贵,但这在 DIY 圈中已经是顶级配置。

借助 LLM“补课”:从快速原型到持续迭代

值得注意的是,Ryan Pearce 不是唯一的 DIY 搜索引擎开发者。

例如,另一位极客 Wilson Lin 就选择了一条完全不同的路线:系统依赖至少 9 种不同的云服务;开发了新的数据解析技术,大幅降低搜索引擎运行成本。他解释道,这样整体会比用 AWS 便宜很多,他“才能在合理预算内推进项目”。

这两条看似迥异的路线,能走到如今的规模,其实都得益于一个关键因素:AI。很多人会抱怨 AI 拉低了搜索质量,但也正是 AI,才让这些个人开发者有机会接近“谷歌级别”的搜索体验。

围绕 AI 的最大争议之一,是搜索引擎是否过度强调它。很多时候,AI 的痕迹直接体现在结果页面上:试图“解释”你的搜索。有人喜欢节省时间,有人则非常反感。但对资源有限的个人开发者来说,LLM 却是快速构建和扩展数据集的必备工具。

以 Ryan Pearce 为例,他拥有企业软件和游戏开发的背景,并不抗拒编程中引入 AI。当前其搜索引擎代码量已超过 15 万行,加上反复迭代,实际写过的代码应该接近 50 万行,而他对于AI的用法是:先用 LLM 代管某些功能,再逐渐替换成传统实现——这种方式让他能快速搭出复杂系统,然后再迭代打磨。

Wilson Lin 也评价道:LLM 确实降低了门槛。现在阻碍我们挑战谷歌的最大障碍,并不是技术,而是市场。”

“我不会让它永远呆在洗衣房”

不过,LLM 的复杂度仍超出了洗衣房服务器的承载范围。

于是,Ryan Pearce 把他打造的 Searcha Page 和 Seek Ninja接入了 SambaNova 提供的 Llama 3 推理服务,以低成本获得快速的 AI 能力。此外,Ryan Pearce 还受益于 Common Crawl ——一个开放的网页数据仓库,这也是大模型的重要训练来源,甚至在项目开发过程中,他还一度因频繁抓取而被 Common Crawl 封禁过。

Ryan Pearce 感慨道:“我真的很感谢他们,希望未来能有所回馈。等我项目做大,一定会少依赖他们。”

当然,也不是所有尝试都成功了。Ryan Pearce 透露,最开始他想用向量数据库来实现搜索,结果失败了:“它确实能搜,但结果太‘艺术化’,就像 LLM 的幻觉问题一样。”

到目前为止,Ryan Pearce 的搜索引擎吸引了许多人的关注。比如,有一位中国用户就联系他,想要一个能接入自己 LLM 代理的“无审查搜索”。但Ryan Pearce 坦言,暂时难以支持中文,因为这意味着要重新构建数据集,成本太高。

提到未来,Ryan Pearce 表示计划把服务器迁出家中,可能会选择托管机房或联合数据中心。为此,他也开始尝试一些轻量的广告变现方式:

“等流量上去,我会把它迁到托管环境,不会让它永远呆在洗衣房。”

参考链接

https://www.fastcompany.com/91396271/searcha-page-seekninja-diy-search-engines

本文来自微信公众号“CSDN”,作者:郑丽媛,36氪经授权发布。

+1
0

好文章,需要你的鼓励

参与评论
评论千万条,友善第一条
后参与讨论
提交评论0/1000

下一篇

B端客户不会为了“杭州六小龙”买单,还是要靠产品说话。

2小时前

36氪APP让一部分人先看到未来
36氪
鲸准
氪空间

推送和解读前沿、有料的科技创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业