就爱来小说网

第1742章 互联网这片星空,我们要摘最亮的那颗(2/3)


    他在纸上写下一句话:“我爱北京天安门。”

    “普通人看到这句话,知道是什么意思。

    但计算机看到的是一个个汉字:我、爱、北、京、天、安、门。

    它不知道‘北京’是一个词,‘天安门’是一个词。”

    他在“北京”和“天安门”下面画了线。

    “分词算法就是教计算机认词。

    就像教小孩认字,先告诉他‘苹果’是一个整体,不是‘苹’和‘果’。

    然后他看到‘红苹果’,就知道‘红’和‘苹果’是两个词。”

    贾瀞雯看着那张纸,忽然明白了。

    “所以你总是用比喻。”她说,“爬虫像蜘蛛,索引像图书馆目录,排名算法像选举投票。”

    “对。”陈浩放下笔,“技术细节留给技术人员,但你要理解核心理念。

    这样你和团队沟通,和投资人沟通,和未来的用户沟通,才能说到点子上。”

    他躺回来,搂住贾瀞雯:“记住,我们不是在造一个高科技玩具,是在解决真实的问题。

    人们上网找不到想要的信息,我们帮他们找。

    就这么简单。”

    第二天,贾瀞雯带着那沓手稿飞回北京。

    团队看到新资料,又是一阵兴奋。

    陈浩细化了很多关键算法,特别是排名算法的雏形--他提出了“链接分析”的概念,一个网页被越多网页链接,说明它可能越重要。

    “这个思路太妙了!”张涛几乎要跳起来,“这就像学术论文的引用,被引次数越多,说明越有价值!”

    有了明确的方向和详细的方法,进度快得惊人。

    两周后,贾瀞雯正在办公室看财务报表,李明冲了进来。

    “贾总!成了!”

    他手里拿着一张打印纸,手指都在抖。

    贾瀞雯站起来:“什么成了?”

    “爬虫!基础版本的爬虫跑起来了!”李明把打印纸递给她,“这是日志,你看,已经抓取了三百多个网页!”

    纸上是一行行的记录:

    \[XXXX-XX-XX 10:23:15\] 开始抓取种子网站:neWS.XXX.COm

    \[XXXX-XX-XX 10:23:17\] 发现链接:http://neWS.XXX.COm/1.html

    \[XXXX-XX-XX 10:23:18\] 抓取成功,大小:4.2KB

    \[XXXX-XX-XX 10:23:19\] 发现链接:http://neWS.XXX.COm/2.html

    ……

    记录一直延续到最新一行:抓取网页总数:347。

    贾瀞雯看着那串数字,手也开始抖。

    “网页内容呢?”她问。

    “都存在服务器上了。”李明眼睛发亮,“虽然现在只能存文本,图片还处理不了,但这是第一步!最关键的第一步!”

    贾瀞雯放下纸,深深吸了口气。

    “叫大家过来。”她说,“我们……庆祝一下。”

    五分钟后,六个人挤在小小的会议室里。

    桌上摆着几瓶可乐,是贾瀞雯刚才下楼买的。

    “同志们。”贾瀞雯举起可乐瓶,“今天,我们抓到了第一批网页。

    虽然只有三百多个,虽然还有很多问题要解决,但这是一个开始。”

    她顿了顿,声音有些哽咽:“谢谢大家-->>

本章未完,点击下一页继续阅读