第1765章 遇到问题,分析问题,解决问题
重生87:开局截胡港岛女神 作者:佚名
第1765章 遇到问题,分析问题,解决问题
贾瀞雯回到北京时是周一早上。
她没回家,直接拖著行李箱去了办公室。
团队五个人都在,正围在白板前爭论什么。
看到她进来,所有人都转过头。
“贾总回来了!”
“陈总有什么指示吗?”
贾瀞雯放下行李箱,脱掉外套:“先说说你们这边的进展。”
李明赶紧匯报:“索引结构优化做了第一版,测试结果显示查询速度能提升百分之二十左右。
但有个问题,內存占用增加了。”
“分词算法呢?”
张涛接过话:“常见歧义解决了一部分,但遇到新的问题。
比如『南京市长江大桥』,可以分成『南京市长-江大桥』,也可以分成『南京市-长江大桥』。
这种结构歧义,靠词典解决不了。”
贾瀞雯点点头,走到白板前。
她拿起笔,在空白处写下几个字:超链分析。
“陈总提出了一个新概念。”她转身看著团队,“叫超链分析。
简单说,就是通过分析网页之间的连结关係,来判断网页的重要性。”
五个人都愣了。
“连结关係?”王磊问,“什么意思?”
“一个网页如果被很多其他网页连结,说明它可能比较重要,比较权威。”贾瀞雯解释,“反过来,如果一个网页连结了很多重要网页,那它自己可能也是个枢纽。
通过分析整个网络的连结结构,我们可以给每个网页打分,这个分数可以用於搜索结果排序。”
会议室里安静了几秒。
李明眼睛慢慢亮起来:“这思路……太牛了。
等於是把整个网际网路当成一个投票系统,每个连结就是一票。”
张涛也反应过来:“对!这样就能解决垃圾页面堆关键词的问题了。
那些垃圾页面不会被其他页面连结,分数自然低。”
“但实现起来很难。”王磊皱起眉,“我们需要分析整个网络的连结结构,这计算量太大了。”
贾瀞雯放下笔:“所以陈总说了,先做简化版。
不分析整个网络,只分析我们已收录的十万网页。
先验证这个思路是否可行。”
她看著团队:“陈总给了两周时间。
两周內,我们要做出超链分析的第一版,集成到排名算法里。”
任务定下来了,但怎么开始,谁都没底。
第一天,团队在查阅资料。
超链分析这个概念,国外有论文提到过,但没见到实际应用。
他们需要自己从头设计算法。
第二天,李明在白板上画出了第一版架构图:“我们需要建两个矩阵。
一个记录每个网页的出链,一个记录入链。
然后叠代计算,直到收敛。”
los angeleslos angelesdating
“收敛条件呢?”
“每个网页的分数变化小於某个閾值。”
“计算量还是大。”张涛摇头,“十万网页,矩阵就是一百亿个元素。
现在的伺服器算不动。”
第三天,陈浩打电话来了。
“遇到困难了?”他问。
贾瀞雯实话实说:“算力不够。
团队说矩阵太大,叠代计算需要的时间太长。”
电话那头沉默了一会儿。
“可以简化。”陈浩说,“第一,不需要算所有网页。
只计算有入链的网页,那些孤立页面直接给最低分。
第二,叠代可以分批进行,不需要一次性算完。
第三,分数不需要精確到小数点后很多位,整数就行。”
贾瀞雯把这些记下来,转告给团队。
李明听了,一拍大腿:“对啊!我们可以分块计算!先把网页按连结关係分组,组內叠代,组间再叠代。
这样內存占用能降下来。”
思路打开了,进展就快了。
第一周结束时,他们做出了简化版的超链分析算法。
测试数据很小,只有一千个网页,但结果令人鼓舞——重要网页的分数確实高,垃圾网页的分数確实低。
第二周,开始集成到真实数据里。
问题又来了:十万网页的连结关係太复杂,计算一次要八个小时。
“太慢了。”张涛盯著屏幕,“如果每天都要重新计算,根本跟不上网页更新的速度。”
贾瀞雯给陈浩打电话。
这次陈浩的建议很直接:“增量更新。
每天只计算新增网页和发生变化的部分,其他的用缓存。”
又是新的挑战。
但团队已经適应了这种节奏——遇到问题,分析问题,解决问题。
第二周周四晚上,李明从座位上跳起来。
“出来了!第一次完整计算完成!”
所有人围过去。
屏幕上显示著计算结果:十万网页,每个都有一个分数。
排在前面的,確实是那些权威网站,新闻门户,高校主页。
排在后面的,大多是个人主页或者gg页面。
“集成到排名算法里测试一下。”贾瀞雯说。
李明敲了几行代码,启动测试程序。
输入几个关键词,搜索结果按新算法排序。
效果明显。
之前搜“电脑价格”,前排结果里总有几个堆关键词的垃圾页面。
现在那些页面不见了,取而代之的是真正的电脑报价网站。
“准確率!”张涛喊,“测试集准確率升到百分之六十二了!”
办公室响起掌声。
连续两周的加班,值了。
周五,贾瀞雯让大家休息一天。
她自己没休息,去了中关村的一栋写字楼。
公司该换个地方了。
现在那个八十平米的办公室,六个人已经挤得不行。
隨著超链分析的实现,团队还要招人,需要更大空间。
她看中了一间两百平的办公室,在五楼,视野不错。
租金不便宜,但还能承受。
签完租约,她开始联繫装修。
简单装修,隔出办公区、会议室、休息区,还要有个小厨房。
同时,招聘启事也发出去了。
这次她要招十五个人:算法工程师、前端开发、系统架构师、还有產品和运营。
简歷像雪片一样飞来。
百度公测后的知名度,加上中关村的地理位置,吸引了很多求职者。
贾瀞雯亲自面试了每一个技术岗位。
她问的问题很实际:你怎么理解搜索?如果让你优化排名算法,你会怎么做?中文分词最大的难点是什么?
有的候选人答得好,有的答得一般。
她最终录用了十五个人,加上原来的五个,团队扩充到二十人。
【跪求礼物,免费的为爱发电也行!】
第1765章 遇到问题,分析问题,解决问题
贾瀞雯回到北京时是周一早上。
她没回家,直接拖著行李箱去了办公室。
团队五个人都在,正围在白板前爭论什么。
看到她进来,所有人都转过头。
“贾总回来了!”
“陈总有什么指示吗?”
贾瀞雯放下行李箱,脱掉外套:“先说说你们这边的进展。”
李明赶紧匯报:“索引结构优化做了第一版,测试结果显示查询速度能提升百分之二十左右。
但有个问题,內存占用增加了。”
“分词算法呢?”
张涛接过话:“常见歧义解决了一部分,但遇到新的问题。
比如『南京市长江大桥』,可以分成『南京市长-江大桥』,也可以分成『南京市-长江大桥』。
这种结构歧义,靠词典解决不了。”
贾瀞雯点点头,走到白板前。
她拿起笔,在空白处写下几个字:超链分析。
“陈总提出了一个新概念。”她转身看著团队,“叫超链分析。
简单说,就是通过分析网页之间的连结关係,来判断网页的重要性。”
五个人都愣了。
“连结关係?”王磊问,“什么意思?”
“一个网页如果被很多其他网页连结,说明它可能比较重要,比较权威。”贾瀞雯解释,“反过来,如果一个网页连结了很多重要网页,那它自己可能也是个枢纽。
通过分析整个网络的连结结构,我们可以给每个网页打分,这个分数可以用於搜索结果排序。”
会议室里安静了几秒。
李明眼睛慢慢亮起来:“这思路……太牛了。
等於是把整个网际网路当成一个投票系统,每个连结就是一票。”
张涛也反应过来:“对!这样就能解决垃圾页面堆关键词的问题了。
那些垃圾页面不会被其他页面连结,分数自然低。”
“但实现起来很难。”王磊皱起眉,“我们需要分析整个网络的连结结构,这计算量太大了。”
贾瀞雯放下笔:“所以陈总说了,先做简化版。
不分析整个网络,只分析我们已收录的十万网页。
先验证这个思路是否可行。”
她看著团队:“陈总给了两周时间。
两周內,我们要做出超链分析的第一版,集成到排名算法里。”
任务定下来了,但怎么开始,谁都没底。
第一天,团队在查阅资料。
超链分析这个概念,国外有论文提到过,但没见到实际应用。
他们需要自己从头设计算法。
第二天,李明在白板上画出了第一版架构图:“我们需要建两个矩阵。
一个记录每个网页的出链,一个记录入链。
然后叠代计算,直到收敛。”
los angeleslos angelesdating
“收敛条件呢?”
“每个网页的分数变化小於某个閾值。”
“计算量还是大。”张涛摇头,“十万网页,矩阵就是一百亿个元素。
现在的伺服器算不动。”
第三天,陈浩打电话来了。
“遇到困难了?”他问。
贾瀞雯实话实说:“算力不够。
团队说矩阵太大,叠代计算需要的时间太长。”
电话那头沉默了一会儿。
“可以简化。”陈浩说,“第一,不需要算所有网页。
只计算有入链的网页,那些孤立页面直接给最低分。
第二,叠代可以分批进行,不需要一次性算完。
第三,分数不需要精確到小数点后很多位,整数就行。”
贾瀞雯把这些记下来,转告给团队。
李明听了,一拍大腿:“对啊!我们可以分块计算!先把网页按连结关係分组,组內叠代,组间再叠代。
这样內存占用能降下来。”
思路打开了,进展就快了。
第一周结束时,他们做出了简化版的超链分析算法。
测试数据很小,只有一千个网页,但结果令人鼓舞——重要网页的分数確实高,垃圾网页的分数確实低。
第二周,开始集成到真实数据里。
问题又来了:十万网页的连结关係太复杂,计算一次要八个小时。
“太慢了。”张涛盯著屏幕,“如果每天都要重新计算,根本跟不上网页更新的速度。”
贾瀞雯给陈浩打电话。
这次陈浩的建议很直接:“增量更新。
每天只计算新增网页和发生变化的部分,其他的用缓存。”
又是新的挑战。
但团队已经適应了这种节奏——遇到问题,分析问题,解决问题。
第二周周四晚上,李明从座位上跳起来。
“出来了!第一次完整计算完成!”
所有人围过去。
屏幕上显示著计算结果:十万网页,每个都有一个分数。
排在前面的,確实是那些权威网站,新闻门户,高校主页。
排在后面的,大多是个人主页或者gg页面。
“集成到排名算法里测试一下。”贾瀞雯说。
李明敲了几行代码,启动测试程序。
输入几个关键词,搜索结果按新算法排序。
效果明显。
之前搜“电脑价格”,前排结果里总有几个堆关键词的垃圾页面。
现在那些页面不见了,取而代之的是真正的电脑报价网站。
“准確率!”张涛喊,“测试集准確率升到百分之六十二了!”
办公室响起掌声。
连续两周的加班,值了。
周五,贾瀞雯让大家休息一天。
她自己没休息,去了中关村的一栋写字楼。
公司该换个地方了。
现在那个八十平米的办公室,六个人已经挤得不行。
隨著超链分析的实现,团队还要招人,需要更大空间。
她看中了一间两百平的办公室,在五楼,视野不错。
租金不便宜,但还能承受。
签完租约,她开始联繫装修。
简单装修,隔出办公区、会议室、休息区,还要有个小厨房。
同时,招聘启事也发出去了。
这次她要招十五个人:算法工程师、前端开发、系统架构师、还有產品和运营。
简歷像雪片一样飞来。
百度公测后的知名度,加上中关村的地理位置,吸引了很多求职者。
贾瀞雯亲自面试了每一个技术岗位。
她问的问题很实际:你怎么理解搜索?如果让你优化排名算法,你会怎么做?中文分词最大的难点是什么?
有的候选人答得好,有的答得一般。
她最终录用了十五个人,加上原来的五个,团队扩充到二十人。
【跪求礼物,免费的为爱发电也行!】