当前位置: 主页 > 生物技术 > 技术进展

深度搜:一位生物学家的搜索梦想

2010-04-15 00:00 网易科技 网易科技 阅读 0
核心摘要: 深度搜是一家专注于学术论文和百科知识的垂直搜索引擎,由生物科学家胡前进创立。本文通过访谈形式,介绍了深度搜的创立背景、技术原理(基于生物信息学的字权重算法)、与维普等数据库的合作模式(免费阅读+广告收入),以及从学术平台向知识平台扩张的愿景。胡前进分享了从生物研究转向搜索创业的经历,并阐述了垂直搜索引擎在精准度和用户定位上的优势。

在后谷歌时代,中国的搜索市场格局变得耐人寻味。百度、微软必应、网易有道、腾讯搜搜、搜狐搜狗,以及电信运营商和央视国家队都在积极布局。在这些巨头之外,许多小型创业公司也开始行动。艾瑞咨询的中国搜索引擎市场研究报告指出,市场新进入者需要以差异化的产品和用户定位来突破。对于专注于特定领域和细分人群的垂直搜索引擎而言,它们的市场空间有多大?

胡前进,深度搜董事长兼总经理,1985年作为中国第一批公派留学生赴美深造的生物科学家,向网易科技讲述了他的搜索梦想。

做学术搜索,让知识发挥最大价值

网易科技:请简单介绍一下深度搜。

胡前进:深度搜定位为知识信息搜索平台,目前主要以学术论文为主,还包含百科知识等。

网易科技:但这些内容用谷歌、百度也能搜到。

胡前进:常规搜索引擎往往返回数百万条结果,很难排序。你真正需要的结果可能排在很后面,经常需要二次甚至三次搜索,效率较低。

网易科技:我记得谷歌是按访问量排序的。

胡前进:这是谷歌最大的技术突破。一般来说,访问量高的网站就是好的。但科学文章不能这样,我关心与研究相关的内容,只要与研究有关,就必须阅读,而不是关心大众访问的内容。否则会产生偏见,比如中国人喜欢看中国的研究结果,美国人喜欢看美国的研究结果。

网易科技:深度搜如何解决这个问题?

胡前进:在内容上,深度搜数据库只收录学术论文、专利、百科知识等,保证了质量。在技术上,深度搜的算法根据每个字所附带的信息量赋予不同权重。搜索时,根据关键词匹配的数量和权重判断结果的相关性,相关性高的排在前面。用户还可以粘贴整个段落进行搜索,而常规搜索引擎超过32个字符就无效了。

网易科技:每个字的权重是系统判定还是人工?

胡前进:系统自动完成。这是基于信息学原理:常见的字如“的”信息量很少,因为每篇文章都有;而某些特殊字信息量很大。我们通过寻找重要的、能区分文章的字来进行搜索。

网易科技:以前上学时,在中国知网也能搜到很多专业学术文章。

胡前进:知网是内容集成商,但搜索技术较差,输入稍有偏差就找不到。知网、万方和维普这三家几乎集合了中国所有的专业文献。深度搜希望能提供一个专业的知识搜索引擎。这些知识是人类财富,应该容易被找到,发挥最大价值。

从生物信息学出发的搜索逻辑

网易科技:您是学生物出身的。

胡前进:1982年复旦大学生物学毕业,1985年作为首批公派留学生赴美。第一晚住旅馆后,用剩下的5美元开始了20年的美国生涯。读博士和博士后期间,一直从事生物医学研究。硅谷不仅是IT中心,也是生物学高地。在风险投资催化下,创业氛围浓厚。1997年我与朋友成立生物技术公司,将技术和产品引进中国。

网易科技:如何从生物转向搜索?

胡前进:2004年谷歌上市和互联网发展让我们认识到搜索的巨大市场前景。此外,做研究时常需搜索科技文献和专利,而当时所有搜索引擎都非常低效。我们认为这是一个机会,可以开发新的搜索引擎。在生物学中,为了发现蛋白质信息及其与疾病的相关性,常需比较正常和病变蛋白质,在大量数据库中迅速找到变化点。这是研究的基本工具,也可用于文字搜索。

网易科技:何时开始实质性动作?

胡前进:2006年在美国成立公司,借用生物信息学原理做文字搜索,希望解决查准和查全问题。出于成本考虑,在上海建立研发团队,在美国团队带领下做辅助研发,这是深度搜的前身。2009年我接管上海团队,成立深度搜,针对中国市场。

网易科技:国内搜索引擎竞争激烈,接管上海团队有风险。

胡前进:中国有2.6亿搜索引擎用户,大专及以上教育背景的占40%。在互联网搜索内容中,除了音乐和视频,第三类就是新闻和专业文献,市场需求不小。但用户对谷歌、百度的满意度不到50%,主要不满在于搜索精准度。通用搜索引擎为满足大多数人需求,包含了大量杂乱内容。这给了我们机会:不与百度、谷歌竞争,只满足这部分用户。

网易科技:深度搜的用户定位是什么?

胡前进:科研人员、写论文的学生,以及其他需要专业搜索的人群。

从学术平台向知识平台扩张

网易科技:在深度搜上可以看到论文全文,是否涉及版权?

胡前进:检索本身不涉及版权,主要通过标题、摘要、作者查找。全文是我们与维普的商业合作。我们为科研人员和大学生提供内容,如果读全文需付费,可能影响受众面。与维普的合作模式是:读者免费阅读,维普通过增加流量获得广告收入,由广告商间接支付版权费用。对广告商而言,也能接触到更多读者,是三赢模式。这个模式依靠我们的搜索引擎比维普更好,读者更容易找到维普文章,增加流量。

网易科技:与其他两家是否有合作?

胡前进:其他两家只抓取了标题和摘要,维普开放了内容。这几家内容80%-90%重叠。目前我们收录最多的是学术论文,但这只是知识的高端,还有健康、教育、金融、法律等知识。长远来看,我们希望在内容上扩展,将深度搜变成知识型一站式网站。

网易科技:深度搜如何盈利?

胡前进:流量带动广告。深度搜现在是百度广告联盟成员,未来希望能自己卖广告,比如专业医疗仪器广告等。目前主要考虑先增加流量,接下来还会与更多垂直类网站合作,丰富数据库内容。等用户做起来后,开始考虑融资。

    发表评论