首页
校友会简介
校友动态
校友风采
母校近况
校友会刊物
校友捐赠
常用下载
语义智能搜索奠基下一代互联网,汕头大学TAI技术抢饮头啖汤
Wed Dec 22 07:01:12 CST 2010

 

编者按: 12月9日,《南方日报》A30版以“语义智能搜索奠基下一代互联网,汕头大学TAI技术抢饮‘头啖汤’”为题,专题报道汕头大学开发的以语义搜索为核心的“TAI信息内容综合处理技术”,现将全文转载如下:

 

在国务院下发的《关于加快培育和发展战略性新兴产业的决定》里,七大战略性新兴产业并不包括文化创意产业。但这并不表明否认文化创意产业的战略性。实际上,该文件不多见地将“文化创意产业”直接写入了“新一代信息技术产业”里,要求“大力发展数字虚拟等技术,促进文化创意产业发展”。

  

而在广东,文化创意产业已被明确纳入战略性新兴产业范畴。在《广东省建设文化强省规划纲要(2011-2020)》中,省委省政府提出,要“着力培育文化领域的战略性新兴产业”,“让文化产业成为我省的重要支柱产业和战略性新兴产业,广东成为全国乃至亚太地区具有核心竞争力的文化产业中心”。

  

文化创意产业已经成为21世纪的朝阳产业,富有的发达国家越来越意识到创意对增长的贡献。而在广东,文化产业已经成为新的经济增长点和支柱产业之一,并在全省经济转型和产业结构优化升级中充分发挥了战略带动和牵引的作用。2009年,广东文化产业逆势飘红,实现增加值2149亿元,连续第七年名列全国榜首。

  

随着《纲要》的出台,广东文化创意产业迎来前所未有的发展机遇。

  

 

今天起,本报推出“战略性新兴产业南方大调研”之文化创意产业。首篇“创意先锋”中,我们在动漫、特殊影视技术、互联网等众多广东领先的行业里,选择呈现一个尚不为太多人知道的“星星”:引领下一代互联网核心技术的语义智能搜索技术。

  

 

比起那些已经成熟的“庞然大物”,这一技术虽然还待字闺中,却在未来有着无限宽广的可能性。面对这一全世界梦想破解的难题、全中国努力攀登的高峰,广东占据了世界领先的战略制高点。

  

 

“世界上最远的距离,就是我们俩一起出门,你去买苹果4代,我去买4袋苹果。”自从Iphone4面市以来,这句话就开始在网络流行。

  

 

事实上,比这还远的距离可能是:为了买苹果4代,你输入“苹果”搜索,百度却可能给你“范冰冰佟大为《苹果》完整版浴室戏”。

  

 

目前的网络搜索,即使强大如Google,也仅仅能够反馈给用户夹杂着各种噪音和无用信息的“大包裹”。有没有一种技术,能够精确地分析、挑选出你想要的信息?

  

 

答案是肯定的。广东汕头大学出版社社长胡开祥告诉记者,他们开发的以语义搜索为核心的“TAI信息内容综合处理技术”(以下简称TAI语义智能搜索),可以让你的电脑像你一样会思考。“你要一滴水,就给你一滴水,而不是一条河,更不是一片海。”

  

 

胡开祥说,语义智能搜索技术更准确的说法应该是“语义智能信息处理技术”,不仅仅基于关键词检索,而是能够理解WEB页面的内容,并进行逻辑推理来完成复杂的查询任务,最终返回精确的结果。

  

 

语义智能搜索属于下一代互联网的核心和基础性技术,相关研究在国外很多。其实际应用,最广为人知的,可能是微软新推出的搜索引擎“Bing”(中文翻译为“必应”)。但胡开祥说,Bing呈现出来的技术,只达到他们已掌握的技术的7%。



 

体验智能

 

 

你的电脑懂得你需要啥


  

 

未来某一天,你想带女朋友去看红叶,于是你打开搜索引擎,输入“红叶”二字。你想得到的也许是香山红叶,也许是井冈山红叶,也许是香榭丽舍大街的红叶。没关系,你不用一条一条翻阅,电脑会自动为你分门别类,让你精确地找到想要的信息。

  

 

你想重温《红楼梦》,可只想看与“宝黛爱情”有关的部分,于是你打开资料库,输入“宝黛爱情”,于是《红楼梦》里只要是宝黛爱情的部分,都给你提取出来。

  

 

你看一篇论文,想迅速了解它的主题思想。没问题,电脑会帮你准确地总结。

  

 

甚至,你想看电影《哈利·波特》,但只想看有关骑着扫帚飞行的部分,计算机就给你所有有关飞行的镜头;你想听一首歌,但只想听副歌部分,那么机器就给你唱副歌。

  

 

在语义智能搜索技术支持下,这些都不是幻想。甚至,这些已经不是未来了。记者走进汕头大学出版社,体验他们的TAI语义智能搜索时,发现这已经是近在眼前的现实。

 

 

“现在的人不缺信息,信息已经太多、太滥,我们缺的是精准的信息。于是需要一个技术,能够在最短的时间内找到最正确的信息。”广东省新闻出版局科技与数字出版处处长苏毅说,这就是语义智能搜索技术诞生的市场和需求基础。

 

 

但目前在全球范围内,语义智能搜索技术并没有类似Google这样得到公认的权威代表。今年5月发布的《国家发改委办公厅关于当前推进高技术服务业发展有关工作的通知》中,提出加强语义智能搜索引擎研发及应用的要求和目标。

  

 

语义智能搜索总体还处于摸索阶段。



 

世界难题

 

语义搜索时代若隐若现


  

 

语意搜索不仅是中国的,也是世界性的课题。当关键词搜索带给大家越来越多信息的尴尬时,人们就开始期待下一个搜索技术,它具备人脑的逻辑与分析能力,能够理解人类语言的表达方式,搜索结果与用户需求实现更精准的匹配。

  

 

为了这个目标,人们研究了几十年的“人工智能”、“人类语言处理技术”,希望让这张网变得更智能,能“看明白”人类的自然语言。但到目前,世界范围内语义智能搜索的时代还只是若隐若现。除了Bing,至少出现了7个类似的比较优秀的语义搜索引擎,包括Kngine、Hakia、Kosmix、DuckDuckGo、Evri、Powerset、Truevert。体验后的读者可能会发现,这些距离人们想象中的智能信息处理依然遥远。

  

 

在国内,语义智能技术也有所成就。“华农在线”网站依托自主产权的智能语义理解技术(HNC),在一定程度上做到了基于语义的智能化垂直搜索。比如用户输入“西红柿”,检索结果不仅有“西红柿”的相关信息,还能检索出关于“番茄”的信息。计算机通过知识库,能够知道西红柿与番茄是同一事物。不过,HNC目前收词范围仅限于农业行业,不涉及与农业无关的词语。

  

 

苏毅透露,这方面,广东走在全国的前面,可以说占领了战略的制高点,“国家提出一个目标,我们广东已经有成果,只需要转化了。而且,广东的技术是全世界NO.1。”

  

 

苏毅所说的成果,即是汕头大学出版社自主研发的TAI语义智能搜索技术。胡开祥告诉记者,从已知的研究成果来看,TAI语义智能搜索在全国是最成熟的,在全世界也是一流的,“Bing的技术只相当于我们已掌握技术的7%”。

 

 

“Bing用到了语义搜索技术,但它是在一句话的邻近两个词的关系做语义的分析,处在语义搜索的初级阶段。所以,虽然Bing研发出来,但大家还是用Google。”胡开祥说。而TAI语义智能搜索技术中,现代汉语2亿多字词都被按照知识本体和计算机编码的方式一一定义,已经可以准确地分析和搜索处理。这些词条还在依据现实发展不断更新。

  

 

“如果说Google是把原油从地底抽出来,我们的技术提供的就是分解好的汽油或柴油。”胡开祥说。



 

初尝果实

 

未来图书不再是一本书


  

 

从上世纪80年代开始,胡开祥和一群志在研究计算机智能化的研究生聚集到一起,开始了语义智能搜索技术的研发。研究团队由不同学科领域、不同院校的研究部门的上百人组成,其中有学计算机的,有学哲学的,还有语言学专家。

  

 

研发过程之初,政府没有扶持,依靠部分企业和团队成员支撑。面临着未必能成功的巨大压力,很多人中途退出。

  

 

资金缺乏的时候,自己掏腰包去维持。研究团队成员只能凭着只做研究、不求回报的精神支持下去。

  

 

胡开祥感慨说:“将近20年,我们处在埋头研究但又没有成果的焦虑状态,可能一辈子默默无闻地就过去了。这是科学研究一个很严酷的现实。”

  

 

2006年,语义搜索技术初步成果诞生。至今将近5年,已经完成各种测试,包括试运营和具体服务不同领域的产品的功能性开发。2008年后,这一技术得到了政府共120万元的扶持基金。虽然资助的名义为“数字出版平台”,但显然,这一技术可以应用的领域要宽广得多。

  

 

以电子阅读为例,传统的电子阅读只是变换了传播媒介,而基于语义搜索技术的图书则有以下特点:

 

一是可以简约式地传播,也就是通过中心思想来阅读,使大家很容易就获得信息和精神。

  

 

二是延伸式的阅读,语义搜索技术可以把互联网上所有相关的论文、博客文章、媒体报道等整合在一起,这时候你读到的就不是一本书,而是一个百科全书式的知识的导航,你读的就是几千本书或几千篇文章的精华。

  

 

三是可以交互式地阅读。就是你可以随时和千万个作者沟通、学习。比如某个知识点你不懂,可以点这个知识点的视频,来看老师的相关讲解。

  

 

“这种方式是以前从未有过的,是一个未知的领域。图书未来可能就不再是一本图书,而是一个主题的超链接,这种形式出来之后,应该把它命名为什么,我也不清楚。”胡开祥说。



 

彻底变革

 

力推大众智能搜索引擎


  

 

在胡开祥的描绘里,语义智能搜索技术在这些领域的产业前景显得广阔无边。

  

 

胡开祥说,语义智能搜索技术现阶段的主要应用领域包括:传统书报刊的电子化阅读、搜索、主题导航;综合性知识门户的以知识为驱动的全方位构造;专题网站的内容数据库的生成和门户建设;网络和其它电子资源中的舆情、情报的获取;为其它搜索引擎提供语义搜索服务。

  

 

“这一技术可以应用到与互联网有关的所有行业。”胡开祥解释说,TAI语义智能搜索技术的应用有“精确分类”、“中心思想”、“主题提取”、“知识导航”等等,上述精确化的搜索,“把找资料的时间交给机器”,只是其应用中最基本的部分。

  

 

比如建立以主题导航和语义搜索为主要功能的全国期刊索引数据库。这一互联网期刊浏览与索引的服务工具,销售对象是全国的5万多家机构用户,售价为一年一万元。同方、龙源等互联网期刊公司已开发1万多家机构用户,理论上,这些机构都有购买语义搜索技术的可能性,即使只有10%的机构用户购买,营业额即可达5000万元。

  

 

又比如新闻出版技术服务费,即将纸质出版转化为应用语义搜索技术的数字出版,预计500亿元;其他专业行业的数据库产业,比如医药、农业、化工等专业数据库的建设,预计2000亿元。“这些专业领域的数据库产业收费模式非常清晰。”

  

 

胡开祥透露,2010年下半年,TAI语义智能搜索技术进入产业化前期的阶段,技术已经完全成熟,随时可以投入产业化运营。目前,他们主要为新闻出版业做内容处理,已经签约的公司有2家,还有6家在洽谈之中。

  

 

胡开祥对TAI语义智能搜索的前景并不盲目乐观。他说,目前最大的问题,是大部分人认为只用Google就够了。而且,Google要有250多万台服务器才能提供现有服务。“这一行要产业化,需要风险投资。”

  

 

胡开祥预计,3-5年后,用户对语义搜索就会有足够的市场需要,足以推动互联网的彻底变革。“那时,我们肯定要做大众化搜索引擎,这是毫无疑问的。”

  

 

■名词解释:

  

 

语义智能搜索技术


  

 

语义智能搜索,更准确的说法应该是“语义智能信息处理技术”,属于下一代互联网的核心和基础性技术。它不仅仅基于关键词检索,而是能够理解WEB页面的内容,并进行逻辑推理来完成复杂的查询任务,最终返回精确的结果。

  

 

语义智能搜索技术把数据库的信息碎片化再进行智能自动整合,你要汪洋大海的一滴水,就给你一滴水,不像一般的搜索,给你的是长串清单,那还是一条河。

  

 

———广东省新闻出版局科技与数字出版处处长苏毅

  

 

如果说Google是把原油从地底抽出来,语义智能搜索技术提供的就是分解好的汽油或柴油。

  

 

———汕头大学出版社社长胡开祥

  

 

■延伸阅读

  

 

语义网:勾勒你自己的网络

  

 

2001年5月,伯纳斯·李在《科学美国人》杂志上系统地论述了他对下一代万维网架构———语义网的设想。他认为:“语义网并非一个完全不同的万维网,而是现在万维网的一个延伸,是将现行万维网上的信息加以明确的语义定义,更利于人机之间的合作。”

  

 

简单地说,语义网是一种能理解人类语言的智能网络,它不但能够理解人类的语言,而且还可以使人与电脑之间的交流变得像人与人之间交流一样轻松。它将使人类从搜索相关网页的繁重劳动中解放出来,把用户变成全能的上帝。语义网中的计算机能利用自己的智能软件,在万维网上的海量资源中找到你所需要的信息,从而将一个个现存的信息孤岛发展成一个巨大的数据库。

  

 

总之,语义网是一种更丰富多彩、更个性化的网络,是对万维网本质的变革。它可以帮助你滤掉你不喜欢的内容,使得网络更像是你自己的网络。

  

 

网友数星星

  

 

“21世纪最贵的是什么?”“人才!”还记得电影《天下无贼》里黎叔的这句话吗?

  

 

文化创意产业最核心的资源便是人,每个人的创意都可能引领产业的潮流。文化领域的战略性新兴产业同样需要您的出谋划策。

  

 

汕头大学出版社为何敢如此“藐视”微软的Bing?作为下一代互联网的核心技术,语义搜索技术能否彻底改变我们的网络生活?其产业化前景如何?广东在文化创意产业有何优势和劣势,未来发展方向是什么?

  

 

欢迎广大网友就广东文化创意产业的现状与趋势、问题与对策拍砖、灌水、出点子!

  

 

 

撰文南方日报记者蒲荔子实习生肖雪龙温友丽统筹陈志 

 

南方报网互动网址:http://bbs.nfdaily.cn

汕头大学 | 汕头大学教育基金会 | 校友龙卡 | 网站管理 | 数据管理