Monthly Archives: June 2005

MSRA的第二次lunch talk

今天中午的lunch talk应该还算成功,不知道为什么微软亚洲研究院很多report都安排在中午12点开始,可能我们真的是太忙了。一个汉堡包和两根鸡翅让我艰难的挺到了晚餐。晚上本来想写点今天听到的有feature selection的内容,因为这个题目与前一段时间做的一个项目有相似的地方,今天难得从系统的角度对Feature Selection有个全面的认识。而且作者Huan Liu所讲述的方面也很独到。从减少机器学习所用的sample角度,探讨feature selection的研究。文章A selective sampling approach to active feature selection在这里。明天我会把学习概要补上。

Posted in Research Study | Leave a comment

数学大师丘成桐点破中国学术死穴 [转载]

(亚洲时报记者陈颖慈6月6日撰文 谭建中摄影) 这篇文章也许很多人已经看过,我在权衡多次后,还是不禁把它再次贴到blog上。没有太多的渴望,只求对自己起到警示和指引作用。   一个没有文化的国家,做不了好学问。能够学贯中西、博古通今固然好,但是,如果一个民族摒弃自身的文化背景,拥洋为重,最终只会失去身份认同,变得高不成、低不就。菲尔兹奖(Fields Medal)得主、华人数学大师丘成桐指出,中国学术界所面对的,正正就是这个窘境。  丘成桐接受访问的时候,谈到中国学术界种种不良的风气,归根究底,所有问题都是源于1966至1976年的文化大革命,摧毁中国多年良好的文化传统,大师给中国学术界点破死穴。  他解释:自那时开始,中国人的价值观完全改变,是非观念和道德操守遭到扭曲,以致现在的学生和学校变得唯利是图,这种文化气候,是中国难以孕育一流学问的最主要原因。  另一方面,父母崇洋的心态,也令孩子失去深厚的文化根基。丘成桐指出,中国许多父母都希望子女做一个黄皮肤黑眼睛的西方人,结果是中西文化都学不好,他更以二不像来形容这个现象。文化上的缺失,影响尤其广泛深刻,以致中国的学术界,出现以下种种流弊。  中国的学生,唸书的目的,只有两个,要么能够赚钱,要么当官,他们普遍有一种学而优则士的想法,认为只要当官,就可以过舒适的生活,所以,中国的学生,做学问达到一个地步,足够令他们找到一份安定的工作便会停下来,他们追求的东西只此而已,对学问根本没有热诚。丘成桐概叹,在中国,真正有心钻研纯科学的人实在不多,跟外国的学生真心以研究为目标相比,实在相去甚远。    名牌大学只唯利是图    除了部份学生以金钱挂帅外,有些学校的态度也是唯利是图的。某名牌大学的代表和一些中国官员曾经到哈佛大学取经,然而,他们问的问题,叫丘成桐感到非常失望,他说:中国的大学一心只想赚钱,他们问哈佛大学如何图利,但当我告诉他们办学不能赚钱的时候,他们表现得相当失望。  对于中国教授的质素,丘成桐也不敢恭维:即使是国内名牌大学老师的质素也没有保证,许多老师只懂讨论第三流的问题,学生不会钻研出第一流的学问。  除了质素差劣外,有些老师也没有做好本份教好学生。丘成桐举了一个很经典的例子:哈佛大学数学系有一年录取了一个全北京大学最优秀的学生,当我们向北大核实学生的身份时,北大全数学系26个最资深的教授也不知道,最后一直问到副教授才能确定这个学生的身份。丘成桐后来发现,有些老师教学生,原来从未见面,也不相往来,这倒是闻所未闻的稀奇事。  丘成桐又批评中国只重量、不重质的风气:只着重宣传生产多、数量大,领导便会高兴。以学术界为例,有些大学的教授,一人带着30个博士生,误以为教导愈多学生表示自己愈有能力,但结果是全无质素可言。在外国,一个教授只会带着2至5个学生,但是那些学生很多都会成为大教授,这就是质素。  除了教授迷信数字外,就连大学与大学之间,也在进行数字的角力。他说:全国有500多个科学院院士,北京大学、清华大学以至各省的重点大学往往以院士的多寡去量度学校的质素,提拔人才的时候,又以那位教授在某个场合讲话最多为标准。中国人就是缺乏自信心,才会这样量度自己。   大清华令人很灰心    中国最著名的大学,以北京大学和清华大学为首,一个国家有高质素的大学,固然是好事,但是,丘成桐却指出,北京大学的势力范围,遍及全中国,当中的派系斗争,反而窒碍了学术界自由的发展。丘成桐直言:北京大学和清华大学对中国其他大学的打压,令人很灰心。  我认识中山大学的一位学者,他对数学的认识,已经达到世界一流的标准,但是由于北京大学和清华大学对他的打压,令他的地位连边也沾不上,充其量只是在广州有一点名气而已。丘成桐概叹,这种社会风气令学者觉得学问不是最重要的。既然单靠阿庾奉承便可以得到重用,为何不抄小径?  人治观念强,是中国的文化特色之一。丘成桐指出,在这种文化气候底下,中国的学术界欠缺一个公平、公开的人才提拔机制;同时,学生的发展空间也受到很大的限制。  丘成桐说:在中国学术界最有影响力的,主要是院士,他们的平均年龄约70岁,虽然他们已经没有担当最前线的领导工作,但是国内学生的研究方向,仍然得以这些人的好恶来决定,假如他们不喜欢你的研究方向,你是做不成的。    研究员只顾讨好上级    中国的研究员,精力都花在讨好上级之上,对知识的渴求,似乎只是次要。丘成桐说:在中国做研究的顾忌实在太多,对于相同的问题,不同的人会有不同的研究方向,并没有高低对错之分,但是,中国的学生永远不敢跟老师唱反调。  人治观念过重造成的另一个结果,就是出现任人为亲的情况。丘成桐说:在中国,提拔人才的所谓机制,已经成为提拔自己亲信的工具。在美国,只要你有能力,20多岁已经可以当上大教授;但是在中国,假如你不是博士或领导出身,即使你有能力,别人也会借机打击你。丘成桐当上史丹福大学数学系教授那一年,他才25岁。  理论科学的研究,是发展工业的基础,对一个国家的长远发展来说,相当重要,这就是丘成桐对理论科学的评价。他指出:欧美几百年来钻研理论科学,根基深厚,有利发展任何工业。然而,中国却没有这个深厚的底子支持。  但是,丘成桐认为,中国政府有关部门看不到理论科学的重要性。他说:中国投放在理论科学的教育经费实在太少,研究理论科学本来就是最省钱的,就以数学为例吧,根本不需要什么机器,研究一个数学的题目,所需经费很少。  然而,由于理论科学的价值,不能立竿见影,所以往往容易被人忽略。丘成桐指出:理论科学就好像礼、乐、射、御、书、数,在中国文化中也扮演着举足轻重的角色,但是,你说这些东西有没有用呢?丘成桐强调,礼、乐、射、御、书、数建立的,是无形的文化资产,同样地,实用科学必须建基于理论科学之上,才能够站得住脚。  由于对理论科学缺乏长远的眼光,加上部份学校亦有做大做多的倾向,所以有关部门愿意花百万元(人民币,下同)兴建教学楼和教师宿舍,只因为这些都是别人看得到的东西。  然而,丘成桐批评,没有软体的配套,硬体做得再好也无用武之地。他曾经到访清华大学的图书馆,发现大学的图书经费,相当缺乏。丘成桐概叹:别说一般大学,就连国内的名牌大学如清华大学的图书馆,也找不到数学界的期刊。  丘成桐指出:研究任何一个科目,期刊都是不可或缺的东西,但是,领导层认为期刊只是一本薄的小书,售价却要数千元,他们认为不值。期刊能够将第一手的资讯带给你,但是他们却看不到期刊的重要性,所以大学也得不到这方面的经费。    丘教授的一个心愿    丘成桐有一个心愿,就是希望帮中国强大起来。这些年来,他先后为香港中文大学数学研究所、晨兴数学研究中心及浙江大学数学研究中心筹集资金逾一亿元。    文化大革命的摧残,加上近代中国人对自身的文化认同不足,令中国做不了好学问。丘成桐概叹:外国人都来学中国的文化,汉学在日本也很流行,偏偏就是中国人看不起自己的文化,其实,文化修养对一个人来说,是十分重要的。许多中国人每每面对困境都会显得手足无措,归根究底就是文化修养的问题。  对于未来中国学术界的发展,丘成桐很希望,中国人能够珍惜自己的文化传统,做好学问,因为只有解决最根本的问题,中国才有望发展世界一流的学府。然而,要改变中国人对自身文化的态度,要走的路,还多着呢。 

Posted in Research Study | 5 Comments

列举世界上AI大领域内的顶级学术会议(Tier 2)

杂谈2: AI tier-2 conferences 发信人: daniel (飞翔鸟), 信区: CompSci标  题: 杂谈2: AI tier-2 conferences发信站: 小百合BBS (Mon Jun 20 01:18:16 2005) tier-2的会议列得不全, 我熟悉的领域比较全一些. AAMAS (2+): agent方面最好的会议. 但是现在agent已经是一个一般性的概念, 几乎所有AI有关的会议上都有这方面的内容, 所以AAMAS下降的趋势非常明显. ECCV (2+): 计算机视觉方面仅次于ICCV的会议, 因为这个领域发展很快, 有可能升级到1-去. ECML (2+): 机器学习方面仅次于ICML的会议, 欧洲人极力捧场, 一些人认为它已经是1-了. 我保守一点, 仍然把它放在2+. … Continue reading

Posted in Research Study | Leave a comment

列举世界上AI大领域内的顶级学术会议(Tier 1)

在网上看到这个给大家看看,也是让大家有个目标和方向。 杂谈1: AI tier-1 conferences 发信人: daniel (飞翔鸟), 信区: CompSci标  题: 杂谈1: AI tier-1 conferences发信站: 小百合BBS (Sat Jun 18 00:42:29 2005) 好久以前就说要为这个版做点贡献了, 今天6月18日, 黄道吉日, 开始杂谈, 呵呵.今天先谈谈AI里面tier-1的conferences, 其实基本上就是AI里面大家比较公认的top conference. 下面同分的按字母序排列: IJCAI (1+): AI最好的综合性会议, 1969年开始, 每两年开一次, 奇数年开. 因为AI实在太大, 所以虽然每届基本上能录100多篇(现在已经到200多篇了),但分到每个领域就没几篇了,象machine learning、computer vision这么大的领域每次大概也就10篇左右, 所以难度很大. … Continue reading

Posted in Research Study | Leave a comment

在应用中加入全文检索功能 [转载]

在网上察看有关搜索引擎Lucene项目是,无意中看到这篇中文介绍。来不及看完,现拿来主义好了:) 本文摘自strong的blog。 再加一条英文介绍:(我想应该是中文版的原文) The Lucene search engine: Powerful, flexible, and free Easily add searching to your application with Lucene   Lucene是一个基于Java的全文索引工具包。 1.基于Java的全文索引/检索引擎——Lucene Lucene不是一个完整的全文索引应用,而是是一个用Java写的全文索引引擎工具包,它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。 Lucene的作者:Lucene的贡献者Doug Cutting是一位资深全文索引/检索专家,曾经是V-Twin搜索引擎(Apple的Copland操作系统的成就之一)的主要开发者,后在Excite担任高级系统架构设计师,目前从事于一些INTERNET底层架构的研究。他贡献出的Lucene的目标是为各种中小型应用程序加入全文检索功能。 Lucene的发展历程:早先发布在作者自己的www.lucene.com,后来发布在SourceForge,2001年年底成为APACHE基金会jakarta的一个子项目:http://jakarta.apache.org/lucene/ 已经有很多Java项目都使用了Lucene作为其后台的全文索引引擎,比较著名的有: Jive:WEB论坛系统; Eyebrows:邮件列表HTML归档/浏览/查询系统,本文的主要参考文档“TheLucene search engine: Powerful, flexible, and free”作者就是EyeBrows系统的主要开发者之一,而EyeBrows已经成为目前APACHE项目的主要邮件列表归档系统。 Cocoon:基于XML的web发布框架,全文检索部分使用了Lucene Eclipse:基于Java的开放开发平台,帮助部分的全文索引使用了Lucene 对于中文用户来说,最关心的问题是其是否支持中文的全文检索。但通过后面对于Lucene的结构的介绍,你会了解到由于Lucene良好架构设计,对中文的支持只需对其语言词法分析接口进行扩展就能实现对中文检索的支持。 2.全文检索的实现机制 Lucene的API接口设计的比较通用,输入输出结构都很像数据库的表==>记录==>字段,所以很多传统的应用的文件、数据库等都可以比较方便的映射到Lucene的存储结构/接口中。总体上看:可以先把Lucene当成一个支持全文索引的数据库系统。 … Continue reading

Posted in Research Study | Leave a comment

搜索引擎的相关资料

提起北大的天网搜索很多人都应该了解,其项目负责人之一闫宏飞提供了一个有关Tiny Search Engine项目的资料和工程。如果有兴趣可以去看看。他还列举了很多世界上开源的SE项目。在SourceForge.net上可以找到。这是师弟Bufeng提供给我的资料,这回闲暇时间可有好东西打发时间了(感觉有点自虐倾向)。   虽然,SE已经被人们翻来覆去的提及,让人感觉SE并不是什么高不可攀的技术,很多人在开始接触它的时候都是兴高采烈,满腔热情的投入。可是没有多久随着时光的流逝,当你发现你还在SE的入门处来回徘徊而终不知所往的时候,很多人退缩了、放弃了。所以我想方向很重要,你要在SE博大的领域中找大自己的栖身之地并非易事。现在越来越的professor把目光投向了IR和其他计算机科学的交叉领域。目前比较热门的就是NLP与IR的结合,更确切的说是Language Model与IR的结合。在这个领域我知道的教授有:加拿大蒙特利尔大学教授聂建云、美国伊利诺斯州大学的ChengXiang ("Cheng") Zhai教授。

Posted in Research Study | Leave a comment

无意中看到的——英文科技论文中的语言技巧

<转载信息> 发信人: mainpro (无糖咖啡), 信区: Paper 标  题: 英文科技论文中的语言技巧,不可不看 发信站: BBS 哈工大紫丁香站 (Mon Apr 25 13:38:10 2005)   a)如何指出当前研究的不足以及有目的地引导出自己的研究的重要性通常在叙述了前人成果之后,用However来引导不足,比如However, little information..      little attention…      little work…      little data      little research or  few studies      few investigations…      few researchers…      few attempts… or no      none of these studies has (have) been … Continue reading

Posted in Research Study | Leave a comment

师弟提到有关搜索引擎的知识

我实习的第一家公司——天津海量科技有限公司。最然已经初具规模现在有着近50人的研发团队,但是核心技术研发部门仅仅不到10人,正是这几个人创造并延续了一个高科技创新的企业。 话题有点扯远了,只是在那里的时光难以让我忘怀,也正是在那里才让我感到搜索引擎并不是老虎的屁股,我萌发了自己开发全文搜索引擎的冲动,虽然到现在还没有开始实施(有些惭愧啊)但是一直在为之而不断积累。   今天受到师弟的信,让我想到当初我在网上使尽全身解数,也才寥寥找到几篇相关的文章(可能是没有入门的原因)。相比现在来说,资源少很多。作为入门级的知识可以参考: · 互联网需要全文检索 · 网站站内搜索的重要性 · 信息检索的核心支撑技术 · 搜索引擎的技术发展趋势 · 主要中文网页搜索引擎介绍 · 中文搜索引擎技术揭密:排序技术 · 中文搜索引擎技术揭密:网络蜘蛛 · 中文搜索引擎技术揭密:系统架构 · 中文搜索引擎技术揭密:中文分词 在国内你可以去哈工大的IR Lab的BBS。 在国外你可以看看CMU的实验室IR Discussion Series, 可以了解国外的最新技术和热点。 如果你想对各大搜索引擎有所了解,你可以看看这里Information Retrieval Systems。 搜索引擎的架构并不难理解,但是每一个模块都有足够深入的空间值得我们推敲。所以我建议师弟在对Search Engine的framework有所了解的基础上,要在自己擅长的领域上入手,并逐步展开。不宜求广,重在求精求深。我们可以在任何想得到的模块上找到大量的paper和文献供我们参考。

Posted in Research Study | 2 Comments

今天忙里偷忙,做了最大熵的reranking实验

最大熵可以说是在NLP领域中使用比较重要的理论模型,在POS,Parser上都有很好的表现。对于我来说我现在更关心它的ranking能力,本来一直在研究NN的原理和应用,但是由于最近由于Jianfeng正在vacation,所以暂时搁置一天。我的mentor虽然身在美国MS总部,但通过电话急忙指导我实现了ME ranking的应用。我从网上学习了YASMET作者的paper:Statistical QA – Classifier vs. Re-ranker: What’s the difference? 。在作者Franz Josef Och的网站上有利用GIS算法实现的ME系统,以及一个实用的特征选择程序(feature selection routine)。 但是作者提供的源文件,可谓极奇抽象。本来用C++ STL写得代码,搞得一点格式都没有,不知道作者是不想让人读懂呢,还是想展示他高超的编程技艺。 结果终于出来了,第一眼让人看上去很失望,比我们原来的系统差很多呢。唉累了,只有明天慢慢改进了。

Posted in Research Study | Leave a comment

又回到了北京

将近三个月了,每个周末我都回到家乡天津。同样的又是每周一我会做最早一班火车返回北京。虽然每次在火车上困得睁不开眼,但一到了公司又全无睡意,只想一心投入到自己的项目中。我觉得一天天过的很快,飞快。 刚刚过去的一周末,天津下起了近些年难得一见的大雨,让我想到了语文课文中的《暴风骤雨》一文,倾盆大雨毫不留情的冲刷着地面。好像老天也是憋了许久,终于忍不住了。我喜欢这感觉,毫无保留的畅快淋漓之感。

Posted in 体验生活 | Leave a comment