Advertisement
Guest User

Untitled

a guest
Dec 9th, 2018
1,814
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 26.09 KB | None | 0 0
  1. 1. 2013-11-15 3年前,好多网友说,THUIRDB这就是一个车轮,没什么意义,就算赢了美军又能怎么样。。还是美军东西好用。THUIRDB结构简单容易上手,回头当老师了,交给同学们,让他们有个很好的起点,咱也学徐根宝崇文练兵,学袁世凯小站练兵吧,未来是年轻人的,培养更多对系统有sense的年轻人,我是多么崇高哇~~
  2. 1. 2013-11-15 我做的系统全部用THUIRDB跑,线上线下,可以说千锤百炼了,特别适合社交数据挖掘,起步都是单机index 10亿条记录。。而且性能巨好,但没想到居然有个美军在用,而天朝除了我自己用,无一案例,悲里个大催啊~~
  3. 1. 2013-11-15 #THUIRDB更新了# 我的威名已经传到美军那里去了,他们让我build一个最新版本给他们用,花了点时间整理了下,也更新了主页:网页链接 回想过来,本来是想用社交网络的数据来宣传我的THUIRDB的,没想到,现在DB丢了,社交网络也丢了,红楼一梦啊。。。还是身体健康最最重要
  4. 1. 2013-04-22 完全落伍了 //@THUIRDB:完全 不知道哇
  5. 1. 2013-01-23 混微博为了推广THUIRDB和微博寻人,如今这两个都没火,自己的个人微博火了,造物弄人啊。最近确实有几个大业务找我,但我还是决心好好做点学术论文,冲刺下毕业//@白硕SH: 我不这么看。社交网要素之间的关联服务,一定会成为社交网的标准配置,就像一条SQL语句那样没有新鲜感。小梁子要玩更刺激的。
  6. 1. 2013-01-18 为什么我有资格呢? 1)一个机器学习平台,主要是logistic regression的实时建模工具,very fast,可以通过闺蜜搜索的实时计算证明 2)THUIR-DB,可以极低的代价,index大量数据,查询极快,可以通过微博寻人搜索速度证明 3)THUIRDB-D,最新研发的支持并发读写的DB,尚无证明,但可以接受公开检验
  7. 1. 2013-01-08 我像毛主席保证,我一定不会做微博搜索的,我做个新的东西,前部为THUIRDB-D抵挡住1-10亿数据量级的用户并发插入请求操作,后续10-100亿规模的静态数据用THUIRDB包圆,如此这般,江山永固,再无后顾之忧。以后实验室可以做一些超大规模的项目啦
  8. 1. 2013-01-08 单机,从空库开始,插入1亿条微博长度的key-value paire,耗时5m26s,每秒插入30万条,把这1亿条微博随机query出来,并写入磁盘,耗时1m29s,每秒查询112万次。 很快就要发布和大家见面啦,这次不采用THUIRDB的推广方式,我们换个花样。对了这个DB的名字,马老师钦定叫#THUIRDB-D#。 D表示动态的意思。
  9. 1. 2012-12-13 微博寻人如果想买得话,会包含以下内容 1)数据,起码1亿人的数据 2)大规模预测学习的技术(源代码) 3)整个系统 4)我们哥几个后续服务半年 5)THUIRDB源代码是不卖的,如果要买,报价2千万,这是我神农尝百草,中医打法的精华,只卖lib库,不卖源代码。今天微博寻人site火了,各种投资大鳄在评估吧
  10. 1. 2012-11-30 这个报告时间有限,且面向学术界的,一些特别的实现技巧没有提及,但详细提到了测评和其他学术界感兴趣的内容。THUIRDB的报告地址:网页链接
  11. 1. 2012-11-02 回复@果栋布丁: THUIRDB是单机100亿。。可执行程序的size,压缩比,速度,都完胜leveldb的。现在thuirdb已经在微博寻人上经受了很多考验,时机成熟我就开放自由使用,开源尚无时间表,因为现在开源,也没有意义,没有feel。。 //@果栋布丁:和梁总的比呢? 梁总的也开源吧。 @梁斌penny
  12. 1. 2012-09-19 百司不录(baisibulu.com),我好期待,rush得很幸苦,战斗打得很艰难,预备队全部填光,异常惨烈。考虑到战斗打到今天,先后涌现了 THUIRDB,中国爬盟,微博寻人,西瓜大会,码农大PK,百司不录等品牌。 我也算天朝高校折腾第一人了吧。 哈哈。
  13. 1. 2012-07-27 其实这个查询还能再快一倍。因为我做THUIRDB的时候,只考虑了接口简单,没有做客户游标,导致系统不可重入,目前每次查询都是打开数个库,查完再关闭的这种土招。1万次查询,就是8万次数据库文件句柄的打开和关闭。只是THUIR-DB太快了,所以这个问题没有暴露。 我也一直没改。
  14. 1. 2012-07-27 给大家汇报一下数据:选择准的(2472次),不准的(1344次),说不清(118次),目前已经有1万4千次搜索,全部集中在这2个小时内。 不管怎么说微博寻人,@THUIRDB 又一次顶住了压力,接受了考验,峰值的搜索超过500次/秒。再show一下标注地址:网页链接
  15. 1. 2012-07-08 回复@leekayak:就是把THUIRDB,微博寻人的代码都开放给他们,让他们进行彻底优化,通过实验来验证自己的想法,我从侧面给出一些思路,大家讨论,一起搞。 //@leekayak:基础库虽然简单,但是对经验的要求比较高,没有实际项目经验的本科生带起来会比较吃力吧
  16. 1. 2012-07-08 发起对寻人攻击的这位朋友现身了,他只想测试一下THUIRDB的性能,并表示对性能的钦佩,以及给出不再攻击的承诺了,谢谢这位兄弟,以后想测试性能的,看挖掘效果的,都可以来实验室,欢迎大家来,呵呵,私信和我约时间哦。
  17. 1. 2012-07-03 现在就是社交网络需要什么功能,就加什么功能,完全为社交网络的挖掘定制开发了,比如支持非常巨大的value。//@马少平THU: 这种转变是正确的,要在应用中体现THUIRDB的价值。
  18. 1. 2012-07-03 其实,我说其实啊,THUIRDB是可以支持写入,支持SQL查询,都可以,但,需要军费支持,需要人马,需要枪炮,因为没有这些条件,我放弃了,后来,觉得应该用社交网络这个宏伟的应用,来使用它,渐渐地,我发现,我迷上了社交网络,反而对DB的兴趣,淡了,一直很伤感,一种外人难以理解的伤感
  19. 1. 2012-07-03 各种SQL注入攻击,兄弟们,咱这个不是Mysql。是THUIRDB,Key-Value数据库哦。这倒好,这么多语料,教会我怎么SQL注入攻击了,哎,有需要这份珍贵预料的不?
  20. 1. 2012-07-03 哈哈,马老师已经同意开放整套挖掘工具,我准备好了,就提供给学术界用,与人乐乐。//@马少平THU:完全得益于THUIRDB这个金刚钻
  21. 1. 2012-07-02 刚刚数了下微博寻人+闺蜜搜索+THUIRDB,的全部代码58000余条。大炼钢铁啊,大炼钢铁也要链。现在基业基础也打的差不多了,随便甩两下飞龙,就是paper啊。不和大家扯淡了,88,朋友们。
  22. 1. 2012-06-29 悲剧了,发现自己没有打“信息检索”标签,没在榜单里,反而"THUIRDB"入围了。。//@秦海龙Steven: //@刘挺: @哈工大SCIR 硕士生@王彪red4711 给出的学术小同行影响力排名。我由于多个月不发微博,行为影响力明显下降,呜呜。。。
  23. 1. 2012-06-17 作为 @梁文峻 @THUIRDB @清华大学微博寻人 《走进搜索引擎》,《深入搜索引擎》的父亲。 在今天父亲节,我还是比较自豪的。对排放的这些孩子们表示满意。
  24. 1. 2012-06-14 前线的将士们,看你们的了//@爬盟中国:指日可待。//@梁斌penny: 等爬盟数据抓够了,我用THUIRDB来build一个大库发布,大家都来玩大数据//@梁斌penny:5亿也就2-3天的新浪微博量,要想做大研究,起码得1000亿。否则不好意思用大数据出门打招呼。//@关毅的围脖://@任勇_东京大学://@众趣张首华:
  25. 1. 2012-06-14 等爬盟数据抓够了,我用THUIRDB来build一个大库发布,加上我自制的机器学习套件,大家都来玩大数据//@梁斌penny:5亿也就2-3天的新浪微博量,要想做大研究,起码得1000亿。否则不好意思用大数据出门打招呼。//@关毅的围脖://@任勇_东京大学://@众趣张首华:
  26. 1. 2012-06-13 THUIRDB,单机每秒120万次query。含笑无人认定。。只需10分钟。。//@网际大鱼:看看
  27. 1. 2012-05-25 同志们,八千每月的悬红得暂停了,今天在军粮的谈判上出现分歧,黄了。等我找到军费了,再来喊你们来 ,下周将show一下,THUIRDB并发读写操作的能力,有个新效果上线。
  28. 1. 2012-05-23 技术赢得基础,创意获得价值//@白硕sse: 重心一放到寻人,你就会发现技术的比重会越来越下降,创意的比重会越来越上升。和THUIRDB不一个感觉。//@梁斌penny:寻人这档买卖,我上次爬萌大会也说了,有很多很多可延伸,可做的东西。 人最终关注的还是鲜活的人,而不是冰冷的信息。
  29. 1. 2012-05-18 老曾要能给个机会,马上我就能再招三英雄,离我的战略构想,又前进了一步,呵呵。//@幸运老曾: 生日快乐!找机会交流一次。@畅捷老于 //@梁斌penny:生日快乐,哈哈。 //@THUIRDB: 今天微博寻人的默认关键词,也是用了THUIRDB,哈哈。网页链接
  30. 1. 2012-05-18 生日快乐,哈哈。//@THUIRDB: 今天微博寻人的默认关键词,也是用了THUIRDB,哈哈。网页链接
  31. 1. 2012-05-17 回复@白硕sse:白老师,谭盾没有打标签,所以找不出他,下周三他就会出啦了,哈哈。新浪自己做的找人搜[作曲家]也没有谭盾,我的寻人库里面有他,但目前还搜不出。网页链接
  32. 1. 2012-05-17 这是当时写的博客,拿出来回顾下,为了适合寻人,THUIRDB又做了很多改进。适应到排表的特性,比如巨大value的情况。网页链接
  33. 1. 2012-05-17 明天是THUIRDB一周岁生日,我将微博寻人的默认搜索词改成了THUIRDB。以后这个可能是一个盈利模式,默认搜索,一年365天,每天卖1千元,输出点价值观,一个小网站也够活了。网页链接
  34. 1. 2012-05-15 同志们,众核其实是我们单机界出头的机会。可惜,我们学术界买不起。。众核提供商要靠抱企业大腿活着,企业又不愿投入专人去研究这个,起码这些指令集都是新的,都要重学。。众核提供商只能自己做整体解决方案然后实现变现。。思路和我用寻人来套THUIRDB,变现是多么一致呀。。
  35. 1. 2012-05-13 5月18日,THUIRDB一周年生日,5月24日微博寻人满月。利用微博寻人的项目让朋友们来帮助我考验这个DB,事实证明,它顶住了。
  36. 1. 2012-05-11 @THUIRDB: 快来帮我递个纸条儿吧!一定要帮我哦!请访问网页链接 纸条儿来源: @梁斌penny
  37. 1. 2012-05-05 回复@正宗大西瓜: 没时间写了,其实THUIRDB写完后,很多可以分享,岁月催人,不打飞镖了(博客),开始排放大料了(成型系统),见谅见谅。 //@正宗大西瓜:回复@梁斌penny:呵呵,梁总的奇淫巧计系列故事,我一直都在追,期待更多精彩故事,干翻美帝[威武] //@正宗大西瓜:spinlock
  38. 1. 2012-04-20 介个是今早 @THUIRDB 播发的关于微博寻人消息的传播示意图,我不小心又当了最佳推手。该系统由我校校友研制,还有很多详细分析,请联系独道科技:网页链接
  39. 1. 2012-04-06 回复@旅游机器:转给大家看,我不评价。//@旅游机器:早该? 敢问您THUIRDB为毛不开源啊? 问十个关于THUIRDB的技术问题,就答一两个, 还整天到处炫性能如何如何, 不开源有毛用啊//@梁斌penny:早该这样了。。我支持。
  40. 1. 2012-03-21 还有THUIRDB会开源的,献给全人类。。//@梁斌penny:回复@装配脑袋:万一哪天睡下去,没醒来,同学们,我的书,博客就是我最珍贵的遗产,送给大家啦。父亲手术前口头交代遗嘱,我就在想这个问题了。 //@装配脑袋:这样会增加过劳死的可能性吧。。[吃惊]
  41. 1. 2012-03-14 今天就到这,明天把THUIRDB和某机器学习算法对接,500w样本,160w特征,先train一个毛朵。不行就升高维,一定拿下,出篇论文。
  42. 1. 2012-03-10 后续还有大招,有THUIRDB,各种方便//@章成志://@徐志明的微博客: 我所说的<领域专家探测> 和梁总工作很相似。区别是:梁总是排序方式。而我设想的是专家节点构成的社交网络的图形展示,专业水平(不仅考虑影响力,而且考虑独特性)用节点的尺寸表达,右侧也可以据此如梁总这般排序
  43. 1. 2012-03-07 搞定,sina的ID转为短ID,方便压缩又方便重排,姚晨是0,呵呵。THUIRDB各种给力。
  44. 1. 2012-01-19 这样能不能发现微博马甲呢?比如我和@THUIRDB 是同一个人?//@马少平THU: 翻译的肯定不行,当时我们做分析时,特征用的都是虚词//@白硕sse: 他这个先拿Google翻译搞一把,怕是问题有点大吧。//@马少平THU:十年前倒是做过作者风格分析,如果是在那个时候肯定会分析一把,现在没有这个热情了。//@白硕sse
  45. 1. 2012-01-06 刘老师给了我第一次作THUIRDB报告的机会,积累了信心,千万感谢。
  46. 1. 2011-12-21 THUIRDB的PPT和主页在链接中均有,请感兴趣的朋友来捧场。此番报告既帮助好友创建的网站,也创造一个我和大家学习交流的机会,同时捐助尘肺病人也是我本年度最后的心愿,为社会略尽绵力。一举三得再好不过了。
  47. 1. 2011-12-03 我曾考虑封闭1个月THUIRDB做最后一次完善后,但这样代码会变得复杂,失去了学习的价值,简单会留下足够的空间给后来人,可能更有价值。 我常感心中有魔,杀性太重,我做THUIRDB后才看了很多这方面论文,发现很多“创新”其实都已被学术界解决了,我带着对学术界的尊敬淡定了,但今天又心魔大发了。
  48. 1. 2011-11-30 12月2日举行的“Hadoop中国2011云计算大会”上会有很多精彩报告,我推荐了一些好友参加,同时也荣幸地受邀做THUIRDB的报告。报告力求阐明1)冗余是保证可靠性,2)间接性获得灵活性,3)确定性和不确定性,4)数据重要性的构造和重要性与时间的关系等大规模数据处理的一般思路。网页链接
  49. 1. 2011-11-09 今天在 @即刻搜索JIKE 做了THUIRDB的技术报告,即刻搜索的技术工程师火力太猛了,问我的问题很专业,回答我的问题也非常漂亮,让我很惊讶。有点招架不住了。即刻的年轻人在用自己的努力来证明自己,我会关注你们的每一点变化。
  50. 1. 2011-11-07 周三去人民搜索做关于THUIRDB的讲座,人民搜索的朋友们有兴趣可以去听,这次讲座会结合最新的一些成果,和实验测评。
  51. 1. 2011-10-23 如果学术界有人质疑我,我就告诉他,你给我一台4G内存的机器,100亿语料,200GB大小,你用世界上任何一个公司,任何一个组织,任何一个个人开发的DB做库,到查完10000个数,THUIRDB将在6个小时内完成,如果你拿的XXDB能在180小时内完成,就算我输了。
  52. 1. 2011-10-23 调优前,7亿数据做库,需要3个小时,调优后1小时24分,调优前最小sst2M,调优后最小40M,调优前做库完文件是8689多个,调优后是462个,调优前库文件是20G,调优后是17G,而且最糟糕的是,这一调优,比我的THUIRDB库文件还小了,真的要逼我出大招啊,否则漏算这一条,就不算全胜美帝码农啊。
  53. 1. 2011-10-23 默默保佑自己的THUIRDB去国际舞台,能冲击下美帝码农的心理防线。//@刘挺: 中国人目前包揽了很多国际技术评测的冠军,一个重要的原因是中国人比较在意成绩,调参非常努力,但并没有尝试多少新方法。调参当然是必要的,但过分调参,甚至为了提高精度而打补丁则是不必要的,是舍本逐末。
  54. 1. 2011-10-23 比如刚刚leveldb调了个小参,效果一下子给力,但再给力,和THUIRDB相比,还差一大截。leveldb是美帝码农的大锤,大家都要orz。@姜太文: 调参只能算作"术",对别人的构想作实现或优化,"雕虫小技"。文革后科研重新起步时好多工作是这种类型的
  55. 1. 2011-10-15 求助:写THUIRDB论文,但对这方面论文拜码头不够,很多术语不知道英文怎么说,比如冷启动,热启动,内存内,内存外等等,求一篇论文可以较好覆盖这些术语,谢谢。
  56. 1. 2011-09-20 回复@麦家大总管:稍等,后台数据库用的是THUIRDB啊,呵呵。 //@麦家大总管:回复@梁斌penny:哈哈,你靠笔记本都能跑啊。可以搜两个词的叠加么? 培训+企业家
  57. 1. 2011-09-19 @梁文峻,爸爸又给你攒人品啦:网页链接 //@THUIRDB: 缺口挺大的,帮扩散,人多力量大。//@淘宝精忍:@THUIRDB ,看这个,刚汇总了一下 :)//@淘宝精忍: 现有捐款情况:网页链接中“捐款情况汇总”系列博文,一共131870元,加上学校出的5万元,还需要12万左右。
  58. 1. 2011-09-05 我发现用THUIRDB做社交信息存储还真挺好的,记录条数巨大,每条记录很小,颗粒不大但数量众多的“沙子型data",用THUIRDB,很方便。
  59. 1. 2011-08-21 这个我在做THUIRDB报告时候,顺带将LEVELDB的这个原理基本提过,听过报告的同学,应该对我画的图,还有印象吧。这篇文章不错,值得一读,网页链接 //@flydragon-bj:转发微博。
  60. 1. 2011-08-19 居然没有THUIRDB,一目看去全是美帝做的DB,悲催啊。
  61. 1. 2011-08-03 要@三位好友才行。@峻峻妈2011 @THUIRDB @徐涵W3China //@马少平THU:转发就能有手机吗?呵呵//@富士通研发于浩:转发微博。
  62. 1. 2011-07-29 今天借着@陈怀临 指导晚辈的机会,我渴求各位同学做个见证,我希望在100亿-400亿条记录这个数据规模上,在4G内存的条件下,世界上任何公司和个人的产品在做库时间和百万次纯随机查询耗时这两项指标能PK掉我做的THUIRDB的,这样我可以放弃它,安心做我喜欢做的研究去了,放弃也就无牵挂了,否则怪可惜。
  63. 1. 2011-07-29 对@陈怀临 说:我年轻的时候做了一个THUIRDB,单机4G内存,可支持100亿key-value对的高性能做库和纯随机查询,我渴求世界上任何公司和个人,能够在这个情况下击败我,因为我代码很小只有40k,功能也不多,因此只要有可以和我数量级持平的,我就认输了。
  64. 1. 2011-07-20 再憋20年,THUIRDB就有用武之地了//@薛蛮子:千万年以后你将作为一个活生生的人永远记录在人类历史上,在这个意义上微博使每一个个人都达到了人类追求的终极境界:不朽!微博远远不是一个墓碑,它是你人生的副本的备份,你有一天终会消失你的微博是永存的
  65. 1. 2011-07-13 开发THUIRDB有个体会,本以为这是例外,结果又在例外中找出了确定性的model,又压缩了一把。不断研究例外,发现规律的东西,统一的东西,减少死记硬背。//@白硕sse:例外只有靠死记硬背,或者以不变应万变,或者引入随机性。号称具体情况具体分析,那都是马后炮。
  66. 1. 2011-07-08 明天去杭州参加@淘宝技术嘉年华 的活动,刚刚改好PPT,我在idataform这个论坛里面作报告, 网页链接 。报告重点是围绕THUIRDB的实现展开,其中压缩,指令并发和向量计算是亮点,因为只有1个小时,测评分析就砍掉了,我知道很多人不喜欢听测评,呵呵。
  67. 1. 2011-07-08 完全没有认识到主要问题,调查清楚,该退赃退脏,该坐牢坐牢。 //@THUIRDB:一个"将"字,暴露原型,其潜台词是 前事不再追究,后事看发展,无明确时间表。红会将顷之时,居然还用这般演技。 //@一藩:透明带来公正。
  68. 1. 2011-07-08 完全没有认识到主要问题,调查清楚,该退赃退脏,该坐牢坐牢。 //@THUIRDB:一个"将"字,暴露原型,其潜台词是 前事不再追究,后事看发展,无明确时间表。红会将顷之时,居然还用这般演技。 //@一藩:透明带来公正。
  69. 1. 2011-07-01 7月10日将赴杭州参加@淘宝技术嘉年华 。在14:45 - 15:45这个时间段讲@THUIRDB,欢迎感兴趣的朋友去听,期待与业界的朋友们切磋。IDATAFORUM是我所在的区: 网页链接
  70. 1. 2011-06-25 有server-client概念的DB是TT,MemcacheDB,Redis,Mongodb等 include一个.h文件,link若干.lib的内嵌概念的DB应该是BDB,TC,LevelDB,THUIRDB等。要把这两票人马分开
  71. 1. 2011-06-22 看到THUIRDB了,我感觉人脑神经元就是这么存储的,不过应该是立体的,不是平面的,如果能做出立体空间成像,就太帅了。
  72. 1. 2011-06-22 发表了博文 《太阳下山 太阳下山 冰淇凌流泪-南方之行所感》 - 为了给THUIRDB做宣传和寻找需求,应网易研究院副院长汪源和上海证券交易所总工程师白老师的的邀请,去杭州和上海做关于THUIRDB 网页链接
  73. 1. 2011-06-21 今天问的第3个问题,在DSI中就有写,我看了后,真是于我心有戚戚焉,如果不做一遍,是体会不到这样搞的妙处。//@西祠响马:嗯,这个同意。以前都说理论联系实际。但是好多内容,不动手,光看很难体会。 //@梁斌penny:我是写完THUIRDB,为了写论文,才看这本书的,之前没看过。
  74. 1. 2011-06-21 我是写完THUIRDB,为了写论文,才看这本书的,之前没看过。//@fengyuncrawl:会议上您多次提到《数据库系统实现》这本书对你启发很大,虽然我看过,但是当时没领悟,这次再带着问题仔细研读一遍,还有就是信息论基础知识对理解压缩有很大帮助
  75. 1. 2011-06-11 我老婆昨天说了个故事:生产线上若有空肥皂盒将会导致流水线后期有麻烦。某品牌企业找了个研究机构花了数百万,发明了一套检测空肥皂盒的系统,准确率很高。另一家肥皂乡镇企业也遇到类似的问题,他们只花90元,买个电风扇对着生产线吹,空肥皂盒都飞了,准确率也达标了。我联想到THUIRDB也是如此。
  76. 1. 2011-06-09 坚持下去,作大作强。THUIRDB要做大,绝不放弃。
  77. 1. 2011-05-30 THUIRDB和Leveldb是我已知的仅有的2个能顺序做库的DB,其表现为做库占用内存极少,不需要hold大量内存,因为都几乎是顺序写磁盘。
  78. 1. 2011-05-25 处理千万量级的LDAP和处理百亿量级的THUIRDB有什么好比的,小学生和大学生比?//@THUIRDB://@五杠少年石小林:先敬仰,仔细一看,花了半年时间用上世纪的编程思维方法写了个别人20年前就写过的山寨简化版本LDAP...。哎卧槽.......清华,这尼玛情何以堪? //@iSunshow:98年从qbasic和foxbase起步
  79. 1. 2011-05-24 前方捷报传来,查询速度提升250%(2.5倍)(10万量级搜索耗时由0.268降低到 0.076s,不计读盘时间),解压速度十分给力。索引结构压缩方面,由45k降低到24k,在此前压缩的基础上,再压掉46%(21/45)。详细大数据量测试结果等@THUIRDB 给出。理论上100亿条数据的索引差不多能从2.5G降低到1.35G。
  80. 1. 2011-05-23 @THUIRDB 我突然想到了一个压缩算法,还能将索引压缩一半,解压还能再快一倍。这样100亿网页,只需1.2G内存索引了?不敢相信,实现再说。
  81. 1. 2011-05-23 目前THUIRDB还处于概念阶段或者初级阶段,我们还没有真实的需求,在获得这些真实的需求是需要做一些特化,目前只是把一些亮点做得很亮。
  82. 1. 2011-05-23 其实THUIRDB的索引结构设计容量是500亿,我一直没说,是怕大家不相信。
  83. 1. 2011-05-21 实践是检验的标准,欢迎试用thuirdb,自行实验,自行check索引压缩率,这东西来不得半点虚的。 //@sing1ee_张某:4g可以放100亿,太猛了 //@fengyuncrawl: 关键是压缩, 网页链接 //@淘宝日照:何以见得? //@fengyuncrawl:@THUIRDB 测过 ,他的thuirdb秒杀了leveldb
  84. 1. 2011-05-18 这种不再插入key的场合,是THUIRDB这种结构紧凑型DB的优势领地。 //@fengyuncrawl:新浪微博数据全是静态数据,一条feed写完后修改的机会很少,用THUIRDB做历史数据压缩存储确实是个好建议//@梁斌penny:我坚信新浪微博的数据会越来越多的,包袱越来越重,那时考虑我这个高度压缩,且检索很快的方案了。
  85. 1. 2011-05-18 我坚信新浪微博的数据会越来越多的,包袱越来越重,那时考虑我这个高度压缩,且检索很快的方案了。@TimYang //@王利锋Fandy://@THUIRDB:微博的历史数据用THUIRDB存储最好,代价很低,查询也快,但还需要做很多工作才能适配上。 // @fengyuncrawl :新浪微博能不能用这个THUIRDB数据库呢?//
  86. 1. 2011-05-18 THUIRDB发布了,从1月初开始开发,不断优化,今天正式和大家见面了。THUIRDB的主要特点请参考官方主页,希望和广大企业和研究机构加强交流合作,将其精华的思想发扬广大,一个key是什么key,对应的value存放在哪里?这两个uncertainty只需要2-3个bit,这是事实,如果质疑,一试便知。
  87. 1. 2011-05-16 祝你成功 //@THUIRDB:另外THUIRDB做库过程可以看做是线性,非常快,我真希望有这么一个环境能够让我做这种顶峰体验啊 //@THUIRDB:假定一个100亿量级的数据集,那么索引不会超过:10G*3bit/8=3.75GB,也就是我曾说的,在一个4G内存的服务器上,可以支撑100亿的KV查询,每次查询只touch一次磁盘。
  88. 1. 2011-05-15 今天差不多了,该回家了 //@THUIRDB:BDB设了3.5G内存的cache,做库时一直在内存中,最后才写库,因此很快,特此说明。
  89. 1. 2011-05-15 转 //@THUIRDB:库文件小于原始语料,意味着可以在更大程度上让数据库能换入内存,例如如果一台测试机是1G内存,则thuirdb可以很容易全部加载进内存,而其他数据库,则存在部分无法加载到内存,这样总会有一定比例的数据去磁盘中读,速度必然慢。
  90. 1. 2011-05-14 到知识盲点了,长期在笔记本2核下写程序,这方面就是弱,大家可以关注下THUIRDB,看看其他大牛们怎么说的,这个ID专门讨论技术,不闲扯
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement