﻿<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/">
  <channel>
    <title>fanzehua最新分类"算法"博客文章</title>
    <link>http://www.fanzehua.com/blog/category_10_1.html</link>
    <description>最新博客文章</description>
    <generator>fanzehua</generator>
    <item>
      <title>海量数据处理算法总结【超详解】</title>
      <author>fanzehua</author>
      <category>算法</category>
      <description>1. Bloom Filter【Bloom Filter】Bloom Filter（BF）是一种空间效率很高的随机数据结构，它利用位数组很简洁地表示一个集合，并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom Filter有可能会出现错误判断，但不会漏掉判断。也就是Bloom Filter判断元素不再集合，那肯定不在。如果判断元素存在集合中，有一定的概率判断......</description>
      <pubDate>2017/5/27 16:12:40</pubDate>
    </item>
    <item>
      <title>文本向量表示及TFIDF词汇权值</title>
      <author>fanzehua</author>
      <category>算法</category>
      <description>文本相似计算是进行文本聚类的基础，和传统结构化数值数据的聚类方法类似，文本聚类是通过计算文本之间"距离"来表示文本之间的相似度并产生聚类。文本相似度的常用计算方法有余弦定理和Jaccard系数。但是文本数据与普通的数值数据或类属数据不同，文本数据是一种半结构化数据，在进行文本挖掘之前必须要对文本数据源进行处理，如分词、向量化表示等，其目的就是使用量化的数值来表达这些半结构化的文本数据。使其适用于分......</description>
      <pubDate>2010/10/3 22:10:02</pubDate>
    </item>
  </channel>
</rss>