Toggle navigation
Imacel Academyとは
マイページ
IMACEL Academy -人工知能・画像解析の技術応用に向けて-| エルピクセル株式会社
word2vec:Pythonで単語ベクトルを作成する
2018年1月11日 更新
word2vec:Pythonで単語ベクトルを作成する
ツイート
6,255
view
お気に入り
0
まず単語ベクトルとは,単語がN次元のある一点として記述されたもので,図は2次元で記述されています.また意味的に関連が強い単語は距離が近くなります.この単語ベクトルを作成するためのオープンソースを word2vec と言います.また単語ベクトルを駆使することで,レコメンド機能やチャットボットの開発,感情分析などを行うこともできるそうです.
図のような,単語ベクトルの足し算や引き算も可能である.
今回は 10,000語 が登録されている場合を考える.すると,one-hotベクトルの次元数は10,000となる.
本記事では,COBW (Continuous Bag-of-Words) と呼ばれる方法を解説する.この方法では,前後の単語から ? に入る単語の予測を行うという問題を考える.
1回目の重みの足し合わせにおいて,重みは常に1である.つまり,ここではone-hotベクトルの足し合わせを行っている.
ここで得られる10000×200の行列に,10,000個の単語ベクトル (200次元) が格納されている.one-hotベクトル (10,000次元) から単語ベクトル (200次元) ,次元が削減されていることが分かる.
COBW では,ニューラルネットを駆使することで,10,000次元のone-hotベクトルを200次元にまで削減し,各要素の意味の抽象化を行っている.実際には,次元削減後の各要素の意味は分からない.
以上が単語ベクトル作成のアルゴリズムの一例となります.その他のアルゴリズムとして skip-gram などもありますが,COBWの原理が分かっていれば理解は容易かと思います.本記事では,単語ベクトル作成の理論について説明したので,次の記事では gensim と呼ばれる python のライブラリを用いて,単語ベクトル作成を実装していきたいと思います.
8 件
関連する記事
こんな記事も人気です♪
word2vec:Pythonで単語ベクトルを作成する_実装編
井上 大輝
|
5,192
view
量子アニーリングを駆使して数独を解いてみた
先日,量子アニーリングの勉強会に参加して来ました.そのアウトプットとして,今回,数独ソルバーを作ってみます.
井上 大輝
|
4,234
view
Morphology (モルフォロジー) 変換の実装 ~ Python + OpenCV ~
画像処理の一つ,モルフォロジー変換をPython と OpenCVのライブラリを用いて実装し,それを2値画像に対して適用します.
エルピクセル編集部
|
13,093
view
等角写像による画像の変換〜Schwarz-Christoffel 変換〜part 2
前回の記事「等角写像による画像の変換〜Schwarz-Christoffel 変換〜part 1」の続きです. 実際に実装をして,写像を確かめてみます.
エルピクセル編集部
|
9,598
view
等角写像による画像の変換〜Schwarz-Christoffel 変換〜 part1
等角写像の一つであるSchwarz Christoffel 変換を用いて,画像の変換をしてみます. python によるコードも記載しております. 画像はhttps://uk.mathworks.com/help/images/examples/exploring-a-conformal-mapping_ja_JP.html より.
エルピクセル編集部
|
7,452
view
この記事のキーワード
キーワードから記事を探す
gensim (2)
python (23)
word2vec (2)
ニューラルネット (1)
この記事のキュレーター
井上 大輝
井上 大輝
週間ランキング
最近1週間の人気記事
1
KaggleチュートリアルTitanicで上位3%以内に入るには。(0.82297)
Takumi Ihara
|
190,106
view
2
KaggleチュートリアルTitanicで上位1%に入った話。(0.87081)
Takumi Ihara
|
52,029
view
3
シリーズ3.ImageJマクロ言語を用いた画像解析~①輝度の統計量 ~
エルピクセル編集部
|
97,040
view
4
画像解析入門⑦ Image Jによる画像処理
エルピクセル編集部
|
101,239
view
5
Pythonで画像処理② Data Augmentation (画像の水増し)
Mochizuki
|
94,393
view
おすすめの記事
今注目の記事
細胞種を機械学習で判別する!
Mochizuki
|
40,313
view
人気のキーワード
いま話題になっているキーワード