時価総額: $3.3389T 1.240%
ボリューム(24時間): $79.4929B 20.020%
  • 時価総額: $3.3389T 1.240%
  • ボリューム(24時間): $79.4929B 20.020%
  • 恐怖と貪欲の指数:
  • 時価総額: $3.3389T 1.240%
暗号
トピック
暗号化
ニュース
暗号造園
動画
トップニュース
暗号
トピック
暗号化
ニュース
暗号造園
動画
bitcoin
bitcoin

$108530.002893 USD

1.12%

ethereum
ethereum

$2501.495543 USD

2.83%

tether
tether

$1.000245 USD

-0.01%

xrp
xrp

$2.198131 USD

0.43%

bnb
bnb

$654.360076 USD

0.87%

solana
solana

$152.192030 USD

1.55%

usd-coin
usd-coin

$0.999839 USD

0.00%

tron
tron

$0.276594 USD

0.49%

dogecoin
dogecoin

$0.167580 USD

2.68%

cardano
cardano

$0.568515 USD

0.60%

hyperliquid
hyperliquid

$40.700758 USD

7.87%

bitcoin-cash
bitcoin-cash

$500.972465 USD

1.64%

sui
sui

$2.847545 USD

2.13%

chainlink
chainlink

$13.518965 USD

1.41%

unus-sed-leo
unus-sed-leo

$9.163651 USD

0.47%

暗号通貨のニュース記事

FFTNET:効率的な長距離相互作用のための適応スペクトルフィルタリング

2025/03/01 10:37

ディープラーニングモデルは、効率的なデータ駆動型学習を可能にすることにより、自然言語処理とコンピュータービジョンが大幅に高速化されています。

FFTNET:効率的な長距離相互作用のための適応スペクトルフィルタリング

The remarkable capabilities of deep learning models in domains like natural language processing and computer vision are a product of efficient data-driven learning. However, a major obstacle to pushing these models even further is the computational burden of self-attention mechanisms, especially when handling long sequences or tasks with extensive data.

自然言語処理やコンピュータービジョンなどのドメインにおけるディープラーニングモデルの顕著な能力は、効率的なデータ駆動型学習の産物です。ただし、これらのモデルをさらに推進するための大きな障害は、特に長いシーケンスまたは広範なデータを使用してタスクを処理する場合、自己関節メカニズムの計算負担です。

Traditional transformers perform pairwise comparisons between all tokens in a sequence to generate rich representations, an operation that scales quadratically with sequence length. For shorter sequences, this strategy is highly effective, but as sequences become longer, the models struggle with excessive memory usage and slow inference times. This poses a practical limitation for tasks like machine translation with rich context or open-ended code generation, which often involve processing lengthy sequences.

従来の変圧器は、すべてのトークン間のペアワイズ比較をシーケンスで実行して、豊富な表現を生成します。より短いシーケンスの場合、この戦略は非常に効果的ですが、シーケンスが長くなるにつれて、モデルは過度のメモリ使用量と遅い推論時間と闘っています。これは、豊富なコンテキストを備えた機械翻訳やオープンエンドのコード生成などのマシン翻訳などのタスクに実際的な制限をもたらします。

To navigate this computational challenge, researchers have been developing more efficient architectures that can process long sequences without a significant drop in performance. This pursuit has focused on reducing the computational complexity of self-attention while preserving its ability to capture long-range dependencies, which are crucial for modeling the intricate structure of language and visual scenes.

この計算上の課題をナビゲートするために、研究者は、パフォーマンスが大幅に低下することなく長いシーケンスを処理できるより効率的なアーキテクチャを開発してきました。この追求は、言語と視覚シーンの複雑な構造をモデル化するために重要な長距離依存関係をキャプチャする能力を維持しながら、自己関節の計算の複雑さを減らすことに焦点を当てています。

One promising avenue has been exploring Fourier-based models for token mixing. These models, such as FNet, utilize the Fast Fourier Transform (FFT) to achieve efficient mixing in O(n log n) time. However, many Fourier-based models rely on a static Fourier transform, which might not be optimal for varying input distributions and tasks. Moreover, FNet's performance in LRA and ImageNet has been reported to be lower than traditional self-attention models.

有望な通りの1つは、トークン混合のフーリエベースのモデルを探索することです。 FNETなどのこれらのモデルは、高速フーリエ変換(FFT)を利用して、O(n log n)時間で効率的な混合を実現します。ただし、多くのフーリエベースのモデルは、静的なフーリエ変換に依存しています。これは、さまざまな入力分布やタスクに最適ではない場合があります。さらに、LRAおよびImagENETでのFNETのパフォーマンスは、従来の自己関節モデルよりも低いと報告されています。

Another class of methods focuses on low-rank approximations of the attention matrix to achieve near-linear complexity. Models like Performer and Linformer decompose the attention matrix into low-rank components, reducing the computational cost. Nonetheless, these models might introduce additional approximations that could affect the quality of attention computation, especially in capturing fine-grained dependencies between tokens.

別のクラスのメソッドは、注意マトリックスの低ランク近似に焦点を当てて、ほぼ線形の複雑さを実現します。パフォーマーやLinformerなどのモデルは、注意マトリックスを低ランクコンポーネントに分解し、計算コストを削減します。それにもかかわらず、これらのモデルは、特にトークン間で細粒の依存関係をキャプチャする際に、注意計算の品質に影響を与える可能性のある追加の近似を導入する可能性があります。

Convolutional architectures have also been integrated to process sequences in a more efficient manner. These models extract hierarchical features from local neighborhoods using convolutional modules and combine them to capture long-range dependencies without direct token comparisons. While convolutional models excel at extracting spatial features in image processing, they might not be as efficient in fully capturing the complex interactions between tokens in natural language or the diverse patterns in image data.

畳み込みアーキテクチャは、より効率的な方法でシーケンスを処理するために統合されています。これらのモデルは、畳み込みモジュールを使用して地元の近隣から階層機能を抽出し、それらを組み合わせて直接トークン比較なしに長距離依存関係をキャプチャします。畳み込みモデルは、画像処理で空間的特徴を抽出することに優れていますが、自然言語のトークン間の複雑な相互作用や画像データの多様なパターンの間の複雑な相互作用を完全にキャプチャするのにそれほど効率的ではない場合があります。

Now, a research team from the University of Southern California has introduced FFTNet, an adaptive spectral filtering framework that introduces a novel variant of the Fast Fourier Transform (FFT) for global token mixing in O(n log n) time. In contrast to traditional self-attention, which performs pairwise comparisons between all tokens, FFTNet operates on the frequency domain, presenting an efficient and scalable approach for processing long sequences.

現在、南カリフォルニア大学の研究チームは、O(n log n)時間でのグローバルトークン混合のための高速フーリエ変換(FFT)の新しいバリアントを導入する適応的なスペクトルフィルタリングフレームワークであるFFTNETを導入しました。すべてのトークン間のペアワイズ比較を実行する従来の自己触媒とは対照的に、FFTNETは周波数ドメインで動作し、長いシーケンスを処理するための効率的でスケーラブルなアプローチを提示します。

At the heart of FFTNet lies a learnable spectral filter that refines the frequency components of the input signal. This filter adjusts the amplitude and phase of different frequencies based on their contribution to the task at hand. The filtered frequency representation is then modulated by a novel activation function, termed modReLU, which applies a standard ReLU function to the real and imaginary components of the complex Fourier coefficients. This step introduces non-linearity into the model, enabling it to learn more complex mappings between input and output.

FFTNETの中心には、入力信号の周波数成分を改良する学習可能なスペクトルフィルターがあります。このフィルターは、手元のタスクへの寄与に基づいて、さまざまな周波数の振幅と位相を調整します。フィルタリングされた周波数表現は、Modreluと呼ばれる新規アクティベーション関数によって変調されます。これは、標準的なrelu関数を複雑なフーリエ係数の実数および虚数成分に適用します。このステップでは、非線形性がモデルに導入され、入力と出力の間のより複雑なマッピングが学習できるようになります。

Finally, the modified frequency representation is transformed back into the original sequence domain using the inverse FFT, and a global context vector is computed from the spectral domain to guide the spectral filter. This integration of spatial and spectral information allows FFTNet to capture both local and global dependencies in the input sequence.

最後に、修正された周波数表現は、逆FFTを使用して元のシーケンスドメインに変換され、グローバルコンテキストベクトルがスペクトルドメインから計算され、スペクトルフィルターをガイドします。空間情報とスペクトル情報のこの統合により、FFTNETは入力シーケンスでローカル依存関係とグローバル依存関係の両方をキャプチャできます。

In their experiments, the researchers systematically evaluated the performance of FFTNet on the Long Range Arena (LRA) and ImageNet benchmarks, comparing it with standard Transformer, FNet, and Vision Transformer (ViT) variants. Their results demonstrate that FFTNet achieves superior or comparable performance to existing models in both text and image-based tasks.

彼らの実験では、研究者は長距離アリーナ(LRA)およびイメージェネットベンチマークでのFFTNETのパフォーマンスを体系的に評価し、標準の変圧器、FNET、およびVision Transformer(VIT)バリアントと比較しました。彼らの結果は、FFTNETがテキストと画像ベースのタスクの両方で既存のモデルに優れたまたは同等のパフォーマンスを達成することを示しています。

On the ListOps task of the LRA benchmark, FFTNet attains an accuracy of 37.65%, outperforming both standard Transformer (36.06%) and FNet (35.33%). In text classification tasks, FFTNet consistently shows better performance than its counterparts, showcasing its strength in processing long sequences.

LRAベンチマークのリストタスクでは、FFTNETは37.65%の精度を達成し、標準トランス(36.06%)とFNET(35.33%)の両方を上回ります。テキスト分類タスクでは、FFTNETは一貫してカウンターパートよりも優れたパフォーマンスを示し、長いシーケンスを処理する強度を示しています。

For image-based tasks, FFTNet exhibits competitive results. In ImageNet classification, the researchers applied ViT variants with FFTNet for efficient computation. Among them, FFTNetViT-B_16e200 exhibits the highest accuracy of 79.0%, and FFTNetViT_L_14e150 achieves the lowest computational cost in terms of FLOPs. Specifically, FFTNetViT_B_16e200 has a computational cost of 314.3M FLOPs, significantly lower than the standard Vision Transformer, which has 1.3B FLOPs.

画像ベースのタスクの場合、FFTNETは競争結果を示します。 ImagENET分類では、研究者は効率的な計算のためにFFTNETを備えたVITバリアントを適用しました。その中で、FFTNETVIT-B_16E200は79.0%の最高精度を示し、FFTNETVIT_L_14E150はフロップの点で最も低い計算コストを達成します。具体的には、FFTNETVIT_B_16E200の計算コストは​​314.3mフロップで、1.3Bフロップを備えた標準的な視覚トランスよりも大幅に低くなっています。

This research highlights the potential of spectral methods for efficient and scalable sequence processing. By introducing an adaptive spectral filtering framework with efficient time complexity and the capacity to capture long-range dependencies, FFTNet provides a promising building block for developing more efficient and powerful deep learning models. As we continue to push

この研究は、効率的でスケーラブルなシーケンス処理のためのスペクトル法の可能性を強調しています。効率的な時間の複雑さと長距離依存関係をキャプチャする能力を備えた適応型スペクトルフィルタリングフレームワークを導入することにより、FFTNETは、より効率的で強力な深い学習モデルを開発するための有望なビルディングブロックを提供します。私たちが押し続けるにつれて

免責事項:info@kdj.com

提供される情報は取引に関するアドバイスではありません。 kdj.com は、この記事で提供される情報に基づいて行われた投資に対して一切の責任を負いません。暗号通貨は変動性が高いため、十分な調査を行った上で慎重に投資することを強くお勧めします。

このウェブサイトで使用されているコンテンツが著作権を侵害していると思われる場合は、直ちに当社 (info@kdj.com) までご連絡ください。速やかに削除させていただきます。

2025年07月01日 に掲載されたその他の記事